Can language models automate data wrangling?

Jaimovitch-López, Gonzalo; Ferri, Cesar; Hernández-Orallo, José; Martínez-Plumed, Fernando; Ramírez-Quintana, María José

Riunet Móvil

Can language models automate data wrangling?

dc.contributor.author	Jaimovitch-López, Gonzalo	es_ES
dc.contributor.author	Ferri, Cesar	es_ES
dc.contributor.author	Hernández-Orallo, José	es_ES
dc.contributor.author	Martínez-Plumed, Fernando	es_ES
dc.contributor.author	Ramírez-Quintana, María José	es_ES
dc.date.accessioned	2022-09-01T08:12:31Z
dc.date.available	2022-09-01T08:12:31Z
dc.date.issued	2021-09
dc.identifier.other	http://www.dmip.webs.upv.es/papers/autods2021_paper_9.pdf
dc.identifier.uri	http://hdl.handle.net/10251/185029
dc.description.abstract	[ES] La automatización de la ciencia de datos y otros procesos de manipulación de datos dependen de la integración y el formateo de los datos "desordenados". La manipulación de datos es un término que engloba estas tareas tediosas y que requieren mucho tiempo. Tareas como la transformación de fechas, unidades o nombres expresados en diferentes formatos han sido un reto para el aprendizaje automático porque los usuarios esperan resolverlas con pistas cortas o pocos ejemplos, y los problemas dependen en gran medida del conocimiento del dominio. Curiosamente, los grandes modelos lingüísticos de hoy en día infieren a partir de muy pocos ejemplos o incluso de una breve pista en lenguaje natural, e integran grandes cantidades de conocimiento del dominio. Por tanto, es una cuestión de investigación importante analizar si los modelos de lenguaje son un enfoque prometedor para la gestión de datos, especialmente porque sus capacidades siguen creciendo. En este artículo aplicamos diferentes variantes de modelos lingüísticos de GPT a problemas de gestión de datos, comparando sus resultados con los de herramientas especializadas de gestión de datos, y analizando también las tendencias, variaciones y nuevas posibilidades y riesgos de los modelos lingüísticos en esta tarea. Nuestro principal hallazgo es que parecen ser una herramienta poderosa para una amplia gama de tareas de búsqueda de datos, pero la fiabilidad puede ser un problema importante a superar.	es_ES
dc.description.abstract	[EN] The automation of data science and other data manipulation processes depend on the integration and formatting of ‘messy’ data. Data wran gling is an umbrella term for these tedious and time-consuming tasks. Tasks such as transforming dates, units or names expressed in different formats have been challenging for machine learning because users expect to solve them with short cues or few examples, and the problems depend heavily on domain knowledge. Interestingly, large language models today infer from very few examples or even a short clue in natural language, and integrate vast amounts of domain knowledge. It is then an important research question to analyse whether language models are a promising approach for data wrangling, especially as their capabilities continue growing. In this paper we apply different language model variants of GPT to data wrangling problems, comparing their results to specialised data wrangling tools, also analysing the trends, variations and further possibilities and risks of language models in this task. Our major finding is that they appear as a powerful tool for a wide range of data wrangling tasks, but reliability may be an important issue to overcome.	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento (by)	es_ES
dc.subject	Modelos lingüísticos	es_ES
dc.subject	Gestión de datos	es_ES
dc.subject	Ciencia de datos	es_ES
dc.subject	Automatización de datos	es_ES
dc.subject	Data Science Automation	es_ES
dc.subject	Data Wrangling	es_ES
dc.subject	Language Models	es_ES
dc.title	Can language models automate data wrangling?	es_ES
dc.type	Artículo	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Instituto Universitario Valenciano de Investigación en Inteligencia Artificial - Institut Universitari Valencià de Recerca en Intel·ligència Artificial	es_ES
dc.description.bibliographicCitation	Jaimovitch-López, G.; Ferri, C.; Hernández-Orallo, J.; Martínez-Plumed, F.; Ramírez-Quintana, MJ. (2021). Can language models automate data wrangling?. http://hdl.handle.net/10251/185029	es_ES
dc.relation.publisherversion	http://www.dmip.webs.upv.es/papers/autods2021_paper_9.pdf	es_ES
dc.type.version	info:eu-repo/semantics/publishedVersion	es_ES

Ficheros en el ítem

Descargar (422.5Kb)

autods2021_paper_9.pdf

PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicios y unidades UPV. Material de investigación [78]

Mostrar el registro sencillo del ítem

Riunet Móvil

Can language models automate data wrangling?

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tema móvil para Riunet