Please use this identifier to cite or link to this item:
https://hdl.handle.net/1822/81072
Title: | Humanized data cleaning |
Author(s): | Dias, José Miguel Silva |
Advisor(s): | Cunha, Jácome Pereira, Rui Alexandre Afonso |
Keywords: | Data cleaning Data science Ciência de dados Limpeza de dados |
Issue date: | 5-Mar-2021 |
Abstract(s): | Data science has started to become one of the most important skills someone can have
in the modern world, due to data taking an increasingly meaningful role in our lives.
The accessibility of data science is however limited, requiring complicated software or
programming knowledge. Both can be challenging and hard to master, even for the simpler
tasks.
Currently, in order to clean data you need a data scientist. The process of data cleaning,
consisting of removing or correcting entries of a data set, usually requires programming
knowledge as it is mostly performed using programming languages such as Python and
R (kag). However, data cleaning could be performed by people that may possess better
knowledge of the data domain, but lack the programming background, if this barrier is
removed.
We have studied current solutions that are available on the market, the type of interface
each one uses to interact with the end users, such as a control flow interface, a tabular
based interface or block-based languages. With this in mind, we have approached this issue
by providing a new data science tool, termed Data Cleaning for All (DCA), that attempts
to reduce the necessary knowledge to perform data science tasks, in particular for data
cleaning and curation. By combining Human-Computer Interaction (HCI) concepts, this tool
is: simple to use through direct manipulation and showing transformation previews; allows
users to save time by eliminate repetitive tasks and automatically calculating many of the
common analyses data scientists must perform; and suggests data transformations based on
the contents of the data, allowing for a smarter environment. A ciência de dados tornou-se uma das capacidades mais importantes que alguém pode possuir no mundo moderno, devido aos dados serem cada vez mais importantes na nossa sociedade. A acessibilidade da ciência de dados é, no entanto, limitada, requer software complicado ou conhecimentos de programação. Ambos podem ser desafiantes e difíceis de aprender bem, mesmo para tarefas simples. Atualmente, para efetuar a limpeza de dados e necessário um Data Scientist. O processo de limpeza de dados, que consiste em remover ou corrigir entradas de um dataset, é normalmente efetuado utilizando linguagens de programação como Python e R (kag). No entanto, a limpeza de dados poderia ser efetuada por profissionais que possuam melhor conhecimento sobre o domínio dos dados a tratar, mas que não possuam uma formação em ciências da computação. Estudamos soluções que estão presentes no mercado e o tipo de interface que cada uma usa para interagir com o utilizador, seja através de diagramas de fluxo de controlo, interfaces tabulares ou recorrendo a linguagens de programação baseadas em blocos. Com isto em mente, abordamos o problema através do desenvolvimento de uma nova plataforma onde podemos efetuar tarefas de ciências de dados com o nome Data Cleaning for All (DCA). Com esta ferramenta esperamos reduzir os conhecimentos necessários para efetuar tarefas nesta área, especialmente na área da limpeza de dados. Através da combinação de conceitos de HCI, a plataforma é: simples de usar através da manipulação direta dos dados e da demonstração de pré-visualizações das transformações; permite aos utilizadores poupar tempo através da eliminação de tarefas repetitivas ao calcular muitas das métricas que Data Scientist tem de calcular; e sugere transformações dos dados baseadas nos conteúdos dos mesmos, permitindo um ambiente mais inteligente. |
Type: | Master thesis |
Description: | Dissertação de mestrado integrado em Engenharia Informática |
URI: | https://hdl.handle.net/1822/81072 |
Access: | Open access |
Appears in Collections: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Jose Miguel Silva Dias.pdf | 6,45 MB | Adobe PDF | View/Open |
This item is licensed under a Creative Commons License