Please use this identifier to cite or link to this item: http://hdl.handle.net/1822/9158

TitleDetecção e correcção de problemas de qualidade dos dados : modelo, sintaxe e semântica
Author(s)Oliveira, Paulo Jorge Machado
Advisor(s)Henriques, Pedro Rangel
Rodrigues, M. Fátima
Issue date5-Jan-2009
Abstract(s)Os dados possuem uma importância crescente na actual sociedade da informação e comunicação. Por este motivo é muito importante a Detecção e Correcção (DC) dos seus problemas de qualidade. Os resultados obtidos a partir dos dados são negativamente influenciados pelos seus problemas de qualidade. Isto é conhecido como o princípio do “lixo entra, lixo sai”. Uma taxionomia de Problemas de Qualidade dos Dados (PQD) constitui uma das contribuições que resulta do trabalho de doutoramento apresentado nesta dissertação. Os problemas encontram-se organizados pelo Nível de Granularidade (NG) do modelo relacional em que ocorrem (e.g.: atributo; tuplo; relação). O âmbito do trabalho encontra-se restrito a este tipo de dados. Outra contribuição constitui a definição de um modelo concebido exclusivamente para a DC dos PQD, i.e., para a Limpeza de Dados (LD). O modelo encontra-se em total consonância com a tese defendida de que os PQD têm de ser identificados e, de imediato, solucionados, seguindo uma sequência predefinida baseada numa aproximação ascendente (i.e., bottom-up) por NG. Os primeiros PQD manipulados (i.e., detectados e corrigidos) são os que ocorrem no NG mais elementar do modelo relacional (i.e., o atributo). A sequência termina com os problemas que ocorrem no NG de maior complexidade (i.e., múltiplas relações de diferentes fontes de dados). O utilizador especifica as operações de DC dos PQD incluídos na taxionomia com base em duas linguagens declarativas, especialmente desenvolvidas para esse efeito. A sintaxe de cada linguagem é formalizada nesta dissertação. A semântica operacional inerente à operação que conduz à detecção ou correcção de cada PQD encontra-se também formalizada nesta dissertação, para todas aquelas situações em que esta pode ser fornecida. O modelo proposto de LD e as formalizações sintácticas e semânticas das operações de DC constituem a base do protótipo desenvolvido, baptizado com a denominação SmartClean. O SmartClean constitui mais uma contribuição que resulta do trabalho realizado, provavelmente a que possui maior visibilidade. Tendo como objectivo testar o SmartClean e, consequentemente, demonstrar a validade do modelo de LD subjacente, o protótipo é utilizado num estudo de caso. Os resultados alcançados confirmam a sua aplicabilidade, validade e utilidade na DC dos PQD. Como última contribuição deste trabalho, nesta dissertação é ainda apresentada uma aproximação que suporta a interoperabilidade das operações de DC entre bases de dados diferentes. Isto é alcançado através da especificação das operações a um nível conceptual que as isola do nível do esquema, permitindo facilmente a sua reutilização em bases de dados diferentes.
The data have a growing importance in today’s information and communication society. For this reason, the Detection and Correction (DC) of their quality problems is very important. The results obtained from data are negatively influenced by their quality problems. This is known as the “garbage in, garbage out” principle. The taxonomy of Data Quality Problems (DQP) is one of the contributions that results from the PhD work presented in this dissertation. The problems are organized by Granularity Level (GL) of the relational model in which they occur (e.g.: attribute; tuple; relation).The scope of the work is restricted to this kind of data. Another contribution is the definition of a model exclusively designed for the DC of the DQP, i.e., for data cleaning. The model is in total agreement with the thesis defended that the DQP must be identified and immediately solved, following a predefined sequence based on an ascending (i.e., bottom-up) approach by GL. The first DQP manipulated (i.e., detected and corrected) are those occurring at the most elementary GL of the relational model (i.e., the attribute). The sequence ends with the problems occurring at the most complex GL (i.e., multiple relations from different data sources). The user specifies the DC operations of the DQP included in the taxonomy based on two declarative languages, specially developed for that purpose. The syntax of each language is formalized in this dissertation. The underlying operational semantic of the operation that leads to the detection or correction of each DQP is also formalized in this dissertation, for all those situations where it can be provided. The proposed model for data cleaning and the syntactic and semantic formalizations of the DC operations are the basis of the developed prototype, baptized with the denomination SmartClean. SmartClean is another contribution that results from the work done and it is probably the one that has the largest visibility. Having the test of SmartClean as a goal and, therefore, the demonstration of the validity of the underlying data cleaning model, the prototype is used in a case study. The results achieved confirm its applicability, validity and usefulness in the DC of DQP. As a last contribution of this work, an approach that supports the interoperability of the DC operations among different databases is also presented in this dissertation. This is achieved through the specification of the operations at a conceptual level that isolates them from the schema level, allowing them to be easily used in different databases.
TypeDoctoral thesis
DescriptionTese de doutoramento em Informática (ramo de conhecimento Tecnologia da Programação)
URIhttp://hdl.handle.net/1822/9158
AccessOpen access
Appears in Collections:BUM - Teses de Doutoramento

Files in This Item:
File Description SizeFormat 
Tese Final.pdf5,03 MBAdobe PDFView/Open

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID