Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/79844

Registo completo
Campo DCValorIdioma
dc.contributor.advisorOliveira, Patríciapor
dc.contributor.advisorMendes, Ruipor
dc.contributor.authorMonteiro, Ana Rita Patríciopor
dc.date.accessioned2022-09-30T15:59:20Z-
dc.date.available2022-09-30T15:59:20Z-
dc.date.issued2018-12-11-
dc.date.submitted2018-10-
dc.identifier.urihttps://hdl.handle.net/1822/79844-
dc.descriptionDissertação de mestrado em Bioinformaticspor
dc.description.abstractA deteção de variantes genómicas associadas à doença tornou-se uma tarefa acessível por meio do sequenciamento de nova geração. Esta tecnologia produz grandes quantidades de dados que usando ferramentas de bioinformática permite entender o impacto funcional das variantes. Contudo, às vezes essas informações estão ocultas em textos clínicos não estruturados, sem uma classificação do tipo ‘Benigna’ ou ‘Patogénica’. Embora tais textos estejam na OMIM, as variantes são frequentemente descritas como 'Variantes de Significado Desconhecido' (VUS). Portanto, para interpretar as informações destes textos desenvolvemos uma ferramenta baseada em Text-Mining (TM)/Machine Learning (ML). E, recolhemos textos clínicos não estruturados com uma classificação da ClinVar de ‘Benignas’ ou ‘Patogénicas’. E construímos um conjunto de dados com 24.171 textos clínicos não estruturados, onde 174 são de variantes 'Benignas' e 23.997 de variantes 'Patogénicas'. Os textos de cada variante, foram pré-processados para remover informações irrelevantes. Em seguida, construímos um dicionário de palavras-chave biológicas, dando um valor positivo às palavras-chave com uma conotação positiva e um valor negativo às palavras-chave com uma conotação negativa. Assim, aperfeiçoámos uma estratégia única de pontuação para uma máxima accuracy na classificação. Para testar a nossa estratégia de pontuação, usámos os textos de todas as variantes ‘Benignas’ (n=174) e 1000 variantes ‘Patogénicas’ selecionadas aleatoriamente. A análise feita pela nossa ferramenta a 235 textos levou a uma accuracy de 89,4%. Finalmente, e usando um conjunto de dados de validação com 10 ‘Benignas’ e 690 ‘Patogénicas’ (n=700), conseguimos obter uma accuracy de 99%, ou seja, apenas 7 variantes incorretamente classificadas. Em conclusão, a nossa ferramenta é capaz de interpretar e classificar textos da OMIM com uma alta accuracy. No futuro, abordaremos as variantes VUS/não classificadas, com o objetivo de fornecer ao utilizador uma probabilidade de que tais variantes sejam ‘Benignas’ ou ‘Patogénicas’ num dado contexto de doença.por
dc.description.abstractThe detection of genomic variants associated with disease has become an accessible task through Next Generation Sequencing. This technology produces large amounts of data that, using bioinformatics tools, allow to understand the functional impact of detected variants. However, in sometimes such information is concealed within unstructured texts (UT) rather than in a binary classification, i.e. ‘Benign’ vs. ‘Pathogenic’. Although UTs are available in OMIM, in many cases, the variants are described as ‘Variants of Unknown Significance’ (VUS). Therefore, to interpret the information from UTs, we have designed a Text-Mining (TM)/Machine Learning (ML)-based tool. To create our tool, we collected OMIM UTs from a set of ClinVar-classified ‘Benign’ and ‘Pathogenic’ genomic variants, constructing a dataset of 24,171 variants, 174 classified by ClinVar as ‘Benign’ and 23,997 as ‘Pathogenic’ and the corresponding OMIM-UTs were first pre processed to remove irrelevant non-clinical information. Next, we constructed a dictionary of biological keywords, giving a positive value to keywords with a positive connotation and a negative value to keywords with a negative connotation a negative or positive connotation to be searched in the OMIM-UTs. Therefore, we fine-tuned a unique scoring strategy for maximum variant classification accuracy. To train and test we used the corresponding OMIM-UTs of all ‘Benign’ variants (n=174) and 1000 randomly selected ‘Pathogenic’ variants from our dataset. Classification of OMIM-UTs from the ML-test dataset (n=235) by our tool, led to an 89.4% accuracy rate. Finally, and using a validation dataset with 10 ‘Benign’ and 690 ‘Pathogenic’ (n=700) we were able to obtain an accuracy rate of 99%, i.e. only 7 misclassified variants. In conclusion, our tool is currently capable of classifying OMIM-UTs with a high accuracy rate. In the future, we expect to address the problem of VUS/unclassified variants, aimed at providing the user with a likelihood of whether such variants are more probable to be ‘Benign’ or ‘Pathogenic’ in a given disease context.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.subjectVariantes genómicaspor
dc.subjectText miningpor
dc.subjectMachine learningpor
dc.subjectClassificação de variantespor
dc.subjectGenomic variantspor
dc.subjectVariants classificationspor
dc.titleAdvanced text mining for annotation of genomic variantspor
dc.title.alternativeText mining avançado para anotação de variantes genómicaspor
dc.typemasterThesiseng
dc.identifier.tid203008731por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade18 valorespor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapor
Aparece nas coleções:BUM - Dissertações de Mestrado
CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Ana Rita Patricio Monteiro.pdfDissertação de Mestrado2,78 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID