Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/92575

Registo completo
Campo DCValorIdioma
dc.contributor.advisorPaulo, João Tiago Medeirospor
dc.contributor.advisorFerreira, Pedro Gabriel Diaspor
dc.contributor.authorBrito, Cláudia Vanessa Martinspor
dc.date.accessioned2024-07-25T09:18:10Z-
dc.date.available2024-07-25T09:18:10Z-
dc.date.issued2024-07-03-
dc.date.submitted2024-
dc.identifier.urihttps://hdl.handle.net/1822/92575-
dc.descriptionTese de doutoramento em Informáticapor
dc.description.abstractA Aprendizagem Máquina (AM) tornou–se uma técnica essencial para vários sectores (p.ex., saúde, finanças) que pretendem extrair novas informações dos seus dados. No entanto, estes tendem a conter informações sensíveis, levantando preocupações sobre a privacidade e segurança e levando ao desenvolvimento de soluções de Aprendizagem Máquina com Preservação da Privacidade (AMPP). Isto é particularmente relevante quando esses dados, assim como a computação feita sobre eles, precisam de ser transferidos para infraestruturas de terceiros (i.e., computação em nuvem) ou diretamente processados no dispositivo móvel do utilizador. Nesta tese, mostramos que as soluções atuais apresentam várias limitações, sendo apenas aplicáveis a casos de uso específicos, exigem que os utilizadores reimplementem os seus algoritmos de AM ou comprometem significativamente o desempenho das cargas de trabalho. Para responder a estes desafios e melhorar a adoção prática de soluções AMPP, propomos três contribuições. Primeiro, introduzimos o Soteria, um novo sistema que aproveita a escalabilidade e a fiabilidade do Apache Spark e da sua biblioteca ML (MLlib). Este garante que as operações críticas são realizadas exclusivamente em enclaves seguros fornecidos por Ambientes de Computação Confiáveis (ACC). Isto significa que os dados sensíveis a ser processados só existem em claro dentro do enclave, estando cifrados no resto do fluxo de dados (i.e., rede, armazenamento). Esta solução assegura a privacidade dos dados durante o treino e inferência. Embora o Soteria se revele uma solução prática de AMPP para AM genérica, este não suporta outros tipos de dados, como é o caso dos dados genómicos. Assim, propomos o Gyosa, uma nova solução de computação distribuída para estudos de associação do genoma (GWAS) com preservação da privacidade. Diferente de outras soluções, o Gyosa oferece uma diferenciação fina entre informação sensível e não sensível processada por GWAS num ambiente distribuído. Finalmente, o TAPUS, centra–se no compromisso entre precisão e privacidade para ambientes de AM distribuída sem acesso a hardware especializado. Para tal, combinamos a Aprendizagem Federada e a Privacidade Diferencial (PD) e avaliamos o impacto de diferentes algoritmos baseados em PD sobre o desafio de compreender as preferências dos utilizadores em termos de modalidades de transporte. Com estas contribuições, melhoramos o atual estado da arte dos sistemas de aprendizagem automática distribuídos e com preservação da privacidade.por
dc.description.abstractMachine Learning (ML) has become an essential technique for several sectors (e.g., Healthcare, Finances) that wish to extract novel insights from their data. Nonetheless, such data tends to contain sensitive information, which raises concerns about privacy and security and leads to the development of privacy–preserving machine learning (PPML) solutions. This is particularly relevant when such data, along with the computation done over it, need to be outsourced to third–party infrastructures (i.e., cloud computing, HPC) or directly performed in the user’s mobile device. In this thesis, we show that the current state–of–the–art solutions still pose several limitations as these are only applicable to specific use cases, require users to reimplement their ML algorithms, or significantly compromise the performance of these workloads. To answer these challenges and improve the practical adoption of PPML solutions, we propose three main contributions. First, we introduce Soteria, a novel system that leverages the scalability and reliability of Apache Spark and its ML library (MLlib). It ensures that critical operations are exclusively performed in secure enclaves provided by Trusted Execution Environments (TEEs). This means the sensitive data being processed only exists in plaintext inside the enclave and is encrypted in the remainder of the dataflow (i.e., network, storage). This solution enables robust security guarantees, ensuring data privacy during ML training and inference. While Soteria proves to be a practical PPML solution for generic ML, it does not support other types of data or workloads that may benefit from privacy–preserving guarantees, which is the case of genomic data. Therefore, we propose Gyosa, a novel distributed computing solution for privacy–preserving genome–wide association studies. Different from other solutions, Gyosa offers a fine–grained differentiation between sensitive and nonsensitive information processed by GWAS in a distributed environment. Finally, TAPUS, focuses on the trade–offs between accuracy and privacy for distributed ML setups that do not have access to specialized hardware. This is done by combining federated learning and differential privacy and evaluating the impact of different DP–based algorithms over the challenge of understanding users’ transportation modality preferences. With these contributions, we improve the current state–of–the–art of privacy–preserving and distributed machine learning systems.por
dc.description.sponsorshipA Fundação para a Ciência e Tecnologia (FCT) apoiou este trabalho através da bolsa de doutoramento SFRH/BD/146528/2019.por
dc.language.isoengpor
dc.relationinfo:eu-repo/grantAgreement/FCT/POR_NORTE/SFRH%2FBD%2F146528%2F2019/PTpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectAmbientes de Computação Confiáveispor
dc.subjectAprendizagem Máquinapor
dc.subjectComputação Distribuídapor
dc.subjectPrivacidadepor
dc.subjectPrivacidade Diferencialpor
dc.subjectDifferential Privacypor
dc.subjectDistributed Computingpor
dc.subjectMachine Learningpor
dc.subjectPrivacy–preservingpor
dc.subjectSecure Enclavespor
dc.titleTowards a privacy-preserving distributed machine learning frameworkpor
dc.title.alternativeRumo a uma plataforma para aprendizagem máquina privada e distribuídapor
dc.typedoctoralThesiseng
dc.identifier.tid101641095por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.gradeMuito bompor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosCiências Naturais::Ciências da Computação e da Informaçãopor
Aparece nas coleções:BUM - Teses de Doutoramento
HASLab - Teses de Doutoramento
DI - Teses de doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Claudia Vanessa Martins de Brito.pdfTese de doutoramento10,17 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID