Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/83643

TítuloCharacterizing data scientists in the real world
Autor(es)Pereira, Paula Sofia da Cunha
Orientador(es)Saraiva, João
Cunha, Jácome
Fernandes, João Paulo
Palavras-chaveData science
Data science professionals
Empirical studies
Interviews
Survey
Ciência de dados
Entrevistas
Estudos empíricos
Inquérito
Profissionais de ciência de dados
Data2022
Resumo(s)Every day, data is being collected from all different types of sources. According to the company Domo, data is being collected from ad clicks, likes on social media, shares, transactions, streaming content, and so much more. Their study, which focused on the data generated on the most popular platforms in 2020, shows that, every minute of the day, users sent 12M instant messages, shared 65K photos on Instagram, and conducted 5.7M of searches on Google. Moreover, accordingly to Statista, by 2025, the volume of data created, captured, copied, and consumed worldwide will increase up to 180 zettabytes. This enormous amount of data in itself may not be relevant. The real value of data lies in the information it hides about individuals and the world. As a result, it is more crucial than ever for businesses of all sizes to focus on the data they collect from diverse sources and use the insights they gain to become more competitive in their fields of expertise. In this scenario, companies rely on recruiting professionals to join data science teams capable of gleaning insights and extracting value from data. Data science, as the name implies, can be seen as the science that studies data. It is a multidisciplinary field where professionals, commonly known as data scientists, transform data into insights and decisions. Several researchers have focused on data science, intending to explain it and demonstrate its value in several contexts. However, in this research study, we shifted the focus to those who practice data science. This work aims to take advantage of the information collected through interviews and a public survey to fully understand who is doing data science, how they work, what skills they hold and lack, and which tools they need. Based on the results, we argue that the academic past of data science professionals has little impact on the way they work and that the most difficult challenges they face are obtaining high-quality data and applying deep learning techniques. We also discovered evidence of a gender gap in data science, which the scientific community should address in order to make data science accessible to everyone.
Todos os dias são recolhidos milhões dos dados das mais distintas fontes. O último estudo realizado pela empresa Domo sobre a quantidade de dados gerados nas principais plataformas online, mostrou que, a cada minuto de 2020, os utilizadores enviaram mais de 12 milhões de mensagens, partilharam cerca de 65 milhares de fotos no instagram, e fizeram mais de 5.7 milhões de pesquisas no Google. Para além disso, de acordo com um estudo realizado pela plataforma Statista, até 2025, o volume de dados criados, guardados e consumidos a nível global atingirá 180 zettabytes. Essa enorme quantidade de dados, por si só, pode não ser relevante. O valor real dos dados está nas informações que eles escondem sobre a sociedade e o mundo. Assim, é mais crucial do que nunca que as empresas de todos as indústrias se concentrem nos dados que coletam e usar o conhecimento que obtêm para se tornarem mais competitivas nas suas áreas de atuação. Perante este cenário, as empresas têm vindo a apostar cada vez mais no recrutamento de profissionais para integrarem equipas focadas em ciência de dados, capazes de utilizar dados para dar resposta a vários problemas que as afetam. Ciência de dados, como o nome indica, pode ser vista como a ciência que estuda dados. É uma área multidisciplinar onde os profissionais, comumente conhecidos como cientistas de dados, transformam dados em conhecimento que auxilia a tomada de decisões. Nos últimos anos, vários investigadores focaram-se no estudo da ciência de dados, com o objetivo de explicar e demonstrar o seu valor em diversos contextos. No entanto, neste trabalho, mudamos o foco para aqueles que praticam a ciência de dados. Assim, o objetivo deste estudo é aproveitar as informações recolhidas por meio de entrevistas e de um inquérito para melhor conhecer quem trabalha em ciência de dados. Com base nos resultados, argumentamos que o passado acadêmico dos profissionais de ciência de dados tem pouco impacto na forma como trabalham e que os maiores desafios que enfrentam são a obtenção de dados de qualidade e a aplicação de técnicas de deep learning. Também encontramos evidências de uma lacuna de gênero, sendo esta uma questão que deve ser abordada pela comunidade cientifica de forma a tornar a ciência de dados igualmente acessível a todos.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado integrado em Informatics Engineering
URIhttps://hdl.handle.net/1822/83643
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Paula-Sofia-da-Cunha-Pereira-dissertação-final.pdf1,48 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID