Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/83643
Título: | Characterizing data scientists in the real world |
Autor(es): | Pereira, Paula Sofia da Cunha |
Orientador(es): | Saraiva, João Cunha, Jácome Fernandes, João Paulo |
Palavras-chave: | Data science Data science professionals Empirical studies Interviews Survey Ciência de dados Entrevistas Estudos empíricos Inquérito Profissionais de ciência de dados |
Data: | 2022 |
Resumo(s): | Every day, data is being collected from all different types of sources. According to the
company Domo, data is being collected from ad clicks, likes on social media, shares,
transactions, streaming content, and so much more. Their study, which focused on the
data generated on the most popular platforms in 2020, shows that, every minute of the day,
users sent 12M instant messages, shared 65K photos on Instagram, and conducted 5.7M of
searches on Google. Moreover, accordingly to Statista, by 2025, the volume of data created,
captured, copied, and consumed worldwide will increase up to 180 zettabytes.
This enormous amount of data in itself may not be relevant. The real value of data lies in
the information it hides about individuals and the world. As a result, it is more crucial than
ever for businesses of all sizes to focus on the data they collect from diverse sources and
use the insights they gain to become more competitive in their fields of expertise. In this
scenario, companies rely on recruiting professionals to join data science teams capable of
gleaning insights and extracting value from data.
Data science, as the name implies, can be seen as the science that studies data. It is a
multidisciplinary field where professionals, commonly known as data scientists, transform
data into insights and decisions. Several researchers have focused on data science, intending
to explain it and demonstrate its value in several contexts. However, in this research study,
we shifted the focus to those who practice data science.
This work aims to take advantage of the information collected through interviews and a
public survey to fully understand who is doing data science, how they work, what skills
they hold and lack, and which tools they need. Based on the results, we argue that the
academic past of data science professionals has little impact on the way they work and that
the most difficult challenges they face are obtaining high-quality data and applying deep
learning techniques. We also discovered evidence of a gender gap in data science, which the
scientific community should address in order to make data science accessible to everyone. Todos os dias são recolhidos milhões dos dados das mais distintas fontes. O último estudo realizado pela empresa Domo sobre a quantidade de dados gerados nas principais plataformas online, mostrou que, a cada minuto de 2020, os utilizadores enviaram mais de 12 milhões de mensagens, partilharam cerca de 65 milhares de fotos no instagram, e fizeram mais de 5.7 milhões de pesquisas no Google. Para além disso, de acordo com um estudo realizado pela plataforma Statista, até 2025, o volume de dados criados, guardados e consumidos a nível global atingirá 180 zettabytes. Essa enorme quantidade de dados, por si só, pode não ser relevante. O valor real dos dados está nas informações que eles escondem sobre a sociedade e o mundo. Assim, é mais crucial do que nunca que as empresas de todos as indústrias se concentrem nos dados que coletam e usar o conhecimento que obtêm para se tornarem mais competitivas nas suas áreas de atuação. Perante este cenário, as empresas têm vindo a apostar cada vez mais no recrutamento de profissionais para integrarem equipas focadas em ciência de dados, capazes de utilizar dados para dar resposta a vários problemas que as afetam. Ciência de dados, como o nome indica, pode ser vista como a ciência que estuda dados. É uma área multidisciplinar onde os profissionais, comumente conhecidos como cientistas de dados, transformam dados em conhecimento que auxilia a tomada de decisões. Nos últimos anos, vários investigadores focaram-se no estudo da ciência de dados, com o objetivo de explicar e demonstrar o seu valor em diversos contextos. No entanto, neste trabalho, mudamos o foco para aqueles que praticam a ciência de dados. Assim, o objetivo deste estudo é aproveitar as informações recolhidas por meio de entrevistas e de um inquérito para melhor conhecer quem trabalha em ciência de dados. Com base nos resultados, argumentamos que o passado acadêmico dos profissionais de ciência de dados tem pouco impacto na forma como trabalham e que os maiores desafios que enfrentam são a obtenção de dados de qualidade e a aplicação de técnicas de deep learning. Também encontramos evidências de uma lacuna de gênero, sendo esta uma questão que deve ser abordada pela comunidade cientifica de forma a tornar a ciência de dados igualmente acessível a todos. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado integrado em Informatics Engineering |
URI: | https://hdl.handle.net/1822/83643 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Paula-Sofia-da-Cunha-Pereira-dissertação-final.pdf | 1,48 MB | Adobe PDF | Ver/Abrir |
Este trabalho está licenciado sob uma Licença Creative Commons