Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/83225

Registo completo
Campo DCValorIdioma
dc.contributor.advisorMachado, José Manuelpor
dc.contributor.authorReinolds, Francisco André Vieirapor
dc.date.accessioned2023-03-14T14:09:46Z-
dc.date.available2023-03-14T14:09:46Z-
dc.date.issued2022-04-05-
dc.date.submitted2021-12-
dc.identifier.urihttps://hdl.handle.net/1822/83225-
dc.descriptionDissertação de mestrado integrado em Engenharia Informáticapor
dc.description.abstractIn an ever more connected world, smart cities are becoming ever more present in our society. In these smart cities, use cases in which innovations that will benefit its inhabitants are also growing, improving their quality of life. One of these areas is safety, in which Machine Learning (ML) models reveal potential in real-time video-stream analysis in order to determine if violence exists in them. These ML approaches concern the field of Computer Vision, a field responsible for traducing digital images and videos, and be able to extract knowledge and understandable information from them, in order to be used in diverse contexts. Some of the available alternatives to recognise actions in video streams are based on ML approaches, such as Deep Learning (DL), that grew in popularity in the last years, as it was realised that it had massive potential in several applications that could benefit from having a machine recognising diverse human actions. In this project, the creation of a ML model that can determine if violence exists in a video-stream is proposed. This model will leverage technology being used in State of the Art methods, such as video classifiers, but also audio classifiers, and Early/Late Fusion (EF / LF) schemes that allow the merging different modalities, in the case of the present work: audio and video. Conclusions will also be drawn as to the accuracy rates of the different types of classifiers, to determine if any other type of classifiers should have more prominence in the State of the Art. This document begins with an introduction to the work being conducted, in which both the its context, mo tivation and objectives are explained. Afterwards, the methodology used in order to more efficiently conduct the research in this Thesis is clarified. Following that, the State of the Art concerning ML based approaches to Action Recognition and Violence Detection is explored. After being brought to date in what are the State of the Art approaches, one is able to move forward to the following chapter, in which the Training method that will be employed to train the models that were seen as the best candidates to detect violence is detailed. Subsequently, the selected models are scrutinized in an effort to better understand their architecture, and why they are suited to detect violence. Afterwards, the results achieved by these models are explored, in order to better comprehend how well these performed. Lastly, the conclusions that were reached after conducting this research are stated, and possibilities for expanding this work further are also presented. The obtained results prove the success and prevalence of video classifiers, and also show the efficacy of models that make use of some kind of fusion.por
dc.description.abstractNum mundo cada vez mais conetado, as cidades inteligentes tornam-se cada vez mais presentes na nossa sociedade. Nestas cidades inteligentes, crescem também os casos de uso nos quais podem ser aplicadas inovações que beneficiarão os seus habitantes, melhorando a sua qualidade de vida. Uma dessas áreas é a da segurança, na qual modelos de Aprendizagem Máquina (AM) apresentam potencial para analisar streams de vídeo em tempo real e determinar se nestas existe violência. Estas abordagens de AM são referentes ao campo de Visão por Computador, um campo responsável pela tradução de imagens e vídeos digitais, e pela extração de conhecimento e informação inteligível dos mesmos, de modo a ser utilizada em diversos contextos. Algumas das alternativas disponíveis para reconhecer ações em streams de vídeo são baseados em abordagens de AM, tais como Aprendizagem Profunda (AP), que cresceu em popularidade nos últimos anos, à medida que se tornou claro o massivo potencial que tinha em diversas aplicações, que poderiam beneficiar de ter uma máquina a reconhecer diversas ações humanas. Neste projeto, é proposta a criação de um modelo de Machine Learning que permita determinar a existência de violência numa stream de vídeo. Este modelo tomará partido de tecnologia utilizada em métodos do Estado da Arte como classificadores de vídeo, mas também de classificadores áudio, e esquemas de Fusão Antecipada / Tardia (FA / FT) que permitem a combinação de várias modalidades de dados, neste caso: áudio e vídeo. Serão tiradas também conclusões sobre as taxas de acerto dos diversos tipos de classificadores, de modo a determinar se algum outro tipo de classificador deveria de ter mais prominência Este documento começa com uma introdução ao trabalho levado a cabo, em que o seu contexto, motivação, e objetivos são explicados. Seguidamente, a metodologia utilizada de modo a mais eficientemente levar a cabo a pesquisa nesta Tese é clarificada. Após isso, o Estado da Arte no que concerne abordagens baseadas em AM para Reconhecimento de Ações e Deteção de Violência é explorado. Depois de ser atualizado em relação a quais são consideradas abordagens de Estado da Arte, é possível avançar para o capítulo seguinte, onde o método utilisado para treinar os modelos que foram considerados como os melhores candidatos para detetar violência é detalhado. Subsequentemente, os modelos selecionados são escrutinizados de modo a melhor entender a sua arquitetura, e porque são adequados para detetar violência. Depois, os resultados conseguidos por estes modelos são explorados, de modo a melhor compreender o desempenho conseguido. Finalmente, as conclusões que foram chegadas a são apresentadas, tais como possibilidades para expandir e melhorar esta pesquisa. Os resultados obtidos comprovam o sucesso e a prevalência dos classificadores de vídeo, e mostram também a eficácia dos modelos que tomam partido de algum tipo de fusão.por
dc.language.isoengpor
dc.rightsopenAccesspor
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/por
dc.subjectMachine Learningpor
dc.subjectDeep Learningpor
dc.subjectAction recognitionpor
dc.subjectViolence detectionpor
dc.subjectEarly fusionpor
dc.subjectLate fusionpor
dc.subjectAprendizagem Máquinapor
dc.subjectAprendizagem Profundapor
dc.subjectReconhecimento de açõespor
dc.subjectDeteção de violênciapor
dc.subjectFusão antecipadapor
dc.subjectFusão tardiapor
dc.titleDeep Learning for activity recognition in real-time video streamspor
dc.typemasterThesiseng
dc.identifier.tid203227913por
thesis.degree.grantorUniversidade do Minhopor
sdum.degree.grade19 valorespor
sdum.uoeiEscola de Engenhariapor
dc.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapor
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Francisco Andre Vieira Reinolds.pdf3,89 MBAdobe PDFVer/Abrir

Este trabalho está licenciado sob uma Licença Creative Commons Creative Commons

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID