Utilize este identificador para referenciar este registo:
https://hdl.handle.net/1822/59733
Título: | Image recognition using deep learning |
Autor(es): | Barbosa, Bruno Miguel da Silva |
Orientador(es): | Fernandes, António Ramires Ferreira, Manuel João Oliveira |
Data: | 2018 |
Resumo(s): | Computer vision is a vast knowledge subject responsible for traducing digital images and
videos into a higher level of understandable information. Image recognition is one of the
several tasks that are inserted in this subject and it can be subdivided in object recognition
(also called as object classification), segmentation, identification and detection.
Some of the available alternatives for image recognition are based on Machine Learning
(ML) approaches. Deep Learning (DL) is a branch of ML that became very popular in the
last years due to its success in previously considered hard tasks. The lack of large amounts
of data and efficient computational resources a few years ago, were a barrier for the expansion
of DL. However, thanks to the current easy data access and due to development of
more powerful computational resources, including CPU and GPU too, the attention turned
back on, and it became easier and faster to train a model than can distinguish different
types of classes with a very low error rate. One interesting fact about DL is its ability to
automatically learn from data and understand the most differentiable features of it.
From the point of view of the industry, many artificial vision inspection lines still do their
jobs relying on traditional computer vision methods/algorithms. Yet, with more complex
domains, for example like texture patterns, things can get more difficult. This is where DL
comes in.
This document begins with an introduction of DL for artificial vision. It starts by addressing
the theoretical fundamentals of DL for image recognition and then focuses on the
general aspects of Convolutional Neural Networks (CNN). Next, are reviewed the state of
the art network configurations that stood out in recently.
A high-level toolkit for image recognition was created to simplify the whole process of
building DL models, from the data pre-processing to the trained model testing phase. It
allowed to easily prepare a set of experiences that address some of the common practices
used on CNNs and highlight the power of DL on image recognition related tasks.
This dissertation was developed under a business environment on a artificial vision company
called Neadvance, Machine Vision, SA. The Neadvance, Machine Vision, SA is also
interested in researching the new trends related to DL for image recognition in order to
know how to apply them on their projects since it opens a new range of challenging opportunities. A visão por computador é uma área vasta de conhecimento responsável por traduzir imagens e vídeos digitais para um nível mais alto de informação compreensível. O reconhecimento de imagem é uma das várias tarefas que está inserida nesta área e pode ser sub-dividida em reconhecimento de objectos (também designada por classificação de objectos), segmentação, identificação e detecção. Algumas das alternativas disponíveis para reconhecimento são baseadas em abordagens de ML. O DL é um ramo de ML e tornou-se muito popular nos últimos anos devido ao seu sucesso em tarefas consideradas difíceis, até ao momento. A falta de grande quantidade de dados e de recursos computacionais eficientes há uns anos atrás, foram uma barreira para a expansão do DL. Contudo, graças à actual facilidade de acesso a dados e devido ao desenvolvimento de recursos computacionais mais potentes, incluindo CPU e GPU também, a atenção à volta do tema voltou a crescer, e tornou-se mais fácil e mais rápido treinar um modelo que consegue distinguir diferentes tipos de classes com uma taxa de erro baixa. Um facto interessante sobre o DL, é a sua capacidade para aprender dos dados e compreender as suas características mais diferenciadoras. Do ponto de vista da indústria, muitas linhas de inspecção via visão artificial ainda fazem o seu trabalho através de métodos/algoritmos tradicionais de visão por computador. Todavia, com domínios mais complexos, como por exemplo padrões de texturas, as coisas podem tornar-se mais difíceis. É aí onde entra o DL. Este documento inicia com uma introdução ao DL para visão artificial. Começa por abordar os fundamentos teóricos de DL para reconhecimento de imagem e de seguida foca-se em aspectos gerais das Convolutional Neural Network (CNN)s. Depois, são revistas as configurações estado da arte das arquitecturas de rede que se destacaram recentemente. Foi criado um conjunto de ferramentas para simplificar todo o processo de construção de modelos de DL, desde o pré-processamento dos dados até à fase de testes do modelo treinado. Este permitiu ainda preparar facilmente uma série de experiencias que abordam algumas das práticas comuns usadas nas CNN e destacar o poder do DL em tarefas relacionadas com reconhecimento de imagem. Esta dissertação foi desenvolvida sob ambiente empresarial numa empresa de visão artificial chamada Neadvance, Machine Vision, SA. A Neadvance, Machine Vision, SA também está interessada em investigar as novas tendências relacionadas com o DL de forma a saber como aplicá-las nos seus projectos, uma vez que lhe possibilita uma nova gama de desafios. |
Tipo: | Dissertação de mestrado |
Descrição: | Dissertação de mestrado em Computer Science |
URI: | https://hdl.handle.net/1822/59733 |
Acesso: | Acesso aberto |
Aparece nas coleções: | BUM - Dissertações de Mestrado DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Bruno Miguel da Silva Barbosa.pdf | Dissertação de Mestrado | 10,74 MB | Adobe PDF | Ver/Abrir |