Utilize este identificador para referenciar este registo: http://hdl.handle.net/1822/56804

TítuloAn intelligent system for detection and identification of human behaviors from unconstrained video
Autor(es)Afsar, Palwasha
Orientador(es)Cortez, Paulo
Santos, Henrique
Data28-Jun-2018
Resumo(s)In this work, an intelligent system for human action recognition and destination trajectory prediction from unconstrained video is presented. For the automatic human action recognition, the video is processed frame by frame and blob analysis is performed to look for any active blobs. In order to select only humans and to remove noise, we defined a minimum pixel area for blob selection, which was set to 2000 pixels (e.g., 45x45, 60x34) after some preliminary experiments. For background subtraction, we tested the Gaussian Mixture Models (GMMs), for separating the foreground pixels from the background. This detector works on data collected from a stationary camera and compares a color or gray scale video frame to a background model to figure out whether it is part of the background or foreground. It then computes a foreground mask based on Gaussian Mixture Models (GMM). The human action recognition of our system is based on Hidden Markov Model (HMM) using the Bag of Words method (BoWs) (with boundary of humans as the main feature). Time-sequential images of human actions were transformed into feature vectors. We targeted two action classes: walking and sitting. Overall, high accuracy results were achieved. The proposed system for trajectory destination area prediction adopts a passive collection of video, works directly with raw video data and extracts motion features (position, velocity, and acceleration) from automatically detected human skeletons (with positions of the body of mass, head, hands and legs). It includes three main modules: human blob detection, an enhanced version of human blob detection to achieve improved silhouette; star skeleton detection, encompassing shadow removal and contour peak detection; and the final destination area prediction, based on preprocessing (dimensionality reduction and balancing sampling methods) and four classification methods: Multinomial logistic regression (MLR), Multilayer Perceptron (MLP) network, Random Forests (RF) and Support Vector Machine (SVM). For the second main task of this PhD, trajectory destination area prediction, the human blob detection was modified by adding another component: shadow and highlight removal. We also replaced the GMM background segmentation method by a simpler background subtraction method, such that the latter provided faster and better results. As a case study, we analyzed an exterior scene from a university campus that includes five main destination areas and 348 pedestrian trajectories from 171 videos. A realistic growing window evaluation was used in order to test four classifiers under six data processing combinations. The best results were achieved by the all inputs, undersampling and RF model. This model obtained the best global Area Under the Curve (AUC) of the Receiver Operating Characteristic (ROC) analysis, which corresponds to a high quality class discrimination (median AUC of 87%). Moreover, the suggested model provided very good ahead time predictions for four of the classes (A, B, C and D) and a reasonable ahead discrimination performance for class E. While we achieved interesting results in the analyzed university campus case study, we believe the proposed system is useful for other application scenarios.
Neste trabalho é proposto um sistema inteligente para reconhecimento de ações humanas e previsão da área final de trajetórias pedestres a partir de vídeos que capturam espaços reais de movimentação humana. O vídeo é processado via uma sequência de imagens, sendo a deteção de humanos obtida via uma identificação de um objeto móvel com uma área mínima de 2000 pixels (por exemplo definido via um retângulo de 45x45 ou 60x34). Para a eliminação do fundo (ambiente), foram utilizados Gaussian Mixture Models (GMM), sendo que o reconhecimento de ações baseou-se em modelos de Hidden Markov (HMM). O sistema desenvolvido foi testado para detetar duas ações, caminhar e sentar, tendo sido obtida uma elevada acuidade. Quanto à previsão dá área final de trajetórias humanas, foi utilizado uma coleta passiva de vídeo. Os dados em bruto foram processados de modo a extrair atributos de movimento (posição, velocidade e aceleração) de esqueletos compostos por 5 pontos (cabeça, mãos e pés) estimados automaticamente a partir de um contorno humano. O sistema desenvolvido incluí três módulos principais: deteção humana (inclui uma melhoria do processamento de imagem via: uma subtração de fundo mais simples e mais eficaz; e uma remoção de sombras e brilhos), deteção de esqueletos humanos e previsão da área final da trajetória pedestre. Este último módulo é composto por métodos de processamento de dados (via compressão de atributos e de balanceamento dos dados de treino) e algoritmos de classificação: regressão logística, redes neuronais, Random Forest (RF) e máquinas de vetores de suporte. Como caso de estudo, foi analisado um cenário real e exterior de um campus universitário e que inclui: cinco entradas e saídas principais (A, B, C, D e E), 348 trajetórias pedestres e 171 vídeos. Foi testada uma avaliação robusta via um método de treino incremental, que permitiu avaliar o desempenho dos quatro classificadores em seis configurações distintas de processamento dos dados. Os melhores resultados foram alcançados pelo algoritmo RF, utilizando todos atributos (sem compressão) e uma amostragem de undersampling nos dados de treino. Este modelo obteve o melhor valor global da área da curva Receiver Operating Characteristic (ROC), correspondendo a uma discriminação de qualidade (valor da mediana da área de 87consegue realizar previsões atempadas de elevada qualidade para quatro classes (A, B, C e D) e de qualidade razoável para a classe restante (E).
TipodoctoralThesis
DescriçãoThe MAP-i Doctoral Programme in Computer Science, of the Universities of Minho, Aveiro and Porto
URIhttp://hdl.handle.net/1822/56804
AcessoembargoedAccess (2 Years)
Aparece nas coleções:CAlg - Teses de doutoramento/PhD theses
BUM - Teses de Doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Palwasha Afsar.pdf6,99 MBAdobe PDFVer/Abrir  Solicitar cópia ao autor!

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu Currículo DeGóis