Caracterização dos utilizadores de web sites institucionais via web log mining : o caso do Tribunal de Contas

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/7941

Título:	Caracterização dos utilizadores de web sites institucionais via web log mining : o caso do Tribunal de Contas
Autor(es):	Amado, João Paulo da Costa
Orientador(es):	Santos, Manuel Filipe
Data:	31-Mar-2008
Resumo(s):	É difícil encontrar outro meio de comunicação que tenha crescido tão rapidamente e num volume tão grande como a World Wide Web. Ao mesmo tempo, é díficil encontrar um que encerre em si próprio, de maneira tão abundante, a meta-informação necessária para o seu estudo aprofundado. Ver a WWW como um simples depósito de informação, constitui um ponto de vista redutor. Muito embora, num sentido restrito, seja possível encarar tudo o que ela oferece como sendo informação à nossa disposição, a verdade é que uma das suas grandes virtudes, é o facto de fornecer cada vez mais maneiras de levar os utilizadores a interagir com essa informação – para a manipular (ajax), para a alterar (wikis), para a aumentar (blogs), para a transformar e ampliar (mashups), entre outros exemplos e abordagens. Os registos de acesso aos web sites (logs) constituem a principal fonte de informação quanto à forma como a WWW é, de facto, utilizada. Mais do que se basear na análise de factores externos (como qualquer canal de televisão, que tem que perguntar aos tele-espectadores se o viram), qualquer web site pode registar automaticamente todas as consultas que lhe são feitas. Da análise destes acessos depende a correcta compreensão do lugar e funções desempenhadas pelo web site, ao longo da sua vida. Nesta dissertação procuramos reunir os dois mundos. Pretendemos caracterizar a informação disponibilizada num web site (o do Tribunal de Contas), pedindo “emprestados” alguns conceitos à biologia – para traçar uma espécie de “ADN” de cada documento. Pretendemos também, recorrendo aos logs de acesso, traçar outro ADN, o dos utilizadores do web site, com base nos seus padrões de uso. Os resultados de um trabalho desta natureza poderão auxiliar abordagens futuras a este e outros web sites, no sentido de facilitar um tipo de classificação automática de documentos e de permitir a criação e manutenção no tempo de perfis de utilização, numa tentativa de fazer adequar com maior precisão a informação que é disponibilizada, com as necessidades dos utilizadores. It's hard to find any kind of media with a growth-rate as high as the World Wide Web. At the same time, it's hard to find one that stores within itself such an amount of metadata, useful for an indepth study. It is wrong to look at the WWW simply as a kind of information store. Although all its contents are information one way or the other, truth is there are quite a few ways of letting the users interact with that information, either to manipulate it (via ajax-based applications), to alter it (through the use of wikis), to add to it (via blogs and web sites themselves) or to transform and amplify its meanings (through mashups). These are only a few examples on what can be done today. Web site access logs are the main information source on how the WWW is used. Rather than asking the users if they viewed the pages (such as a TV station might do), any web site has the means to keep a permanent record about its visitors. By analyzing these logs, we are able to get a better understanding of the roles played by the web site. In this document we borrow a few concepts from biology, in order to establish a kind of 'DNA' for each document on the web site of the Portuguese Court of Auditors (Tribunal de Contas). We do this by looking at the WWW as an information source and by processing what we find. At the same time, we try do extend the same approach to the users who looked for those documents, by processing the web access logs. The results of such an approach might enable future uses of automatic document classification, as well as an effective personalization of information delivery. Il est très difficile de trouver quelque sorte de média avec une croissance si grande que le World Wide Web. En même façon, il est difficile de trouver un moyen intéractif d'information qui préserve une si grande quantité de métadonnées dans son intérieur, et qui puisse les utiliser por des études en profondeur. Le Web n'est seulement un depôt d'information. On peut bien regarder tout ce qu'il présent comme s'il était de l'information toute simple. Pourtant, aujour'dui il'y a plusieurs moyens à la disposition des utilisateurs pour accomplir une intéraction riche avec les contenus présentés: pour faire sa manipulation (à travers les applications Ajax), pour faire des modifications (à travers les wikis), pour participier dans sa croissance (à travers les blogs et les web sites, êux-mêmes) ou pour faire des transformations (à travers les mashups). Ce ne sont que des examples sur les possibilités d'utilisation offertes. Le logging des pages Web consultées est la première source d'information sur l'utilisation du WWW. Par example, quand on parle d'une châine de télévision, le seul moyen qu'elle a pour connaître les charactéristiques de ses téléspectateurs, est de les demander directement. Par contraire, un web site peut enregistrer automatiquement toutes les visites à ses pages. Quand on analyse ces logs, on peut comprendre parfaitement l'évolution du site et les modes d'intéraction utilisés. Dans ce travail, nous cherchons une façon d'unifier ces deux réalités. D'un coté nous avons l'information disponible dans le web site do Cour des Comptes Portugais (Tribunal de Contas) laquelle sera procéssé pour créer une espéce d'ADN pour chaque document. De l'autre coté, nous avons les web logs, qui nous permetront identifier des utilisateurs, et établir aussi son ADN (on parle d'ADN d'une façon symbolique, puisque nous créons des séquences d'identification numériques pour chaque document/utilisateur). Les résultats peuvent pêut-être nos approcher d'une classification automatique des documents, et aussi d'une création de profils d'utilisateurs.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de Mestrado em Sistemas de Informação
URI:	https://hdl.handle.net/1822/7941
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
dissertacao-jpamado.pdf		3,03 MB	Adobe PDF	Ver/Abrir
Capas.pdf		26,74 kB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas