Please use this identifier to cite or link to this item: http://hdl.handle.net/1822/2787

TitleSistemas de Data Webhousing : análise, desenho, implementação e exploração de sistemas reais
Author(s)Borges, Eurico Alexandre Teixeira
Advisor(s)Belo, Orlando
KeywordsData webhouse
Data warehouse
Clickstream
Web
Logs de servidor web
HTTP
Identificação de utilizadores
Identificação de sessões
Heterogeneidade de dados
Modelação dimensional
Web server Logs
User identification
Session identification
Data heterogeneity
Dimensional modelling
Issue date2004
Abstract(s)A Web tem-se tornado um dos espaços mais apelativos para as organizações como forma de divulgação das suas actividades, promoção dos seus produtos e serviços e desenvolvimento de actividades comerciais. Todavia, os visitantes de um sítio Web podem facilmente saltar para um sítio da concorrência caso não encontrem rapidamente aquilo que procuram, ou se tiverem qualquer outro motivo que não seja do seu agrado. Conhecer os visitantes e garantir que os produtos, serviços ou informação são aqueles que eles procuram é imperativo. É por isso que as organizações têm tentado analisar vários tipos de questões relacionadas, por exemplo, com a forma como os clientes procuram os produtos, onde abandonam o sítio e porquê, qual a frequência de visitas dos seus clientes, quais os produtos ou serviços que mais interesse despertaram nos visitantes, enfim tudo o que possa contribuir para a melhoria do sítio e para manter ou atrair novos clientes. Todos os movimentos e selecções dos utilizadores de um sítio Web podem ser acompanhados através dos “cliques“ que vão fazendo ao longo do seu processo de interacção com as diversas páginas Web. A esta sequência de “diques” dá-se o nome de clickstream. Será a partir dos dados registados pelo servidor Web sobre as selecções do utilizador que se poderá iniciar o estudo das suas iterações e comportamento. Contudo, o registo mantido pelos servidores Web forma apenas um esqueleto que terá de ser enriquecido com os registos dos vários componentes e sistemas que suportam o seu funcionamento. Este tipo de integração e conciliação de dados num único repositório é, tradicionalmente, feito no seio de um Data Warehouse que, pelo acréscimo dos dados de dlickstream, se torna num Data Webhouse. Todo o processo de extracção, transformação e integração no Data Webhouse é, no entanto, dificultado pelo volume, incomplitude e heterogeneidade dos dados e pela própria tecnologia utilizada no ambiente Web. Nesta dissertação, é apresentado e descrito um modelo dimensional para um Data Webhouse para análise de um sítio Web comercial. São estudadas e apresentadas algumas das suas fontes de dados bem como técnicas que podem ser utilizadas para eliminar ou reduzir os problemas existentes nos dados de clickstream. É descrito todo o desenvolvimento e implementação do processo de extracção, limpeza, transformação e integração de dados no Data Webhouse com especial relevo para as tarefas de clickstream - a identificação de utilizadores e agentes automáticos e a reconstrução de sessões. É apresentado o Webuts — Web Usage Tracking Statistics, um protótipo de um sistema de apoio à decisão para acompanhamento e análise estatística das actividades dos utilizadores de um sítio Web e onde se incorporam alguns dos elementos, técnicas, princípios e práticas descritas.
The Web is becoming one of the most appeallng environments for the many organisations as a means of promoting its businesses and activities as well as a commercialisation channel. However, a Web user can easily leave one organisation’s Web site for its competitors if he doesn’t find what he is looking for or if he finds something unpleasant on one organisation’s site. To know the site’s users and making sure that the products, services or information the site is providing is what the users want is nowadays a must. That is why many organisations have started to study how their web site users browse the site, where are they leaving the site and why, how frequently do their users return, what products and services are most appealing and, in general terms, everything that may be used to improve the Web site and attract new users. Every user moves may be tracked by retaining the clicks selections they do on the different Web pages during their visit. This flow of clicks is now called clickstream. It is the data logged by the Web server on the user’s selections that will enable the organisation to study their moves and behaviour. However, the Web server log only keeps the bare bones of the user’s activity. This data will have to be enriched with data collected by other systems designed to provide the Web site with contents or additional functionalities. Traditionally, the gathering and integration of data from heterogeneous data sources is done inside a Data Warehouse. By adding clickstream data to it we are creating a Data Webhouse. However, Web technology, the data volume, its heterogeneity and incompleteness will create difficulties in the process of extracting, transforming and loading data into the Data Webhouse. In this document we present a dimensional model for a Data Webhouse whose purpose is to analyse a commercial Web site. Several data sources are presented and analised in detail. Some of the techniques used to eliminate or reduce clickstream data problems are also described. The Data Webhouse extraction, cleaning, transformation and loading process is described and special attention is paid to clickstream processing tasks such as user and robot identification and user session reconstruction. A new decision support system prototype, named Webuts - Web Usage Tracking Statistics, is presented. This system’s purpose is to track and analyse a Web site users’ moves and actitivities as well as generate some statistical data on the Web site operation. Its operation is based on a Data Webhouse and its development incorporated some of the elements, techniques and best practices studied and described.
TypeMaster thesis
DescriptionDissertação de mestrado em Informática, especialidade de Sistemas Distribuídos, Comunicações por Computador e Arquitectura de Computadores
URIhttp://hdl.handle.net/1822/2787
AccessOpen access
Appears in Collections:BUM - Dissertações de Mestrado
DI/CCTC - Dissertações de Mestrado (master thesis)


Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID