Use este identificador para citar ou linkar para este item: https://repositorio.ufrn.br/handle/123456789/28672
Título: Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas
Autor(es): Gorgônio, Flavius da Luz e
Orientador: Costa, José Alfredo Ferreira
Palavras-chave: Análise de agrupamentos distribuída;Comitês de agrupamento;K-médias;Mapas auto-organizáveis
Data do documento: 6-Mar-2009
Referência: GORGÔNIO, Flavius da Luz e. Uma arquitetura para análise de agrupamentos sobre bases de dados distribuídas. 2009. 156f. Tese (Doutorado em Engenharia Elétrica e Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2009.
Resumo: Mineração de dados pode ser definida como um conjunto de técnicas para a extração de conhecimento e procura de padrões úteis e previamente desconhecidos em grandes volumes de dados multidimensionais. Algoritmos tradicionais de análise de agrupamento, como mapas auto-organizáveis e K-médias têm sido largamente utilizados como ferramentas de mineração de dados, com o objetivo de permitir a visualização de dados de elevada dimensionalidade, auxiliando na identificação de agrupamentos de dados com características semelhantes. No entanto, algoritmos tradicionais para análise de dados podem não ser eficientes para algumas aplicações atuais por não considerarem a existência de dados armazenados de forma distribuída. Assim, uma crescente tendência de minerar dados armazenados de forma distribuída tem motivado o surgimento de métodos que permitem analisar cada uma das bases de dados isoladamente e combinar os resultados parciais para obter um resultado final. Este trabalho apresenta uma arquitetura para análise de agrupamentos em bases de dados distribuídas, a partir da utilização de algoritmos tradicionais, que reduz sensivelmente a quantidade de dados transferidos entre as unidades remotas e a unidade central. A arquitetura é composta por uma estratégia, baseada em quantização vetorial, que possibilita extrair um conjunto de representantes a partir de partições horizontais e/ou verticais da base de dados, a fim de se obter visões parciais dos agrupamentos existentes em cada um dos conjuntos de dados locais. Posteriormente, os representantes de cada unidade local são enviados à unidade central, que efetua a combinação dos resultados parciais através de um processo de agrupamento sobre os representantes dos dados. Os resultados experimentais obtidos com a utilização da arquitetura proposta sobre diferentes conjuntos de dados demonstram que essa estratégia consegue obter resultados com mesma eficácia que os obtidos com as técnicas de mineração de dados convencionais, onde todas as bases de dados são transferidas para uma unidade central durante a etapa de pré-processamento.
Abstract: Data mining can be defined as a set of techniques for knowledge extraction and search of useful and previously unknown patterns in large multidimensional databases. Clustering is the process of discovering data clusters within high-dimensional databases, based on similarities, with a minimal knowledge of their structure. Distributed data clustering is a recent approach to deal with distributed databases, since traditional clustering algorithms require centering all databases in a single dataset. Moreover, current privacy requirements in distributed databases demand algorithms with the ability to process clustering securely. Thus, an increasing need of methods to mining data stored in a distributed way has motivated the development of algorithms to analyze each database separately and to combine the partial results to get a final result. This thesis presents a framework for cluster analysis in distributed databases using traditional algorithms, as K-means and self-organizing maps. This approach reduces significantly the amount of data transferred between remote units and the central unit. The framework includes a strategy, based on vectorial quantization, that extract a representatives subset, in order to get partial views of the existing clusters in each horizontal and/or vertical partitions of the database. Later, the representatives of each local unit are sent to the central unit, which carry out a combination of the partial results applying a clustering algorithm over all representative subsets. The experimental results with different datasets show that the framework proposed obtains results very close and with effectiveness comparable to conventional data mining techniques, where all the databases are transferred to a central unit in the pre-processing stage.
URI: https://repositorio.ufrn.br/jspui/handle/123456789/28672
Aparece nas coleções:PPGEE - Doutorado em Engenharia Elétrica e de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Arquiteturaanaliseagrupamentos_Gorgonio_2009.pdf4,79 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons