Use este identificador para citar ou linkar para este item: https://repositorio.ufrn.br/jspui/handle/123456789/26249
Título: Abordagens baseadas em teoria da informação para seleção automatizada de atributos
Título(s) alternativo(s): Information theory based approaches to automated feature selection
Autor(es): Jesus, Jhoseph Kelvin Lopes de
Palavras-chave: Seleção de atributos;Comitês;Teoria da Informação;Análise de dados;Algoritmos de agrupamento;Fronteira de Pareto
Data do documento: 21-Set-2018
Citação: JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018.
Resumo: With the fast growing of complex data in real world applications, the feature selection becomes a mandatory preprocessing step in any application to reduce both the complexity of the data and the computing time. Based on that, several works have been produced in order to develop efficient methods to perform this task. Most feature selection methods select the best attributes based on some specic criteria. Although some advancement has been made, a poor choice of a single algorithm or criteria to assess the importance of attributes, and the arbitrary choice of attribute numbers made by the user may lead to poor analysis. In order to overcome some of these issues, this paper presents the development of two strands of automated attribute selection approaches. The first are fusion methods of multiple attribute selection algorithms, which use ranking-based strategies and classifier ensembles to combine feature selection algorithms in terms of data (Data Fusion) and decision (Fusion Decision), allowing researchers to consider different perspectives in the attribute selection stage. The second strand approaches the dynamic feature selection context through the proposition of the PF-DFS method, an improvement of a dynamic feature selection algorithm, using the idea of Pareto frontier multiobjective optimization, which allows us to consider different perspectives of the relevance of the attributes and to automatically define the number of attributes to select. The proposed approaches were tested using several real and artificial databases and the results showed that when compared to individual selection methods, the performance of one of the proposed methods is remarkably higher. In fact, the results are promising since the proposed approaches have also achieved superior performance when compared to established dimensionality reduction methods, and by using the original data sets, showing that the reduction of noisy and/or redundant attributes may have a positive effect on the performance of classification tasks.
metadata.dc.description.resumo: Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação.
URI: https://repositorio.ufrn.br/jspui/handle/123456789/26249
Aparece nas coleções:PPGSC - Mestrado em Sistemas e Computação

Arquivos associados a este item:
Arquivo TamanhoFormato 
JhosephKelvinLopesDeJesus_DISSERT.pdf3,76 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.