Programa de Pós-Graduação em Sistemas e Computação
URI Permanente desta comunidadehttps://repositorio.ufrn.br/handle/123456789/11978
Navegar
Navegando Programa de Pós-Graduação em Sistemas e Computação por Autor "02973877407"
Agora exibindo 1 - 1 de 1
- Resultados por página
- Opções de Ordenação
Dissertação Um framework semissupervisionado para classificação de dados em fluxos contínuos(Universidade Federal do Rio Grande do Norte, 2021-06-25) Gorgônio, Arthur Costa; Canuto, Anne Magaly de Paula; Vale, Karliane Medeiros Ovidio; 02973877407; http://lattes.cnpq.br/7907570677010860; http://lattes.cnpq.br/1357887401899097; http://lattes.cnpq.br/8213279977425231; Abreu, Marjory Cristiany da Costa; http://lattes.cnpq.br/2234040548103596; Xavier Júnior, João Carlos; http://lattes.cnpq.br/5088238300241110; Santos, Araken de Medeiros; http://lattes.cnpq.br/8059198436766378Aplicações no domínio de fluxos contínuos de dados (do inglês, Data Streams) recebem um grande volume de dados rapidamente e, existe a necessidade de processá-los sequencialmente. Uma característica destas aplicações é que os dados podem sofrer mudanças durante o processo da utilização do modelo, ademais a quantidade de instâncias cujo rótulo é conhecido pode não ser suficiente para gerar um modelo eficaz. A fim de suprimir a dificuldade da pouca quantidade de instâncias rotulada, pode-se utilizar o aprendizado semissupervisionado. Além disso, o uso de comitês de classificadores pode auxiliar na detecção da mudança de contexto. Assim, neste trabalho, é proposto um framework para realizar a classificação semissupervisionada em tarefas com fluxos contínuos de dados, utilizando uma abordagem baseada em comitês de classificadores. Este framework utiliza o comitê para se auto avaliar e determinar quando treinar um novo classificador durante o processo de classificação. Para avaliar a eficácia da proposta, foram realizados testes empíricos com onze bases de dados utilizando dois diferentes tamanhos de batch, nove abordagens supervisionadas , por meio das métricas acurácia, precision, recall e f-score. Ao avaliar a quantidade de instâncias processadas, as abordagens supervisionadas obtiveram um desempenho praticamente constantes, enquanto que a proposta apresentou uma melhora de 8,28% e 3,81% utilizando 5% e 10% de instâncias rotuladas, respectivamente. Por fim, os resultados desta pesquisa são promissores, o framework proposto obteve resultados semelhantes ou superiores em 118 dos 198 (60%) casos, em termos estatísticos.