Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Informática e Matemática Aplicada Programa de Pós-Graduação em Sistemas e Computação Doutorado Acadêmico em Sistemas e Computação Uma Proposta de Automatização do Processo de Rotulagem de Instâncias em Algoritmos de Aprendizado Semissupervisionado Karliane Medeiros Ovidio Vale Natal-RN Novembro 2019 Karliane Medeiros Ovidio Vale Uma Proposta de Automatização do Processo de Rotulagem de Instâncias em Algoritmos de Aprendizado Semissupervisionado Tese de Doutorado apresentada ao Programa de Pós-Graduação em Sistemas e Computa- ção do Departamento de Informática e Mate- mática Aplicada da Universidade Federal do Rio Grande do Norte como requisito para a obtenção do grau de Doutor em Sistemas e Computação. Linha de pesquisa: Inteligência computacional Orientador Dra. Anne Magály de Paula Canuto Co-Orientador Dr. Araken de Medeiros Santos PPgSC – Programa de Pós-Graduação em Sistemas e Computação DIMAp – Departamento de Informática e Matemática Aplicada CCET – Centro de Ciências Exatas e da Terra UFRN – Universidade Federal do Rio Grande do Norte Natal-RN Novembro 2019 Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET Vale, Karliane Medeiros Ovidio. Uma proposta de automatização do processo de rotulagem de instâncias em algoritmos de aprendizado semissupervisionado / Karliane Medeiros Ovidio Vale. - 2019. 116f.: il. Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós- graduação em Sistemas e Computação. Natal, 2019. Orientadora: Anne Magály de Paula Canuto. Coorientador: Araken de Medeiros Santos. 1. Inteligência artificial - Tese. 2. Aprendizado de máquina - Tese. 3. Aprendizado semissupervisionado - Tese. 4. Self- training - Tese. 5. Co-training - Tese. I. Canuto, Anne Magály de Paula. II. Santos, Araken de Medeiros. III. Título. RN/UF/CCET CDU 004.8 Elaborado por Joseneide Ferreira Dantas - CRB-15/324 Tese de doutorado sob o título Uma Proposta de Automatização do Processo de Rotula- gem de Instâncias em Algoritmos de Aprendizado Semissupervisionado apresentada por Karliane Medeiros Ovidio Vale e aceita pelo Programa de Pós-Graduação em Sistemas e Computação do Departamento de Informática e Matemática Aplicada da Universidade Federal do Rio Grande do Norte, sendo aprovada por todos os membros da banca exami- nadora abaixo especificada: Profa Dra. Anne Magály de Paula Canuto (UFRN) Orientadora e coordenadora do PPgSC Banca Examinadora Profa Dra. Marjory Cristiany da Costa Abreu (UFRN) Examinador Profo Dr. Daniel Sabino Amorim de Araújo (UFRN) Examinador Profo Dr. Flavius da Luz e Gorgônio (UFRN) Examinador Profo Dr. Araken de Medeiros Santos (UFERSA) Examinador Profo Dr. Diego Silveira Costa Nascimento (IFRN) Examinador Natal-RN, 22 de Novembro de 2019. Dedico este trabalho a Deus pai, a Nossa Senhora das Dores, aos meus familiares, amigos e professores que direta ou indiretamente me ajudaram nessa conquista. Agradecimentos Agradeço em primeiro lugar a Deus que a cada dia me concede forças para seguir em frente e a Virgem Maria por sua intercessão. Muito obrigada a minha orientadora Anne, aos amigos Flavius, Araken e Jhoseph e aos alunos Alan, Cainan, Arthur, Yago e Fábio que contribuiram diretamente com o meu trabalho e a todos os colegas do DIMAp/UFRN, DCT/UFRN/CERES e LABICAN/LABENS que colaboraram comigo de forma direta ou indireta. Por fim, não poderia deixar de agradecer a todos os meus familiares e amigos que são alicerces para que eu consiga galgar este caminho de tantos obstáculos. "Confia teus negócios ao Senhor e teus planos terão bom êxito!" Provérbios, 16-3 Uma Proposta de Automatização do Processo de Rotulagem de Instâncias em Algoritmos de Aprendizado Semissupervisionado Autor: Karliane Medeiros Ovidio Vale Orientador(a): Profa. Dra. Anne Magály de Paula Canuto Co-orientador(a): Prof. Dr. Araken de Medeiros Santos Resumo O aprendizado semissupervisionado é um tipo de aprendizado de máquina que integra os mecanismos de aprendizado supervisionado e não supervisionado. Nele, a maioria dos rótulos do conjunto de treinamento são desconhecidos, mas há uma pequena parcela que possui rótulo. Este tipo de aprendizado atrai atenção devido ao seu potencial de utilização de dados rotulados e não rotulados para alcançar melhor desempenho do que o aprendi- zado supervisionado. Este trabalho consiste em um estudo no campo da aprendizagem semissupervisionada e implementa mudanças na estrutura de dois algoritmos semissu- pervisionados, self-training e co-training. Na literatura, é comum o desenvolvimento de pesquisas que alteram a estrutura destes algoritmos, no entanto, nenhuma delas propõe a automatização no processo de rotulagem de instâncias não rotuladas, que é o principal propósito deste trabalho. Para atingir este objetivo, três métodos são propostos: FlexCon- G, FlexCon e FlexCon-C. As principais diferenças entre estes métodos são a forma de calcular o limiar de confiança e a estratégia para escolha dos rótulos a cada iteração, entre elas comitês de classificadores. Para avaliar a performance dos métodos propostos, foi realizada uma análise empírica em que o desempenho destes métodos foi avaliado em 30 conjuntos de dados com características diversificadas. Os resultados indicam que os três métodos propostos e suas versões apresentam melhor desempenho que os métodos self-training e co-training originais na maioria dos casos. Palavras-chave: Inteligência Artificial, Aprendizado de Máquina, Aprendizado Semissu- pervisionado, Self-Training, Co-Training. A Proposal for Automating the Instance Labeling Process in Semi-Supervised Learning Algorithms Author: Karliane Medeiros Ovidio Vale Supervisor: Profa. Dra. Anne Magály de Paula Canuto Co supervisor: Prof. Dr. Araken de Medeiros Santos Abstract Semi-supervised learning is a kind of machine learning that integrates supervised and unsupervised learning mechanisms. In this type of learning, most of training set labels are unknown, while there is a small part of data that has known labels. The semi-supervised learning is attractive because of its potential to use labeled and unlabeled data to per- form better than supervised learning. This paper consists of a study in the field of semi- supervised learning and implements changes on the self-training and co-training semi- supervised learning algorithms. In the literature, it is common to develop researches that change the structure of such algorithms, however, none of them proposes automating the labeling process of unlabeled instances, which is the main purpose of this work. In order to achieve this goal, three methods are proposed: FlexCon-G, FlexCon e FlexCon-C. The main difference among these methods is how tje confidence rate is calculated and the stra- tegy used to choose a label in each iteration, among them ensembles. In order to evaluate the proposed methods’ performance, we have carried out an empirical analysis, in which the performances of these methods have been evaluated on 30 datasets with diversified characteristics. The obtained results indicate that the three proposed methods perform better than original self-training and co-training methods in most cases. Keywords : Artificial Intelligence, Machine Learning, Semi-supervised Learning, Self-Training, Co-Training. Lista de figuras 1 Estrutura do aprendizado de máquina (indutivo). . . . . . . . . . . . . p. 27 2 Conjunto de dados para aprendizado semissupervisionado . . . . . . . . p. 28 3 Processo de rotulagem do self-training. . . . . . . . . . . . . . . . . . . p. 30 4 Exemplo de duas visões geradas pelo co-training. . . . . . . . . . . . . p. 32 5 Processo de rotulagem do co-training. . . . . . . . . . . . . . . . . . . . p. 33 6 Exemplo de uma árvore de decisão para jogar tênis (adaptado de Gama et al. (2011)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 7 Exemplo de cálculo do limiar de confiança usando FlexCon. . . . . . . p. 53 8 Exemplo de cálculo do limiar de confiança usando FlexCon-C. . . . . . p. 55 9 Metodologia experimental baseada no self-training. . . . . . . . . . . . p. 56 10 Metodologia experimental baseada no co-training. . . . . . . . . . . . . p. 58 11 Divisão dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 68 12 Quantidade de vezes que cada método obteve maior desempenho em relação ao percentual inicialmente rotulado (self-training) . . . . . . . . p. 75 13 Desempenho do ST Original e ST limiar fixo para os quatro classificado- res (self-training) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 76 14 Desempenho dos métodos propostos para os quatro classificadores (self- training) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 77 15 Percentual médio de instâncias rotuladas usando os métodos de limiar fixo e os propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 80 16 Quantidade de vezes que cada método obteve maior desempenho em relação ao percentual inicialmente rotulado (co-training) . . . . . . . . p. 82 17 Desempenho do CT Original e CT limiar fixo para os quatro classifica- dores (co-training) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83 18 Desempenho dos métodos propostos para os quatro classificadores (co- training) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 84 19 Resultado estatístico dos métodos por percentual de instâncias inicial- mente rotuladas (self-training) . . . . . . . . . . . . . . . . . . . . . . . p. 86 20 Resultado estatístico dos métodos por percentual de instâncias inicial- mente rotuladas (co-training) . . . . . . . . . . . . . . . . . . . . . . . p. 88 Lista de tabelas 1 Conjunto de dados para avaliação de crédito . . . . . . . . . . . . . . . p. 35 2 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63 3 Acurácia média de todos os métodos com os classificadores Naive Bayes, árvore de decisão, Ripper e k-NN usando self-training . . . . . . . . . . p. 73 4 Acurácia média de todos os métodos com os classificadores Naive Bayes, árvore de decisão, Ripper e k-NN usando co-training . . . . . . . . . . p. 78 5 Acurácia média do FlexCon(s) usando critério de parada (co-training) . p. 81 6 Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando Naive Bayes como classificador p. 99 7 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando Naive Bayes como classificador . p. 100 8 Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando árvore de decisão como clas- sificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 101 9 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando árvore de decisão como classificadorp. 102 10 Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando Ripper como classificador . p. 103 11 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando Ripper como classificador . . . . p. 104 12 Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando k -NN como classificador . . p. 105 13 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando k -NN como classificador . . . . p. 106 14 Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando Naive Bayes como classificadorp. 108 15 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando Naive Bayes como classificador . p. 109 16 Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando árvore de decisão como clas- sificador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 110 17 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando árvore de decisão como classificadorp. 111 18 Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando Ripper como classificador . p. 112 19 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando Ripper como classificador . . . . p. 113 20 Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e Flex- Con(s) para cada base de dados utilizando k -NN como classificador . . p. 114 21 Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon- C2 para cada base de dados utilizando k -NN como classificador . . . . p. 115 22 Acurácia do método FlexCon(s)-CP (co-training) . . . . . . . . . . . . p. 117 Lista de abreviaturas e siglas FlexCon-G – Confiança Flexível com Graduação, do inglês Flexible Confidence with Gra- duation FlexCon – Confiança flexível, do inglês Flexible Confidence FlexCon-C – Confiança flexível com classificação, do inglês Flexible Confidence with Clas- sification AD – Árvore de Decisão NB – Naive Bayes Ripper – Poda incremental repetida para produzir redução de erro, do inglês Repeated Incremental Pruning to Produce Error Reduction k -NN – k vizinhos mais próximos, do inglês k Nearest Neighbor SVM – Máquinas de vetores suporte, do inglês Suport Vector Machine Lista de Algoritmos 1 Algoritmo Self-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31 2 Algoritmo Self-Training Proposto por (RODRIGUES; SANTOS; CANUTO, 2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 31 3 Algoritmo Co-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34 4 Algoritmo Self-Training com Ajuste da Confiança . . . . . . . . . . . . . p. 57 5 Algoritmo Co-Training utilizando limiar fixo . . . . . . . . . . . . . . . p. 59 6 Algoritmo Co-Training com Ajuste da Confiança . . . . . . . . . . . . . p. 60 Sumário 1 Introdução p. 19 1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20 1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 1.3 Principais Contribuições da Tese . . . . . . . . . . . . . . . . . . . . . . p. 22 1.4 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . p. 23 2 Referencial Teórico p. 25 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25 2.2 Aprendizado Semissupervisionado . . . . . . . . . . . . . . . . . . . . . p. 27 2.2.1 Self-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 29 2.2.2 Co-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 30 2.3 Classificação de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 2.4 Tipos de Classificadores . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34 2.4.1 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35 2.4.2 Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36 2.4.3 Ripper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37 2.4.4 k Vizinhos mais Próximos (k -NN) . . . . . . . . . . . . . . . . . p. 38 2.5 Comitês de Classificadores . . . . . . . . . . . . . . . . . . . . . . . . . p. 39 2.5.1 Métodos de Combinação . . . . . . . . . . . . . . . . . . . . . . p. 40 2.5.1.1 Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41 2.5.1.2 Voto . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 41 2.6 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 42 3 Estado da Arte p. 44 3.1 Aprendizado Semissupervisionado com Self-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44 3.1.1 Extensões do Self-Training . . . . . . . . . . . . . . . . . . . . . p. 45 3.2 Aprendizado Semissupervisionado com Co-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46 3.3 Comitês de Classificadores com Aprendizado Semissupervisionado . . . p. 48 3.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 49 4 Métodos Propostos p. 50 4.1 Métodos para Ajuste da Confiança . . . . . . . . . . . . . . . . . . . . p. 50 4.1.1 O Método FlexCon-G . . . . . . . . . . . . . . . . . . . . . . . p. 51 4.1.2 O Método FlexCon . . . . . . . . . . . . . . . . . . . . . . . . . p. 51 4.1.3 O Método FlexCon-C . . . . . . . . . . . . . . . . . . . . . . . . p. 53 4.2 Metodologia Experimental . . . . . . . . . . . . . . . . . . . . . . . . . p. 55 4.2.1 Metodologia Experimental Usando o self-training . . . . . . . . p. 56 4.2.2 Metodologia Experimental Usando o co-training . . . . . . . . . p. 57 4.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61 5 Design de Experimentos p. 62 5.1 Descrição das Bases de Dados . . . . . . . . . . . . . . . . . . . . . . . p. 62 5.2 Divisão de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 68 5.3 Configuração dos Experimentos . . . . . . . . . . . . . . . . . . . . . . p. 69 5.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 70 6 Resultados Experimentais p. 71 6.1 Análise de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 71 6.1.1 Análise de Desempenho com Self-Training . . . . . . . . . . . . p. 72 6.1.2 Análise de Desempenho com Co-Training . . . . . . . . . . . . . p. 76 6.2 Análise Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 85 6.2.1 Análise Estatística com o Algoritmo Self-Training . . . . . . . . p. 85 6.2.2 Análise Estatística com o Algoritmo Co-Training . . . . . . . . p. 87 6.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 87 7 Considerações Finais p. 90 7.1 Análise final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90 7.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91 Referências p. 93 Apêndice A -- Acurácia de todos os métodos utilizando o algoritmo self-training p. 98 Apêndice B -- Acurácia de todos os métodos utilizando o algoritmo co-training p. 107 Apêndice C -- Acurácia do método FlexCon(s)-CP para cada base de dados (co-training) p. 116 19 1 Introdução O progresso tecnológico nos últimos anos impulsionou a disponibilidade de grandes quantidades de dados. Os recursos de armazenamento e comunicação cresceram exponen- cialmente, aumentando a necessidade de ferramentas computacionais mais autônomas. Tais ferramentas devem processar automaticamente todos esses dados, reduzindo assim a intervenção humana e dependência de especialistas (GAMA et al., 2011). Diante do ex- posto, as técnicas de aprendizado de máquina adquiriram considerável relevância, pois são capazes de criar por si próprias, a partir de experiências passadas, uma hipótese ou função apta a resolver o problema que se deseja tratar (HERRERA et al., 2016). O aprendizado de máquina, a princípio, foi dividido em dois tipos, de acordo com o grau de supervisão utilizado durante o treinamento: supervisionado e não-supervisionado. Em ambos os tipos, a experiência passada é adquirida com o treinamento a partir de bases de dados cujas instâncias podem estar rotuladas ou não. No aprendizado supervisi- onado, durante o treinamento, os algoritmos recebem como entrada instâncias que contém a informação de saída desejada, representando a classe a que cada instância pertence. En- quanto no aprendizado não-supervisionado, a classe à qual as instâncias do conjunto de treinamento pertencem não são conhecidas a priori (SANTOS, 2012). Na área de aprendizado de máquina, os algoritmos de classificação (indução de hi- pótese) têm sido aplicados em diversos problemas ((FRINKEN et al., 2014; WANG et al., 2008; AGHABABAEI; MAKREHCHI, 2016)). No entanto, uma limitação natural destes algo- ritmos é que eles necessitam de um grande conjunto de instâncias rotuladas para alcançar um bom desempenho. Diante do exposto, surgiu outro tipo de aprendizado que pretende amenizar esta imperfeição, através de um procedimento de treinamento de classificadores com uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados (ZHU; GOLDBERG, 2009). Este tipo de aprendizado é conhecido como semissu- pervisionado e tem se tornado um assunto bastante pesquisado nos últimos anos (GAN et al., 2013; RODRIGUES; SANTOS; CANUTO, 2013; TAO et al., 2016; WU et al., 2017; VALE et al., 2018). 20 O aprendizado semissupervisionado usa as instâncias já rotuladas para construir suas hipóteses iniciais e combinar a informação obtida a partir dessas instâncias para rotular as não rotuladas. As novas instâncias rotuladas são inseridas no conjunto de dados rotulados e servirão para classificar as instâncias remanescentes do conjunto de dados não rotulados. Entre os vários algoritmos de aprendizado semissupervisionado encontrados na literatura, esta tese trabalha com os dois mais populares que são o self-training (YAROWSKY, 1995) e o co-training (BLUM; MITCHELL, 1998). Uma das dificuldades dos algoritmos de aprendizado semissupervisionado está em sele- cionar novas instâncias a serem incluídas no conjunto de dados rotulados. Neste contexto, o trabalho de Rodrigues, Santos e Canuto (2013) propôs controlar a seleção de instâncias no processo de rotulagem através da utilização de um limiar de confiança estático, em vez de usar uma quantidade fixa ou um percentual de instâncias do conjunto de dados rotula- dos. De acordo com os autores, percebe-se que a escolha deste percentual ou quantidade de instâncias a serem incluídas no conjunto de dados rotulados não é uma tarefa trivial, portanto a ideia geral de usar um limiar de confiança no processo de atribuição automá- tica de rótulos é minimizar a inclusão de instâncias classificadas erroneamente (ruídos), melhorando a precisão de classificação geral. Analisando a proposta de Rodrigues, Santos e Canuto (2013), percebe-se que a chance de que a atribuição dos rótulos esteja correta é maior quando definido um valor alto para o limiar de confiança, pois considera-se que a predição é mais confiável. Por outro lado, a utilização de um limiar muito alto, pode não rotular todas as instâncias e/ou ocasionar a necessidade de um tempo maior (elevado) para atribuição de rótulos, uma vez que a cada iteração um número menor de instâncias possuirão confiança maior ou igual ao limiar de confiança definido inicialmente. Do contrário, se este limiar for muito baixo pode acarretar na inclusão de ruídos no conjunto de treinamento. Diante do exposto, é possível observar a dificuldade em estabelecer um valor a ser utilizado como parâmetro de confiança para seleção de novas instâncias e por isso surge a necessidade da utilização de diferentes mecanismos para definição automática deste valor. 1.1 Motivação Sabendo-se que o processo de atribuição automática de rótulos não é uma tarefa fácil, principalmente em relação à escolha das instâncias não rotuladas a serem rotuladas, os autores de Rodrigues, Santos e Canuto (2013) propuseram a inclusão de um parâmetro de 21 confiança para guiar o processo de rotulagem do algoritmo self-training. De acordo com os autores, a ideia geral de usar a confiança no processo de atribuição automática de rótulos é minimizar a inclusão de ruído, melhorando a precisão geral da classificação. Ao analisar o trabalho de Rodrigues, Santos e Canuto (2013), é possível observar um problema: a utilização deste parâmetro de confiança de forma estática pode não explorar todo o potencial de uma técnica semissupervisionada e aumentar o custo computacional do processo de rotulagem. Desta forma, podem ser selecionadas instâncias com rótulos incorretos caso o parâmetro tenha valor baixo ou instâncias com rótulos corretos podem ser descartadas caso o parâmetro tenha valor muito alto. Diante do exposto, pode-se concluir que o uso de um parâmetro de confiança implica na necessidade de ajustá-lo, levando ao difícil processo de ajuste de parâmetros. Além disso, o valor de confiança deve ser capaz de ser alterado durante o processo de rotulagem, pois a dificuldade em selecionar instâncias para rotular pode mudar durante o processo de rotulagem e um valor de confiança estático não captura os diferentes níveis de dificuldade. Desta forma, o problema citado acima foi a principal motivação para o desenvolvimento desta tese, que apresenta três formas distintas de ajustar automaticamente o parâmetro de confiança. 1.2 Objetivos O objetivo geral deste trabalho é alcançar um desempenho mais eficiente dos algo- ritmos de aprendizado semissupervisionado, self-training e co-training, em relação aos originais e ao método proposto por Rodrigues, Santos e Canuto (2013). Para tal, os seguintes objetivos específicos deverão ser alcançados: • Identificar as principais limitações dos algoritmos de aprendizado semissupervisio- nados, self-training e co-training. • Investigar estratégias para abrandar as limitações identificadas anteriormente. • Propor modificações na estrutura dos algoritmos de aprendizado semissupervisio- nado, self-training e co-training. • Realizar uma análise comparativa do desempenho dos algoritmos, originais e pro- postos, em relação à acurácia. 22 1.3 Principais Contribuições da Tese Conforme explicado anteriormente, a área de aprendizado semissupervisionado tem sido alvo de diversas pesquisas (YU, 2013; TANHA; SOMEREN; AFSARMANESH, 2017; KIM et al., 2019; SAMIAPPAN; MOORHEAD, 2015; ARYOYUDANTA; ADJI; HIDAYAH, 2016). Desta forma, observando-se alguns dos trabalhos listados no Capítulo 3 (TAO et al., 2016; WU et al., 2017; QIAO et al., 2018; WANG et al., 2017; GAN et al., 2013; RODRIGUES; SANTOS; CA- NUTO, 2013), é possível perceber que as propostas que alteram a estrutura dos algoritmos self-training e co-training usam um limiar estático para inclusão de novas instâncias no conjunto de treinamento. No entanto, a principal contribuição deste trabalho é melhorar o desempenho, em termos de acurácia, dos algoritmos self-training e co-training utilizando um parâmetro de confiança dinâmico. Além disso, diversas pesquisas surgiram durante a execução deste trabalho, entre elas, artigos publicados em eventos nacionais e internacionais. A seguir estão listadas as referidas publicações: • Vale, Karliane M.O.; Canuto, Anne M. P.; Santos, Araken M.; Gorgônio, Flavius L.; Tavares, Alan M.; Gorgônio, Arthur C.; Alves, Cainan. T. . Automatic Adjustment of Confidence Values in Self-training Semi-supervised Method. In: International Joint Conference on Neural Networks (IJCNN 2018), 2018, Rio de Janeiro. Proceedings of International Joint Conference on Neural Networks (IJCNN 2018), 2018. Neste trabalho foram implementadas mudanças no algoritmo self-training para propor uma variação na taxa de inclusão de novas instâncias no conjunto de dados rotulados. Para atingir este objetivo, foram propostos três métodos (FlexCon-G, FlexCon e FlexCon-C), os quais diferem na forma como eles realizam o cálculo de um novo valor para a taxa de confiança mínima para incluisão de novas instâncias no conjunto de dados rotulados. • Gorgônio, Arthur C.; Alves, Cainan. T.; Lucena, Amarildo. J. F.; Gorgônio, Flavius L.; Vale, Karliane M.O.; Canuto, Anne M. P.. Analysis of the Threshold Variation of the FlexCon-C Algorithm for Semi-supervised Learning In: XV Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), 2018, São Paulo. Proceedings of ENIAC2018, 2018. Esta pesquisa analisa diferentes valores para o fator de variação do algoritmo FlexCon-C proposto em (VALE et al., 2018) e avalia o impacto dessa alteração na acurácia do referido algoritmo. • Vale, Karliane M.O.; Canuto, Anne M. P.; Gorgônio, Flavius L.; Lucena, Amarildo 23 J. F.; Alves, Cainan. T.; Gorgônio, Arthur C.; Santos, Araken M.. A Data Stratifica- tion Process for Instances Selection in Semi-Supervised Learning. In: International Joint Conference on Neural Networks (IJCNN 2019), 2019, Budapest. Proceedings of International Joint Conference on Neural Networks (IJCNN 2019), 2019. Este trabalho propõe mudanças no algoritmo self-training desenvolvendo um método, denominado FlexCon-CS, cujo objetivo é aplicar a estratificação de dados na in- clusão de novas instâncias no conjunto de dados de treinamento. Nesse sentido, a representatividade e distribuição de classes serão mantidas em todo o processo de rotulagem, com as mesmas proporções do conjunto de dados inicialmente rotulado. 1.4 Organização do Trabalho O restante do trabalho está dividido em 7 capítulos organizados da seguinte maneira: • No Capítulo 2, inicialmente, são apresentados os principais conceitos associados à área de aprendizado de máquina, os detalhes sobre o aprendizado semissupervisi- onado e o funcionamento dos algoritmos self-training e co-training. Em seguida, são explicados os principais conceitos relacionados com classificação de dados, bem como os tipos de classificadores utilizados nesta tese. Além disso, é descrito o fun- cionamento dos comitês de classificadores e os métodos para combinação das saídas dos classificadores base usados neste trabalho. • O Capítulo 3 trata dos trabalhos envolvendo a área de aprendizado semissupervi- sionado, mais especificamente, com os algoritmos self-training e co-training. Adici- onalmente, são apresentados trabalhos que utilizam comitês de classificadores com aprendizado semissupervisionado. • O Capítulo 4 explica os três métodos propostos neste trabalho, bem como a meto- dologia experimental. • O Capítulo 5 exibe o design utilizado para realização dos experimentos deste traba- lho. Este capítulo engloba a descrição das bases de dados, o pré-processamento dos dados e a configuração dos experimentos. • No Capítulo 6 são apresentados e analisados os resultados obtidos a partir dos experimentos realizados, divididos em análise de desempenho e análise estatística. 24 • O Capítulo 7 expõe as considerações finais deste trabalho, bem como os trabalhos futuros. 25 2 Referencial Teórico Este capítulo tem como objetivo apresentar algumas definições que guiam este tra- balho, visando melhor entendimento teórico dos conceitos relacionados com o mesmo. O capítulo está dividido em 6 subseções. A primeira dedica-se a uma breve introdução so- bre aprendizado de máquina e classificação de dados. A segunda explica detalhadamente o aprendizado semissupervisionado, bem como os algoritmos self-training e co-training. A terceira explana sobre os conceitos relacionados com classificação de dados. A quarta trata sobre os tipos de classificadores utilizados nesta tese. A quinta dispõe de uma breve introdução sobre comitês de classificadores, bem como os métodos de combinação soma e voto, que foram usados neste trabalho. Por fim são apresentadas as considerações finais. 2.1 Introdução Aprendizado de máquina é uma área da ciência da computação que surgiu do estudo de reconhecimento de padrões e aprendizagem computacional em inteligência artificial. Sendo assim, pode-se afirmar que aprendizado de máquina é um campo de estudo cujo objetivo é o desenvolvimento de técnicas computacionais sobre o aprendizado, bem como a construção de sistemas capazes de adquirir conhecimento de forma automática. Um sistema de aprendizado é um programa de computador que toma decisões baseado em experiências acumuladas por meio da solução bem-sucedida de problemas anteriores (MO- NARD; BARANAUSKAS, 2003). Segundo Mitchell (1997), desde que os computadores foram criados já havia a curi- osidade de saber se eles poderiam ser usados para aprender. O autor ainda afirma que, naquela época, já eram desenvolvidas aplicações de aprendizado de máquina, tais como: programas que mineravam dados para detectar transações fraudulentas com cartões de crédito, sistemas que filtravam informações e aprendiam sobre as preferências dos usuá- rios, entre outros. Desta forma, é possível concluir que os estudos na área de aprendizado de máquina não são novidade, no entanto o surgimento de novas aplicações é constante em 26 diversas áreas, entre elas saúde (LOFARO et al., 2016; HOLZINGER, 2016; VOCK et al., 2016; VERNEKAR et al., 2016) e educação (GARAY-GARCELL, 2015; JOSEPH, 2014; STIMPSON; CUMMINGS, 2014). Desta forma, entende-se que aprendizado de máquina é um campo de aplicação interdisciplinar. O aprendizado de máquina, de maneira genérica, pode ser dividido em dois tipos: dedutivo e indutivo. O aprendizado dedutivo é a análise lógica utilizada para construir argumentos, utilizando premissas para obter uma conclusão. A conclusão torna explícito um conhecimento já existente nas premissas. No indutivo, o processo de aprendizado, é efetuado a partir de raciocínio sobre instâncias fornecidas por um processo externo ao sistema de aprendizado (MONARD; BARANAUSKAS, 2003). Destes dois tipos de apren- dizado, o mais utilizado para derivar conhecimento novo e predizer eventos futuros é o aprendizado indutivo que foi usado neste trabalho e por isto será detalhado a seguir. O aprendizado indutivo, a princípio, foi dividido em dois tipos: supervisionado e não-supervisionado. A diferença entre eles diz respeito à forma como é realizado o pro- cesso de generalização do conhecimento. Enquanto no aprendizado supervisionado são utilizadas instâncias cujas classes (rótulos) são conhecidas a priori, no aprendizado não- supervisionado estas classes são desconhecidas (MONARD; BARANAUSKAS, 2003). Sendo assim, treinar instâncias de classificação conhecida define a tarefa de aprendizado super- visionado; inversamente, o aprendizado não-supervisionado pode indicar como um agente inteligente pode adquirir conhecimento útil na ausência de classificação correta dos dados treinados (PADHY, 2005). Com o tempo, a comunidade científica passou a estudar um terceiro grupo de apren- dizado conhecido como semissupervisionado. Como o próprio nome sugere, o método está entre o aprendizado supervisionado e o não-supervisionado, pois trabalha com da- dos parcialmente rotulados (ZHU; GOLDBERG, 2009). A Figura 1 apresenta uma estrutura do aprendizado de máquina indutivo. No topo aparece o aprendizado indutivo, processo pelo qual são realizadas as generalizações a partir dos dados. Em seguida, os tipos de aprendizado: supervisionado, semissupervisionado e não-supervisionado. Como o presente trabalho foi desenvolvido utilizando o aprendizado semissupervisionado, este será descrito com detalhes na próxima seção. Os diversos tipos de aprendizado de máquina indutivo explicados anteriormente utili- zam classificação de dados para realizar suas predições. A classificação é um dos processos cognitivos fundamentais usados para organizar e aplicar conhecimento sobre o mundo. A tarefa de classificar é comum tanto na vida cotidiana quanto nos negócios, onde é possí- 27 Figura 1: Estrutura do aprendizado de máquina (indutivo). vel agrupar clientes, funcionários, transações, lojas, fábricas, dispositivos, documentos, ou quaisquer outros tipos de instâncias em um conjunto de classes ou categorias significati- vas predefinidas (CICHOSZ, 2015). Classificação de dados é um dos tópicos mais populares da mineração de dados, ela é uma tarefa preditiva normalmente conduzida por meio das técnicas de aprendizado supervisionado ou semissupervisionado. O seu objetivo principal é aprender, de padrões rotulados, um modelo capaz de predizer o rótulo (classe) para ins- tâncias de dados ainda não classificadas (HERRERA et al., 2016). As Seções 2.3, 2.4 e 2.5 explicam detalhadamente sobre classificação de dados, tipos de classificadores e comitês de classificadores, respectivamente. 2.2 Aprendizado Semissupervisionado Em tarefas de classificação do mundo real, é possível encontrar conjuntos de dados em que apenas uma parte dos dados são rotulados, enquanto o restante não possui rótulo. Sendo assim, o mecanismo de aprendizagem semissupervisionada se propõe a tratar dados com essas características objetivando alcançar melhor classificação (WANG et al., 2016). Desta forma, pode-se dizer que o aprendizado semissupervisionado é um meio termo entre o aprendizado supervisionado e o não-supervisionado e pode ser dividido em dois tipos: indutivo e transdutivo, os quais possuem objetivos distintos (ZHU; GOLDBERG, 2009). De acordo com as definições de Zhu e Goldberg (2009) e Chapelle, Scholkopf e Zien (2006), dado um conjunto de treinamento formado por dados rotulados e não rotulados, no aprendizado semissupervisionado indutivo, todo o conjunto de treinamento é utilizado para induzir um modelo de classificação que será utilizado para classificar novas instâncias. Já no aprendizado semissupervisionado transdutivo, o objetivo é classificar diretamente as instâncias não rotuladas sem a necessidade de induzir um modelo de classificação. 28 O aprendizado semissupervisionado considera o conjunto D de padrões como sendo dividido em dois subconjuntos: 1) os dados rotulados {DL} = {(xi, yi)|i = 1 · · · l} onde x é o padrão, y é o rótulo do padrão x e l é a quantidade de instâncias rotuladas; 2) os dados não rotulados {DU} = {(xj)|j = l+ 1 · · · l+ u}, onde x é o padrão e u é a quantidade de instâncias não rotuladas. Muitas vezes, tem-se que |DU |  |DL|. A Figura 2 representa o conjunto de dados D, característico do aprendizado semissupervisionado, sendo formado pelos conjuntos {DL} e {DU}. Figura 2: Conjunto de dados para aprendizado semissupervisionado Dado que o conjunto de dados rotulados é escasso, para maioria dos casos, faz-se necessário que o aprendizado semissupervisionado seja baseado em algumas premissas ou hipóteses (do inglês assumptions), tais como: premissa de suavidade (smoothness assump- tion), premissa de agrupamento (clustering assumption) e premissa de geração de coleções (manifold assumption). De acordo com Chapelle, Scholkopf e Zien (2006), a premissa de suavidade analisa a distância entre dois pontos. Se dois pontos x1 e x2 em uma região de alta densidade estão próximos, ou seja, possuem um pequeno valor de distância entre si, então também estarão próximas suas saídas correspondentes, y1 e y2. Em outras palavras, se dois pontos estão próximos (por exemplo, a distância euclidiana entre eles é pequena), é provável que eles tenham o mesmo rótulo. Já na premissa de agrupamento, as instâncias em cada classe formam um grupo coerente, ou seja, se os pontos estão em um mesmo agrupamento 29 (cluster), é provável que estejam em uma mesma classe, ou ainda, a fronteira de decisão encontra-se em uma região de baixa densidade. Este é um caso especial da premissa anterior. Por outro lado, na premissa de geração de coleções os dados podem ser mapeados para regiões de menor dimensão evitando o problema da alta dimensionalidade. Segundo Santos (2012), uma das vantagens do aprendizado semissupervisionado é o potencial de reduzir a necessidade de uma grande quantidade de dados rotulados, em domínios nos quais somente um pequeno conjunto de padrões rotulados está disponível. Outra vantagem desse tipo de aprendizado pode ser verificada quando o especialista não apresenta um total conhecimento sobre o conceito a ser aprendido, ou seja, esse especialista tem apenas o conhecimento de alguns padrões de um determinado conjunto de dados, apresentando assim, grande dificuldade de rotular instâncias para incrementar o conjunto de dados de treinamento. Na literatura, é possível encontrar vários algoritmos que lidam com bases de dados semissupervisionadas, entre eles self-training, modelos de misturas, co-training, métodos baseados em grafos e máquinas de vetores suporte semissupervisionado (ZHU; GOLDBERG, 2009). No entanto, para o desenvolvimento desta tese foram escolhidos o self-training (YAROWSKY, 1995) por ter sido utilizado no trabalho que serviu como base para esta pesquisa e o co-training (BLUM; MITCHELL, 1998) por ter seu processo de classificação semelhante ao self-training, diferindo na utilização do aprendizado multivisões. Em relação ao algoritmo de classificação semissupervisionada self-training, diversas pesquisas tem sido realizadas, seja para avaliar seu desempenho (TANHA; SOMEREN; AF- SARMANESH, 2017; YU, 2013) ou para fazer adaptações no seu funcionamento (AGHABA- BAEI; MAKREHCHI, 2016; FRINKEN et al., 2014; TAO et al., 2016; GAN et al., 2013; WU et al., 2017; WANG et al., 2017). Por outro lado, o co-training vem sendo difundido na literatura, tanto para inspirar novos algoritmos (BAI et al., 2012) quanto para utilizá-lo na resolução de problemas (ARYOYUDANTA; ADJI; HIDAYAH, 2016; HOANG; CHAU; PHUNG, 2016; SAMI- APPAN; MOORHEAD, 2015). Ambos os algoritmos serão detalhados nas próximas seções. 2.2.1 Self-Training Provavelmente a ideia mais antiga sobre o uso de dados não rotulados na classificação é a autoaprendizagem (do inglês self-learning), que também é denominada autotreina- mento (do inglês self-training), autorrotulagem (do inglês self-labeling) ou aprendizagem orientada pela decisão (do inglês desicion-directed learning). Este é um algoritmo wrapper (do inglês wrapper-algorithm) que usa repetidamente um método de aprendizado super- 30 visionado e começa treinando apenas os dados rotulados. Em cada passo, uma parte das instâncias não rotuladas é rotulada de acordo com a função de decisão corrente. O mé- todo supervisionado é novamente treinado usando suas próprias previsões como instâncias rotuladas adicionais (CHAPELLE; SCHOLKOPF; ZIEN, 2006). A Figura 3 apresenta o fluxo do processo de rotulagem executado pelo self-training. Inicialmente, um classificador é gerado com uma pequena porção de dados rotulados. A seguir, este classificador é usado para classificar os dados não rotulados. As instâncias não rotuladas de maior confiança, juntamente com seus rótulos preditos, são adicionados ao conjunto de treinamento. O classificador é retreinado e o procedimento repetido até que Figura 3: Processo de rotulagem do self-training. o conjunto de dados não rotulados esteja vazio. O Algoritmo 1 contém o passo a passo executado para a realização deste processo. Observe que o classificador usa suas próprias predições para ensinar a si próprio, por isso o nome self-training (ZHU; GOLDBERG, 2009). No trabalho de Rodrigues, Santos e Canuto (2013) foi implementado um algoritmo baseado na técnica self-training com a adaptação de adicionar um parâmetro de confiança a ser usado como limiar para inclusão de novas instâncias ao conjunto de dados rotula- dos. Sendo assim, será incluída no conjunto de dados rotulados qualquer instância cuja confiança na predição seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias (limiar). Para facilitar o entendimento, o Algoritmo 2 apresenta o passo a passo deste algoritmo que foi a base desta tese. 2.2.2 Co-Training A técnica denominada co-training, proposta inicialmente por Blum e Mitchell (1998), é similar à self-training, pois incrementa o conjunto de dados rotulados classificando ite- 31 Algoritmo 1: Algoritmo Self-Training Entrada: dados rotulados {DL}, dados não rotulados {DU}, um aprendiz chamado k 1 início 2 inicialmente temos {DL} = {(xi, yi)|i = 1 · · · l} e {DU} = {(xj)|j = l + 1 · · · l + u} 3 repita 4 Treinar o classificador f a partir de {DL} usando aprendizado supervisionado; 5 Aplicar f para as instâncias em {DU}; 6 Remover um subconjunto S = {s1, s2, · · · , sn} de {DU}, contendo as primeiras k instâncias com predição de maior confiança; 7 Adicionar ao conjunto {DL} o subconjunto {(x, f(x))|xS}. 8 até {DU} = ∅; 9 fim 10 Saída: dados rotulados Algoritmo 2: Algoritmo Self-Training Proposto por (RODRIGUES; SANTOS; CA- NUTO, 2013) Entrada: dados rotulados {DL}, dados não rotulados {DU} 1 início 2 inicialmente temos {DL} = {(xi, yi)|i = 1 · · · l} e {DU} = {(xj)|j = l + 1 · · · l + u} 3 repita 4 Treinar o classificador f a partir de {DL} usando aprendizado supervisionado; 5 Aplicar f para as instâncias em {DU}; 6 Remover um subconjunto S = {s1, s2, · · · , sn} de {DU}, tal que a taxa de confiança em f(x) seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias; 7 Adicionar ao conjunto {DL} o subconjunto {(x, f(x))|xS}. 8 até {DU} = ∅ ou não existir instância cuja taxa de confiança em f(x) seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias ; 9 fim 10 Saída: dados rotulados 32 rativamente o conjunto de dados não rotulados e movendo as instâncias de predição mais confiáveis para o conjunto dos dados rotulados. No entanto, ao contrário do self-training, dois classificadores complementares são simultaneamente gerados, alimentados com duas visões diferentes do conjunto de atributos: (1) (2)Xi = [Xi , Xi ], onde Xi é uma instância, (1) (2) Xi é uma visão com parte dos atributos da instância Xi e Xi é a visão formada pelos atributos da instância (1)Xi que não foram utilizados em Xi . A Figura 4 apresenta um exemplo de duas possíveis visões geradas pelo co-training, onde o conjunto X = {X1, X2, X3, X4, X5, X6} representa as instâncias dos dados, o con- junto A = {A1, A2, A3, A4} corresponde aos atributos e Y é o atributo classe, em outras palavras, Y é a coluna equivalente aos rótulos de cada instância. Observe que a visão 1 é formada pelos atributos A1 e A4 e a visão 2 pelos atributos A2 e A3. Além disso, as visões 1 e 2 possuem dois conjuntos de dados, os rotulados (X1, X3, X4, X6) e os não rotulados (X2, X5). Figura 4: Exemplo de duas visões geradas pelo co-training. Após gerar as duas visões dos dados, a predição do primeiro classificador é usada para aumentar o conjunto de dados rotulados disponível para o segundo classificador e vice- versa (ALBALATE; MINKER, 2011). Em outras palavras, a predição de um classificador é apresentada ao outro e vice-versa e suas saídas são combinadas. A Figura 5 apresenta o fluxo do processo de rotulagem do co-training. No início são criadas duas visões, em seguida são gerados dois classificadores supervisionados (C1 e C2), a partir dos dados rotulados de cada uma das duas visões. O próximo passo é classificar 33 Figura 5: Processo de rotulagem do co-training. os dados não rotulados de cada uma das visões usando o classificador C1 para rotular a visão 1 e o C2 para rotular a visão 2. Por conseguinte, serão adicionados ao conjunto de dados rotulados da visão 1 as instâncias de maior confiança na predição do classificador C2 e na visão 2 as instâncias de maior confiança na predição do classificador C1. Esse processo se repete até que o conjunto dos dados não rotulados esteja vazio. O Algoritmo 3 corresponde ao passo a passo executado para realização deste processo. 2.3 Classificação de dados No contexto de aprendizado de máquina, um sistema de classificação ou classificador é uma técnica que formula uma hipótese baseada em uma amostra de dados (MONARD; BARANAUSKAS, 2003). Como exemplo de um sistema de classificação pode-se citar um sistema de crédito em que o banco decide se o cliente é de alto ou baixo risco de acordo com o valor do crédito e as informações sobre o cliente. Estas informações incluem dados que o banco tem acesso e que são relevantes para calcular a capacidade de financiamento do cliente, por exemplo: rendimento, poupança, profissão, idade, histórico financeiro, entre outros. O banco tem um histórico de financiamentos contendo tais dados dos clientes e se os pagamentos foram realizados em dia ou não. Para esses dados de aplicações particulares, o objetivo é inferir uma regra geral, codificando a associação entre atributos do cliente e o risco dele. Em outras palavras, um sistema de classificação cria um modelo usando os dados antigos do cliente de forma útil para calcular o risco para uma nova aplicação e então decide consequentemente aprovar ou não o crédito solicitado (ALPAYDIN, 2010). A Tabela 1 mostra um exemplo, semelhante ao citado anteriormente, apresentando um conjunto de dados fictícios para avaliação de crédito de clientes bancários. Nesta tabela, 34 Algoritmo 3: Algoritmo Co-Training Entrada: dados rotulados {DL} = {(xi, yi)|i = 1 · · · l}, dados não rotulados {DU} = {(xj)|j = l + 1 · · · l + u}, um aprendiz chamado k. 1 início 2 Cada instância tem duas visões (1) (2)Xi = [Xi , Xi ]. 3 Inicialmente, temos as instâncias de treinamento sendo (1) { (1) (1) (2) (2) (2)DL = (Xi , Yi), ..., (Xl , Yl)} e DL = {(Xi , Yi), ..., (Xl , Yl)} e 4 as instâncias não rotuladas sendo (1) (1) (1)DU = {(Xi ), ..., (Xl )} e (2) { (2) (2)DU = (Xi ), ..., (Xl )} 5 onde, { } = (1) ∪ (2) e (1) − (2)6 DL DL DL DL DL = ∅ (1) (2) (1) (2) 7 {DU} = DU ∪DU e DU −DU = ∅ 8 repita 9 Gerar os classificadores f (1) e f (2) a partir dos dados de treinamento (1)DL e (2)DL , respectivamente. 10 Classificar os dados não rotulados (1) e (2)DU DU usando os classificadores f (1) e f (2), respectivamente. 11 Adicionar as primeiras k instâncias com predição de maior confiança classificadas por f (1) para o conjunto (2)DL . 12 Adicionar as primeiras k instâncias com predição de maior confiança classificadas por f (2) para o conjunto (1)DL . 13 Remover essas instâncias do conjunto de dados não rotulados. 14 até {DU} = ∅; 15 fim 16 Saída: dados rotulados cada linha representa uma instância do conjunto de dados e cada coluna um atributo desta instância. O atributo Crédito é especial, pois possui o rótulo da classe para cada exemplo, ou seja, aprovado ou não aprovado. Vários algoritmos podem ser utilizados em sistemas de classificação; as principais diferenças entre eles dizem respeito à estratégia de pesquisa, linguagem de representação e à quantidade de conhecimento utilizado a priori (PADHY, 2005). A próxima seção define alguns desses algoritmos, os quais podem ser chamados de classificadores. 2.4 Tipos de Classificadores Na classificação semissupervisionada é necessário a utilização de classificadores su- pervisionados para treinar instâncias rotuladas, que a partir deste aprendizado fazem a predição das instâncias não rotuladas (ZHU; GOLDBERG, 2009). Foram escolhidos para 35 Tabela 1: Conjunto de dados para avaliação de crédito Clientes Valor solicitado Rendimento Profissão Crédito Ana R$ 2.456,00 R$ 30.000,00 Médico Aprovado José R$ 7.800,00 R$ 9.000,00 Engenheiro Não aprovado Maria R$ 18.000,00 R$ 13.000,00 Contador Não aprovado Josefina R$ 2.310,00 R$19.000,00 Advogado Aprovado João R$ 2.670,00 R$ 4.400,00 Professor Aprovado utilização nos experimentos deste trabalho quatro algoritmos – árvore de decisão (AD), Naive Bayes (NB), Ripper e k Vizinhos mais próximos(k -NN) – que são populares na literatura e, por isso, bastante utilizados em trabalhos de aprendizado de máquina (TA- NHA; SOMEREN; AFSARMANESH, 2017; WU et al., 2017; ZHAO MINLIE HUANG; ZIYU YAO, 2016). Tais algoritmos serão descritos adiante. 2.4.1 Naive Bayes No algoritmo de aprendizado de máquina Naive Bayes, para cada classe de decisão é calculada a probabilidade condicional de que essa classe seja correta. As probabilida- des envolvidas são calculadas como frequências obtidas sobre os padrões de treinamento (MITCHELL, 1997). Em outras palavras, pode-se dizer que o funcionamento do algoritmo de aprendizado de máquina Naive Bayes é baseado no cálculo da probabilidade de um padrão pertencer à determinada classe. Sendo assim, o classificador Naive Bayes calcula a probabilidade de cada padrão pertencer a cada uma das classes do conjunto de treina- mento, e, analisando esses valores, será atribuída a cada padrão a classe na qual ele tem maior valor da probabilidade. No classificador Naive Bayes, todos os atributos da base de dados são considerados independentes entre si. Portanto, embora seja admitida a não existência de dependências condicionais entre os atributos, o Naive Bayes, ainda assim, apresenta resultados confiáveis e fiéis à base de dados (KUNCHEVA, 2014). O Naive Bayes se destaca como um dos mais simples e, computacionalmente, mais eficientes entre os métodos de aprendizado existentes, sendo robusto contra ruídos nos dados e atributos irrelevantes (MITCHELL, 1997). 36 2.4.2 Árvore de Decisão A indução de regras de árvores de decisão é um processo de aprendizado de máquina no qual se pode obter a classificação de um conjunto de dados, por meio da geração de um conjunto de regras que podem ser visualizadas num formato de árvore (WITTEN; FRANK; HALL, 2011). Uma forma bastante simples de explicar o funcionamento de uma árvore de decisão é, como uma lista de perguntas e respostas, hierarquicamente arranjadas, que levam a uma decisão. A Figura 6, adaptada de Gama et al. (2011), apresenta um exemplo de uma árvore de decisão que analisa o tempo e indica se está propício para jogar tênis ou não. De acordo com a figura, as condições climáticas apropriadas para jogar tênis são três: 1. Se estiver fazendo sol e com a humidade normal ou 2. Em dias nublados ou 3. Em caso de chuva, mas com vento fraco. Figura 6: Exemplo de uma árvore de decisão para jogar tênis (adaptado de Gama et al. (2011)) Desse modo, uma árvore de decisão pode ser definida como uma estrutura de dados gerada recursivamente como um nó folha, que corresponde a uma classe, ou um nó de decisão que contém um teste sobre algum atributo. Para cada resultado do teste existe uma aresta para uma subárvore. Cada subárvore tem a mesma estrutura que a árvore. A árvore pode ser representada como um conjunto de regras. Cada regra tem seu início na raiz da árvore e caminha até uma de suas folhas (MONARD; BARANAUSKAS, 2003). 37 Entre os diversos algoritmos utilizados na construção de árvores de decisão, o C4.5 é considerado um dos mais populares (KUNCHEVA, 2014). Por essa razão, a implementação utilizada neste trabalho é a C4.5. Em geral, o procedimento de uma árvore de decisão (AD) é dado como: 1. Apresenta-se um elemento do conjunto de dados ao nó inicial (ou nó raiz) da árvore; 2. Dependendo do resultado do teste lógico usado pelo nó, a árvore se ramifica para um dos nós filhos; 3. Este procedimento é repetido até que um nó terminal (nó folha) seja alcançado. As árvores de decisão possuem como vantagem, diante de outras técnicas de apren- dizado de máquina, o fato de produzirem modelos que podem ser facilmente interpreta- dos por humanos, possibilitando assim que especialistas possam analisar um conjunto de regras aprendidas por uma árvore de decisão e determinar se o modelo aprendido é acei- tável diante das restrições do mundo real. As árvores de decisão possuem uma estrutura de fácil manipulação e mostram explicitamente como se chegou à conclusão (MONARD; BARANAUSKAS, 2003). Dentre diversos métodos existentes para construção de classificadores, os indutores de árvores de decisão apresentam vantagens tais como: esforço computacional reduzido, simplicidade na interpretação das regras e seleção automática de atributos relevantes, quando comparados, por exemplo, com redes neurais (WITTEN; FRANK; HALL, 2011). Apesar das vantagens citadas acima, as árvores de decisão possuem algumas desvan- tagens, tais como: nem sempre o especialista raciocina na forma de um conjunto de regras; as respostas não necessariamente são do tipo "sim"ou "não"e podem não ser mutuamente exclusivas (MONARD; BARANAUSKAS, 2003). 2.4.3 Ripper O algoritmo Ripper, inicialmente proposto por Cohen (1995), foi desenvolvido a partir da avaliação do algoritmo de aprendizado por regras IREP (do inglês, Incremental Reduced Error Pruning). Sua primeira versão foi uma otimização do algoritmo IREP e denominado, inicialmente, de RIPPERk, atualmente conhecido como RIPPER (do inglês, Repeated Incremental Pruning to Produce Error Reduction ou Poda Incremental Repetida para Produzir Redução de Erro). 38 Ripper é um dos mais básicos e populares entre os algoritmos baseados em regras, nele o modelo de aprendizado é representado como um conjunto de regras IF-THEN. Classes são examinadas em tamanho crescente e um conjunto inicial de regras para a classe é gerado usando erro reduzido incremental. O Ripper procede tratando todas as instâncias de um julgamento específico nos dados de treinamento como uma classe e encontrando um conjunto de regras que cobrem todos os membros dessa classe. Depois disso, procede à próxima classe e faz o mesmo, repetindo isso até que todas as classes tenham sido envolvidas (BHAGYASHREE et al., 2018). De forma mais detalhada, Witten, Frank e Hall (2011) explicam que o Ripper é um acrônimo para poda incremental repetida para produzir redução de erro. As classes são examinadas em tamanho crescente e um conjunto inicial de regras para uma classe é gerado usando a redução incremental de erro reduzido. Uma condição de parada extra é introduzida, dependendo do tamanho da descrição das instâncias e do conjunto de regras. O tamanho da descrição é uma fórmula complexa que leva em conta o número de bits necessários para enviar um conjunto de instâncias com relação a um conjunto de regras, o número de bits necessários para enviar uma regra com k condições e o número de bits necessário para enviar o número inteiro k - multiplicado por um fator de 50% para compensar possível redundância nos atributos. Adicionalmente os mesmos autores explicam que, tendo produzido um conjunto de regras para a classe, cada regra é reconsiderada e duas novas variantes produzidas, usando a remoção de erros reduzidos. Neste estágio, instâncias cobertas por outras regras para a classe são removidas do conjunto de remoção e taxa de sucesso na classe. As instâncias restantes são usadas como critério de remoção. Se uma das duas variantes produzir um melhor tamanho da descrição, ela substituirá a regra. Em seguida, reativamos a fase de construção original para limpar as novas instâncias descobertas da classe. Uma verificação final é feita para garantir que cada regra contribua para a redução do comprimento da descrição, antes de continuar a gerar regras para a próxima classe. No framework Weka este algoritmo foi implementado com a denominação JRIP que será utilizada neste trabalho. 2.4.4 k Vizinhos mais Próximos (k-NN) O k -NN, também chamado de algoritmo do vizinho mais próximo, é um dos mais simples e mais utilizados algoritmos de aprendizado. Esse algoritmo classifica um novo exemplo calculando a distância entre as k instâncias mais próximas a ele. Portanto, o mesmo pode ser descrito da seguinte forma: Suponhamos um conjunto D de tuplas de 39 treinamento. Cada elemento de D é uma tupla (x1;x2;...;xn;c), onde c é a classe à qual essa tupla pertence. Cada tupla (x1;...;xn) pode ser vista como um ponto num espaço N- dimensional. Seja Y = (y1;...;yn) uma nova tupla, ainda não classificada. A fim de classificá- la, calculam-se as distâncias de Y a todas as tuplas de treinamento e consideram-se as k tuplas de treinamento mais próximas de Y . Dentre essas k tuplas, verifica-se qual a classe que aparece com maior frequência. Sendo assim, a tupla Y será classificada dentro dessa classe mais frequente. Normalmente, o cálculo da distância entre duas tuplas é realizado utilizando a distância euclidiana (KUNCHEVA, 2014). O algoritmo k -NN assume que todos os padrões mais similares encontrados são equi- valentemente relevantes. Por esse motivo, a precisão da predição do modelo pode ser deteriorada. Uma solução para esse problema é fazer com que, entre as instâncias mais similares encontradas, as que estiverem mais próximas da nova instância possuam pesos maiores no modelo (DUDA; HART; STORK, 2000). Por basear-se apenas na distância, nor- malmente euclidiana, entre as instâncias de treinamento, pode-se afirmar que o k -NN é um algoritmo conceitualmente muito simples, porém com grande complexidade computa- cional, uma vez que para cada instância são calculadas as distâncias a todas as demais. Assim, se utilizado em grandes bases de dados, pode se tornar inviável devido ao longo tempo de processamento (WITTEN; FRANK; HALL, 2011). Além disso, o k -NN é bastante sensível a ruídos. Como solução para esse problema, pode-se utilizar a estratégia de escolher alguns números k fixos, pequenos que são aloca- dos e usados juntos para determinar a classe via voto majoritário; no entanto, o tempo computacional, inevitavelmente, aumenta. Outra forma de resolver o mesmo problema é escolher, seletivamente e criteriosamente, as instâncias adicionadas à base de dados (WITTEN; FRANK; HALL, 2011). 2.5 Comitês de Classificadores O aumento da complexidade e ampla aplicabilidade dos sistemas de classificação leva- ram a investigações de muitas abordagens e metodologias. Mesmo assim, há uma percep- ção de que nenhum classificador é considerado completamente satisfatório para uma tarefa particular; portanto, a ideia de combinar diferentes métodos para melhorar o desempe- nho surgiu como uma possibilidade muito promissora (NASCIMENTO; COELHO; CANUTO, 2014). Esta combinação é denominada comitês de classificadores, também conhecidos como sistemas multiclassificadores ou ensembles. 40 Comitês de classificadores é um campo de pesquisa dentro da inteligência artificial, mais especificamente, dentro de aprendizado de máquina e consiste em treinar vários classificadores para realizar conjuntamente uma tarefa comum. Em tarefas de classificação, um ensemble incorpora vários submodelos chamados classificadores base, que geralmente são obtidos treinando um algoritmo de aprendizado básico (árvore de decisão, rede neural, k vizinhos mais próximos, entre outros). Os comitês podem ser contruídos baseados no mesmo algoritmo de aprendizagem produzindo comitês homogêneos ou utilizando vários algoritmos gerando comitês heterogêneos (GHARROUDI, 2017). A ideia de comitês de classificadores é criar e combinar vários modelos indutivos para o mesmo domínio, obtendo melhor qualidade de previsão. O principal desafio para o sucesso de um comitê é gerar classificadores base diversificados e de bom desempenho. Portanto, para criar cada classificador base é importante observar as seguintes orientações: usar um conjunto de treinamento divergente do mesmo domínio, utilizar algoritmos distintos, no caso dos comitês heterogêneos, escolher diferentes configurações de parâmetros do algo- ritmo, acionar execuções independentes de um algoritmo não determinístico (CICHOSZ, 2015). Existe uma grande variedade de comitês de classificadores propostos na literatura e que foram aplicados em diversos campos, tais como: medicina (CHOI et al., 2016; HASAN; GHOLAMHOSSEINI; SARKAR, 2017), astronomia (PHAM et al., 2016) e ciências naturais (NIJHAWAN; RAMAN; DAS, 2018). 2.5.1 Métodos de Combinação Conforme citado anteriormente, sistemas multiclassificadores são sistemas para clas- sificação de padrões baseados na combinação de saídas de um conjunto de diferentes classificadores, chamados classificadores base. Essa combinação tem como objetivo obter sistema mais eficiente que os classificadores individuais em termos de acurácia. Um sistema multiclassificador é, portanto, formado por um conjunto de classificadores base e uma função para a combinação das saídas desses classificadores. Assim, após a geração do conjunto de classificadores base, o passo seguinte é a escolha dos métodos para combinação de suas saídas. Há um vasto número de métodos de combinação de classificadores na literatura, podendo ser agrupados em três tipos principais: fusão, seleção e híbrido (Tsymbal et al., 2005). A combinação de classificadores baseada em fusão utiliza a resposta de todos os classi- 41 ficadores componentes do sistema na construção da resposta final, ou seja, a classificação final resulta da opinião coletiva dos classificadores participantes. Já na combinação de classificadores baseada em seleção, a resposta final do sistema é dada pelo classificador base mais capacitado para o padrão de entrada dado. O método híbrido utiliza tanto a abordagem baseada em fusão quanto em seleção. Neste trabalho serão utilizados dois métodos de combinação (soma e voto, explicados adiante), ambos baseados em fusão. A escolha de métodos baseados em fusão foi feita devido ao aproveitamento das informações de todos os classificadores. Além disso, os métodos baseados em fusão são mais utilizados do que os baseados em seleção e os híbridos. Os métodos de combinação podem ser ponderados ou não. A diferença básica entre esses métodos é que os ponderados permitem que sejam atribuídos pesos para cada um dos classificadores base, enquanto os não ponderados não permitem. Serão usados neste trabalho, a princípio, dois métodos sem ponderação: soma e voto. Estes métodos serão descritos a seguir. 2.5.1.1 Soma Soma é um dos métodos de combinação mais simples e mais utilizados. Nesse método, uma vez que os classificadores base tenham gerado as saídas para um padrão, todas as saídas de cada classificador para cada uma das classes são somadas e a classe vencedora é aquela que possuir o maior valor absoluto. O método da soma permite que sejam atribuídos pesos para cada um dos classifi- cadores base. Quando são utilizados diferentes pesos para cada um dos classificadores, estão sendo atribuídos diferentes graus de influência de cada classificador à saída geral do sistema. Nesse caso, o método é chamado de soma ponderada. 2.5.1.2 Voto Um método de combinação de classificadores frequentemente utilizado é o método voto, também conhecido por voting ou votação. Ao utilizar esse método sua combinação é feita através da votação dos resultados de cada classificador ao ser apresentado um novo exemplo. Assim como o método da soma, este método pode atribuir pesos aos classificadores base, sendo então chamado de votação ponderada (Sinoara et al., 2002). A votação sem peso, também chamada de votação por maioria, é um método simples, porém robusto 42 (Bernardini, 2002). Neste trabalho, será utilizada a votação por maioria, a votação pon- derada poderá ser utilizada em um trabalho futuro. 2.6 Considerações Finais Este capítulo iniciou apresentando os principais conceitos associados à área de aprendi- zado de máquina, entre eles, os tipos de aprendizado supervisionado e não supervisionado. No aprendizado supervisionado, os métodos tratam da construção de indutores com o ob- jetivo de realizar inferências a partir de um conjunto de instâncias de treinamento para os quais se conhece a priori as classes às quais essas instâncias pertencem. Enquanto isso, no aprendizado não-supervisionado, os métodos recebem como entrada instâncias das quais não se conhece a priori a classe a que elas pertencem. Em seguida, apresentou-se as principais características do aprendizado semissuper- visionado, bem como os algoritmos self-training e co-training. O aprendizado semissu- pervisionado representa a junção do aprendizado supervisionado e não-supervisionado e tem como objetivo reduzir a necessidade de uma grande quantidade de dados rotula- dos, quando somente um pequeno conjunto de instâncias rotuladas está disponível. Sendo assim, a atribuição de rótulos a instâncias não-rotuladas é realizado por meio de um processo automático utilizando algoritmos de apredizado semissupervisionado, tais como self-training e co-training. A principal diferença entre esses dois algoritmos é que o co- training divide o conjunto de dados em dois subconjuntos com visões distintas. Dentre as limitações dos algoritmos self-training e co-training, está a definição da quantidade de instâncias a serem incluídas no conjunto de dados rotulados a cada iteração. Sendo assim, este trabalho explora a ideia de criar um limiar de confiança flexível que seleciona, a cada iteração, as instâncias que farão parte do conjunto dos rotulados. Por conseguinte, foram apresentados os principais conceitos associados à classificação de dados, que é um processo de extração de informações por meio de categorização, a partir de um conjunto de dados bruto. Além disso, foram explicados os quatro tipos de classificadores utilizados neste trabalho, Naive Bayes, árvore de decisão, Ripper e k -NN. Adicionalmente foi explicado sobre comitês de classificadores, que exploram a ideia de que diferentes classificadores, especialistas ou módulos de reconhecimento podem oferecer informações complementares sobre padrões a serem classificados, melhorando a efetividade do processo de reconhecimento como um todo. Por fim, foram explicados os métodos de combinação usados neste trabalho, soma e voto, que servem para combinar as saídas dos 43 classificadores base que formam os comitês de classificadores. 44 3 Estado da Arte Este capítulo apresenta a descrição de alguns trabalhos desenvolvidos dentro da mesma linha de pesquisa da presente tese e está organizado em 4 subseções. Nas duas primeiras, serão apresentados os trabalhos que utilizam aprendizado semissupervisionado com os al- goritmos self-training e co-training, respectivamente. Na terceira, serão descritos trabalhos de pesquisa que envolvem comitês de classificadores com aprendizado semissupervisionado. Por fim, serão realizadas as considerações finais. 3.1 Aprendizado Semissupervisionado com Self-Training Na literatura, existem diversos trabalhos na área de aprendizado semissupervisionado que tratam do algoritmo self-training. Algumas pesquisas buscam definir formas de ava- liar o algoritmo (YU, 2013; TANHA; SOMEREN; AFSARMANESH, 2017), outras realizam alterações na sua estrutura (TAO et al., 2016; WU et al., 2017; WANG et al., 2017; GAN et al., 2013; RODRIGUES; SANTOS; CANUTO, 2013), e as demais utilizam o self-training em diferentes aplicações (FRINKEN et al., 2014; WANG et al., 2008; AGHABABAEI; MAKREHCHI, 2016). A pesquisa desenvolvida nesta tese se enquadra no grupo de trabalhos que efetuam mudanças na estrutura do self-training, por este motivo serão apresentados na próxima seção. Em relação a definição de formas para avaliar o método self-training, a pesquisa de Yu (2013) investigou a capacidade do self-training lidar com o problema de transferência de domínio através da aprendizagem de dados não rotulados no domínio alvo e dados rotu- lados em domínio(s) não alvo. Especificamente, o self-training é avaliado pela efetividade em situações de dados escassos e possibilidade de adaptação de domínio na classificação de opinião. Neste mesmo contexto, o objetivo do trabalho de Tanha, Someren e Afsarmanesh (2017) é usar uma árvore de decisão como aprendiz de base para o algoritmo self-training. A pesquisa esclareceu que melhorando a estimativa de probabilidade da árvore de decisão, 45 o self-training melhora seu desempenho. Alguns estudos usam o método self-training em diferentes domínios de aplicações (AGHABABAEI; MAKREHCHI, 2016; FRINKEN et al., 2014; WANG et al., 2008). Por exemplo, em Aghababaei e Makrehchi (2016) é proposto um modelo de aprendizado semissuper- visionado para o problema de análise de sentimento chamado interpolative self-training. Como o próprio nome indica, este modelo é uma extensão do algoritmo self-training, e o seu principal diferencial é a concatenação dos dados de treinamento e teste. No artigo de Frinken et al. (2014), os autores apresentam uma nova versão para o self-training usada no reconhecimento de manuscritos e baseada em redes neurais. Finalmente, Wang et al. (2008) introduziu o self-training para resolver a tarefa de classificação da subjetividade de sentenças. 3.1.1 Extensões do Self-Training Conforme explicado anteriormente, é possível encontrar na literatura diferentes tra- balhos que realizam alterações na estrutura do algoritmo self-training com o objetivo de criar novos algoritmos ou extensões (TAO et al., 2016; WU et al., 2017; WANG et al., 2017; GAN et al., 2013; RODRIGUES; SANTOS; CANUTO, 2013). No trabalho de Tao et al. (2016) foi desenvolvido um novo algoritmo no estilo do self-training que explora uma hipótese múltipla para otimizar o processo de autorrotulagem. Esse processo utiliza um método transdutivo baseado em grafos para gerar predições confiáveis. Ao contrário do padrão self-training, o algoritmo proposto utiliza dados rotulados e não rotulados como um todo para rotular e selecionar instâncias não rotuladas para o aumento do conjunto de trei- namento. Segundo o autor, o algoritmo proposto tem várias propriedades interessantes, entre elas: pode gerar rótulos mais confiáveis em dados não rotulados; e tem uma forte tolerância ao ruído no conjunto de treinamento. Seguindo o contexto anterior, na pesquisa de Wu et al. (2017), foi proposto um fra- mework para classificação semissupervisionada de autotreinamento, cuja estrutura de distribuição do espaço de dados (esférica ou não esférica) foi integrada ao processo do self-training. Este framework consiste de duas partes principais, uma está descobrindo a estrutura real de todo o espaço de dados, pesquisando e localizando picos de densidade de dados; a outra é integrar a estrutura real de todo o espaço de dados no processo de autotreinamento para treinar iterativamente um classificador. Já Wang et al. (2017), propuseram um framework baseado no self-training para classi- fição de imagens estimando-se a entropia de evidência de fusão de amostras não-rotuladas. 46 Para tanto, foi usada a avaliação mínima de confiança e máxima incerteza. O objetivo do presente estudo foi estabelecer as principais tecnologias necessárias para uma nova estrutura de modelo de aprendizagem semissupervisionada de autotreinamento para me- lhorar a precisão final e resolver o problema de seleção de amostras de treinamento de alta qualidade. Outra abordagem foi proposta em Gan et al. (2013), cuja intenção é que os dados não rotulados possam ser extremamente valiosos para revelar a estrutura do espaço de dados e modelar os relacionamentos entre os dados rotulados e não rotulados antes do treinamento de um classificador. Para isso, foi proposto um framework semissupervisio- nado que combina agrupamento (clustering) e classificação. Neste framework um processo de agrupamento semissupervisionado é integrado ao processo do self-training para ajudar a treinar um classificador melhor. Sua principal vantagem é o uso de dados rotulados e não rotulados para revelar a estrutura do espaço de dados real por meio da análise de clustering. Dando continuidade ao grupo de trabalhos que alteram a estrutura do algoritmo self-training, em Rodrigues, Santos e Canuto (2013) são propostos quatro métodos se- missupervisionados, baseados no self-training, que podem ser aplicados a problemas de classificação multirrótulo. A ideia principal destes métodos é minimizar a aleatoriedade com que as instâncias são escolhidas no processo de rotulagem. Desta forma, o objetivo principal do trabalho é utilizar um parâmetro de confiança no processo de rotulagem automática dos dados, visando minimizar a inclusão de ruídos melhorando, de maneira geral, a acurácia da classificação. Assim sendo, apenas instâncias cujos rótulos de saída do classificador possuem valores de confiança acima de um limite de confiança são le- vados em consideração. Nesse sentido, este limite de confiança (valor entre 0 e 1), foi usado para controlar a atribuição automática de rótulos no processo de aprendizagem semissupervisionada. 3.2 Aprendizado Semissupervisionado com Co-Training Na literatura, é possível encontrar diversos trabalhos de aprendizado semissupervisi- onado que utilizam o algoritmo co-training, tanto para resolução de problemas (SAMIAP- PAN; MOORHEAD, 2015; ARYOYUDANTA; ADJI; HIDAYAH, 2016; HOANG; CHAU; PHUNG, 2016), quanto para alterar sua estrutura criando extensões ou novos algoritmos (QIAO et 47 al., 2018; KIM et al., 2019; Chen; Pan; Chen, 2017; BAI et al., 2012). Inicialmente serão explicados os trabalhos cuja utilização do co-training tem como objetivo a resolução de problemas. No trabalho de Samiappan e Moorhead (2015) foi proposta uma abordagem semissupervisionada que adapta o aprendizado ativo (do in- glês, active learning) ao algoritmo co-training para classificar imagens hiperespectrais, selecionando automaticamente novas amostras de treinamento de pixels não rotulados. A eficácia da abordagem proposta é validada usando um classificador de máquina de vetores de suporte probabilístico. A pesquisa de Aryoyudanta, Adji e Hidayah (2016) tem como objetivo projetar um modelo de aprendizagem semi-supervisionado para o sistema NER (do inglês, Indonesian Named Entity Recognition). O NER visa identificar e classificar uma entidade com base em seu contexto, no entanto poucas instâncias possuem rótulo. Sendo assim, o modelo de aprendizado semi-supervisionado co-training foi usado para lidar com dados não rotu- lados no processo de aprendizado NER e produzir novos dados rotulados que podem ser aplicados para aprimorar um novo sistema de classificação NER. O trabalho de Hoang, Chau e Phung (2016) propõe uma nova abordagem para classificação de alunos em um sistema de crédito acadêmico, combinando transferência de aprendizagem e co-training. Um modelo resultante pode prever um status de estudo de um aluno matriculado em um programa educacional efetivamente, usando um modelo de classificação aprimorado por técnicas de aprendizagem de transferência e co-training em dados educacionais de outro programa. Além disso, esta abordagem pode lidar com a escassez de conjuntos de dados educacionais para a previsão precoce de alunos com problemas. A partir deste ponto serão apresentados os trabalhos que utilizam o co-training para criar novos algoritmos ou extensões deste algoritmo. Na pesquisa de Qiao et al. (2018) foi criado o Deep Co-training, um método baseado em aprendizado profundo (do inglês, deep learning) inspirado na estrutura do co-training. O Deep Co-training treina várias redes neurais profundas para serem utilizadas com as diferentes visões necessárias ao funcio- namento do co-training e explora exemplos contraditórios para incentivar as diferenças entre as visões, a fim de evitar que as redes entrem em colapso umas com as outras. Em Kim et al. (2019) foi proposto um método, denominado multi-co-training, cujo objetivo é melhorar o desempenho da classificação de documentos. Os documentos são transforma- dos usando três métodos de representação de documentos a fim de aumentar a variedade de conjuntos de atributos para classificação. Em Chen, Pan e Chen (2017) foi introduzido um algoritmo de aprendizado semi- 48 supervisionado combinando co-training com algoritmo de classificação de máquina de vetores de suporte ( SVM ). Por meio de um procedimento de aprendizado interativo, o novo conjunto de dados rotulado final pode ser determinado com base em conjuntos de dados não rotulados, treinando dois classificadores de SVM. No trabalho de Bai et al. (2012) foi proposto um novo algoritmo de recuperação de objetos baseado no co-training, denominado co-transduction. O objetivo do referido trabalho foi o desenvolvimento de um algoritmo para fundir diferentes medidas de similaridade para recuperação robusta de objetos através de uma estrutura de aprendizado semissupervisionado. Dadas duas medidas de similaridade e um formato de consulta, o algoritmo recupera iterativamente as formas mais semelhantes usando uma medida e os atribui a um pool para a outra medida para fazer uma nova classificação e vice-versa. 3.3 Comitês de Classificadores com Aprendizado Se- missupervisionado Na literatura há diversos estudos que relacionam comitês de classificadores com apren- dizado semissupervisionado, seja para criar frameworks (WANG, 2016; LIU; ZHAO; WANG, 2018), propor comitês de classificadores que utilizam aprendizado semissupervisionados (HOSSEINI; GHOLIPOUR; BEIGY, 2016; HUMAYUN et al., 2018) ou resolver problemas (ZHANG et al., 2018). No trabalho de Wang (2016) foi proposto um novo framework para classifi- cação de dígitos manuscritos que cria um novo método para aprendizado semissupervi- sionado utilizando comitês de classificadores. Liu, Zhao e Wang (2018) desenvolveu um framework para a extração de relações de eventos adversos a medicamentos, utilizando conteúdo gerado pelo paciente nas mídias sociais. O framework explorou vários recursos lexicais, semânticos e sintáticos e integrou o aprendizado semissupervisionado com comitês de classificadores. No trabalho de Hosseini, Gholipour e Beigy (2016), os autores propuseram um comitê de classificadores para classificar instâncias de fluxo de dados não estacionário em um am- biente semissupervisionado. Em Humayun et al. (2018), foi proposto um comitê de clas- sificadores para distinguir entre vários graus de anormalidades do coração usando sinais de fonocardiograma adquiridos usando estetoscópios digitais em um ambiente clínico. Por fim, em Zhang et al. (2018) foi apresentado um método que lida com distribuição desco- nhecida pelo aprendizado de comitês de classificadores. O método proposto pode resolver problemas de classificação semissupervisionados, incluindo distribuição desconhecida ou dados desbalanceados. 49 3.4 Considerações Finais Analisando os trabalhos explicados ao longo deste capítulo, observa-se que o parâmetro utilizado para selecionar a quantidade de instâncias a serem incluídas no conjunto de treinamento não muda no decorrer do processo de rotulagem. Sendo asssim, este parâmetro estático pode não explorar todo o potencial de uma técnica semissupervisionada, pois pode selecionar instâncias com rótulos incorretos caso permita a inclusão de muitas instâncias ou descartar instâncias com rótulos corretos caso permita a inclusão de poucas instâncias. No capítulo a seguir são descritos e apresentados novos métodos para ajuste da taxa de confiança e estratégias, entre elas comitês de classificadores, para escolha de rótulos que serão utilizados como adaptações no algoritmo self-training proposto por Rodrigues, Santos e Canuto (2013) e no co-training. 50 4 Métodos Propostos Como discutido anteriormente, o objetivo principal deste trabalho é a proposta de extensão dos métodos de classificação semissupervisionada, self-training e co-training, visando melhorar a eficiência de ambos. Sendo assim, pretende-se incluir um parâmetro de confiança ajustável a cada iteração que possa ser usado como limiar para inclusão de novas instâncias no conjunto de dados rotulados. Neste contexto, o restante deste capítulo está dividido em três seções: na primeira são apresentados os métodos para ajuste da confiança propostos neste trabalho - FlexCon-G, FlexCon e FlexCon-C; a segunda explica a metodologia a ser utilizada na realização dos experimentos; enquanto a última expõe as considerações finais deste capítulo. 4.1 Métodos para Ajuste da Confiança Conforme mencionado anteriormente, nos algoritmos de aprendizado semissupervi- sionado tradicionais, um único classificador é treinado iterativamente com um conjunto crescente de dados rotulados, começando com uma pequena porção de instâncias rotu- ladas. No entanto, observa-se que o processo de atribuição automática de rótulos é uma tarefa difícil. A questão principal está relacionada à escolha das instâncias não rotuladas a serem rotuladas. Como explicado anteriormente, em Rodrigues, Santos e Canuto (2013) um parâmetro de confiança foi incluído no processo de rotulagem. Na extensão do self-training do referido trabalho, instâncias não rotuladas cuja taxa de confiança na predição seja maior do que o limite de confiança são adicionadas ao conjunto de treinamento, juntamente com seus rótulos preditos. No entanto, este algoritmo usa um valor fixo para a taxa de confiança mínima, o que pode não usufruir de todo o potencial de um método semissupervisionado, pois é possível que instâncias com rótulos incorretos sejam selecionadas, caso o parâmetro tenha valor baixo, ou instâncias com rótulos corretos sejam descartadas, caso o parâmetro 51 tenha valor muito alto. Neste contexto, o objetivo deste trabalho é fornecer flexibilidade no limiar de confiança para incluir novas instâncias no conjunto de dados rotulados, permitindo que o processo de rotulagem seja realizado de acordo com um cenário prático real. No presente trabalho, serão propostos diversos métodos para calcular, a cada iteração, o limiar de confiança para inclusão de novas instâncias não rotuladas, entre eles: FlexCon-G, FlexCon e FlexCon-C. Esses três métodos serão descritos nas próximas subseções. 4.1.1 O Método FlexCon-G O método FlexCon-G (do inglês, Flexible Confidence with Graduation) ajusta a con- fiança de forma gradativa, sendo que inicialmente o usuário define um limiar de confiança alto (valor próximo a 100%) a ser utilizado na primeira iteração. Em seguida, uma taxa fixa (d) é definida e, em cada iteração, o limite de confiança é diminuído pela taxa d. A fórmula para calcular a confiança na iteração corrente, conf(ti+1), é descrita na Equação (4.1): conf(ti+1) = conf(ti)− d (4.1) onde conf(ti) é o valor da confiança na iteração anterior e d é a taxa que decrementa o limiar de confiança; O objetivo deste método é começar com um limiar (valor de confiança) alto e diminuí- lo gradativamente durante todo o processo de rotulagem. Na fase inicial, os algoritmos de classificação possuem um pequeno conjunto de dados rotulados (DL) e um limite restritivo é definido. À medida que o processo de rotulagem continua, o conjunto de dados rotulados (DL) aumenta e um limite de confiança menor é então usado. Além disso, cada instância incluída no conjunto de dados rotulados tem seu rótulo definido pela saída do classificador usado, da mesma forma que os métodos de aprendizado semissupervisionado em sua forma original. 4.1.2 O Método FlexCon No método para ajuste da confiança de forma flexível denominado FlexCon (do inglês, Flexible Confidence), a equação que calcula a nova taxa de confiança, representada na Equação (4.2), é baseada em três aspectos diferentes: 52 1. A taxa de confiança da iteração anterior; 2. A precisão de um classificador que utiliza como conjunto de treinamento as ins- tâncias rotuladas na iteração anterior (com os rótulos preditos pelo classificador) e como conjunto de teste o conjunto de dados inicialmente rotulado; 3. A porcentagem de instâncias rotuladas na iteração anterior. A referida equação calcula a média aritmética entre os três parâmetros explicados, sendo então definida por: ∑|Lt|1 1 |Lt| conf(ti+1) = (conf(ti) + ( prec(sj)) + ), (4.2) 3 |Lt| |D |j=1 U onde conf(ti+1) é o valor da confiança na iteração corrente, conf(ti) é o valor da confiança na iteração anterior, |Lt| é o número de instâncias rotuladas na iteração anterior t, sj é cada um dos padrões no conjnto Lt; prec(sj) é a precisão do padrão sj no tempo ti; |DU | é o número de instâncias do conjunto de dados não rotulados. Neste método, o objetivo é ajustar o limiar de confiança com base em seu valor na iteração anterior, bem como na precisão (prec) e cobertura (Lt/DU) dos classificadores gerados a partir das informações da iteração anterior. A Figura 7 apresenta um exemplo de cálculo do limiar de confiança usando o FlexCon. Supondo que será executada a segunda iteração do FlexCon, é necessário conhecer sobre a primeira iteração (quadro do lado esquerdo da figura). O quadro da esquerda exibe três informações: 1. O valor do limiar de confiança da primeira iteração (Conf(1)); 2. O conjunto de dados rotulados, com duas colunas: instância (x1, x2...x5) e rótulo (A ou B); 3. A predição do classificador para o conjunto de dados ainda não rotulados, com as colunas instância (x6, x2...x11), rótulo predito (A ou B) e a confiança na predição do classificador, que deve estar entre [0,1] e representa a certeza que o classificador tem de que a instância pertence a classe predita. Ainda no quadro da esquerda, as instâncias do conjunto de dados não rotulados que estão sombreadas (x6, x7 e x9) são aquelas cujo valor da confiança na predição é maior ou igual ao limiar de confiança (Conf(1)), ou seja, as instâncias que serão incluídas no 53 Figura 7: Exemplo de cálculo do limiar de confiança usando FlexCon. conjunto de dados rotulados. Os quadros da direita expõem o cálculo do novo valor do limiar de confiança que será usado na segunda iteração, conforme a Equação 4.2. Como pode ser observado, o processo de rotulagem possui dois passos: seleção e rotu- lagem. A utilização de taxa de confiança deve ocorrer na seleção das instâncias a serem rotuladas. A rotulagem propriamente dita pode ser feita por um método de classifica- ção. Nesta tese, iremos utilizar duas estruturas de classificação, classificadores individuais e comitês de classificadores. Para o caso da utilização de comitês, uma forma de me- lhorar ainda mais o desempenho do processo de rotulação é utilizar um comitê que é composto por classificadores construídos em todas as iterações realizadas até a iteração atual. Por exemplo, na quinta iteração, o comitê de classificadores é composto por quatro classificadores individuais, construídos nas quatro iterações anteriores. Estes classificado- res individuais são combinados por soma e voto majoritário, levando a duas versões deste método, FlexCon(s) e FlexCon(v), respectivamente. 4.1.3 O Método FlexCon-C No método para ajuste da confiança de forma flexível usando classificadores - FlexCon- C (do inglês, Flexible Confidence Classifier) - o limiar de confiança é ajustado aumentando ou diminuindo seu valor com base em uma taxa de variação (cr). Desta maneira, o limite de confiança é diminuído pela taxa de variação (cr), quando a precisão do classificador (acc) for maior que a precisão mínima aceitável (mp). Do contrário, o limite de confiança é aumentado pela taxa de variação cr, caso a precisão do classificador seja inferior a precisão mínima aceitável. Quando a precisão do classificador (acc) estiver em um intervalo de precisão mínima aceitável (mp), então o limite de confiança não será alterado e a taxa de confiança da iteração atual permanece a mesma da iteração anterior. Em todos os casos é 54 necessário considerar, como margem de segurança, uma variação aceitável (e) da precisão mínima. A Equação (4.3) apresenta o cálculo da confiança na iteração corrente, conf(ti+1), usando o FlexCon-C: conf(ti)− cr, if acc ≥ mp+ e, conf(ti+1)=conf(ti), if mp− e < acc < mp+ e, (4.3) conf(ti) + cr, if acc ≤ mp− e, onde conf(ti+1) é o valor da confiança durante a iteração corrente;mp é a precisão mínima aceitável; cr é a taxa de variação; acc é a precisão do classificador obtida na iteração anterior. Finalmente, e representa uma variação aceitável da precisão. A Figura 8 apresenta um exemplo de cálculo do limiar de confiança usando o FlexCon- C. Para tanto, é definido o valor da precisão mínima como sendo a acurácia obtida a partir do conjunto de dados inicialmente rotulados, que é utilizado para treinamento e teste (quadro do lado esquerdo superior da figura). Supondo que será executada a 2a iteração do FlexCon-C, é necessário conhecer as informações relativas a primeira iteração que são mostradas no quadro do lado esquerdo inferior: 1. O valor do limiar de confiança da primeira iteração (Conf(1)); 2. O conjunto de dados rotulados, com duas colunas: instância (x1, x2...x5) e rótulo (A ou B); 3. A predição do classificador para o conjunto de dados ainda não rotulados, com as colunas instância (x6, x2...x11), rótulo predito (A ou B) e a confiança na predição do classificador, que deve estar entre [0,1] e representa a certeza que o classificador tem de que a instância pertence a classe predita. O cálculo do limiar de confiança para 2a iteração inicia-se calculando a precisão do classificador da iteração anterior (acc), que é obtida utilizando o conjunto de dados rotu- lados na 1a iteração como conjunto de treinamento e os dados rotulados inicialmente como conjunto de teste (quadro superior esquerdo). Supondo que o usuário definiu os valores de e e cr sendo 0.01 e 0.05, respectivamente, então acc é menor do que mp - e e, por isso, a taxa de confiança será incrementada para 2a iteração (quadro inferior direito da figura). Com relação à definição de rótulos das instâncias não rotuladas (processo de ro- tulação), este método foi dividido em dois submétodos: FlexCon-C1 e FlexCon-C2. O 55 Figura 8: Exemplo de cálculo do limiar de confiança usando FlexCon-C. FlexCon-C2 usa o rótulo previsto pelo classificador gerado na primeira iteração. Esta es- colha foi devido o conjunto de treinamento ser formado pelos dados inicialmente rotulados. Em outras palavras, espera-se que os rótulos preditos por um classificador cujo conjunto de treinamento possua todos os rótulos corretos sejam mais confiáveis. O FlexCon-C1 usa comitês de classificadores para definir o rótulo de cada padrão. Tais comitês são compostos por classificadores construídos em todas as iterações realiza- das até a iteração atual, por exemplo na quinta iteração o comitê é formado pela saída dos classificadores das 4 iterações anteriores. Com o intuito de avaliar o comitê de formas diferentes, esses classificadores individuais são combinados por dois métodos de combi- nação, soma e voto majoritário, levando a duas versões deste método, FlexCon-C1(s) e FlexCon-C1(v), respectivamente. 4.2 Metodologia Experimental A metodologia experimental utilizada para aplicar os métodos propostos neste traba- lho é semelhante ao processo de rotulagem dos algoritmos self-training e co-training. A Figura 9 representa a forma como os dados deverão ser treinados e rotulados, conforme processo do self-training, usando os métodos explicados anteriormente e a Figura 10 cor- responde ao processo do co-training. É possível observar que estas imagens diferenciam das Figuras 3 e 5, respectivamente, pela inclusão dos blocos tracejados. 56 4.2.1 Metodologia Experimental Usando o self-training Na metodologia baseada no self-training (Figura 9), inicialmente gera-se um classi- ficador supervisionado, a partir do conjunto de dados rotulados, que será utilizado para classificar os dados não rotulados. Em seguida, será calculado o novo valor do limiar de confiança que é usado na seleção de novas instâncias a serem rotuladas. No passo seguinte, serão selecionadas as instâncias cujo valor da confiança na predição seja maior ou igual ao limiar de confiança, as quais são rotuladas a partir de diferentes estratégias. Por fim, o processo será reiniciado usando o novo conjunto de dados rotulados até que o conjunto de dados não rotulados esteja vazio. Figura 9: Metodologia experimental baseada no self-training. O Algoritmo 4 mostra o passo a passo da nova versão do self-training a ser imple- mentada no desenvolvimento desta tese e as linhas marcadas com vermelho indicam as principais diferenças do Algoritmo 2. O algoritmo self-training apresentado em Rodrigues, Santos e Canuto (2013) (descrito no Algoritmo 2 da Seção 2.2.1) difere da proposta deste trabalho nos seguintes aspectos: • A extensão do self-training proposto em Rodrigues, Santos e Canuto (2013) (Algo- ritmo 2 Seção 2.2.1) não altera o limiar de confiança para incluir novas instâncias, enquanto que esta proposta permite a variação deste valor para cada iteração (ver Algoritmo 4 Linha 6); • Na extensão do self-training de Rodrigues, Santos e Canuto (2013) (Algoritmo 2 Seção 2.2.1), o rótulo previsto pelo classificador é diretamente atribuído a uma instância não rotulada quando é movido para o conjunto de dados rotulados. Neste 57 Algoritmo 4: Algoritmo Self-Training com Ajuste da Confiança Entrada: dados rotulados {DL}, dados não rotulados {DU} 1 início 2 inicialmente temos {DL} = {(xi, yi)|i = 1 · · · l} e {DU} = {(xj)|j = l + 1 · · · l + u} 3 repita 4 Treinar o classificador f a partir de {DL} usando aprendizado supervisionado; 5 Aplicar f para as instâncias em {DU}; 6 Calcular o novo valor do limiar de confiança 7 Remover um subconjunto S = {s1, s2, · · · , sn} de {DU}, tal que a taxa de confiança em f(x) seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias; 8 Usar diferentes estratégias para escolha dos rótulos de cada instância do subconjunto S 9 Adicionar ao conjunto {DL} o subconjunto {(x, f(x))|xS}. 10 até {DU} = ∅; 11 fim 12 Saída: dados rotulados trabalho, são propostas diferentes estratégias para definir o rótulo correto, entre elas: comitês de classificadores (ver Algoritmo 4 Linha 8). 4.2.2 Metodologia Experimental Usando o co-training A metodologia baseada no co-training (Figura 10), é iniciada criando-se duas visões (1 e 2) distintas do conjunto de dados. Em seguida, são gerados dois classificadores super- visionados (C1: visão 1 e C2: visão 2) a partir dos conjuntos de dados rotulados, que será utilizado para classificar os dados não rotulados. Logo depois, será calculado o novo valor do limiar de confiança, para cada um dos classificadores separadamente, que é usado na seleção de novas instâncias a serem rotuladas. No passo seguinte, serão selecionadas as instâncias cujo valor da confiança na predição seja maior ou igual ao limiar de confiança definido para o classificador ao qual a instância foi classificada, estas mesmas instâncias são rotuladas a partir de diferentes estratégias. No entanto, serão adicionadas ao conjunto de dados rotulados das visões 1 e 2 as instâncias de maior confiança preditas pelos clas- sificadores C2 e C1, respectivamente. Por fim, o processo será reiniciado usando os novos conjuntos de dados rotulados até que os conjuntos de dados não rotulados estejam vazios. Neste trabalho foi desenvolvida uma extensão do algoritmo co-training seguindo a mesma metodologia de Rodrigues, Santos e Canuto (2013), ou seja, utilizando um limiar de confiança estático para seleção de instâncias no processo de rotulagem. A implementação 58 Figura 10: Metodologia experimental baseada no co-training. desta nova extensão foi necessária para possibilitar a comparação do desempenho do co- training usando limiar de confiança fixo e os métodos propostos cujo limiar é flexível. O Algoritmo 5 apresenta uma extensão do algoritmo co-training que usa um limiar fixo para selecionar as novas instâncias de treinamento. As linhas em vermelho representam as diferenças entre este algoritmo e o co-training original (Algoritmo 3). Os métodos propostos neste trabalho, FlexCon-G, FlexCon e FlexCon-C, também serão aplicados a extensão do co-training que utiliza limiar fixo, apresentada anteriormente no Algoritmo 5. O Algoritmo 6 mostra o passo a passo da nova versão do co-training, com ajuste da confiança, a ser implementada no desenvolvimento desta tese e as linhas marcadas com vermelho indicam as principais diferenças do Algoritmo 5. O algoritmo co-training usando limiar de confiança estático (descrito no Algoritmo 5 desta Seção) difere da proposta deste trabalho nos seguintes aspectos: • A extensão do co-training usando limiar fixo (Algoritmo 5) não altera o limiar de confiança para incluir novas instâncias, enquanto que esta proposta permite a variação deste valor para cada iteração (ver Algoritmo 6 Linha 11); • Na extensão do co-training usando limiar fixo (Algoritmo 5), o rótulo previsto pelo classificador é diretamente atribuído a uma instância não rotulada quando é mo- vido para o conjunto de dados rotulados. Neste trabalho, são propostas diferentes estratégias para definir o rótulo correto, entre elas: comitês de classificadores (ver Algoritmo 6 Linha 14). 59 Algoritmo 5: Algoritmo Co-Training utilizando limiar fixo Entrada: dados rotulados {DL} = {(xi, yi)|i = 1 · · · l}, dados não rotulados {DU} = {(xj)|j = l + 1 · · · l + u}. 1 início 2 Cada instância tem duas visões (1) (2)Xi = [Xi , Xi ]. 3 Inicialmente, temos as instâncias de treinamento sendo (1) (1) (1) (2) (2) (2) DL = {(Xi , Yi), ..., (Xl , Yl)} e DL = {(Xi , Yi), ..., (Xl , Yl)} e 4 as instâncias não rotuladas sendo (1)DU = { (1) (1) (Xi ), ..., (Xl )} e (2) { (2) (2)DU = (Xi ), ..., (Xl )} 5 onde, { } = (1) ∪ (2) e (1) (2)6 DL DL DL DL −DL = ∅ { } = (1) ∪ (2) e (1) (2)7 DU DU DU DU −DU = ∅ 8 repita 9 Gerar os classificadores f (1) e f (2) a partir dos dados de treinamento (1)DL e (2)DL , respectivamente. Classificar os dados não rotulados (1) e (2)10 DU DU usando os classificadores f (1) e f (2), respectivamente. 11 Adicionar ao conjunto (2)DL as instâncias classificadas por f (1), cuja taxa de confiança na predição seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias. 12 Adicionar ao conjunto (1)DL as instâncias classificadas por f (2), cuja taxa de confiança na predição seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias. 13 Remover essas instâncias do conjunto de dados não rotulados. 14 até {DU} = ∅; 15 fim 16 Saída: dados rotulados 60 Algoritmo 6: Algoritmo Co-Training com Ajuste da Confiança Entrada: dados rotulados {DL} = {(xi, yi)|i = 1 · · · l}, dados não rotulados {DU} = {(xj)|j = l + 1 · · · l + u}. 1 início 2 Cada instância tem duas visões (1) (2)Xi = [Xi , Xi ]. 3 Inicialmente, temos as instâncias de treinamento sendo (1) { (1) (1) } e (2) { (2) (2)DL = (Xi , Yi), ..., (Xl , Yl) DL = (Xi , Yi), ..., (Xl , Yl)} e (1) (1) (1) 4 as instâncias não rotuladas sendo DU = {(Xi ), ..., (Xl )} e (2) (2) (2) DU = {(Xi ), ..., (Xl )} 5 onde, (1) (2) (1) (2) 6 {DL} = DL ∪DL e DL −DL = ∅ (1) (2) (1) (2) 7 {DU} = DU ∪DU e DU −DU = ∅ 8 repita 9 Gerar os classificadores f (1) e f (2) a partir dos dados de treinamento (1)DL e (2)DL , respectivamente. 10 Classificar os dados não rotulados (1) e (2)DU DU usando os classificadores f (1) e f (2), respectivamente. 11 Calcular o novo valor do limiar de confiança 12 Adicionar ao conjunto (2)DL as instâncias classificadas por f (1), cuja taxa de confiança na predição seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias. Adicionar ao conjunto (1)13 DL as instâncias classificadas por f (2), cuja taxa de confiança na predição seja maior ou igual a taxa de confiança mínima para inclusão de novas instâncias. 14 Usar diferentes estratégias para escolha dos rótulos de cada nova instância incluída nos conjuntos de dados rotulados (1)DL e (2) DL 15 Remover essas instâncias do conjunto de dados não rotulados. 16 até {DU} = ∅; 17 fim 18 Saída: dados rotulados 61 4.3 Considerações Finais Neste capítulo foram apresentados três métodos para calcular, a cada iteração, a taxa de confiança a ser utilizada como limiar para inclusão de novas instâncias no conjunto de dados rotulados. Tais métodos foram denominados FlexCon-G, FlexCon e FlexCon-C. O método FlexCon-G altera o limiar de confiança de forma gradativa; o FlexCon calcula o limiar de confiança de acordo com a confiança da iteração anterior, a precisão de um classificador e a porcentagem de instâncias rotuladas na iteração anterior; e o FlexCon-C atualiza o limiar de confiança usando a acurácia de um classificador. Adicionalmente foi explicada a metodologia experimental através das Figuras 9 e 10 e dos Algoritmos 4 e 6. No capítulo a seguir, será apresentado o design experimental utilizado neste trabalho. 62 5 Design de Experimentos Neste capítulo, serão apresentados os materiais e métodos utilizados nos experimen- tos deste trabalho. O capítulo está dividido em quarto partes: a primeira explica cada uma das bases de dados utilizadas para testar os métodos propostos neste trabalho; a se- gunda mostra como os dados foram organizados antes do treinamento; a terceira descreve as configurações utilizadas nos experimentos; e a última são as considerações finais do capítulo. 5.1 Descrição das Bases de Dados Para validar a viabilidade dos métodos de ajuste de confiança propostos, foi realizada uma análise empírica. Nesta análise, foram utilizados 30 conjuntos de dados de classifica- ção diferentes. A Tabela 2 descreve de forma resumida os conjuntos de dados usados, em termos do número de instâncias (#Inst), dos atributos (#Att) e das classes (#Classes) em cada conjunto de dados. Além disso, indica o tipo de dados (Tipo), seja inteiro (I) e/ou categórico (C) e/ou real (R). As bases de dados utilizadas nestes experimentos foram retiradas de diversos repositó- rios: UCI Machine Learning (UCI) (DHEERU; TANISKIDOU, 2017), Knowledge Extraction based on Evolutionary Learning (KEEL) (ALCALA-FDEZ et al., 2011), Kaggle Datasets (SMITH et al., 1988) e GitHub (BREIMAN, 1996). A seguir serão apresentadas, detalhada- mente, as informações sobre cada um dos 30 conjuntos de dados utilizados neste trabalho: 1. Balance Scale: este conjunto de dados foi gerado para modelar resultados experi- mentais psicológicos. Cada exemplo é classificado como tendo a escala de equilíbrio inclinada para a direita, inclinada para a esquerda ou balanceada. A base de dados é formada por 5 atributos do tipo categórico e 625 intâncias. 2. Blood Transfusion Service Center (BTSC): é um banco de dados de doadores do Centro de Serviços de Transfusão de Sangue na cidade de Hsin-Chu, em Taiwan. A 63 Tabela 2: Conjuntos de dados Bases de dados #Inst #Att #Classes Tipo Balance Scale 625 5 3 C BTSC1 748 5 2 C Bupa 345 7 2 C,I,R Car Evaluation 1728 7 4 C Cnae-9 1080 857 9 I Connectionist Bench 208 60 2 R Hill Valley With Noise 606 101 2 R Image Segmentation 2310 19 7 R Indian Liver Patient 583 10 2 I,R Iris 150 4 3 R KR vs KP2 3196 37 2 C Leukemia 100 50 2 R Mamographic Mass 961 6 2 I Multiple Features 2000 649 10 R Mushroom 8124 22 2 C Musk 6598 168 2 I Ozone Level Detection 2536 73 2 R Pen Digits3 10992 16 10 I Phishing Website 2456 30 3 I Pima 768 9 2 I, R Planning Relax 182 13 2 R Seeds 210 7 3 R Semeion 1593 256 10 I Solar Flare 1389 10 3 C SPECTF Heart 267 44 2 I Tic-Tac-Toe Endgame 958 9 2 C Twonorm 7400 21 2 R Vehicle 946 18 4 I Waveform 5000 40 3 R Wilt 4839 6 2 R 1Blood Transfusion Service Center. 2King-Rook vs King-Pawn. 3Pen-based recognition of handwritten digits. base é composta por 748 dados de doadores, cada um incluindo R (Recência - meses desde a última doação), F (Frequência - número total de doações), M (monetária - total de sangue doado), T (tempo - meses desde a primeira doação) e uma variável binária representando se doou sangue em março de 2007 (1 representa doar sangue; 0 significa não doar sangue). 3. Bupa: é uma base dados que analisa variáveis do sangue, sensíveis aos distúrbios do fígado e que podem resultar do consumo excessivo do álcool. Cada linha no 64 conjunto de dados constitui o registro de um único indivíduo do sexo masculino. O conjunto de dados é composto por 345 instâncias, 7 atributos, que podem ser dos tipos categórico, inteiro ou real e 2 classes. 4. Car Evaluation: é um banco de dados de avaliação de carros que foi derivado de um modelo de decisão hierárquico simples. O modelo avalia carros de acordo com o preço e as características técnicas de conforto e segurança. O conjunto de dados é composto por 1728 instâncias, 7 atributos do tipo categórico e 4 classes. 5. Cnae-9: é um conjunto de dados contendo 857 atributos do tipo inteiro obtidos de 1080 documentos de descrições de negócios de empresas brasileiras categoriza- das em um subconjunto de 9 categorias catalogadas em uma tabela denominada Classificação Nacional de Atividades Econômicas (CNAE). Os textos originais fo- ram pré-processados, para obter o conjunto de dados atual: inicialmente, foi mantido apenas letras e, em seguida, foi removido preposições dos textos. Por conseguinte, as palavras foram transformadas em sua forma canônica. Finalmente, cada documento foi representado como um vetor, onde o peso de cada palavra é sua frequência no documento. Este conjunto de dados é altamente escasso (99,22% da matriz é preen- chida com zeros). 6. Connectionist Bench: é uma base de dados composta por 208 padrões, sendo 111 obtidos por sinais de sonoridade saltando de um cilindro de metal em vários ângulos e sob várias condições e 97 obtidos de rochas em condições similares. Cada padrão possui 60 atributos preenchidos com valores entre 0 e 1. Cada atributo representa a energia dentro de uma faixa de frequência específica, integrada durante um certo período de tempo. O rótulo associado a cada registro contém a letra "R"se o objeto é uma rocha e "M"se é uma mina (cilindro de metal). 7. Hill Valley With Noise: é uma base de dados em que cada registro representa 100 pontos em um gráfico bidimensional. Quando plotados em ordem (de 1 a 100) como a coordenada Y, os pontos criarão uma Colina ou um Vale. Desta maneira, o conjunto de dados é composto por 606 intâncias, 101 atributos do tipo real e 2 classes. 8. Image Segmentation: é uma base de dados, criada pelo grupo Vision da universi- dade de Massachusetts em Novembro de 1990. Este conjunto de dados é composto por imagens segmentadas manualmente e possui 2310 instâncias, 19 atributos do tipo Real e 7 classes. 65 9. Indian Liver Patient: é um conjunto de dados que foi coletado do nordeste de Andhra Pradesh, na Índia. Esta base de dados contém 416 registros de pacientes hepáticos e 167 de não hepáticos. Destas 583 instâncias, 441 são de pacientes do sexo masculino e 142 do sexo feminino. Além disso, possui 10 atributos dos tipos real e inteiro. 10. Iris: é um banco de dados conhecido na literatura sobre reconhecimento de padrões. O conjunto de dados contém 4 atributos e 3 classes de 50 instâncias cada. As classes se referem a um tipo de planta da íris (Setosa, Versicolor ou Virginica). 11. King-Rook vs King-Pawn (KR vs KP): é uma base de dados com 3196 ins- tâncias cujo formato é uma sequência de 37 valores de atributos categóricos. Cada instância é uma descrição do tabuleiro para o final do jogo de xadrez. Os primeiros 36 atributos descrevem o quadro. O último (37o) atributo é a classificação: "win"se o jogador ganhar ou "nowin"se o jogador perder. 12. Leukemia: é uma base de dados de classificação com informações que permitem indicar se o pacientes é portador ou não de leucemia. Este conjunto de dados possui 100 instâncias, 50 atributos do tipo real e duas classes. 13. Mamographic Mass: esse conjunto de dados pode ser usado para predizer a gravi- dade (benigna ou maligna) de uma lesão mamográfica. Suas instâncias são povoadas com 516 massas benignas e 445 malignas que foram identificadas em mamografias digitais coletadas no Instituto de radiologia da Universidade Erlangen-Nuremberg entre 2003 e 2006. Cada instância tem uma avaliação associada variando de 1 (de- finitivamente benigna) a 5 (altamente sugestiva de malignidade) atribuída em um processo de revisão dupla por médicos. 14. Multiple Features: é um conjunto de dados que consiste em características de numerais manuscritos extraídos de uma coleção de mapas de utilitários holandeses. A base de dados é composta por 2000 instâncias, 649 atributos do tipo real e 10 classes. 15. Mushroom: inclui descrições de amostras hipotéticas correspondentes a 23 espécies de cogumelos cultivados na família Agaricus e Lepiota. Cada espécie é identificada como definitivamente comestível, definitivamente venenosa ou de comestibilidade desconhecida e não é recomendada. Esta última classe foi combinada com a vene- nosa. Além disso, esta base de dados possui 8124 instâncias e 22 atributos categó- ricos. 66 16. Musk: é uma base de dados que descreve um conjunto de 102 moléculas, das quais 39 são julgadas por especialistas humanos como sendo almíscares e as 63 restantes são consideradas não almiscaradas. Além disso, a base é composta por 168 atributos do tipo inteiro. 17. Ozone Level Detection: é um conjunto de dados para detecção do nível de ozônio no ambiente. Ela é composta por 2536 instâncias cujos dados foram coletados de 1998 a 2004 nas áreas de Houston, Galveston e Brazoria. Cada instância possui 73 atributos do tipo real e 2 classes: 1 se o dia estiver com ozônio e 2 se o dia estiver normal. 18. Pen-based recognition of handwritten digits (Pen Digits): é uma base de dados composta por dígitos manuscritos com caneta digital. Esse conjunto de dados possui 10992 instâncias preenchidas com 16 atributos do tipo inteiro que variam de 0 a 100. O último atributo é a classe que pode receber valores entre 0 e 9. 19. Phishing Website: é uma base de dados com informações importantes que au- xiliam na previsão de sites de phishing. O conjunto de dados é formado por 2456 instâncias, 30 atributos do tipo inteiro e 3 classes. 20. Pima: é um conjunto de dados do Instituto Nacional de Diabetes e Doenças Diges- tivas e Renais. O objetivo desta base de dados é diagnosticar se um paciente tem ou não diabetes, com base em determinadas medidas de diagnóstico incluídas no conjunto de dados. Várias restrições foram colocadas na seleção dessas instâncias de um banco de dados maior. Em particular, todos os 768 pacientes são do sexo feminino, pelo menos, 21 anos de idade e de herança indígena Pima. A referida base foi povoada com valores de 9 atributos, do tipo inteiro e real. O atributo classe pode ser preenchido com 2 valores: 1 se o paciente for diabético e 0 se o paciente não for diabético. 21. Planning Relax: é um conjunto de dados que refere-se à classificação de dois es- tágios mentais dos sinais registrados pela eletroencefalografia (EEG): Planejamento (durante a imaginação do ato motor) e estado de Relaxamento. Além disso, a refe- rida base é formada por 182 instâncias e 13 atributos do tipo real. 22. Seeds: é uma base de dados com informações de sementes de amêndoas pertencentes a três variedades diferentes de trigo: Kama, Rosa e canadense. O conjunto de dados é composto por 210 instâncias, 7 atributos do tipo real e 3 classes. 67 23. Semeion: é uma base de dados composta por 1593 dígitos manuscritos de cerca de 80 pessoas. Cada pessoa escreveu em um papel todos os dígitos de 0 a 9, duas vezes. A intenção era escrever o dígito pela primeira vez do modo normal (tentando escrever cada dígito com precisão) e a segunda vez de maneira rápida (sem precisão). O conjunto de dados contém 256 do tipo inteiro e 10 classes. 24. Solar Flare: é uma base de dados que contém informações sobre a intensidade do sol. O conjunto de dados é formado por 1389 instâncias, 10 atributos do tipo categórico e 3 classes. 25. SPECTF Heart: é um conjunto de dados que descreve o diagnóstico de imagens de Tomografia Computadorizada, SPECT (do inglês Single Proton Emission Computed Tomography). Cada um dos pacientes é classificado em duas categorias: normal e anormal. O banco de dados de 267 conjuntos de imagens SPECT (pacientes) foi processado para extrair recursos que resumem as imagens originais de SPECT. Além disso, existem 44 atributos do tipo inteiro para cada paciente. 26. Tic-Tac-Toe Endgame: é um banco de dados que codifica o conjunto completo de possíveis configurações no final das partidas do jogo da velha, onde "x"é assumido como tendo jogado primeiro. O conjunto de dados é composto por 958 instâncias, 9 atributos do tipo categórico e 2 classes. 27. Twonorm: é uma base de dados artificial de classificação composta por: 7400 ins- tâncias, 21 atributos do tipo real e 2 classes. 28. Vehicle: também denominada de Vehicle silhouettes, é um conjunto de dados do Instituto Turing, Glasgow, Escócia cujo propósito é classificar uma determinada silhueta como um dos quatro tipos de veículo (ônibus, Van, veículo popular e veículo de luxo), usando um conjunto de características extraídas da silhueta. A base de dados é formada por 946 instâncias e 18 atributos do tipo inteiro. 29. Waveform: é uma base de dados de problemas multi-classe para formas de ondas. Esta base de dados é composta por 5000 instâncias, 40 atributos do tipo real e 3 classes. 30. Wilt: é um conjunto de dados de um estudo de sensoriamento remoto que envolveu a detecção de árvores doentes. Esta base de dados contém 4839 instâncias, 6 atributos do tipo real e 2 classes que indicam se a árvore está doente ou não. 68 5.2 Divisão de Dados A Figura 11 mostra, em forma de exemplo, como as bases de dados foram organizadas antes do treinamento. Segundo Witten, Frank e Hall (2011), é comum dispor de uma amostra de dados para treinamento e outra amostra independente, com dados diferentes, para teste. Desde que ambas as amostras sejam representativas, a taxa de erro no conjunto de testes dará uma boa indicação do desempenho. Desta forma, nos experimentos deste trabalho, cada base de dados foi dividida em dois conjuntos: 1. Um conjunto de treinamento, com 90% das instâncias; 2. Um conjunto de testes, com as instâncias remanescentes (10%). Figura 11: Divisão dos dados De cada conjunto de dados, 10 repetições foram obtidas por uma divisão de treina- mento/teste diferente (validação cruzada). Dado que todos os conjuntos de dados foram originalmente rotulados, foi possível realizar, de forma estratificada, 5 configurações dife- rentes usando 5%, 10%, 15%, 20% e 25% dos dados inicialmente rotulados (semelhante em Tanha, Someren e Afsarmanesh (2017)). Em outras palavras, dos 90% das instâncias selecionadas para treinamento, iniciou-se com 5% ou 10% ou 15% ou 20% ou 25% dos dados rotulados. Desta forma, é possível analisar o desempenho dos métodos à medida que se aumenta o percentual de instâncias rotuladas inicialmente. A escolha do conjunto de dados rotulados é feita aleatoriamente, mas de forma estratificada, respeitando a mesma proporção de classes do conjunto de dados inicialmente rotulado. 69 5.3 Configuração dos Experimentos Após o pré-processamento dos dados, o procedimento de treinamento/teste é inici- ado. Nesta análise, foram aplicados quatro algoritmos de classificação bem conhecidos na literatura: Naive Bayes (NB), árvore de decisão (AD), rule based classification algo- rithm (Ripper) e k vizinhos mais próximos (k -NN). Conforme explicado anteriormente, tais algoritmos foram escolhidos devido sua popularidade e utilização em trabalhos de aprendizado de máquina. Para todos os algoritmos, foram utilizadas as implementações do Weka disponíveis na linguagem R. Os detalhes sobre o funcionamento dos classifica- dores e sua implementação na linguagem R estão descritos em Cichosz (2015) e Torgo (2017). Conforme explicado anteriormente, no início do processo de rotulagem dos algoritmos self-training e co-training, o conjunto de dados rotulados possui uma pequena quantidade de instâncias. Sendo assim é necessário atribuir rótulos de forma mais criteriosa e por isso será utilizado um limiar alto. Contudo, não há como garantir que um mesmo valor possa ser considerado alto para todas as bases de dados, uma vez que cada base possui um grau de dificuldade intrínseco. Diante do exposto, o valor inicial do limiar de confiança se torna difícil de ser estimado e requer uma investigação mais detalhada. No entanto, a investigação sobre o melhor valor deste limiar não é o objetivo deste trabalho e por isso foi realizado um teste amostral usando apenas os limiares 90% e 95%. Diante dos resultados obtidos com estes dois valores de limiar optamos por defini-lo como 95% (0,95) em todos os casos. Para o método FlexCon-C, a precisão mínima aceitável (mp) para a Eq. (4.3) foi definida como sendo a precisão do classificador obtida usando o mesmo conjunto de dados para treinamento e teste. Para entender melhor, considere o seguinte exemplo: no início do processo de rotulagem existe um conjunto de dados inicialmente rotulado, o qual é utilizado tanto para treinar quanto para testar um determinado classificador. Assim, a acurácia deste classificador é maximizada e utilizada como precisão mínima aceitável durante todo o processo de rotulagem. Em outras palavras, esta é uma estimativa otimista da classificação e a acurácia durante o processo de rotulagem deve ser tão boa quanto essa estimativa otimista. Para validar o desempenho dos métodos propostos de maneira mais estatisticamente significante, foram aplicados os testes de Friedmann e post-hoc Nemenyi. Dado que es- ses testes são não paramétricos, eles são apropriados para comparar o desempenho de 70 diferentes algoritmos de aprendizado quando aplicados em conjuntos de dados separados (para uma discussão completa do teste de Friedmann, ver Theodorsson-Norheim (1987)). O teste de Friedmann e seu teste post-hoc foram usados para comparar o desempenho de todos os métodos propostos com os algoritmos self-training e co-training originais e com o self-training de Rodrigues, Santos e Canuto (2013) e o co-training que implementa a mesma ideia de limiar fixo proposto por Rodrigues, Santos e Canuto (2013). Os resultados coletados com os experimentos descritos acima serão discutidos no pró- ximo capítulo. 5.4 Considerações Finais Neste capítulo foi descrito o design experimental deste trabalho. Primeiramente, foram apresentadas cada uma das 30 bases de dados usadas para treinamento, bem como a forma de organização das mesmas (90% para treinamento e 10% para teste). Em seguida explicou-se sobre a configuração dos percentuais de instâncias inicialmente rotuladas (5%, 10%, 15%, 20% e 25%). Por fim, foram exibidas as configurações usadas a título de experimentos: os classificadores base utilizados foram Naive Bayes, árvore de decisão, Ripper e k -NN; O valor inicial do limiar de confiança para inclusão de novas instâncias foi definido como 95%; e para análise estatística foi usado o teste de Friedmann. 71 6 Resultados Experimentais Neste capítulo, serão apresentados e analisados os resultados dos experimentos que avaliam o desempenho do FlexCon-G, FlexCon e FlexCon-C aplicados aos algoritmos de aprendizado semissupervisionado self-training e co-training. Os resultados alcançados com esses métodos foram comparados com os obtidos pelo self-training e co-training originais e o proposto em Rodrigues, Santos e Canuto (2013), que utiliza um limiar de confiança estático. O capítulo está dividido em três partes: a primeira realiza uma análise do desempenho dos métodos propostos; a segunda faz uma avaliação do ponto de vista estatístico; e a terceira apresenta as considerações finais do capítulo. 6.1 Análise de Desempenho Nesta seção será apresentada a análise de resultados dos experimentos que avalia o desempenho dos métodos propostos neste trabalho. Visando facilitar a discussão, os resultados são avaliados levando em consideração a acurácia média dos algoritmos para todas as bases de dados, bem como o desvio padrão, enquanto que nos apêndices apresenta- se a acurácia de cada base de dados. As tabelas que apresentam os resultados obtidos são organizadas da seguinte forma: a primeira coluna indica o nome do método; as colunas 2 a 6 indicam a acurácia e desvio padrão obtidos pelos métodos semissupervisionados (linha) de acordo com a porcentagem de instâncias inicialmente rotuladas, a saber: 5%, 10%, 15%, 20% e 25%, respectivamente. Os métodos self-training e co-training originais foram denominados de ST original e CT original, respectivamente. Já os métodos que não variam o valor da confiança para inclusão de novas instâncias ao longo do processo, quando aplicados ao self-training e co- training são chamados, respectivamente, de ST limiar fixo e CT limiar fixo. Enquanto que para os métodos propostos nesta tese usou-se a mesma nomenclatura tanto para o self- training quanto para o co-training : FlexCon-G, FlexCon(s), FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2. Além disso, os resultados cuja acurácia de classificação é 72 superior ao self-training e co-training originais são destacados em negrito, enquanto que as células sombreadas de amarelo representam os métodos propostos cuja acurácia foi melhor do que o método que utiliza limiar fixo. As Seções 6.1.1 e 6.1.2 apresentam a análise do desempenho de cada método quando utilizados os algoritmos de aprendizado semissupervisionado self-training e co-training, respectivamente. 6.1.1 Análise de Desempenho com Self-Training Conforme explicado anteriormente, nesta seção serão apresentados os resultados de cada um dos métodos, de acordo com o percentual de instâncias inicialmente rotuladas, utilizando o algoritmo self-training. A Tabela 3 apresenta a média aritmética da acurácia e do desvio padrão de cada método usando Naive Bayes, árvore de decisão, Ripper e k -NN como algoritmos de classificação (para ver as informações que geraram esta tabela consultar as Tabelas 6 a 13 no Apêndice A). De acordo com os dados marcados em negrito na Tabela 3, conclui-se que usando os classificadores Naive Bayes e k -NN todos os métodos obtiveram melhor acurácia do que o ST original, para todas as porcentagens de instâncias inicialmente rotuladas que foram analisadas. Enquanto que usando árvore de decisão e Ripper, 71,42% (5 de 7) dos métodos alcançaram melhores resultados do que o ST Original quando utilizou-se, respectivamente, 25% e 15% dos dados inicialmente rotulados. Avaliando de maneira geral os resultados obtidos utilizando o processo de rotulagem do self-training, é possível concluir que, os métodos propostos alcançaram melhores acurácias do que o ST Original e o ST Limiar fixo, respectivamente, em 85 e 82 de 120 casos, o que equivale a aproximadamente 70% dos casos. É importante enfatizar que, usando Naive Bayes, todos os métodos propostos - FlexCon- G, FlexCon e FlexCon-C - obtiveram melhor acurácia do que o ST Original e o ST Limiar fixo, quando o percentual de instâncias inicialmente rotuladas foi 5%. Desta maneira, diz- se que tais métodos podem se adaptar bem quando utilizarem bases de dados do mundo real, que normalmente possuem uma pequena quantidade de instâncias rotuladas. Ade- mais, este mesmo resultado pode ser observado para os métodos FlexCon e FlexCon-C, quando usando 20% e 25% dos dados inicialmente rotulados. Ao contrário do classificador Naive Bayes, utilizando árvore de decisão, os métodos tiveram melhor desempenho que o ST Original e o ST Limiar fixo quando utilizam 25% de instâncias rotuladas no início do processo. 73 Tabela 3: Acurácia média de todos os métodos com os classificadores Naive Bayes, árvore de decisão, Ripper e k-NN usando self-training % instâncias rotuladas inicialmente Método 5% 10% 15% 20% 25% Naive Bayes ST Original 67,77 ± 14,69 68,67 ± 15,15 69,60 ± 15,81 70,11 ± 16,55 70,31 ± 16,67 ST Limiar fixo 68,96 ± 17,82 70,33 ± 17,79 71,13 ± 18,49 70,81 ± 18,05 71,38 ± 18,09 FlexCon-G 69,20 ± 17,47 69,50 ± 18,55 70,48 ± 17,65 70,72 ± 17,93 70,40 ± 18,18 FlexCon(s) 69,90 ± 17,10 70,66 ± 17,72 70,80 ± 18,08 71,06 ± 18,02 72,38 ± 17,44 FlexCon(v) 70,00 ± 16,97 70,89 ± 17,36 71,09 ± 17,12 71,76 ± 17,65 71,58 ± 18,17 FlexCon-C1(s) 70,11 ± 17,31 70,71 ± 17,09 70,92 ± 18,19 71,49 ± 17,92 71,64 ± 18,50 FlexCon-C1(v) 69,58 ± 17,48 70,81 ± 17,78 70,89 ± 17,80 71,45 ± 18,23 71,74 ± 18,00 FlexCon-C2 69,83 ± 17,44 70,67 ± 18,20 71,69 ± 17,58 71,54 ± 18,12 71,55 ± 18,74 Árvore de decisão ST Original 70,57 ± 17,21 75,56 ± 14,71 77,27 ± 14,28 78,60 ± 13,87 79,04 ± 13,91 ST Limiar fixo 68,94 ± 18,80 75,50 ± 14,95 77,33 ± 13,99 78,46 ± 13,96 78,93 ± 13,91 FlexCon-G 68,88 ± 19,06 75,70 ± 14,51 77,11 ± 14,07 78,54 ± 13,85 79,85 ± 13,12 FlexCon(s) 69,59 ± 18,62 75,78 ± 14,32 77,50 ± 13,97 78,88 ± 13,40 79,88 ± 13,07 FlexCon(v) 69,42 ± 18,94 75,52 ± 14,65 77,90 ± 13,80 78,53 ± 13,57 79,04 ± 13,77 FlexCon-C1(s) 69,07 ± 18,91 75,21 ± 14,83 76,76 ± 14,25 78,84 ± 13,39 79,07 ± 13,46 FlexCon-C1(v) 69,04 ± 19,14 75,48 ± 14,48 77,23 ± 14,09 78,08 ± 13,86 79,38 ± 13,01 FlexCon-C2 69,50 ± 18,78 76,32 ± 13,83 77,85 ± 13,67 78,57 ± 13,99 80,03 ± 12,73 Ripper ST Original 68,62 ± 16,32 72,88 ± 14,60 75,67 ± 13,65 77,64 ± 12,92 78,62 ± 13,01 ST Limiar fixo 67,23 ± 16,70 72,27 ± 14,40 75,85 ± 13,56 77,16 ± 13,29 78,05 ± 13,68 FlexCon-G 67,00 ± 16,87 72,39 ± 14,83 75,40 ± 13,55 77,30 ± 13,26 77,34 ± 13,57 FlexCon(s) 69,36 ± 16,21 73,53 ± 13,88 76,18 ± 13,11 77,54 ± 12,89 78,52 ± 13,32 FlexCon(v) 68,37 ± 16,91 73,22 ± 14,16 75,08 ± 13,60 77,15 ± 13,48 78,38 ± 12,73 FlexCon-C1(s) 68,59 ± 16,71 72,55 ± 14,95 76,15 ± 13,12 77,42 ± 12,91 78,49 ± 12,60 FlexCon-C1(v) 68,03 ± 16,90 72,34 ± 14,69 75,94 ± 13,18 77,77 ± 13,20 78,67 ± 12,72 FlexCon-C2 68,85 ± 16,53 74,07 ± 13,75 75,88 ± 13,19 77,54 ± 12,91 78,68 ± 12,91 k-NN ST Original 73,63 ± 13,99 76,12 ± 13,99 77,90 ± 13,88 79,23 ± 13,77 79,24 ± 13,90 ST Limiar fixo 76,03 ± 14,29 78,70 ± 13,81 80,11 ± 13,83 80,96 ± 13,80 82,06 ± 12,85 FlexCon-G 75,07 ± 14,90 78,71 ± 13,52 79,20 ± 13,87 80,38 ± 13,06 81,03 ± 12,58 FlexCon(s) 76,09 ± 14,51 78,36 ± 13,91 80,32 ± 13,45 80,98 ± 13,35 82,02 ± 13,13 FlexCon(v) 75,83 ± 14,63 78,87 ± 14,00 80,33 ± 13,32 81,01 ± 13,49 81,73 ± 12,76 FlexCon-C1(s) 76,06 ± 14,13 79,13 ± 13,25 79,79 ± 13,85 80,83 ± 13,60 81,81 ± 12,88 FlexCon-C1(v) 76,34 ± 14,14 78,90 ± 13,93 79,99 ± 13,51 81,38 ± 13,15 81,33 ± 12,89 FlexCon-C2 75,99 ± 14,85 78,94 ± 13,88 79,98 ± 13,68 80,96 ± 13,39 81,99 ± 13,02 74 Ainda observando a Tabelas 3, desta vez olhando para as células sombreadas de ama- relo, é possível afirmar que usando Naive Bayes, árvore de decisão, Ripper e k -NN os métodos propostos são melhores do que o método ST Limiar fixo em 70% (21 de 30), 76,66% (23 de 30), 83,33% (25 de 30) e 43,33% (13 de 30) dos casos, respectivamente. Além disso, observa-se que os métodos propostos obtiveram melhor desempenho do que o ST Limiar fixo utilizando os classificadores Naive Bayes, árvore de decisão e Ripper com 5%, 10%, 20% e 25% dos dados inicialmente rotulados. Estes resultados demonstram que os métodos, quando utilizam estes classificadores, se adaptam bem tanto aos maiores quanto aos menores valores de percentuais de instâncias rotuladas inicialmente. Avaliando o desempenho dos métodos, ainda na Tabela 3, para definir um método que se destaque dos demais para cada percentual de instâncias inicialmente rotuladas, observa- se que obtiveram a maior acurácia com 5%, 10%, 15%, 20% e 25%, respectivamente: 1. Naive Bayes: FlexCon-C1(s), FlexCon(v), FlexCon-C2, FlexCon(v), FlexCon(s); 2. Árvore de decisão: ST Original, FlexCon-C2, FlexCon(v), FlexCon(s), FlexCon- C2; 3. Ripper: FlexCon(s), FlexCon-C2, FlexCon(s), FlexCon-C1(v), FlexCon-C2; 4. k-NN: FlexCon-C1(v), FlexCon-C1(s), FlexCon(v), FlexCon-C1(v), ST Limiar fixo. Diante do exposto, é notório que para os classificadores Naive Bayes e Ripper o melhor método é sempre um dos propostos. Enquanto que para árvore de decisão e k -NN os métodos propostos se destacaram como melhores em 4 dos 5 percentuais de instâncias inicialmente rotuladas. O desvio padrão apresentado na Tabela 3, foi calculado considerando a acurácia média das 30 bases de dados utilizadas nos experimentos desta tese, sendo assim os altos valores podem ser justificados devido as bases de dados possuírem características diferentes e consequentemente acurácias divergentes. Além disso, percebe-se que os menores valores do desvio padrão são identificados quando utiliza-se os maiores percentuais de instâncias inicialmente rotuladas, do contrário os maiores desvios padrão se localizam nos menores percentuais, exceto para o algoritmo Naive Bayes cujos valores são semelhante para todos os percentuais de instâncias inicialmente rotuladas. A Figura 12 apresenta um gráfico que indica a quantidade de vezes que cada método alcançou o melhor desempenho em relação a todos os outros métodos, de acordo com cada 75 percentual inicialmente rotulado e cada classificador. Para explicar melhor, considere o seguinte exemplo, o FlexCon-C1(s) obteve acurácia superior aos demais métodos em dois casos: 1) com o classificador Naive Bayes usando 5% dos dados inicialmente rotulados; 2) com o classificador k -NN usando 10% dos dados inicialmente rotulados; por isso este Figura 12: Quantidade de vezes que cada método obteve maior desempenho em relação ao percentual inicialmente rotulado (self-training) método aparece, no gráfico, com a barra no número dois do eixo y. Diante do exposto, observa-se que o FlexCon-C2 se destaca com acurácia superior em 5 de 20 casos, sendo 4 com AD e Ripper (usando 10% e 25%) e 1 com NB (usando 15%). Em seguida, os métodos FlexCon(s) e FlexCon(v) com o desempenho melhor em 4 dos 20 casos, cada um e o FlexCon-C1(v) com 3 casos. Após analisar o desempenho dos métodos separados por classificadores, serão explo- rados os resultados de cada método separadamente. Como forma de explorar todos os resultados de cada um dos métodos descritos nesta tese, as Figuras 13 e 14 apresentam gráficos, do tipo boxplot, produzidos a partir das 300 medidas de acurácia (10 repetições de cada uma das 30 bases de dados) alcançadas por cada método, usando o self-training. Estes gráficos foram organizados por método, então cada gráfico possui as acurácias de um único método, separados por classificadores e percentuais de instâncias rotuladas no início do processo. Nestes gráficos, o eixo x contém o percentual de instâncias rotuladas no início do processo (5%,10%,15%,20%,25%), enquanto que o eixo y são os valores das acurácias. Além disso, como cada gráfico possui o desempenho dos quatro classificadores, estes foram separados por cores: vermelho, azul, amarelo e verde representam, respectivamente, Naive Bayes, árvore de decisão, Ripper e k -NN. Analisando os referidos gráficos, olhando para os percentuais inicialmente rotulados, constata-se que, em todos os métodos, os valores das acurácias sobem a medida que o per- centual de instâncias rotuladas aumenta. Em outras palavras, quanto maior o percentual 76 Figura 13: Desempenho do ST Original e ST limiar fixo para os quatro classificadores (self-training) de instância rotuladas inicialmente, melhor o desempenho de cada um dos métodos para todos os classificadores. Diante do exposto, é possível observar que as maiores acurácias são obtidas usando 25% dos dados inicialmente rotulados, para todos os métodos (100% dos casos). Adicionalmente, observa-se que os classificadores com maior diferença de acurácia do menor para o maior percentual de instâncias inicialmente rotuladas são a árvore de decisão e o Ripper, na maioria dos casos. Já o Naive Bayes e o k -NN se desempenham de forma semelhante para todos os percentuais de instâncias rotuladas no início do processo. Além disso, verifica-se que o Naive Bayes foi o classificador com maior quantidade de valores discrepantes em todos os métodos. 6.1.2 Análise de Desempenho com Co-Training Os resultados relativos ao desempenho de cada método utilizando o algoritmo co- training com os classificadores Naive Bayes, árvore de decisão, Ripper e k -NN são apre- sentados na Tabela 4 (Para visualizar os dados que geraram cada uma destas tabelas, consultar: Tabelas 14 a 20 no Apêndice B). De acordo com os dados apresentados na Ta- bela 4, observa-se que todos os métodos obtiveram acurácia maior do que o CT Original em 100% dos casos (valores em negrito). Comparando as acurácias dos métodos propostos com as do CT Limiar fixo (células sombreadas de amarelo na Tabela 4) , o Naive Bayes alcançou melhores resultados em 3 77 Figura 14: Desempenho dos métodos propostos para os quatro classificadores (self- training) 78 Tabela 4: Acurácia média de todos os métodos com os classificadores Naive Bayes, árvore de decisão, Ripper e k-NN usando co-training % instâncias rotuladas inicialmente Método 5% 10% 15% 20% 25% Naive Bayes CT Original 59,90 ± 19,47 61,59 ± 18,89 62,75 ± 18,50 63,13 ± 18,67 63,89 ± 18,62 CT Limiar fixo 61,98 ± 17,72 64,34 ± 17,57 65,32 ±17,90 65,89 ± 18,26 66,81 ± 17,45 FlexCon-G 60,54 ± 18,50 62,24 ± 18,00 63,47 ± 18,45 63,52 ± 18,09 64,69 ± 18,02 FlexCon(s) 61,83 ± 19,01 63,64 ± 18,91 64,22 ± 18,53 65,23 ± 18,20 65,37 ± 18,40 FlexCon(v) 62,25 ± 18,73 63,58 ± 18,21 64,82 ± 18,30 65,16 ± 18,24 65,50 ± 18,36 FlexCon-C1(s) 62,25 ± 17,96 63,74 ± 17,86 64,72 ± 18,39 65,35 ± 18,39 65,97 ± 18,41 FlexCon-C1(v) 61,69 ± 18,31 63,90 ± 18,50 64,82 ± 18,23 65,46 ± 18,43 65,66 ± 18,41 FlexCon-C2 61,87 ± 18,20 64,21 ± 18,22 64,91 ± 17,84 65,98 ± 17,79 66,09 ± 18,08 Árvore de decisão CT Original 59,63 ± 20,92 63,18 ± 20,10 65,90 ± 18,81 66,98 ± 18,22 68,43 ± 17,95 CT Limiar fixo 62,09 ± 19,99 68,66 ± 16,75 70,00 ± 15,74 71,03 ± 15,29 72,26 ± 14,79 FlexCon-G 59,79 ± 20,66 66,26 ± 17,77 67,03 ± 17,75 68,90 ± 16,71 70,06 ± 16,63 FlexCon(s) 61,39 ± 20,54 67,45 ± 18,19 68,60 ± 17,73 69,81 ± 17,23 70,72 ± 16,35 FlexCon(v) 61,83 ± 20,30 67,47 ± 17,92 68,63 ± 17,48 69,97 ± 16,84 70,10 ± 16,79 FlexCon-C1(s) 61,36 ± 21,28 66,11 ± 18,86 68,17 ± 17,91 68,87 ± 17,55 69,92 ± 16,98 FlexCon-C1(v) 61,17 ± 20,85 66,70± 18,79 68,46 ± 17,71 69,47 ± 17,00 69,91 ± 16,86 FlexCon-C2 61,73 ± 20,33 67,14 ± 18,35 68,19 ± 17,46 69,92 ± 16,70 70,24 ± 16,21 Ripper CT Original 59,26 ± 16,78 63,19 ± 15,64 65,07 ± 15,91 66,64 ± 15,77 68,65 ± 15,87 CT Limiar fixo 64,07 ± 16,33 67,92 ± 15,30 69,63 ± 14,80 70,38 ± 14,29 71,66 ± 14,12 FlexCon-G 60,68 ± 17,04 64,16 ± 15,57 65,73 ± 14,95 67,26 ± 14,93 68,63 ± 14,20 FlexCon(s) 62,70 ± 18,54 66,31 ± 17,86 67,00 ± 17,60 68,58± 17,04 69,52 ± 16,97 FlexCon(v) 62,88 ± 18,58 66,10 ± 18,30 67,30 ± 17,87 68,72 ± 17,19 69,44 ± 16,87 FlexCon-C1(s) 61,86 ± 18,35 66,00 ± 17,48 67,24 ± 17,58 68,37 ± 16,85 69,82 ± 16,33 FlexCon-C1(v) 62,16 ± 18,96 65,53 ± 17,55 67,23 ± 17,05 68,38 ± 16,89 69,38 ± 16,43 FlexCon-C2 61,38 ± 19,86 65,25 ± 18,57 66,92 ± 17,97 67,84 ± 17,49 69,53 ± 16,69 k-NN CT Original 65,15 ± 17,88 69,04 ± 17,32 70,71 ± 17,05 72,25 ± 16,87 72,88 ± 17,01 CT Limiar fixo 70,28 ± 14,66 72,79 ± 14,06 74,41 ± 13,32 75,07 ± 13,27 75,66 ± 12,81 FlexCon-G 67,84 ± 18,14 70,78 ± 16,61 71,93 ± 16,37 72,60 ± 16,36 73,73 ± 15,61 FlexCon(s) 68,49 ± 17,30 70,84 ± 16,03 72,34 ± 15,76 73,24 ± 15,26 73,93 ± 15,00 FlexCon(v) 67,72 ± 17,78 71,14 ± 16,52 72,26 ± 15,24 73,28 ± 15,24 73,92 ± 15,01 FlexCon-C1(s) 68,18 ± 17,98 70,28 ± 16,72 72,19 ± 15,98 73,29 ± 15,42 74,56 ± 14,37 FlexCon-C1(v) 68,58 ± 17,02 70,83 ± 16,79 72,84 ± 15,57 73,68 ± 15,08 74,70 ± 14,87 FlexCon-C2 67,86 ± 16,97 71,14 ± 15,43 72,28 ± 15,63 73,38 ± 14,74 74,63 ± 14,29 79 de 30 casos e usando os demais classificadores nenhum dos métodos propostos superaram a acurácia deste método. Este resultado pode ser justificado pela quantidade de instâncias rotuladas durante o processo de rotulagem, pois os métodos propostos rotulam todas as instâncias não rotuladas, enquanto o CT Limiar fixo não rotula as instâncias cuja taxa de confiança seja menor do que o limiar inicialmente definido. Este comportamento dos métodos propostos implica na possibilidade de inclusão de instâncias com baixa confi- ança, que podem influenciar negativamente a predição dos classificadores. Do contrário, o procedimento do CT Limiar fixo pode acarretar na inclusão de poucas instâncias no con- junto de treinamento. Desta maneira, o conjunto de treinamento pode conter apenas as instâncias cuja predição é confiável, afetando positivamente a predição dos classificadores. 80 Para comprovar a justificativa acima foram criados dois gráficos, mostrados na Fi- gura 15, que apresentam o percentual médio de instâncias rotuladas usando os métodos com limiar fixo e os propostos. Nos referidos gráficos, o eixo x representa o percentual de instâncias rotuladas inicialmente e o eixo y representa o percentual médio de instâncias incluídas no conjunto de dados rotulados durante o processo de rotulagem. As barras na cor vermelha indicam os 100% de instâncias rotuladas pelos métodos propostos, enquanto que as cores verde, azul, amarelo e marrom representam o método de limiar fixo usando os classificadores Naive Bayes, árvore de decisão, Ripper e k -NN, respectivamente. Figura 15: Percentual médio de instâncias rotuladas usando os métodos de limiar fixo e os propostos Analisando a Figura 15, observa-se que o ST Limiar fixo (gráfico da esquerda) cujo desempenho se aproxima dos métodos com limiar flexível, rotula aproximadamente 80% das instâncias utilizando o limiar fixo em 95%. Usando este mesmo valor de limiar, o método CT Limiar fixo (gráfico da direita) rotula no pior e melhor caso, respectivamente, 30% e 70% das instâncias do conjunto de dados não rotulados. Por outro lado, os métodos propostos, que utilizam limiar flexível, rotulam todo o conjunto de dados não rotulados e iniciam seu processo de rotulagem com o limiar em 95%, mas necessitam decrescer esse valor para conseguir incluir as instâncias remanescentes. Diante do exposto, é possível reafirmar que a pequena quantidade de instâncias rotuladas no CT Limiar fixo pode estar afetando positivamente a predição dos classificadores, devido à construção de um conjunto de treinamento formado apenas por instâncias cuja predição é confiável. Adicionalmente, foi realizado um experimento amostral com o método FlexCon(s) no qual o processo de rotulagem é interrompido no momento em que não existir nenhuma nova instância a ser rotulada, em vez de rotular todas as instâncias do conjunto de dados não rotulados. As acurácias de tal experimento estão sendo mostradas na Tabela 5 na linha denominada FlexCon(s)-CP (acurácia média gerada a partir da Tabela 22 no Apêndice C). As demais linhas da referida tabela foram replicadas da tabela 4 para comparação dos 81 resultados. Os valores em negrito representam os casos em que o FlexCon(s)-CP alcançou acurácia superior ao CT Original e ao FlexCon(s), enquanto que as células sombreadas de amarelo refletem as situações em que o FlexCon(s)-CP obteve desempenho superior ao CT Limiar fixo. Tabela 5: Acurácia média do FlexCon(s) usando critério de parada (co-training) % instâncias rotuladas inicialmente Método 5% 10% 15% 20% 25% Naive Bayes CT Original 59,90 ± 19,47 61,59 ± 18,89 62,75 ± 18,50 63,13 ± 18,67 63,89 ± 18,62 CT Limiar fixo 61,98 ± 17,72 64,34 ± 17,57 65,32 ± 17,90 65,89 ± 18,26 66,81 ± 17,45 FlexCon(s) 61,83 ± 19,01 63,64 ± 18,91 64,22 ± 18,53 65,23 ± 18,20 65,37 ± 18,40 FlexCon(s)-CP 63,21 ± 17,93 64,63 ± 17,80 65,48 ± 18,18 65,63 ± 18,37 65,93 ± 18,42 Árvore de decisão CT Original 59,63 ± 20,92 63,18 ± 20,10 65,90 ± 18,81 66,98 ± 18,22 68,43 ± 17,95 CT Limiar fixo 62,09 ± 19,99 68,66 ± 16,75 70,00 ± 15,74 71,03 ± 15,29 72,26 ± 14,79 FlexCon(s) 61,39 ± 20,54 67,45 ± 18,19 68,60 ± 17,73 69,81 ± 17,23 70,72 ± 16,35 FlexCon-CP 64,56 ± 19,53 69,49 ± 16,44 71,06 ± 15,66 71,45 ± 15,74 72,39 ± 15,04 Ripper CT Original 59,26 ± 16,78 63,19 ± 15,64 65,07 ± 15,91 66,64 ± 15,77 68,65 ± 15,87 CT Limiar fixo 64,07 ± 16,33 67,92 ± 15,30 69,63 ± 14,80 70,38 ± 14,29 71,66 ± 14,12 FlexCon(s) 62,70 ± 18,54 66,31 ± 17,86 67,00 ± 17,60 68,58 ± 17,04 69,52 ± 16,97 FlexCon(s)-CP 65,35 ± 16,90 67,85 ± 16,25 69,59 ± 14,98 70,20 ± 14,94 71,49 ± 14,23 k-NN CT Original 65,15 ± 17,88 69,04 ± 17,32 70,71 ± 17,05 72,25 ± 16,87 72,88 ± 17,01 CT Limiar fixo 70,28 ± 14,66 72,79 ± 14,06 74,41 ± 13,32 75,07 ± 13,27 75,66 ± 12,81 FlexCon(s) 68,49 ± 17,30 70,84 ± 16,03 72,34 ± 15,76 73,24 ± 15,26 73,93 ± 15,00 FlexCon(s)-CP 69,79 ± 16,26 72,35 ± 15,18 73,40 ± 14,74 74,22 ± 14,44 74,73 ± 14,16 Observando os dados da Tabela 5, percebe-se que o método FlexCon(s)-CP alcançou acurácia maior do que os métodos CT Original e FlexCon(s) em todos os casos (valo- res marcados em negrito). Além disso, o FlexCon(s)-CP obteve desempenho melhor do que o CT Limiar fixo em 3 e 5 dos 5 percentuais inicialmente rotulados usando Naive Bayes e Ripper, respectivamente (células sombreadas de amarelo). Nos demais casos, o Flexcon(s)-CP mostrou-se com desempenho semelhante ao CT Limiar fixo. Diante do exposto, conclui-se que os métodos propostos podem estar rotulando instâncias cuja con- fiança na predição seja muito baixa e por isso o seu desempenho não esteja sendo superior ao do CT Limiar fixo. No entanto, identifica-se um tradeoff em que os métodos propos- tos rotulam todas as instâncias do conjunto de dados não rotulado, embora diminua seu desempenho em relação ao CT Limiar fixo. Fazendo uma análise dos resultados da Tabela 4 comparando apenas a acurácia dos métodos propostos sem considerar o CT Original e o CT Limiar fixo, é possível observar 82 que o FlexCon-C2, usando Naive Bayes, o FlexCon(v), utilizando árvore de decisão e Rip- per e o FlexCon-C1 (v) com k -NN, foram os que se mostraram com melhor desempenho. Em outras palavras, estes métodos obtiveram maior acurácia do que os demais na maioria dos 5 percentuais de instâncias inicialmente rotuladas. Seguindo a mesma dinâmica do self-training, o desvio padrão apresentado na Tabela 4, foi calculado considerando a acurácia média das 30 bases de dados utilizadas nos expe- rimentos desta tese, sendo assim os altos valores podem ser justificados devido as bases de dados possuírem características diferentes e consequentemente desempenhos distintos. Além disso, percebe-se que utilizando os algoritmos Naive Bayes e Ripper o desvio padrão é semelhante para todos os percentuais de instâncias inicialmente rotuladas, enquanto que para Árvore de decisão e k -NN os valores são equivalentes quando os percentuais são mai- ores do que 5%. A Figura 16 apresenta um gráfico que indica a quantidade de vezes que cada método alcançou o melhor desempenho, de acordo com cada percentual inicialmente rotulado e Figura 16: Quantidade de vezes que cada método obteve maior desempenho em relação ao percentual inicialmente rotulado (co-training) cada classificador. Analisando os dados de maneira geral, observa-se que o FlexCon(v) se destaca com a melhor acurácia em 9 de 20 casos, sendo 3 com NB, AD e Ripper (usando 5%), 2 com AD e k -NN (usando 10%), 2 com AD e 2 com Ripper (ambos utilizando 15% e 20%). Em seguida, o método FlexCon-C2 com o desempenho melhor em 5 dos 20 casos, o FlexCon-C1(v) em 4 casos, o FlexCon(s) com 2 casos e o FlexCon-C1(s) com 1 caso. Seguindo a mesma lógica do self-training, para o co-training, também foram gerados gráficos, do tipo boxplot, produzidos a partir das 300 acurácias (10 repetições de cada uma das 30 bases de dados) alcançadas por cada método. Tais gráficos, foram organizados por método e são mostrados nas Figuras 17 e 18. Diante do exposto, cada gráfico possui as acurácias de um único método, separados por classificadores e percentuais de instâncias rotuladas no início do processo. Nestes gráficos, o eixo x contém o percentual de instâncias 83 rotuladas inicialmente (5%,10%,15%,20%,25%), e o eixo y são os valores das acurácias. Além disso, cada gráfico possui o desempenho dos quatro classificadores, estes foram separados por cores: vermelho, azul, amarelo e verde representam, respectivamente, Naive Bayes, árvore de decisão, Ripper e k -NN. Figura 17: Desempenho do CT Original e CT limiar fixo para os quatro classificadores (co-training) Analisando os gráficos citados acima, olhando para os percentuais inicialmente rotu- lados, constata-se que a conclusão é semelhante a do self-training, pois quanto maior o percentual, maior os valores das acurácias. Diante do exposto, é possível perceber que as maiores acurácias são obtidas usando 25% dos dados inicialmente rotulados, para todos os métodos (100% dos casos). Adicionalmente, observa-se que os classificadores com maior diferença de acurácia do menor para o maior percentual de instâncias inicialmente rotuladas são a árvore de decisão e o Ripper, na maioria dos casos. Já o Naive Bayes e o k -NN têm desempenho semelhante para todos os percentuais de instâncias rotuladas no início do processo. Olhando agora os valores discrepantes, verifica-se que o Naive Bayes possui uma grande quantidade em todos os métodos e percentuais inicialmente rotulados, exceto no CT original e FlexCon- G. Já o k -NN obteve acurácias discrepantes nos métodos FlexCon-G, FlexCon(s e v) e FlexCon-C1(s e v). 84 Figura 18: Desempenho dos métodos propostos para os quatro classificadores (co-training) 85 6.2 Análise Estatística Após avaliar o desempenho de cada método utilizando Naive Bayes, árvore de decisão, Ripper e k -NN como algoritmos de classificação no procedimento de rotulagem, foi reali- zada uma análise estatística dos resultados. Como explicado anteriormente, os testes de Friedmann e post-hoc Nemenyi foram usados para comparar o desempenho de diferentes métodos aplicados a conjuntos de dados distintos. O teste estatístico foi aplicado separadamente para os algoritmos self-training e co- training. No entanto, foram considerados cada percentual de instâncias inicialmente ro- tuladas e os quatro classificadores juntos com o intuito de facilitar a visualização dos resultados. Primeiramente, executou-se o teste de Friedmann no qual se observou que os desempenhos dos diferentes métodos são distintos de forma estatística. A diferença significativa foi detectada pelo teste de Friedmann, com p-valor < 0, 001, para todas as proporções dos dados inicialmente rotulados. Diante da diferença estatística apresentada pelo teste de Friedmann, o teste pareado, post-hoc Nemenyi, foi então aplicado para comparar os diferentes métodos dois a dois em cada percentual inicialmente rotulado. O resultado deste teste será explicado nas próximas seções utilizando os diagramas de diferença crítica (do inglês, Critical difference diagram) apresentados nas Figuras 19 e 20. Os métodos localizados mais à esquerda são considerados melhores do que os da direita, do ponto de vista estatístico. Os métodos conectados pela barra horizontal são aqueles cujo desempenho é semelhante e por isso não possuem diferença estatística. Do contrário, os métodos que não são ligados pela barra horizontal são diferentes do ponto de vista estatístico e o método mais à esquerda é superior ao da direita. 6.2.1 Análise Estatística com o Algoritmo Self-Training A Figura 19 apresenta os diagramas de diferença crítica obtidos a partir do teste es- tatístico post-hoc Nemenyi para o algoritmo self-training. Tal figura contém os diagramas separados por percentual de instâncias inicialmente rotuladas. A primeira observação que pode ser realizada nestes diagramas é que os métodos FlexCon e FlexCon-C obtiveram os melhores rankings, ou seja, aparecem mais à esquerda na maioria dos casos. O FlexCon-C2 destaca-se como superior do ponto de vista estatístico, pois está sempre à esquerda do diagrama e possui diferença crítica em relação a pelo menos um dos métodos em 4 dos 5 percentuais de instâncias inicialmente rotuladas. Além disso, este método alcançou o me- 86 Figura 19: Resultado estatístico dos métodos por percentual de instâncias inicialmente rotuladas (self-training) 87 nor ranking quando utilizou os menores percentuais de instâncias inicialmente rotuladas (5%, 10% e 15%). Analisando os diagramas da referida figura, observa-se que a diferença entre todos os métodos e o original são estatisticamente significantes em todos os percentuais de instâncias inicialmente rotuladas, exceto o FlexCon-G com 5%, 15% e 25%. Considerando o desempenho estatístico dos métodos propostos em relação ao método de limiar fixo, verifica-se que os propostos estão sempre posicionados mais à esquerda. Isto significa que os métodos propostos possuem melhor ranking do que o limiar fixo, embora sejam estatisticamente semelhantes. 6.2.2 Análise Estatística com o Algoritmo Co-Training A Figura 20 apresenta os diagramas de diferença crítica obtidos a partir do teste estatístico post-hoc Nemenyi para o algoritmo co-training. Assim como no self-training, os diagramas estão separados por percentual de instâncias inicialmente rotuladas. Analisando os diagramas da referida figura, observa-se que a diferença entre todos os métodos e o original são estatisticamente significantes, exceto o FlexCon-G com 5% e 20%. Olhando para o diagrama que utiliza 5% de instâncias inicialmente rotuladas, constata- se que o método FlexCon (s e v) é estatisticamente semelhante ao método de limiar fixo. Este pode ser considerado um bom resultado, pois além desta semelhança, o FlexCon se adaptou bem, do ponto de vista estatístico, usando poucas instâncias inicialmente rotu- ladas. Conforme justificado anteriormente, o método que usa limiar fixo alcançou melhor desempenho do que os demais, devido rotular poucas instâncias. Sendo assim, o seu con- junto de treinamento pode ser formado apenas por instâncias com alta confiabilidade. Da mesma maneira, justifica-se a obtenção de uma boa posição no ranking do teste estatístico. Corroborando a análise de desempenho realizada anteriormente, apesar do limiar fixo obter melhor desempenho estatístico, é possível notar que os métodos FlexCon e FlexCon- C, em todos os diagramas, obtiveram bons valores de ranking, ou seja, foram posicionados à esquerda do diagrama. 6.3 Considerações Finais Neste capítulo foram apresentados e discutidos os resultados dos experimentos reali- zados de acordo com as configurações descritas no Capítulo 5. Tais experimentos aplicam, 88 Figura 20: Resultado estatístico dos métodos por percentual de instâncias inicialmente rotuladas (co-training) 89 aos algoritmos self-training e co-training, os métodos de aprendizado de máquina semis- supervisionado propostos neste trabalho. A análise experimental foi realizada sob duas perspectivas, inicialmente foi avaliado o desempenho de cada método, a partir da acurácia e desvio padrão, utilizando os algoritmos self-training e co-training. Por conseguinte, foi efetuada a análise estatística separada em duas seções: a primeira trata dos resultados com o algoritmo self-training e a segunda com o co-training. Os resultados (acurácia e desvio padrão) provenientes da aplicação do self-training mostraram que, com os classificadores Naive Bayes e k -NN, todos os métodos alcançaram melhor desempenho do que o ST Original. Ademais, a maioria dos métodos, 68,33% (82 de 120), obtiveram acurácia maior do que o ST Limiar fixo. Por outro lado, utilizando o co-training, todos os quatro classificadores obtiveram desempenho melhor do que o ST Original. A avaliação do ponto de vista estatístico foi realizada utilizando o teste de Friedmann e o post-hoc Nemenyi, que comparou os métodos propostos aos originais separando por percentual de instâncias inicialmente rotuladas. A partir desta investigação observou- se que os métodos propostos são melhores do ponto de vista estatístico na maioria dos casos. Resumindo, os resultados apresentados nesta tese são promissores, uma vez que os métodos propostos, obtiveram um desempenho melhor do que os métodos originais e limiar fixo, na maioria dos casos, tanto em relação a acurácia e desvio padrão quanto na análise estatística. 90 7 Considerações Finais Este capítulo tem como objetivo apresentar uma visão geral deste trabalho. No en- tanto, serão explicados, de forma resumida, os métodos que foram propostos nesta tese, bem como os resultados e conclusões sobre os experimentos. Este capítulo está dividido em duas partes: a primeira são as conclusões do trabalho e a segunda os trabalhos futuros. 7.1 Análise final O presente trabalho está incluído na área de aprendizado de máquina, mais especifi- camente, aprendizado semissupervisionado. Uma das principais limitações dos algoritmos de aprendizado semissupervisionado está relacionada à seleção de novas instâncias a se- rem incluídas no conjunto de dados rotulados. Diante do exposto, diversas pesquisas vêm sendo realizadas para tentar sanar este problema (RODRIGUES; SANTOS; CANUTO, 2013; TAO et al., 2016; WU et al., 2017; WANG et al., 2017; GAN et al., 2013). No entanto, nenhuma delas empregou a ideia desta pesquisa, que utiliza um limiar de confiança dinâmico, para inclusão de novas instâncias no conjunto de treinamento a cada iteração. Este trabalho propôs o FlexCon-G, FlexCon e FlexCon-C, que são métodos para cálculo de taxa de confiança dinâmica e escolha de rótulos utilizados no processo de rotulagem semissupervisionada do self-training e co-training. No entanto, enquanto o self- training e co-training originais e o proposto por Rodrigues, Santos e Canuto (2013) usam um procedimento estático para incluir novas instâncias no conjunto de dados rotulados, o FlexCon-G, FlexCon e FlexCon-C visam tornar o procedimento de rotulagem mais flexível. Com isso, espera-se que os métodos propostos sejam capazes de explorar mais profundamente todo o potencial de uma técnica semissupervisionada. Para avaliar a viabilidade desta proposta, foram realizados experimentos utilizando 30 conjuntos de dados de classificação, organizados em 5 cenários diferentes, no que se refere à proporção de instâncias inicialmente rotuladas (5%, 10%, 15%, 20% e 25%). 91 Além disso, foram usados quatro algoritmos de classificação diferentes no procedimento de autotreinamento, Naive Bayes, árvore de decisão, Ripper e k -NN. Os resultados dos experimentos foram avaliados sob duas perspectivas: 1. o desempenho dos métodos em relação a acurácia e desvio padrão; 2. análise do ponto de vista estatístico. Com isso, foi possível concluir que, os métodos cujo objetivo é tornar dinâmica a taxa de confiança são promissores, pois apresentam melhor performance quando comparados aos métodos em sua forma original e na forma de limiar fixo, na maioria dos casos. Conforme os resultados apresentados anteriormente, os métodos FlexCon-G, FlexCon e FlexCon-C obtiveram melhor desempenho que o self-training e co-training, na maioria dos casos, considerando tanto as tabelas de classificação quanto os valores estatisticamente superiores. De maneira geral, os métodos propostos obtiveram desempenho satisfatório em 75% (3 de 4) dos casos, se considerados os dois algoritmos (self-training e co-training) e os dois métodos que foram usados para comparação dos resultados (ST/CT Original e ST/CT Limiar fixo). Em outras palavras, os métodos propostos neste trabalho demons- traram melhor desempenho do que o ST Original, CT Original e ST Limiar fixo. Conforme justificado anteriormente, os métodos propostos não obtiveram acurácia maior do que o CT Limiar fixo devido tais métodos rotularem todo o conjunto de dados não rotulados. Sendo assim, identificou-se um tradeoff em que o desempenho dos métodos propostos diminuiu, mas por outro lado rotularam todo o conjunto de dados. Por fim, explorando a acurácia dos métodos propostos por classificador, conclui-se que o Naive Bayes e o k -NN se destacam dos demais classificadores, pois obtiveram acurácia superior aos originais, tanto para o self-training quanto para o co-training. Investigando a performance dos métodos de acordo com o percentual de instâncias inicialmente rotuladas, constata-se que as maiores acurácias são alcançadas quando se utiliza 25% em todos os casos, exceto com o self-training usando o classificador Naive Bayes. 7.2 Trabalhos Futuros A seguir são apresentados alguns trabalhos que podem ser desenvolvidos em futuras pesquisas envolvendo os métodos propostos: 92 • Os métodos foram aplicados aos algoritmos self-training e co-training, no entanto existe a possibilidade de utilização de outros algoritmos de aprendizado semissuper- visionado. • Utilizar outros classificadores, como por exemplo, redes neurais. O desempenho des- tes novos classificadores podem ser comparados com os resultados obtidos neste trabalho. • Investigar uma estratégia para tratar ou evitar a inclusão de instâncias não confiá- veis. São consideradas instâncias não confiáveis, aquelas cuja taxa de confiança na predição seja muito baixa. • Desenvolver um processo de estratificação de dados para inclusão de novas instâncias no conjunto de dados rotulados, este processo deve ser aplicado utilizando o co- training. • Neste trabalho foram utilizados cinco percentuais de instâncias inicialmente rotu- ladas, portanto, outros percentuais podem ser usados e comparados com os desta pesquisa. • Aplicar a bases de dados multirrótulo os métodos propostos neste trabalho. • Criar uma estratégia para selecionar os atributos de cada uma das visões do algo- ritmo co-training. • Investigar o melhor valor para o limiar de confiança inicial. 93 Referências AGHABABAEI, S.; MAKREHCHI, M. Interpolative self-training approach for sentiment analysis. In: 2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). [S.l.: s.n.], 2016. p. 1–6. ALBALATE, A.; MINKER, W. Semi-Supervised and Unsupervised Machine Learning - Novel Estrategies. [S.l.]: Wiley, 2011. ALCALA-FDEZ, J. et al. Keel data-mining software tool: Data set repository, inte- gration of algorithms and experimental analysis framework. Multiple-Valued Logic and Soft Computing, v. 17, n. 2-3, p. 255–287, 2011. Disponível em: . ALPAYDIN, E. Introdution to Machine Learning. [S.l.]: The MIT Press, 2010. ARYOYUDANTA, B.; ADJI, T. B.; HIDAYAH, I. Semi-supervised learning approach for indonesian named entity recognition (ner) using co-training algorithm. In: 2016 Interna- tional Seminar on Intelligent Technology and Its Applications (ISITIA). [S.l.: s.n.], 2016. p. 7–12. BAI, X. et al. Co-transduction for shape retrieval. IEEE Transactions on Image Proces- sing, v. 21, n. 5, p. 2747–2757, May 2012. ISSN 1057-7149. BHAGYASHREE, S. I. R. et al. Diagnosis of dementia by machine learning methods in epidemiological studies: a pilot exploratory study from south india. Social Psychiatry and Psychiatric Epidemiology, v. 53, n. 1, p. 77–86, Jan 2018. ISSN 1433-9285. Disponível em: . BLUM, A.; MITCHELL, T. Combining labeled and unlabeled data with co-training. In: Proceedings of the Eleventh Annual Conference on Computational Learning Theory. New York, NY, USA: ACM, 1998. (COLT’ 98), p. 92–100. ISBN 1-58113-057-0. Disponível em: . BREIMAN, L. Bias, variance, and arcing classifiers. [S.l.], 1996. CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-Supervised Learning. [S.l.]: The MIT Press, 2006. Chen, Y.; Pan, T.; Chen, S. Development of co-training support vector machine model for semi-supervised classification. In: 2017 36th Chinese Control Conference (CCC). [S.l.: s.n.], 2017. p. 11077–11080. ISSN 1934-1768. 94 CHOI, J. Y. et al. Classifier ensemble generation and selection with mul- tiple feature representations for classification applications in computer- aided detection and diagnosis on mammography. Expert Systems with Ap- plications, v. 46, p. 106 – 121, 2016. ISSN 0957-4174. Disponível em: . CICHOSZ, P. Data Mining Algorithms: Explained Using R. Wiley, 2015. (Wiley online library). ISBN 9781118332580. Disponível em: . COHEN, W. W. Fast effective rule induction. In: Proceedings of the Twelfth International Conference on International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1995. (ICML’95), p. 115–123. ISBN 1-55860-377-8. Disponível em: . DHEERU, D.; TANISKIDOU, E. K. UCI Machine Learning Repository. 2017. Disponível em: . DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification (2nd Edition). 2. ed. [S.l.]: Wiley-Interscience, 2000. Hardcover. ISBN 0471056693. FRINKEN, V. et al. Keyword spotting for self-training of blstm nn based hand- writing recognition systems. Pattern Recognition, v. 47, n. 3, p. 1073 – 1082, 2014. ISSN 0031-3203. Handwriting Recognition and other PR Applications. Disponível em: . GAMA, J. et al. Inteligência artificial: uma abordagem de aprendizado de máquina. Grupo Gen - LTC, 2011. ISBN 9788521618805. Disponível em: . GAN, H. et al. Using clustering analysis to improve semi-supervised classifica- tion. Neurocomputing, v. 101, p. 290 – 298, 2013. ISSN 0925-2312. Disponível em: . GARAY-GARCELL, M. Interfaces Inteligentes en el aprendizaje de la Modelación. Inge- niería Industrial, 2015. GHARROUDI, O. Ensemble multi-label learning in supervised and semi-supervised settings. Tese (Theses) — Université de Lyon, dez. 2017. Disponível em: . HASAN, M. R.; GHOLAMHOSSEINI, H.; SARKAR, N. I. A new ensemble classifier for multivariate medical data. In: 2017 27th International Telecommunication Networks and Applications Conference (ITNAC). [s.n.], 2017. v. 00, p. 1–6. ISSN 2474-154X. Disponível em: . HERRERA, F. et al. Multilable Classification: Problem Analysis, Metrics and Techniques. [S.l.]: Springer, 2016. HOANG, N. D.; CHAU, V. T. N.; PHUNG, N. H. Combining transfer learning and co- training for student classification in an academic credit system. In: 2016 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innova- tion, and Vision for the Future (RIVF). [S.l.: s.n.], 2016. p. 55–60. 95 HOLZINGER, A. Interactive machine learning for health informatics: when do we need the human-in-the-loop? Brain Informatics, 2016. HOSSEINI, M. J.; GHOLIPOUR, A.; BEIGY, H. An ensemble of cluster-based clas- sifiers for semi-supervised classification of non-stationary data streams. Knowledge and Information Systems, v. 46, n. 3, p. 567–597, Mar 2016. ISSN 0219-3116. Disponível em: . HUMAYUN, A. I. et al. An ensemble of transfer, semi-supervised and supervi- sed learning methods for pathological heart sound classification. In: Interspeech 2018, 19th Annual Conference of the International Speech Communication Associa- tion, Hyderabad, India, 2-6 September 2018. [s.n.], 2018. p. 127–131. Disponível em: . JOSEPH, H. R. Promoting education: A state of the art machine learning framework for feedback and monitoring e-learning impact. In: 2014 IEEE Global Humanitarian Techno- logy Conference - South Asia Satellite (GHTC-SAS). [S.l.: s.n.], 2014. p. 251–254. KIM, D. et al. Multi-co-training for document classification using various document re- presentations: Tf-idf, lda and doc2vec. Information Sciences, 2019. KUNCHEVA, L. I. Combining Pattern Classifiers: Methods and Algorithms. 2nd. ed. [S.l.]: Wiley Publishing, 2014. ISBN 1118315235, 9781118315231. LIU, J.; ZHAO, S.; WANG, G. Ssel-ade: A semi-supervised ensemble learning fra- mework for extracting adverse drug events from social media. Artificial Intelli- gence in Medicine, v. 84, p. 34 – 49, 2018. ISSN 0933-3657. Disponível em: . LOFARO, D. et al. Machine learning approaches for supporting patient-specific cardiac rehabilitation programs. In: 2016 Computing in Cardiology Conference (CinC). [S.l.: s.n.], 2016. p. 149–152. MITCHELL, T. M. Machine Learning. [S.l.]: McGraw-Hill, 1997. MONARD, M. C.; BARANAUSKAS, J. A. Sistemas inteligentes: Fundamentos e aplica- ções. In: . [S.l.]: Manole, 2003. cap. Conceitos sobre Aprendizado de Máquina, p. 89 114. NASCIMENTO, D. S.; COELHO, A. L. V.; CANUTO, A. M. P. Integrating complemen- tary techniques for promoting diversity in classifier ensembles: A systematic study. In: Neurocomputing (Amsterdam). [S.l.: s.n.], 2014. NIJHAWAN, R.; RAMAN, B.; DAS, J. Proposed hybrid-classifier ensemble algorithm to map snow cover area. Journal of Applied Remote Sensing, v. 12, p. 12 – 12 – 20, 2018. Disponível em: . PADHY, N. P. Artificial intelligence and intelligent systems. [S.l.]: New Delhi, 2005. PHAM, B. T. et al. Rotation forest fuzzy rule-based classifier ensemble for spatial pre- diction of landslides using gis. Natural Hazards, v. 83, n. 1, p. 97–127, Aug 2016. ISSN 1573-0840. Disponível em: . 96 QIAO, S. et al. Deep co-training for semi-supervised image recognition. In: The European Conference on Computer Vision (ECCV). [S.l.: s.n.], 2018. RODRIGUES, F. M.; SANTOS, A. de M.; CANUTO, A. M. P. Using confidence values in multi-label classification problems with semi-supervised learning. In: The 2013 Inter- national Joint Conference on Neural Networks (IJCNN). [S.l.: s.n.], 2013. p. 1–8. ISSN 2161-4407. SAMIAPPAN, S.; MOORHEAD, R. J. Semi-supervised co-training and active learning framework for hyperspectral image classification. In: 2015 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). [S.l.: s.n.], 2015. p. 401–404. ISSN 2153-6996. SANTOS, A. de M. Investigando a combinação de técnicas de aprendizado semissupervisi- onado e classificação hierárquica multirrótulo. Tese (Doutorado) — Universidade Federal do Rio Grande do Norte, 2012. SMITH, J. W. et al. Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In: Proceedings of the Symposium on Computer Applications and Medical Care. [S.l.]: IEEE Computer Society Press, 1988. p. 261–265. STIMPSON, A. J.; CUMMINGS, M. L. Assessing intervention timing in computer-based education using machine learning algorithms. IEEE Access, v. 2, p. 78–87, 2014. ISSN 2169-3536. TANHA, J.; SOMEREN, M. van; AFSARMANESH, H. Semi-supervised self-training for decision tree classifiers. International Journal of Machine Learning and Cy- bernetics, v. 8, n. 1, p. 355–370, Feb 2017. ISSN 1868-808X. Disponível em: . TAO, Y. et al. Improving semi-supervised self-training with embed- ded manifold transduction. Transactions of the Institute of Measure- ment and Control, v. 0, n. 0, p. 0142331216658091, 2016. Disponível em: . THEODORSSON-NORHEIM, E. Friedman and quade tests: Basic computer program to perform nonparametric two-way analysis of variance and multiple comparisons on ranks of several related samples. Computers in biology and medicine, v. 17(2), p. 85–99, 1987. TORGO, L. Data Mining with R: Learning with Case Studies, Second Edition. 2nd. ed. [S.l.]: Chapman & Hall/CRC, 2017. ISBN 1482234890, 9781482234893. VALE, K. M. O. et al. Automatic adjustment of confidence values in self-training semi- supervised method. In: Proceedings of International Joint Conference on Neural Networks (IJCNN 2018). [S.l.: s.n.], 2018. VERNEKAR, S. et al. A novel approach for classification of normal/abnormal phonocar- diogram recordings using temporal signal analysis and machine learning. In: 2016 Com- puting in Cardiology Conference (CinC). [S.l.: s.n.], 2016. p. 1141–1144. VOCK, D. M. et al. Adapting machine learning techniques to censored time-to-event health record data: A general-purpose approach using inverse probability of censoring weighting. Journal of Biomedical Informatics, 2016. 97 WANG, B. et al. Semi-supervised self-training for sentence subjectivity classification. In: . [S.l.]: Springer Berlin Heidelberg, 2008. p. 344–355. WANG, C. et al. Semi-supervised classification framework of hyperspectral images based on the fusion evidence entropy. Multimedia Tools and Applications, Apr 2017. ISSN 1573- 7721. Disponível em: . WANG, J. Semi-supervised learning using ensembles of multiple 1d-embedding- based label boosting. International Journal of Wavelets, Multiresolution and Information Processing, v. 14, n. 02, p. 1640001, 2016. Disponível em: . WANG, M. et al. Scalable semi-supervised learning by efficient anchor graph regulariza- tion. IEEE Transactions on Knowledge and Data Engineering, v. 28, n. 7, p. 1864–1877, July 2016. ISSN 1041-4347. WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques. 3rd. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011. ISBN 0123748569, 9780123748560. WU, D. et al. Self-training semi-supervised classification based on den- sity peaks of data. Neurocomputing, 2017. ISSN 0925-2312. Disponível em: . YAROWSKY, D. Unsupervised word sense disambiguation rivaling supervised methods. In: Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 1995. (ACL ’95), p. 189–196. Disponível em: . YU, N. Domain Adaptation for Opinion Classification: A Self- Training Approach. 2013. ZHANG, D. et al. A robust semi-supervised svm via ensemble learning. Ap- plied Soft Computing, v. 65, p. 632 – 643, 2018. ISSN 1568-4946. Disponível em: . ZHAO MINLIE HUANG; ZIYU YAO, R. S. Y. J. X. Z. L. Semi-supervised multino- mial naive bayes for text classification by leveraging word-level statistical constraint. In: Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. [S.l.: s.n.], 2016. ZHU, X.; GOLDBERG, A. B. Introduction to semi-supervised learning. Synthesis Lectures on Artificial Intelligence and Machine Learning, v. 3, n. 1, p. 1–130, 2009. 98 APÊNDICE A -- Acurácia de todos os métodos utilizando o algoritmo self-training 99 Tabela 6: Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando Naive Bayes como classificador ST Original ST Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 54,85 60,80 61,43 64,59 64,65 60,81 69,29 78,24 78,06 81,76 58,20 66,70 65,59 67,96 65,28 62,71 73,74 79,83 80,44 79,52 BTSC 71,39 69,52 70,98 68,85 72,59 72,33 67,51 71,92 68,44 71,39 71,24 70,03 70,30 70,29 71,51 70,73 70,99 72,87 72,32 72,73 Bupa 50,40 56,24 50,68 48,63 46,03 56,55 49,81 54,54 51,87 49,01 53,89 47,55 51,89 51,90 47,28 53,02 48,42 50,45 49,87 52,82 Car Evaluation 70,02 70,02 70,02 70,02 70,08 70,14 70,31 70,78 71,82 72,51 70,03 70,03 70,03 70,08 70,03 70,20 70,08 70,26 72,28 73,21 Cnae-9 51,11 52,59 53,61 53,98 54,17 13,89 22,59 20,00 24,54 26,85 22,96 20,74 28,8 24,81 26,11 25,46 28,43 22,78 26,39 25,09 Connectionist Bench 59,69 58,79 57,40 59,31 59,36 59,60 59,60 62,12 58,19 61,12 53,97 61,16 58,67 57,76 58,28 58,58 60,03 63,15 61,53 62,98 Hill Valley With Noise 49,84 48,94 50,41 49,75 48,10 48,09 49,83 51,51 50,60 50,18 49,19 50,34 49,02 50,34 51,42 50,08 49,91 50,57 51,07 50,82 Image Segmentation 67,40 65,71 68,96 68,44 69,13 72,99 70,17 71,21 71,56 72,16 71,77 71,90 71,65 71,56 70,26 68,01 67,14 69,00 71,69 71,86 Indian Liver Patient 59,38 57,31 55,05 55,57 54,19 51,97 53,69 52,48 52,52 54,39 51,83 52,66 51,13 54,38 51,49 54,00 49,72 50,42 54,00 53,50 Iris 78,00 86,00 93,33 94,67 95,33 80,00 92,00 93,33 94,00 92,67 87,33 90,00 93,33 93,33 95,33 86,67 90,00 96,00 94,67 95,33 KR vs KP 56,94 61,45 62,45 63,14 63,48 63,70 64,86 66,64 66,36 67,77 64,02 64,05 65,11 64,68 66,21 68,71 68,62 69,18 70,24 72,09 Leukemia 66,01 77,43 78,96 86,07 83,07 61,00 85,00 86,00 85,00 86,00 64,07 80,07 84,18 81,96 85,18 63,76 86,96 81,05 83,87 87,96 Mammographic Mass 77,42 77,74 76,39 77,33 78,57 77,52 77,20 77,73 77,00 78,15 77,20 77,72 78,03 78,35 77,10 77,30 78,55 78,13 78,35 78,55 Multiple Features 83,05 85,60 86,25 86,95 88,85 86,55 89,40 90,15 90,50 90,90 87,05 89,45 89,35 90,30 90,95 87,60 88,90 90,00 90,55 90,60 Mushroom 89,02 89,27 89,23 89,41 89,47 90,62 92,12 92,48 92,76 92,73 90,65 91,35 91,53 92,07 91,81 91,93 92,09 92,59 92,85 92,85 Musk 75,96 76,19 77,6 78,9 78,07 72,08 75,37 75,74 75,28 74,33 70,28 75,81 74,08 74,70 77,49 72,90 79,58 76,64 74,70 76,31 Ozone Level Detection 69,29 64,83 64,72 64,72 64,95 81,16 67,36 66,60 65,51 67,31 81,07 66,72 68,10 66,01 66,44 83,44 69,67 68,41 66,87 66,40 Pen Digits 76,44 78,53 75,03 76,24 76,80 79,41 78,89 82,26 81,54 80,76 81,49 78,59 80,29 84,00 82,67 82,14 82,82 80,65 82,78 84,14 Phishing Website 78,65 83,36 89,83 92,93 92,93 92,75 92,83 92,74 92,70 92,77 92,84 92,93 92,96 92,95 93,00 92,94 92,84 92,85 92,90 92,89 Pima 64,20 65,50 67,97 68,88 68,87 67,20 69,53 70,19 71,75 72,27 67,83 68,49 69,26 68,87 69,40 67,72 70,46 70,33 69,93 72,15 Planning Relax 71,46 58,80 63,10 53,92 60,03 66,46 68,74 63,10 57,19 63,65 70,91 53,89 61,49 64,71 59,36 69,77 59,39 64,42 57,87 63,74 Seeds 81,43 87,14 89,05 90,95 88,10 83,81 87,14 89,05 88,10 90,48 83,33 90,48 89,05 90,48 85,24 85,24 88,57 88,10 88,57 89,52 Semeion 66,67 70,75 70,63 72,94 74,90 67,60 72,57 75,91 77,72 76,65 64,02 73,51 75,89 75,58 75,71 68,25 73,20 73,90 76,01 78,78 Solar Flare 35,67 36,30 39,90 39,88 35,84 42,93 39,03 37,36 39,65 36,65 43,36 37,88 39,51 38,08 42,17 39,70 41,52 35,84 35,57 43,21 SPECTF Heart 71,03 60,06 59,50 57,77 58,92 74,79 70,72 68,15 64,70 64,09 76,14 71,03 68,43 67,28 68,19 75,34 68,23 67,92 67,96 67,65 Tic Tac Toe Endgame 65,76 64,71 67,85 67,21 68,37 66,18 67,41 67,85 69,09 68,79 65,44 67,02 69,95 69,94 69,74 67,43 67,75 67,33 69,93 70,35 Twonorm 97,81 97,82 97,84 97,84 97,84 97,81 97,80 97,81 97,80 97,81 97,84 97,84 97,89 97,81 97,84 97,85 97,82 97,82 97,85 97,82 Vehicle 37,15 38,32 36,08 37,21 38,89 41,13 40,40 37,84 40,76 39,02 38,77 37,00 38,92 41,01 35,96 39,24 37,23 40,43 38,17 43,02 Waveform 63,76 67,39 70,44 74,46 74,74 76,10 76,42 76,54 76,86 77,32 75,96 76,36 76,32 76,58 76,88 76,70 76,72 76,84 77,04 77,26 Wilt 93,30 92,89 93,39 92,75 92,83 93,64 92,21 93,70 92,40 91,84 93,41 93,82 93,55 93,88 93,55 89,50 90,41 86,36 85,45 88,34 MÉDIA 67,77 68,67 69,60 70,11 70,31 68,96 70,33 71,13 70,81 71,38 69,20 69,50 70,48 70,72 70,40 69,90 70,66 70,8 71,06 72,38 DESVIO PADRÃO 14,69 15,15 15,81 16,55 16,67 17,82 17,79 18,49 18,05 18,09 17,47 18,55 17,65 17,93 18,18 17,10 17,72 18,08 18,02 17,44 100 Tabela 7: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando Naive Bayes como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 69,29 74,74 79,22 81,12 81,79 64,37 67,68 72,14 72,48 77,16 63,72 71,21 70,87 74,91 80,31 66,30 76,30 76,03 76,16 80,31 BTSC 73,39 71,66 73,66 73,67 73,27 73,27 73,00 72,20 71,14 70,99 69,24 74,60 69,37 72,74 73,80 66,68 71,79 71,92 73,14 73,26 Bupa 52,45 52,45 50,13 51,05 51,88 54,23 53,60 52,48 51,91 51,35 54,18 49,60 50,16 46,67 52,21 53,94 50,45 50,43 51,62 52,46 Car Evaluation 70,02 70,20 70,02 71,99 72,80 70,02 70,14 71,18 71,07 71,65 70,02 70,31 70,31 71,47 71,76 75,29 70,43 70,61 71,53 71,93 Cnae-9 20,28 25,74 29,54 28,24 22,78 20,00 28,70 24,26 27,31 20,65 20,83 21,02 25,00 28,15 25,56 17,50 22,78 25,09 23,33 20,74 Connectionist Bench 65,48 58,72 61,06 62,12 62,15 54,74 64,43 58,19 60,07 62,45 58,64 61,43 61,00 63,81 56,71 59,27 56,84 61,17 60,65 60,65 Hill Valley With Noise 49,40 51,41 51,74 49,50 51,07 50,67 50,25 51,24 50,41 48,67 49,43 50,82 50,25 49,18 48,51 50,58 49,50 49,34 51,15 50,00 Image Segmentation 73,72 69,31 69,52 69,61 70,65 73,46 72,21 72,55 71,65 74,68 69,00 71,56 70,65 71,69 71,56 73,33 73,94 74,20 73,12 73,51 Indian Liver Patient 51,61 51,12 51,45 52,49 52,29 50,42 53,33 51,82 51,83 49,60 49,37 53,34 52,49 52,81 53,36 52,33 51,11 52,47 52,33 53,17 Iris 82,00 90,67 96,00 96,67 94,67 83,33 92,00 96,00 95,33 93,33 82,67 88,00 91,33 94,00 96,00 83,33 91,33 94,67 94,67 94,67 KR vs KP 68,65 70,43 69,74 70,99 71,78 69,40 69,56 71,00 71,65 73,06 70,65 71,16 71,31 72,15 73,12 70,68 70,96 70,87 73,28 74,47 Leukemia 70,32 86,76 81,96 84,87 84,87 66,00 76,00 84,00 86,00 85,00 66,05 81,05 84,96 87,18 85,07 66,76 84,09 80,27 85,09 85,09 Mammographic Mass 77,52 78,16 77,94 78,04 78,15 76,27 77,11 78,46 79,30 78,47 77,42 77,51 78,24 79,18 79,29 78,27 77,02 78,05 78,78 78,69 Multiple Features 86,10 89,85 90,40 90,10 90,80 85,30 89,80 89,70 91,10 90,85 85,75 89,15 90,55 90,75 90,70 86,00 89,85 90,65 90,55 91,00 Mushroom 91,91 92,06 92,48 92,84 92,77 91,90 92,24 92,58 92,59 92,79 92,11 92,41 92,59 92,63 92,71 92,21 92,17 92,47 92,55 92,79 Musk 71,87 76,45 78,10 78,96 77,55 74,42 75,43 78,45 79,12 77,22 74,60 77,19 75,78 78,81 76,43 75,24 76,96 78,80 78,83 78,89 Ozone Level Detection 79,73 70,30 64,23 66,56 67,54 81,11 67,27 65,57 66,40 66,68 79,89 67,23 66,79 65,84 66,24 81,86 67,87 66,17 66,24 66,25 Pen Digits 80,24 80,40 83,49 84,31 83,29 81,60 81,05 81,45 82,92 83,11 81,83 80,39 81,27 83,31 81,63 81,40 80,67 82,98 82,27 82,98 Phishing Website 92,89 92,84 92,89 92,88 92,84 92,66 92,78 92,84 92,77 92,87 92,70 92,77 92,75 92,74 92,82 92,86 92,76 92,83 92,82 92,84 Pima 69,80 72,28 69,94 69,03 72,80 70,18 71,61 72,00 71,23 73,05 69,66 72,14 70,58 72,01 70,18 69,90 69,64 70,16 70,17 70,68 Planning Relax 68,13 59,42 59,91 58,83 61,02 72,57 55,03 52,84 62,05 59,56 71,46 63,86 61,61 59,36 63,25 67,54 62,08 64,85 60,96 57,13 Seeds 81,90 89,52 86,67 89,05 87,62 88,10 87,62 89,52 88,57 90,48 85,24 88,10 89,05 88,57 88,57 81,43 87,62 90,00 88,10 89,05 Semeion 65,79 71,69 74,50 75,95 76,77 65,33 72,75 74,00 76,39 78,02 59,68 74,52 74,95 77,03 77,41 62,31 72,02 74,21 77,07 76,52 Solar Flare 41,32 42,74 42,76 41,42 37,09 44,35 40,45 40,39 38,78 41,31 39,33 41,53 41,52 37,00 38,94 42,60 39,25 47,79 37,95 40,33 SPECTF Heart 75,58 72,11 68,09 67,22 66,38 76,16 69,76 65,52 67,23 68,07 75,41 71,14 70,25 65,40 67,07 76,55 70,00 68,25 66,81 67,37 Tic Tac Toe Endgame 67,11 67,02 68,07 70,67 69,94 65,22 67,63 67,75 67,53 68,78 68,80 65,35 65,87 67,66 68,47 64,51 66,19 68,25 67,00 66,58 Twonorm 97,84 97,81 97,84 97,84 97,86 97,78 97,77 97,80 97,84 97,80 97,85 97,81 97,84 97,84 97,84 97,81 97,82 97,77 97,81 97,81 Vehicle 40,10 38,53 40,43 41,15 39,95 41,62 41,00 41,14 39,94 40,67 42,18 38,65 38,55 39,83 42,67 40,79 38,19 39,10 41,86 36,64 Waveform 76,82 76,76 76,70 77,10 77,10 77,44 77,18 77,48 77,56 77,84 76,94 77,24 77,62 77,72 77,76 77,58 77,02 77,66 77,78 77,76 Wilt 88,82 85,70 84,07 88,51 87,87 91,22 93,86 93,14 92,46 93,04 92,87 93,10 93,10 93,12 92,33 90,16 93,37 93,61 92,54 92,99 MÉDIA 70,00 70,89 71,09 71,76 71,58 70,11 70,71 70,92 71,49 71,64 69,58 70,81 70,89 71,45 71,74 69,83 70,67 71,69 71,54 71,55 DESVIO PADRÃO 16,97 17,36 17,12 17,65 18,17 17,31 17,09 18,19 17,92 18,50 17,48 17,78 17,80 18,23 18,00 17,44 18,20 17,58 18,12 18,74 101 Tabela 8: Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando árvore de decisão como classificador ST Original ST Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 65,74 68,16 66,72 70,25 72,65 59,99 65,63 64,96 72,30 72,65 64,30 64,95 68,81 72,14 74,87 64,34 68,78 71,05 77,60 72,48 BTSC 76,21 75,66 76,61 76,07 76,62 76,21 74,72 76,47 75,80 75,00 76,07 73,94 74,87 76,34 76,61 74,87 75,41 75,94 76,21 75,94 Bupa 60,90 56,23 57,45 58,58 58,54 59,15 59,41 59,42 59,70 58,19 57,10 55,68 57,70 58,84 60,87 60,62 57,66 58,79 58,55 59,45 Car Evaluation 74,84 84,95 88,37 91,38 91,78 78,17 82,11 88,08 90,34 91,09 78,25 85,81 88,66 89,93 90,62 79,86 82,47 87,21 89,75 91,85 Cnae-9 52,41 67,31 71,20 75,37 76,76 52,96 67,50 72,50 75,83 77,78 57,59 69,07 71,11 76,02 77,13 55,65 65,74 71,67 73,80 76,94 Connectionist Bench 60,67 60,69 69,62 64,60 64,34 54,79 66,40 64,83 62,62 67,76 56,71 57,67 67,81 66,81 64,31 61,48 60,14 63,95 62,02 62,02 Hill Valley With Noise 52,07 49,66 51,90 51,40 50,27 50,98 51,24 53,03 52,21 49,92 51,98 50,32 51,06 51,90 52,56 51,14 50,49 49,50 53,63 54,27 Image Segmentation 86,23 87,40 90,39 92,64 91,90 84,85 89,31 90,26 91,65 91,99 85,84 87,92 90,39 91,60 91,90 86,36 88,83 90,39 91,13 92,03 Indian Liver Patient 71,02 70,68 68,81 70,48 71,19 69,79 69,46 70,67 71,53 71,36 68,77 70,32 68,99 70,14 69,66 70,68 71,36 70,52 70,32 70,17 Iris 36,67 87,33 92,00 92,00 96,00 33,33 91,33 91,33 92,00 90,00 33,33 82,67 89,33 92,67 92,67 33,33 91,33 92,67 91,33 94,00 KR vs KP 94,09 94,15 96,15 97,22 96,84 93,68 93,65 96,09 96,50 97,31 93,58 95,02 95,80 97,28 97,28 92,71 94,34 95,37 96,18 97,47 Leukemia 48,99 66,94 59,19 66,23 68,25 48,99 60,01 68,14 61,12 59,63 48,99 74,16 63,16 62,74 76,05 48,99 60,85 59,21 66,92 75,18 Mammographic Mass 78,45 79,10 80,55 80,65 80,95 77,24 81,29 82,11 82,31 82,00 79,17 81,69 81,78 80,94 81,37 80,01 80,53 79,08 82,20 82,20 Multiple Features 52,55 60,90 66,05 66,95 67,55 54,05 59,45 64,75 66,85 70,95 52,10 61,05 64,65 68,25 71,15 54,50 62,35 69,95 69,45 71,60 Mushroom 99,20 99,63 99,82 99,78 99,90 99,20 99,66 99,66 99,80 99,85 99,04 99,46 99,75 99,80 99,80 98,94 99,46 99,72 99,77 99,75 Musk 94,95 98,15 99,05 99,21 99,33 96,39 98,71 98,98 99,23 99,53 96,27 98,08 99,12 99,18 99,51 97,01 98,76 99,15 99,42 99,45 Ozone Level Detection 97,12 97,12 97,12 96,92 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,04 97,12 97,12 96,88 97,12 97,12 97,12 97,12 Pen Digits 80,91 86,96 89,46 90,57 92,05 81,48 87,40 89,67 90,93 92,10 82,64 87,03 89,03 90,66 91,72 82,24 87,05 89,21 90,47 91,64 Phishing Website 90,89 91,86 92,95 93,52 93,42 91,13 91,81 92,73 93,02 93,60 90,89 91,71 92,81 93,09 93,60 91,24 91,88 92,61 93,01 93,32 Pima 65,88 70,96 71,49 71,61 70,98 67,73 67,99 72,13 71,24 71,36 68,11 69,55 70,71 72,27 70,71 66,80 71,33 72,64 70,95 72,79 Planning Relax 71,46 70,91 70,91 71,46 71,46 71,46 69,82 70,91 68,68 71,46 71,46 69,80 71,46 71,46 71,46 71,46 69,80 70,35 71,99 71,46 Seeds 76,19 85,24 83,81 84,76 82,38 36,19 84,29 81,43 88,10 84,76 33,33 83,33 80,48 85,24 88,10 33,33 76,67 82,38 85,24 86,19 Semeion 37,95 48,06 54,58 56,87 58,45 39,82 47,83 51,67 56,81 59,64 35,14 49,22 52,86 55,05 60,50 39,42 54,38 55,56 58,95 61,66 Solar Flare 68,75 69,99 71,92 72,57 71,99 69,91 70,47 71,64 73,08 72,94 69,04 70,41 71,93 73,08 72,43 71,56 71,12 71,99 72,57 73,01 SPECTF Heart 70,53 74,22 73,94 75,68 74,23 70,80 73,65 72,23 73,65 75,64 70,21 71,40 73,07 75,41 72,57 68,10 71,60 72,79 74,17 76,20 Tic Tac Toe Endgame 67,20 65,36 74,85 81,21 84,45 66,18 69,83 69,62 78,61 82,79 63,68 69,94 72,54 75,68 83,18 65,03 66,81 77,25 80,78 80,57 Twonorm 74,96 76,84 77,50 79,18 78,45 75,31 76,76 80,20 80,69 80,96 73,89 78,19 79,22 79,77 80,45 75,77 78,93 79,22 80,58 81,50 Vehicle 49,90 56,24 57,33 61,96 63,23 46,47 52,89 61,36 63,02 60,66 48,32 57,22 60,27 60,99 65,48 51,06 58,18 61,11 61,80 65,14 Waveform 65,14 69,16 71,42 71,70 72,52 68,86 68,40 71,18 72,22 72,64 67,92 71,78 71,64 74,54 74,24 68,50 73,12 72,16 73,42 73,98 Wilt 95,16 96,80 96,96 97,23 97,56 96,03 96,86 96,78 96,88 97,17 95,60 96,55 97,19 97,33 97,52 95,70 96,86 96,55 97,13 96,94 MÉDIA 70,57 75,56 77,27 78,60 79,04 68,94 75,50 77,33 78,46 78,93 68,88 75,70 77,11 78,54 79,85 69,59 75,78 77,50 78,88 79,88 DESVIO PADRÃO 17,21 14,71 14,28 13,87 13,91 18,80 14,95 13,99 13,96 13,91 19,06 14,51 14,07 13,85 13,12 18,62 14,32 13,97 13,40 13,07 102 Tabela 9: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando árvore de decisão como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 60,72 65,82 70,91 71,87 71,40 62,53 69,44 66,07 72,01 71,83 60,33 65,93 64,37 70,71 69,63 33,33 87,33 92,67 96,67 94,00 BTSC 75,14 76,47 76,88 76,47 76,74 75,94 74,32 75,27 76,47 76,61 72,74 76,21 76,61 75,80 76,74 56,22 59,99 57,65 58,24 62,88 Bupa 59,44 58,29 54,79 60,87 55,10 57,70 57,44 55,71 61,47 61,18 57,39 58,54 58,26 60,85 60,91 85,45 87,75 90,52 90,91 91,65 Car Evaluation 79,98 83,96 87,08 89,06 90,45 76,50 84,38 85,82 89,06 89,00 79,51 81,31 86,29 90,10 90,92 69,20 72,06 72,82 72,84 74,94 Cnae-9 57,13 68,15 68,43 73,24 75,83 50,83 63,43 71,30 75,93 76,85 51,39 67,50 69,54 73,52 78,24 91,49 91,89 92,38 93,13 93,48 Connectionist Bench 57,67 50,53 68,20 64,55 62,80 56,72 62,94 69,22 67,18 71,72 59,15 59,09 60,51 61,10 69,47 99,19 99,48 99,68 99,83 99,75 Hill Valley With Noise 49,42 51,98 52,64 50,33 51,57 51,32 49,68 50,32 52,48 53,55 52,81 50,43 51,17 51,24 54,30 48,45 57,31 61,25 64,68 63,46 Image Segmentation 85,67 87,66 90,39 90,87 91,43 84,11 88,61 89,35 90,39 90,56 84,63 86,80 88,79 90,48 91,43 33,33 84,76 80,95 87,14 85,24 Indian Liver Patient 71,53 71,36 70,33 71,36 70,14 69,45 71,70 70,85 70,48 69,64 69,83 70,15 71,20 70,50 71,19 95,70 96,20 96,57 97,25 97,07 Iris 33,33 85,33 90,00 93,33 92,00 33,33 87,33 87,33 94,67 94,00 33,33 87,33 92,00 93,33 92,00 92,77 94,65 96,03 96,81 97,31 KR vs KP 93,74 94,68 95,96 97,03 96,93 94,34 94,59 96,50 97,37 97,56 93,65 94,68 96,37 96,78 97,43 75,14 75,67 73,81 75,81 75,41 Leukemia 48,99 67,39 80,85 63,74 68,01 48,99 64,12 70,74 70,36 57,94 48,99 62,14 69,85 64,12 67,34 56,57 66,57 71,57 72,87 76,20 Mammographic Mass 78,05 79,81 80,33 81,58 82,09 80,12 79,40 81,27 80,53 80,84 77,74 81,38 82,94 80,13 80,65 58,15 68,23 70,72 58,78 69,47 Multiple Features 55,50 61,50 68,70 71,15 72,60 55,60 61,40 67,75 69,35 71,15 54,95 62,90 66,70 68,75 70,75 72,14 72,94 72,21 71,71 72,71 Mushroom 99,20 99,64 99,77 99,75 99,85 99,29 99,53 99,80 99,74 99,88 99,41 99,42 99,64 99,78 99,82 71,19 72,05 70,50 70,51 69,47 Musk 96,64 97,91 98,91 99,39 99,38 97,00 98,23 98,74 99,38 99,64 97,00 98,15 98,77 99,35 99,55 48,99 65,14 68,33 61,74 72,05 Ozone Level Detection 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 96,88 97,12 97,12 97,12 97,12 97,08 81,90 81,38 81,37 81,69 82,00 Pen Digits 82,52 86,73 89,53 90,74 92,39 81,91 86,82 88,22 90,11 91,31 82,60 86,96 88,65 90,36 91,77 55,65 63,45 66,50 69,80 74,25 Phishing Website 91,11 92,06 92,67 93,22 93,55 90,88 91,92 92,84 93,43 93,40 91,22 92,41 92,87 92,73 93,45 96,44 98,21 98,73 99,09 99,48 Pima 70,18 69,53 71,09 70,83 71,73 69,01 69,27 68,35 72,91 71,47 66,66 70,32 72,66 72,66 72,79 97,12 97,12 97,12 97,12 97,12 Planning Relax 71,46 68,19 71,46 68,13 71,46 71,46 65,91 70,41 69,88 70,35 71,46 68,68 70,91 72,02 71,46 83,41 86,92 90,11 90,62 91,88 Seeds 33,33 84,29 82,86 82,38 87,62 33,33 82,38 82,38 85,24 85,24 33,33 81,90 80,95 81,43 83,33 71,46 70,35 71,99 71,46 71,46 Semeion 40,07 54,05 53,41 59,26 60,58 42,62 48,53 49,59 57,18 60,07 37,35 49,47 53,06 56,30 60,33 42,43 51,48 55,30 59,70 60,75 Solar Flare 71,93 71,85 73,01 71,63 72,43 69,27 70,33 70,48 70,55 71,70 70,71 71,20 72,06 70,85 71,70 66,26 69,67 73,30 70,85 70,84 SPECTF Heart 68,23 73,36 73,09 74,17 73,71 70,86 71,60 72,80 73,97 75,34 72,79 71,09 71,90 71,89 74,79 70,21 71,06 72,81 71,93 76,49 Tic Tac Toe Endgame 65,65 66,80 71,94 77,78 78,49 64,62 66,18 69,95 75,95 79,86 67,94 69,41 74,21 77,02 80,27 64,93 65,86 72,77 80,50 82,05 Twonorm 76,70 79,45 79,99 81,88 81,32 77,93 79,18 79,45 80,73 81,78 76,72 79,70 81,11 80,92 81,93 76,72 78,88 80,38 80,57 81,00 Vehicle 45,99 53,78 56,99 64,30 61,95 45,76 54,24 56,63 61,74 63,35 45,42 57,00 59,93 62,63 62,88 50,50 52,12 49,59 53,62 54,28 Waveform 70,02 71,32 73,22 72,94 75,24 67,94 69,70 71,86 72,18 72,04 69,18 70,52 71,88 72,28 72,38 60,94 68,15 70,41 71,67 73,44 Wilt 96,11 96,57 96,53 96,98 97,38 95,56 96,51 96,59 97,27 97,27 95,95 96,57 96,63 97,71 96,90 79,80 82,98 87,50 89,65 90,74 MÉDIA 69,42 75,52 77,90 78,53 79,04 69,07 75,21 76,76 78,84 79,07 69,04 75,48 77,23 78,08 79,38 69,50 76,32 77,85 78,57 80,03 DESVIO PADRÃO 18,94 14,65 13,80 13,57 13,77 18,91 14,83 14,25 13,39 13,46 19,14 14,48 14,09 13,86 13,01 18,78 13,83 13,67 13,99 12,73 103 Tabela 10: Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando Ripper como classificador ST Original ST Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 69,12 72,81 72,96 78,07 77,60 64,33 67,69 69,73 75,06 77,25 65,28 70,57 75,97 77,43 76,00 65,93 72,17 73,78 74,57 75,07 BTSC 72,99 75,66 75,66 76,07 76,06 75,54 75,38 76,34 75,67 74,34 71,52 74,47 76,07 75,81 76,34 74,47 74,87 74,87 73,93 76,87 Bupa 52,79 54,82 57,66 57,41 59,14 52,50 61,44 58,85 59,98 58,85 59,13 53,60 59,20 63,19 54,82 58,59 56,47 61,48 61,16 59,35 Car Evaluation 69,96 73,10 76,61 77,49 78,01 69,16 72,05 74,42 76,85 79,28 67,93 75,99 75,69 78,48 80,38 66,90 72,18 75,52 75,46 78,59 Cnae-9 46,20 61,02 73,24 73,80 78,15 51,67 64,07 68,43 72,50 75,28 47,50 63,06 71,39 74,07 75,93 49,07 63,06 70,28 74,81 74,35 Connectionist Bench 55,24 61,12 58,55 67,86 71,07 58,81 67,96 66,95 67,82 67,37 51,76 53,82 68,32 66,39 62,55 62,44 66,86 69,90 74,03 67,01 Hill Valley With Noise 50,82 50,75 50,49 52,13 51,88 50,57 50,41 51,23 51,23 51,24 49,34 51,32 52,48 51,16 51,07 50,32 51,14 52,81 52,14 50,34 Image Segmentation 75,28 86,71 89,74 90,17 92,55 71,65 81,17 84,37 87,23 89,05 74,98 84,29 86,84 88,14 89,61 78,27 85,19 87,88 89,44 90,61 Indian Liver Patient 68,61 68,09 68,59 69,47 70,84 66,58 67,77 70,35 66,50 70,01 68,11 69,26 71,01 69,48 71,54 67,06 70,83 69,15 68,95 69,31 Iris 71,33 78,67 84,67 82,67 91,33 51,33 74,67 92,00 89,33 90,67 51,33 74,67 82,67 87,33 85,33 62,67 73,33 83,33 86,00 90,00 KR vs KP 91,80 94,99 96,15 96,34 97,12 93,27 94,03 96,21 97,25 96,93 92,55 94,77 95,24 96,31 96,75 91,39 94,99 96,03 96,47 97,40 Leukemia 58,03 57,99 65,23 72,76 69,03 49,00 57,00 71,00 65,00 52,00 48,99 68,85 60,34 58,19 64,81 48,99 64,85 59,10 60,21 63,42 Mammographic Mass 77,21 81,27 82,52 82,73 82,63 80,63 79,29 80,55 81,15 82,28 77,32 80,23 81,37 81,27 82,01 80,96 80,24 82,20 82,84 81,91 Multiple Features 42,50 56,90 65,50 69,45 72,95 43,85 52,30 60,10 66,75 69,40 42,05 48,65 59,35 66,05 68,85 46,20 59,35 62,75 67,65 69,45 Mushroom 85,80 83,17 82,18 82,26 81,88 84,29 82,16 82,25 81,88 81,88 82,18 82,82 82,27 82,48 82,10 83,73 83,09 82,66 82,30 81,88 Musk 88,04 91,83 91,33 93,41 94,85 88,81 93,39 95,68 95,86 96,88 89,74 93,38 95,65 96,33 96,74 88,72 92,56 95,23 96,48 97,20 Ozone Level Detection 97,08 96,41 96,73 96,22 96,33 96,41 96,73 96,69 96,57 96,73 96,06 96,33 96,81 96,81 96,57 96,10 96,30 96,77 95,70 96,61 Pen Digits 81,22 88,22 91,09 92,16 92,72 72,60 83,98 87,42 89,77 91,77 75,06 84,25 88,85 91,65 91,89 81,97 87,14 90,12 91,34 92,60 Phishing Website 90,36 92,29 92,43 92,57 93,06 91,29 92,04 92,44 92,95 93,29 91,25 92,01 92,57 92,36 92,98 90,85 91,95 92,06 92,77 93,32 Pima 70,97 67,84 72,14 73,32 69,14 65,90 67,59 71,61 70,32 73,04 69,01 68,89 67,33 72,14 72,14 66,14 70,71 67,70 72,13 74,60 Planning Relax 64,24 65,96 67,60 69,80 66,02 65,35 69,80 70,91 70,41 71,46 66,46 68,68 68,80 69,30 64,94 69,82 66,64 66,46 66,58 67,16 Seeds 68,57 79,05 79,52 85,24 85,24 65,24 79,05 84,29 82,86 85,71 66,19 76,19 81,90 83,33 83,33 78,10 78,57 83,33 81,90 85,24 Semeion 31,96 43,06 52,92 54,00 58,68 32,75 41,49 48,53 53,24 59,13 28,49 39,74 45,93 55,88 59,14 33,39 44,49 52,98 55,88 58,45 Solar Flare 60,76 60,25 61,90 62,70 65,23 57,65 62,62 64,86 67,53 68,40 61,17 61,67 63,43 63,87 63,85 60,82 65,51 67,59 68,11 69,48 SPECTF Heart 68,57 73,06 74,80 74,72 75,08 65,71 71,20 69,90 73,69 75,09 63,04 71,40 69,94 75,09 71,63 72,52 66,95 73,33 73,09 72,51 Tic Tac Toe Endgame 67,03 75,99 89,76 93,95 95,52 66,16 69,22 83,19 94,27 95,53 63,28 67,74 78,79 91,64 93,30 64,92 70,65 79,65 88,92 95,51 Twonorm 77,47 77,92 78,14 81,58 83,77 79,88 81,22 82,41 83,36 84,14 80,68 82,62 82,74 83,90 84,78 81,01 84,72 87,32 88,53 88,69 Vehicle 44,83 54,37 56,97 60,64 61,58 41,64 49,25 58,52 60,30 61,81 47,25 57,43 60,53 60,52 59,45 43,64 50,72 58,39 61,11 64,19 Waveform 63,44 66,16 67,74 72,98 73,90 67,72 66,28 69,12 72,20 75,04 66,20 68,14 73,24 72,78 73,92 69,30 73,70 75,70 76,40 76,78 Wilt 96,47 96,94 97,23 97,17 97,33 96,65 96,74 97,17 97,23 97,79 96,26 96,78 97,19 97,56 97,38 96,51 96,55 96,98 97,23 97,54 MÉDIA 68,62 72,88 75,67 77,64 78,62 67,23 72,27 75,85 77,16 78,05 67,00 72,39 75,40 77,30 77,34 69,36 73,53 76,18 77,54 78,52 DESVIO PADRÃO 16,32 14,60 13,65 12,92 13,01 16,70 14,40 13,56 13,29 13,68 16,87 14,83 13,55 13,26 13,57 16,21 13,88 13,11 12,89 13,32 104 Tabela 11: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando Ripper como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 66,73 67,50 73,90 73,13 77,93 66,26 68,01 72,47 73,88 73,92 59,96 69,28 74,25 76,64 75,52 65,93 73,77 72,48 76,15 77,60 BTSC 73,92 75,13 73,65 74,86 75,14 75,27 74,21 75,80 75,94 76,46 76,47 74,47 75,27 76,20 76,60 74,86 75,40 75,27 75,66 75,94 Bupa 56,76 55,39 59,14 56,25 60,29 55,65 56,55 59,67 60,36 66,34 49,27 58,59 63,47 59,70 66,06 54,46 59,09 61,13 60,27 63,71 Car Evaluation 69,73 72,34 75,82 75,58 77,55 67,82 70,25 76,91 78,30 79,05 68,52 74,13 75,46 76,22 79,86 69,80 74,31 72,75 76,97 77,09 Cnae-9 49,54 60,83 70,09 71,02 75,19 47,87 60,28 69,72 73,61 76,48 49,35 65,56 71,20 74,63 75,09 47,13 61,48 68,43 75,93 74,72 Connectionist Bench 52,57 65,81 63,60 64,77 66,29 58,45 59,17 67,89 63,90 66,74 61,67 57,69 67,86 67,23 69,27 60,50 66,83 69,71 64,93 64,33 Hill Valley With Noise 51,89 51,65 51,57 51,22 51,16 50,16 50,57 50,91 50,74 53,96 48,92 50,40 50,91 50,83 49,42 50,56 51,33 52,47 51,48 49,92 Image Segmentation 76,49 87,14 87,71 89,26 91,47 76,28 81,43 86,10 88,79 89,70 72,99 81,77 85,19 87,88 90,56 74,85 84,55 86,19 89,65 90,39 Indian Liver Patient 69,29 69,97 66,22 71,00 67,89 68,25 69,97 67,92 72,22 67,94 64,78 68,09 69,13 69,98 71,02 67,93 65,83 66,56 67,39 68,28 Iris 50,00 73,33 83,33 89,33 82,67 58,00 80,00 83,33 86,67 88,67 50,67 75,33 83,33 87,33 85,33 46,67 74,67 85,33 88,67 86,00 KR vs KP 92,99 95,27 96,09 96,37 96,81 93,27 94,74 95,87 96,49 97,28 92,33 94,74 96,09 96,37 97,50 93,18 94,12 95,65 96,65 96,65 Leukemia 48,99 55,32 55,32 63,90 63,72 48,99 48,92 66,98 70,74 65,23 48,99 58,63 61,21 64,05 73,94 48,99 59,01 62,01 64,41 70,81 Mammographic Mass 77,51 79,91 81,25 82,50 81,25 78,25 81,78 83,35 82,30 82,30 78,98 81,58 81,79 83,14 81,26 77,42 81,49 82,63 81,70 82,52 Multiple Features 44,45 57,90 64,70 67,90 71,35 47,95 62,85 65,55 69,65 72,95 44,65 63,30 65,80 71,65 72,65 47,50 59,90 63,55 69,75 70,45 Mushroom 83,90 83,57 82,46 81,88 82,23 83,49 81,81 83,28 82,29 81,88 84,32 82,28 83,31 81,88 82,93 85,48 83,09 82,59 82,20 81,88 Musk 89,57 92,53 95,38 96,65 97,21 90,50 93,62 94,35 95,38 96,82 89,71 93,45 94,53 96,14 96,80 89,66 92,85 95,53 95,68 97,06 Ozone Level Detection 96,96 96,49 96,41 95,82 96,06 96,92 95,82 96,96 96,45 96,92 96,33 96,69 96,77 96,61 96,33 96,88 96,41 95,43 96,45 96,61 Pen Digits 81,43 86,94 89,96 91,67 92,77 80,49 86,56 89,02 91,11 92,55 80,88 87,12 89,24 91,51 92,70 80,26 86,53 89,72 91,13 92,46 Phishing Website 91,29 92,18 92,44 93,11 93,25 91,09 92,35 92,60 93,14 93,04 91,26 92,27 92,40 93,01 93,24 90,95 92,46 92,22 93,19 93,03 Pima 69,91 70,07 70,45 71,49 72,92 71,61 72,13 73,57 73,44 73,44 67,44 67,72 72,91 71,76 72,02 70,18 72,13 73,05 72,38 71,61 Planning Relax 68,13 67,05 68,68 65,91 71,46 62,08 67,66 70,35 65,41 67,19 67,66 57,08 71,46 67,08 71,46 67,57 69,24 70,35 70,91 67,02 Seeds 70,95 78,10 76,67 80,95 82,86 71,90 80,48 82,86 82,38 81,43 74,76 71,90 80,00 83,81 83,33 77,14 83,81 83,81 79,52 87,62 Semeion 32,21 44,69 52,10 54,93 61,83 30,01 43,31 49,01 55,80 58,45 34,13 42,13 51,41 54,77 56,74 34,60 44,64 48,09 56,25 57,19 Solar Flare 67,02 66,83 67,30 66,97 69,18 62,26 62,91 65,14 65,09 65,87 59,46 62,78 61,32 64,35 65,73 65,44 67,88 68,75 68,19 69,99 SPECTF Heart 64,50 73,11 70,21 72,82 73,35 70,76 66,48 69,97 72,72 70,53 72,21 66,53 67,58 75,97 73,65 69,02 72,50 69,96 72,50 75,66 Tic Tac Toe Endgame 62,12 67,33 72,65 91,23 94,06 63,58 69,10 78,53 86,11 92,52 64,93 70,67 82,88 92,29 91,31 65,88 69,83 75,88 87,48 94,25 Twonorm 82,41 84,81 86,82 87,51 87,87 81,81 85,72 86,54 87,65 88,28 82,11 85,96 85,85 87,57 87,89 80,89 85,24 86,08 87,43 88,77 Vehicle 43,04 56,42 55,90 62,06 62,30 44,21 50,59 57,92 58,75 63,36 44,22 50,08 55,66 60,77 57,78 46,69 55,18 58,18 59,23 64,05 Waveform 70,16 72,38 75,52 76,90 77,96 68,02 71,84 75,14 76,36 77,86 68,02 73,02 74,72 76,32 76,82 69,08 71,92 75,38 76,76 77,42 Wilt 96,49 96,65 96,98 97,46 97,44 96,47 97,33 96,67 97,04 97,60 96,01 97,04 97,15 97,48 97,40 95,93 96,63 97,09 97,25 97,33 MÉDIA 68,37 73,22 75,08 77,15 78,38 68,59 72,55 76,15 77,42 78,49 68,03 72,34 75,94 77,77 78,67 68,85 74,07 75,88 77,54 78,68 DESVIO PADRÃO 16,91 14,16 13,60 13,48 12,73 16,71 14,95 13,12 12,91 12,60 16,90 14,69 13,18 13,20 12,72 16,53 13,75 13,19 12,91 12,91 105 Tabela 12: Acurácia dos métodos ST Original, ST Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando k -NN como classificador ST Original ST Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 77,27 83,21 83,02 84,63 84,80 81,29 85,91 85,75 88,01 87,83 80,30 84,81 85,29 85,13 84,32 76,17 82,25 85,92 84,65 87,52 BTSC 70,99 74,99 73,40 77,01 75,80 73,93 74,33 77,41 77,81 77,13 74,73 76,34 76,75 75,94 76,08 73,65 75,13 75,28 76,34 76,21 Bupa 54,47 54,20 56,18 52,16 52,76 56,21 55,94 53,34 55,32 57,08 53,07 58,83 52,17 58,32 62,03 55,45 53,83 56,79 56,46 57,07 Car Evaluation 70,03 70,03 70,03 70,03 70,08 72,63 75,47 77,15 78,36 79,75 71,18 71,24 71,47 72,05 71,01 72,69 72,40 73,21 74,02 75,64 Cnae-9 47,41 59,63 63,43 68,98 69,63 48,24 56,11 66,48 66,39 71,94 44,26 57,50 63,24 66,94 70,74 48,24 58,70 66,20 67,59 70,83 Connectionist Bench 55,74 63,52 64,00 72,02 69,24 59,03 63,86 62,94 67,32 73,92 54,29 66,71 66,32 68,35 73,54 57,31 65,98 68,21 70,17 75,93 Hill Valley With Noise 52,73 48,51 53,31 50,49 50,90 49,42 49,69 49,82 49,08 51,24 51,81 51,57 52,31 50,73 51,24 49,68 50,58 50,41 51,41 50,91 Image Segmentation 84,76 89,78 91,39 92,81 92,60 84,72 91,47 92,47 92,73 93,20 88,23 90,17 92,38 92,94 93,07 85,93 89,52 90,78 93,46 92,77 Indian Liver Patient 67,44 66,90 68,63 69,51 66,25 68,94 68,60 68,97 68,46 69,13 63,09 66,86 66,17 66,53 69,28 66,06 65,19 69,98 69,82 70,33 Iris 84,00 89,33 94,67 93,33 94,67 93,33 92,67 94,00 95,33 95,33 86,67 92,67 94,00 95,33 94,67 92,00 88,00 93,33 94,67 94,00 KR vs KP 71,43 77,78 83,60 85,61 86,29 77,82 82,60 84,04 86,67 87,77 78,88 82,45 85,54 86,98 88,11 78,38 81,98 86,27 87,92 90,24 Leukemia 73,00 72,00 81,00 80,00 82,00 74,36 79,78 82,18 81,07 83,89 76,81 81,07 84,07 85,96 83,07 76,78 77,14 84,87 84,96 87,87 Mammographic Mass 75,85 78,35 78,65 78,44 77,20 77,43 77,73 79,09 78,77 78,25 76,27 78,25 77,84 77,51 79,08 78,78 79,00 78,37 78,27 79,21 Multiple Features 74,75 84,60 89,15 90,40 92,10 83,85 89,70 91,40 93,50 92,65 84,85 90,05 91,35 91,55 93,20 82,95 89,60 92,05 93,40 93,15 Mushroom 81,78 83,24 83,14 83,27 83,28 82,24 83,22 83,28 83,31 83,31 82,16 82,87 83,30 83,33 83,33 81,46 83,26 83,30 83,27 83,37 Musk 89,74 91,63 94,44 95,67 96,42 93,09 94,62 96,12 97,15 97,42 92,95 94,54 95,95 97,12 97,33 92,62 94,77 96,01 96,76 97,68 Ozone Level Detection 96,85 96,89 96,85 96,85 96,65 96,37 96,25 96,81 96,92 96,73 96,77 97,04 96,77 96,73 96,92 96,73 96,89 96,85 97,00 96,81 Pen Digits 96,92 98,13 98,56 98,75 98,94 96,26 97,54 98,44 98,78 98,68 96,54 97,99 98,38 98,54 98,74 96,15 97,94 98,40 98,77 98,90 Phishing Website 90,45 92,56 93,31 94,17 94,64 90,93 92,61 93,51 93,84 94,63 91,59 92,55 93,25 93,96 94,30 90,63 92,69 92,99 93,91 94,03 Pima 64,21 66,52 66,27 68,36 67,31 67,45 69,65 69,78 68,35 70,57 68,75 70,30 67,96 70,04 68,37 68,75 67,19 71,22 70,96 69,14 Planning Relax 70,38 61,05 65,44 65,44 65,91 67,05 67,57 65,44 67,57 68,68 66,55 63,71 67,16 69,24 70,50 70,88 70,91 69,21 71,43 69,24 Seeds 80,95 84,76 87,14 92,38 90,00 87,62 87,62 88,10 90,95 90,00 85,71 92,86 90,00 90,00 90,95 86,19 90,48 91,90 90,95 92,86 Semeion 68,60 78,33 81,48 83,92 85,31 70,32 78,34 85,18 85,31 86,32 73,78 81,20 84,88 84,76 85,56 72,44 81,67 83,31 85,49 86,56 Solar Flare 66,68 67,74 70,19 71,84 71,42 66,17 65,96 66,76 68,93 71,14 64,65 67,09 68,47 72,28 71,92 63,79 66,23 69,61 69,54 71,70 SPECTF Heart 66,53 66,72 61,77 68,75 64,38 66,20 68,16 70,46 71,61 72,43 66,88 67,99 67,87 72,02 72,29 72,80 69,91 66,18 67,86 66,82 Tic Tac Toe Endgame 65,34 65,34 65,76 66,81 67,33 72,43 84,66 90,50 91,13 93,11 70,26 79,23 77,24 78,51 79,54 76,72 86,43 88,84 89,87 92,79 Twonorm 97,03 97,11 97,30 97,23 97,43 97,41 97,30 97,41 97,34 97,49 97,27 97,36 97,43 97,41 97,47 97,64 97,64 97,43 97,50 97,61 Vehicle 49,62 55,14 57,22 58,40 62,89 53,30 57,68 59,93 60,17 63,47 51,22 60,30 58,85 62,75 62,53 47,68 52,85 57,60 59,19 64,78 Waveform 70,80 71,78 73,08 75,36 76,62 78,39 82,00 82,26 84,38 84,26 69,30 73,68 75,46 75,98 77,32 79,58 79,00 80,88 79,44 82,08 Wilt 93,12 93,92 94,50 94,21 94,34 94,44 94,09 94,36 94,30 94,40 93,22 93,92 94,21 94,32 94,36 94,63 93,68 94,34 94,38 94,65 MÉDIA 73,63 76,12 77,90 79,23 79,24 76,03 78,70 80,11 80,96 82,06 75,07 78,71 79,20 80,38 81,03 76,09 78,36 80,32 80,98 82,02 DESVIO PADRÃO 13,99 13,99 13,88 13,77 13,90 14,29 13,81 13,83 13,80 12,85 14,90 13,52 13,87 13,06 12,58 14,51 13,91 13,45 13,35 13,13 106 Tabela 13: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando k -NN como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 78,74 84,00 85,61 87,04 87,36 78,24 83,69 84,64 86,40 87,05 75,83 85,10 86,57 86,08 86,72 80,97 82,72 84,62 86,05 88,14 BTSC 73,93 76,47 74,72 75,13 76,21 76,74 75,81 75,01 75,54 76,88 74,32 75,81 76,48 77,00 77,26 75,41 75,01 76,08 75,12 76,62 Bupa 53,00 55,98 56,26 53,64 61,71 56,51 55,06 53,54 51,02 58,61 55,32 55,13 58,82 56,54 59,10 52,11 54,80 53,35 55,13 58,55 Car Evaluation 72,34 73,38 74,13 73,61 74,30 72,57 72,92 73,03 74,25 76,22 71,76 72,98 75,06 75,01 74,71 73,96 74,25 73,84 74,83 76,21 Cnae-9 42,22 60,74 64,91 68,70 71,94 45,74 62,96 65,00 68,98 70,74 51,67 62,22 66,57 73,15 70,93 46,02 58,70 65,09 63,43 66,76 Connectionist Bench 58,19 60,57 68,41 69,65 77,39 57,19 69,04 65,37 65,82 75,90 59,26 59,26 64,84 73,16 71,18 61,02 61,10 72,19 74,98 77,45 Hill Valley With Noise 52,47 51,23 51,80 49,74 52,47 52,89 50,47 49,42 51,98 50,82 51,98 51,01 50,02 51,33 52,65 49,92 52,13 50,25 49,36 48,92 Image Segmentation 86,58 90,69 93,25 92,68 92,81 87,32 90,26 91,86 92,60 93,77 87,01 90,09 91,43 92,21 93,29 85,28 90,69 92,08 92,73 93,72 Indian Liver Patient 66,87 66,89 70,19 70,51 67,43 69,30 69,64 68,98 70,15 68,96 68,60 68,12 69,15 68,77 68,61 68,45 70,50 70,85 68,64 71,54 Iris 84,67 90,67 92,67 90,00 92,00 82,67 92,67 94,67 94,00 93,33 89,33 94,00 92,67 96,00 93,33 91,33 93,33 94,00 93,33 94,67 KR vs KP 77,31 82,54 86,01 87,51 88,61 77,88 81,82 85,64 87,30 89,11 78,79 82,79 85,45 87,61 88,80 79,10 82,45 84,48 87,05 88,92 Leukemia 78,87 84,87 84,96 88,87 81,96 80,09 82,98 82,98 86,09 86,09 80,00 83,00 81,00 85,00 80,00 78,81 85,14 82,14 87,05 86,05 Mammographic Mass 74,49 76,89 78,77 79,07 78,15 77,64 77,63 77,63 78,15 76,70 77,63 76,90 77,94 79,61 78,58 75,66 78,05 76,68 80,33 79,19 Multiple Features 85,15 89,90 92,35 92,85 92,65 85,20 89,05 92,65 93,15 93,65 85,40 89,90 92,95 92,50 93,70 86,10 89,45 92,20 91,60 93,30 Mushroom 83,15 82,88 83,30 83,27 83,31 82,93 83,43 83,65 83,31 83,30 83,79 83,26 82,73 83,22 83,21 85,08 82,79 83,20 83,31 83,26 Musk 93,19 95,18 96,23 96,74 97,58 92,82 94,98 96,20 97,32 97,26 93,60 95,32 95,71 96,73 97,44 92,72 95,27 95,95 96,77 97,10 Ozone Level Detection 96,89 97,04 96,85 96,92 97,12 96,65 97,08 96,85 97,08 97,00 96,49 96,92 96,92 97,08 97,04 96,73 96,85 96,77 97,00 96,84 Pen Digits 96,73 97,95 98,54 98,79 98,84 96,42 97,85 98,30 98,67 98,68 96,42 97,91 98,24 98,62 98,84 96,31 97,91 98,20 98,58 98,84 Phishing Website 91,19 92,68 93,15 93,75 94,19 90,07 91,82 92,90 93,90 94,16 90,53 92,09 92,42 93,59 94,24 90,82 91,72 92,61 93,79 94,23 Pima 66,13 69,26 68,61 67,84 67,71 69,79 70,55 69,39 71,88 72,78 66,02 69,14 69,28 69,15 70,32 66,67 65,62 69,54 70,43 69,53 Planning Relax 69,24 60,44 70,38 70,91 67,02 70,91 70,91 70,91 68,68 69,21 67,60 68,22 67,13 67,02 69,80 67,02 70,47 68,16 68,77 70,91 Seeds 87,14 91,90 89,52 90,48 92,86 84,76 90,48 91,43 92,38 92,86 89,05 91,43 93,33 91,90 91,90 87,62 91,43 91,90 90,95 93,33 Semeion 74,51 80,04 83,43 86,31 85,88 72,77 79,03 83,76 85,32 86,44 75,33 81,30 83,17 86,06 86,69 75,39 81,87 83,75 85,44 86,44 Solar Flare 65,65 67,47 68,75 70,41 70,56 63,87 65,88 68,90 67,40 70,57 66,01 66,47 68,04 68,98 69,19 65,79 69,76 68,90 69,92 70,91 SPECTF Heart 72,52 70,49 67,58 70,76 71,05 70,45 70,44 67,37 71,91 72,78 67,42 66,12 69,12 72,51 71,72 62,70 68,48 66,22 72,50 75,10 Tic Tac Toe Endgame 72,96 86,32 87,88 91,65 94,16 72,87 82,59 84,56 86,75 88,00 75,04 84,23 86,54 90,30 88,10 69,21 81,94 86,54 88,31 87,89 Twonorm 97,45 97,49 97,49 97,64 97,58 97,46 97,50 97,49 97,50 97,43 97,51 97,41 97,42 97,45 97,53 97,39 97,59 97,55 97,47 97,47 Vehicle 50,59 57,65 59,20 60,85 63,58 48,37 56,04 58,04 62,19 60,63 49,09 57,60 56,81 60,33 60,37 50,48 54,59 56,64 61,09 62,14 Waveform 78,74 79,92 80,56 80,64 81,48 77,70 77,24 78,78 80,74 80,78 75,60 78,58 79,42 80,04 80,42 77,66 79,18 81,24 80,58 80,96 Wilt 94,05 94,71 94,48 94,44 94,05 94,07 94,17 94,75 94,61 94,54 93,76 94,63 94,32 94,50 94,34 94,01 94,46 94,50 94,36 94,61 MÉDIA 75,83 78,87 80,33 81,01 81,73 76,06 79,13 79,79 80,83 81,81 76,34 78,90 79,99 81,38 81,33 75,99 78,94 79,98 80,96 81,99 DESVIO PADRÃO 14,63 14,00 13,32 13,49 12,76 14,13 13,25 13,85 13,60 12,88 14,14 13,93 13,51 13,15 12,89 14,85 13,88 13,68 13,39 13,02 107 APÊNDICE B -- Acurácia de todos os métodos utilizando o algoritmo co-training 108 Tabela 14: Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando Naive Bayes como classificador CT Original CT Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 26,85 46,08 46,08 47,92 46,48 39,82 66,56 69,28 67,84 69,28 33,48 49,04 48,87 47,12 53,66 36,94 50,26 56,73 59,61 65,75 BTSC 72,80 72,53 73,86 73,13 74,87 72,13 73,25 71,85 72,79 75,13 74,33 72,26 75,41 73,59 74,41 70,86 73,45 74,52 74,86 74,26 Bupa 56,10 49,89 50,46 53,38 49,13 54,64 53,18 50,62 52,58 57,85 52,52 51,61 50,42 50,01 52,27 50,02 48,81 47,67 50,42 46,37 Car Evaluation 70,02 70,02 70,02 70,02 70,02 70,02 72,31 72,37 73,03 74,07 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 Cnae-9 21,02 18,19 18,29 15,00 15,69 18,80 18,52 19,95 14,63 17,78 19,07 21,06 17,18 17,96 16,06 17,50 17,69 18,75 18,33 16,67 Connectionist Bench 50,76 56,31 57,04 56,61 58,30 51,90 61,19 59,19 60,88 57,50 53,61 58,17 57,94 59,81 61,49 57,29 59,43 53,92 63,04 59,80 Hill Valley With Noise 50,66 49,42 51,40 49,79 49,88 50,39 48,39 49,70 49,21 52,15 49,74 49,62 50,41 50,33 50,75 50,66 50,74 49,26 50,74 51,20 Image Segmentation 55,71 59,05 60,48 60,11 61,39 59,70 60,80 61,17 63,20 62,51 58,68 61,17 60,17 60,63 60,54 57,47 57,90 59,22 56,93 60,28 Indian Liver Patient 40,94 37,75 37,75 37,40 37,41 46,49 43,70 42,60 42,44 43,99 41,28 38,66 38,74 38,83 38,75 39,88 38,86 38,61 39,53 38,35 Iris 67,67 82,33 85,67 87,00 88,00 74,67 79,67 86,33 83,67 86,33 73,67 75,67 87,00 84,00 87,00 75,00 83,00 85,00 85,67 86,67 KR vs KP 53,57 54,44 55,63 57,54 58,32 61,85 64,25 67,10 67,52 70,20 57,56 57,65 57,17 58,34 61,00 60,80 62,47 64,52 67,18 67,27 Leukemia 79,37 84,42 84,27 85,93 85,77 71,24 81,41 84,52 87,53 86,97 64,00 83,50 85,50 85,00 85,00 71,00 82,50 85,50 86,50 86,00 Mammographic Mass 77,16 77,05 76,69 76,95 77,52 74,40 76,81 79,09 77,42 77,10 76,84 76,32 76,99 77,36 76,99 76,47 76,42 76,48 76,99 76,78 Multiple Features 71,93 72,70 73,33 74,00 74,85 71,73 73,78 74,73 75,05 75,50 71,55 73,60 73,63 74,78 74,95 72,33 73,93 74,28 74,58 74,95 Mushroom 88,74 88,78 88,94 89,03 89,18 90,11 90,27 90,02 90,75 91,13 89,12 89,21 89,24 89,42 89,56 90,66 90,96 91,09 91,11 91,38 Musk 75,45 71,67 71,93 70,02 75,38 68,73 64,34 66,27 68,39 67,35 65,50 65,66 66,93 67,12 69,20 65,86 71,83 70,12 70,28 67,37 Ozone Level Detection 63,53 61,81 62,05 61,33 61,57 66,28 60,40 60,91 61,40 58,94 66,60 59,51 60,52 60,65 61,68 66,19 59,18 60,98 60,86 59,82 Pen Digits 57,79 59,43 61,01 62,30 63,81 62,24 66,28 67,92 69,05 69,92 60,63 62,19 62,20 62,76 63,69 57,45 57,44 60,08 62,26 63,46 Phishing Website 54,11 55,69 56,39 58,17 64,90 62,48 72,44 78,00 81,32 81,93 57,92 57,97 64,77 65,86 72,03 77,25 79,90 80,48 80,93 81,27 Pima 62,26 69,41 69,67 69,08 69,21 61,88 67,98 69,08 71,36 70,45 63,28 69,92 69,86 70,38 69,60 67,71 69,14 69,27 69,59 69,27 Planning Relax 68,44 63,49 70,09 69,82 68,42 69,52 65,67 65,92 65,13 64,62 69,81 69,28 70,63 68,73 70,35 71,17 68,70 67,63 68,96 69,55 Seeds 84,52 87,38 87,38 88,81 88,33 83,33 88,10 88,57 88,81 88,33 85,95 86,90 89,05 87,62 88,57 86,43 89,76 87,38 87,62 89,05 Semeion 29,55 39,21 46,16 50,45 52,86 32,19 39,47 43,85 51,19 55,78 34,95 39,47 48,19 50,45 54,70 37,33 42,99 50,99 53,21 56,15 Solar Flare 37,33 37,91 39,14 40,18 40,22 36,75 37,76 38,15 37,37 43,45 34,29 34,99 38,56 37,25 38,47 28,26 32,61 32,81 35,49 36,70 SPECTF Heart 56,29 51,11 50,70 49,84 50,70 64,77 54,06 55,09 53,79 54,80 60,05 57,28 54,57 53,72 54,57 64,39 60,94 56,10 56,82 56,40 Tic Tac Toe Endgame 65,34 65,34 65,34 65,34 65,34 64,34 66,23 65,13 66,74 67,17 65,34 65,34 65,34 65,34 65,34 65,19 65,34 65,34 65,34 65,40 Twonorm 92,14 92,20 92,14 92,17 92,14 92,07 92,16 92,11 92,14 92,17 92,14 92,14 92,14 92,18 92,12 92,14 92,14 92,14 92,18 92,16 Vehicle 37,99 37,58 38,58 37,94 40,35 36,51 39,97 39,04 39,70 40,49 40,91 39,52 38,55 40,32 40,68 39,09 37,71 39,72 38,98 39,72 Waveform 34,55 41,92 47,43 50,07 52,01 55,98 56,76 56,44 57,10 56,79 38,73 44,83 49,58 51,38 52,80 45,09 50,42 53,28 54,23 54,50 Wilt 94,51 94,49 94,60 94,59 94,60 94,43 94,58 94,59 94,59 94,69 94,51 94,55 94,59 94,58 94,58 94,50 94,58 94,59 94,59 94,60 MÉDIA 59,90 61,59 62,75 63,13 63,89 61,98 64,34 65,32 65,89 66,81 60,54 62,24 63,47 63,52 64,69 61,83 63,64 64,22 65,23 65,37 DESVIO PADRÃO 19,47 18,89 18,50 18,67 18,62 17,72 17,57 17,90 18,26 17,45 18,50 18,00 18,45 18,09 18,02 19,01 18,91 18,53 18,20 18,40 109 Tabela 15: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando Naive Bayes como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 45,70 54,36 54,33 60,26 68,39 41,83 50,89 48,96 57,14 63,53 42,73 46,27 50,42 56,43 59,90 47,59 56,15 60,01 66,48 67,38 BTSC 73,46 74,94 75,20 74,73 74,60 72,18 74,20 73,53 73,73 73,46 69,60 74,14 74,40 74,34 73,73 71,60 74,74 74,41 72,87 73,74 Bupa 54,34 48,00 51,13 50,71 49,74 52,34 52,28 54,49 50,27 50,59 53,57 49,30 51,63 52,74 50,47 49,41 52,34 52,33 51,42 49,44 Car Evaluation 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 Cnae-9 20,32 20,23 19,77 18,24 14,81 19,35 18,75 18,10 16,44 15,97 17,82 19,17 19,17 15,93 17,27 16,94 18,24 18,75 18,70 16,81 Connectionist Bench 55,53 61,72 59,45 60,98 61,33 55,27 53,82 57,94 58,65 60,00 58,33 59,61 58,22 60,75 58,86 56,80 55,39 56,21 63,46 58,75 Hill Valley With Noise 49,66 50,57 49,55 49,27 50,58 51,02 50,20 50,74 49,71 50,05 47,24 48,98 47,69 50,21 50,75 50,82 49,84 50,70 51,08 49,85 Image Segmentation 54,50 55,71 58,14 56,41 58,03 58,07 59,59 59,89 61,52 63,59 60,15 60,93 59,22 61,62 60,80 59,46 61,54 62,99 63,01 62,99 Indian Liver Patient 39,55 38,08 37,91 38,25 38,68 41,53 41,52 41,00 40,57 40,40 40,73 40,90 40,89 40,63 39,44 41,34 41,76 40,99 41,33 41,95 Iris 77,00 81,33 86,00 87,67 87,67 69,00 82,00 86,00 86,00 86,33 77,33 85,00 86,00 86,33 87,67 75,33 82,67 84,00 84,33 86,67 KR vs KP 62,00 63,27 65,08 65,66 67,41 61,05 63,58 65,49 67,10 68,05 58,93 63,20 65,66 66,90 67,69 60,64 63,97 65,28 66,79 68,15 Leukemia 68,70 77,30 88,27 85,81 81,85 72,89 80,65 84,61 84,15 86,52 67,13 81,06 85,22 86,22 84,76 65,94 84,86 79,34 84,26 84,75 Mammographic Mass 75,45 75,33 77,05 75,75 77,21 75,44 76,17 76,90 77,26 77,31 75,49 77,46 77,20 77,62 77,00 76,22 76,85 77,15 77,11 77,63 Multiple Features 72,40 73,33 74,05 74,48 74,80 72,15 74,23 74,73 74,68 76,15 71,58 74,30 74,53 75,65 76,00 72,15 73,20 74,50 75,33 76,23 Mushroom 90,42 90,97 90,70 91,17 91,33 91,53 91,25 91,56 91,83 92,20 91,28 91,64 91,60 91,70 92,00 91,09 91,50 91,86 91,91 92,07 Musk 71,10 69,17 69,42 69,90 70,50 69,46 68,62 70,73 72,56 73,28 70,65 66,67 70,33 72,02 72,21 66,49 73,48 69,69 72,08 73,20 Ozone Level Detection 65,43 61,30 61,47 60,37 61,12 68,80 60,63 61,02 61,75 60,92 68,00 61,46 60,79 62,30 60,63 64,09 60,31 61,95 61,12 60,73 Pen Digits 57,20 57,92 60,89 61,97 63,24 60,81 64,12 66,35 68,25 69,45 60,84 63,98 66,43 67,93 69,52 63,65 65,33 67,17 68,95 69,53 Phishing Website 75,94 79,57 80,37 80,96 81,04 67,37 71,79 77,42 79,06 80,42 65,52 72,47 77,27 78,10 81,80 67,35 74,98 78,05 79,66 79,81 Pima 67,44 69,26 70,24 70,11 68,94 65,49 67,84 69,72 70,70 70,50 66,92 67,97 69,73 70,31 70,12 66,29 67,65 68,49 69,66 70,52 Planning Relax 71,49 68,46 67,63 69,24 69,24 69,81 69,31 67,91 68,95 67,56 69,27 69,81 69,85 67,92 68,16 68,42 64,59 69,27 69,80 66,83 Seeds 85,48 88,81 88,10 88,57 88,57 84,05 87,38 87,38 88,33 88,33 80,24 90,48 87,86 87,62 88,10 84,76 87,62 88,33 88,10 88,33 Semeion 31,89 40,98 50,54 54,36 56,17 38,54 47,19 53,24 53,40 55,00 32,38 44,20 52,04 53,92 55,84 30,20 39,36 45,41 52,61 54,61 Solar Flare 27,92 37,00 34,08 38,75 36,39 31,51 36,44 30,64 33,91 34,52 28,11 32,75 35,28 32,21 35,17 32,54 37,52 37,71 36,33 36,29 SPECTF Heart 66,59 58,30 56,12 56,17 56,46 67,89 55,69 57,09 57,67 56,66 62,76 59,80 56,64 56,19 54,61 63,59 56,98 56,69 55,84 56,56 Tic Tac Toe Endgame 64,67 65,34 65,40 65,19 65,24 64,98 65,34 65,34 65,66 65,45 64,72 65,29 65,34 65,40 65,86 65,03 65,24 65,34 65,40 65,50 Twonorm 92,12 92,10 92,13 92,09 92,19 92,13 92,17 92,12 92,17 92,18 92,16 92,09 92,12 92,20 92,18 92,05 92,18 92,16 92,22 92,23 Vehicle 37,90 37,01 42,91 38,17 40,28 35,98 36,76 38,44 38,77 40,13 39,01 38,70 38,61 40,20 38,83 37,86 38,53 38,16 39,06 41,71 Waveform 48,76 52,39 54,07 54,96 54,57 52,58 55,26 55,70 55,75 55,76 53,87 54,86 55,78 55,78 55,70 54,06 54,75 55,63 56,02 55,88 Wilt 94,51 94,54 94,60 94,60 94,59 94,55 94,58 94,55 94,58 94,69 94,42 94,58 94,58 94,62 94,61 94,40 94,58 94,57 94,60 94,64 MÉDIA 62,25 63,58 64,82 65,16 65,50 62,25 63,74 64,72 65,35 65,97 61,69 63,90 64,82 65,46 65,66 61,87 64,21 64,91 65,98 66,09 DESVIO PADRÃO 18,73 18,21 18,30 18,24 18,36 17,96 17,86 18,39 18,39 18,41 18,31 18,50 18,23 18,43 18,41 18,20 18,22 17,84 17,79 18,08 110 Tabela 16: Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando árvore de decisão como classificador CT Original CT Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 47,33 46,17 50,38 50,79 48,94 60,94 60,83 62,41 66,22 67,54 45,92 46,89 47,04 48,42 46,72 46,10 46,31 46,00 45,84 52,16 BTSC 74,72 75,06 76,21 76,21 76,07 75,94 76,47 76,01 76,01 75,80 76,21 75,87 75,94 76,21 75,67 74,94 76,27 76,21 76,21 75,34 Bupa 54,60 56,55 57,39 56,55 53,74 50,13 55,21 57,86 54,34 56,71 52,72 57,67 57,42 57,96 58,25 53,72 57,10 56,38 57,84 57,98 Car Evaluation 70,02 70,02 70,02 70,02 70,02 70,58 74,07 74,36 73,99 74,92 70,03 70,03 70,03 70,03 70,03 70,02 70,02 70,02 70,02 70,02 Cnae-9 57,45 61,39 65,69 65,97 67,13 58,98 64,12 68,80 68,66 70,65 58,61 64,12 66,76 68,06 67,31 47,87 59,17 60,93 62,18 66,06 Connectionist Bench 52,91 51,89 54,15 52,20 54,91 52,10 54,40 53,40 55,25 59,90 62,25 53,64 54,77 60,10 53,82 55,56 50,65 55,10 54,12 60,05 Hill Valley With Noise 28,51 28,55 28,69 28,58 28,62 48,46 49,46 50,36 51,36 51,90 32,91 37,95 35,62 35,42 34,02 32,32 34,88 34,08 37,96 40,78 Image Segmentation 50,20 50,70 53,13 51,37 49,73 50,13 50,08 51,82 50,12 51,03 49,05 50,37 51,07 52,11 51,94 48,98 50,08 50,57 51,46 51,77 Indian Liver Patient 71,36 71,36 71,36 71,36 71,36 71,36 70,06 68,90 69,73 70,75 71,02 71,02 71,10 71,36 71,27 69,16 71,36 71,36 71,36 71,36 Iris 33,33 57,00 66,67 67,33 74,00 33,33 76,67 72,00 76,00 79,00 33,33 66,00 60,67 70,33 69,67 33,33 68,33 70,67 74,67 74,00 KR vs KP 61,56 63,44 65,69 67,91 71,06 65,06 70,79 73,03 74,38 75,42 57,75 61,79 70,29 72,53 73,28 63,64 63,92 70,73 73,62 73,83 Leukemia 48,99 50,10 51,21 59,23 56,47 48,99 69,15 54,01 54,18 59,95 48,99 64,94 51,00 60,18 64,49 48,99 61,36 55,77 62,16 63,61 Mammographic Mass 63,04 67,80 74,43 63,46 71,01 71,73 78,98 77,58 78,56 78,68 60,13 70,41 76,90 67,51 76,64 68,72 76,33 78,14 78,20 78,14 Multiple Features 16,10 23,53 33,65 42,63 48,45 20,13 33,53 41,78 47,83 49,80 21,95 28,38 36,33 43,65 49,83 29,60 48,08 51,18 53,45 54,78 Mushroom 97,32 98,09 98,14 98,41 98,51 97,01 97,98 98,13 98,30 98,33 96,92 97,93 98,08 98,11 98,49 96,38 97,23 98,10 98,30 98,41 Musk 78,49 89,63 91,63 95,11 95,28 91,54 93,86 95,48 96,14 96,56 91,05 94,48 95,40 96,54 96,87 90,73 93,30 94,04 95,38 95,62 Ozone Level Detection 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,10 97,10 97,12 97,12 97,12 97,08 97,12 97,12 97,12 97,12 97,06 Pen Digits 68,73 76,10 80,19 83,18 84,80 65,01 75,39 80,02 81,70 83,62 63,99 74,85 82,15 83,51 85,14 75,99 81,49 82,99 83,69 84,23 Phishing Website 66,61 75,35 77,29 82,51 83,98 76,57 80,49 81,47 83,11 83,98 70,92 76,76 80,39 83,11 84,34 76,80 81,10 82,23 82,73 83,94 Pima 62,12 62,66 64,72 63,36 65,17 60,29 66,41 66,81 69,59 66,60 61,12 65,43 65,69 66,66 66,09 65,11 64,33 64,98 65,30 65,17 Planning Relax 71,46 71,18 71,46 71,46 71,46 71,46 63,99 69,62 68,13 71,74 71,46 72,02 70,64 71,46 71,46 71,46 71,46 71,46 71,46 71,46 Seeds 70,95 80,48 83,57 85,48 85,71 43,10 78,57 83,57 82,14 85,00 36,43 76,43 76,90 82,62 82,86 39,05 84,05 84,05 87,38 86,19 Semeion 72,03 79,48 83,38 83,72 86,88 74,87 80,58 83,20 84,42 86,30 69,91 78,57 82,40 85,48 86,80 77,45 83,94 84,72 85,93 86,84 Solar Flare 15,17 23,97 34,09 41,96 49,53 21,80 32,92 41,11 44,19 48,84 21,17 31,53 37,37 40,24 48,70 26,72 34,57 41,93 46,57 48,23 SPECTF Heart 72,79 72,79 72,79 72,79 72,79 69,22 69,03 70,35 72,04 71,02 70,60 71,95 71,69 72,19 74,52 67,18 70,57 72,79 72,79 72,53 Tic Tac Toe Endgame 65,34 65,34 60,27 65,66 65,34 65,03 65,76 66,55 67,95 68,01 64,92 63,63 66,18 64,25 65,14 64,04 64,93 65,24 65,50 65,34 Twonorm 49,99 52,84 60,31 58,77 65,70 71,08 76,75 78,22 79,15 80,53 66,51 73,41 67,05 68,29 78,19 77,80 81,95 82,05 81,73 82,05 Vehicle 42,74 48,80 55,24 58,19 60,90 40,11 50,53 57,88 60,73 58,82 37,46 53,72 56,62 59,58 61,03 44,48 55,00 59,86 61,60 64,01 Waveform 33,26 33,44 33,38 33,54 33,46 45,18 51,26 52,49 53,82 53,30 38,43 46,25 43,11 49,41 47,57 33,42 33,93 34,69 35,08 36,02 Wilt 94,61 94,61 94,61 94,61 94,61 95,40 95,35 95,75 95,91 95,98 94,74 94,61 95,05 94,61 94,61 95,09 94,75 94,61 94,61 94,61 MÉDIA 59,63 63,18 65,90 66,98 68,43 62,09 68,66 70,00 71,03 72,26 59,79 66,26 67,03 68,90 70,06 61,39 67,45 68,60 69,81 70,72 DESVIO PADRÃO 20,92 20,10 18,81 18,22 17,95 19,99 16,75 15,74 15,29 14,79 20,66 17,77 17,75 16,71 16,63 20,54 18,19 17,73 17,23 16,35 111 Tabela 17: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando árvore de decisão como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 45,92 46,89 44,60 46,87 46,63 43,67 40,35 45,27 41,21 43,96 44,22 46,00 48,30 47,97 48,20 47,12 44,94 47,83 48,96 48,95 BTSC 75,41 75,94 76,21 75,94 75,94 74,01 76,21 76,21 75,94 75,73 76,14 75,01 76,21 76,21 76,21 76,21 75,94 76,21 76,21 76,14 Bupa 56,81 56,10 56,98 57,84 55,13 55,34 53,79 56,81 55,79 57,39 55,68 58,41 57,98 57,98 57,69 57,10 56,39 56,82 57,25 56,68 Car Evaluation 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 Cnae-9 52,13 61,20 61,53 64,26 66,99 55,83 60,09 62,04 64,35 65,51 55,28 59,63 62,64 65,19 64,35 37,92 48,38 50,83 56,11 61,02 Connectionist Bench 51,93 55,64 54,23 55,24 53,55 54,79 52,49 54,33 56,48 57,00 58,72 53,15 54,35 54,76 56,18 56,78 50,37 52,67 56,98 53,69 Hill Valley With Noise 31,46 32,66 37,22 42,47 41,77 31,03 28,73 32,26 34,59 38,26 31,84 27,46 33,46 36,90 39,01 32,30 33,03 38,04 39,60 42,98 Image Segmentation 49,05 49,78 50,25 48,85 50,30 50,04 49,18 51,52 50,34 49,26 50,70 51,48 49,79 51,97 51,92 50,50 49,43 53,04 51,52 52,72 Indian Liver Patient 71,36 69,58 71,36 71,36 71,36 71,44 71,36 71,36 71,36 71,36 69,17 71,36 71,36 71,36 71,36 71,36 71,36 71,36 71,36 71,36 Iris 33,33 68,33 71,67 75,33 73,67 33,33 67,67 69,33 67,67 77,33 33,33 67,00 71,33 72,00 73,33 33,33 75,00 72,33 78,33 72,33 KR vs KP 63,16 67,59 67,90 73,34 73,50 64,15 68,01 69,40 73,76 74,06 64,27 67,35 70,79 72,95 73,86 62,23 66,08 68,66 73,37 73,88 Leukemia 48,99 69,22 61,29 59,51 61,85 48,99 62,44 60,10 55,21 56,27 48,99 63,43 60,56 55,22 55,07 48,99 66,14 57,50 65,55 60,50 Mammographic Mass 67,89 71,11 76,94 78,21 78,46 75,97 76,23 76,80 78,32 76,28 69,90 76,51 75,57 77,74 78,41 75,50 76,35 76,71 77,14 79,52 Multiple Features 34,13 44,45 50,13 53,60 55,13 28,95 40,28 50,30 53,30 54,10 22,75 41,30 49,05 52,03 54,53 32,78 43,88 47,53 50,93 52,98 Mushroom 95,89 97,48 98,11 98,36 98,42 95,67 97,59 98,22 98,18 98,47 95,30 97,20 97,86 98,22 98,43 96,04 97,46 97,84 98,30 98,33 Musk 90,82 93,28 94,30 95,01 95,98 90,22 93,16 94,35 95,18 95,95 90,65 93,60 94,09 94,90 95,89 90,73 93,50 94,10 95,14 95,75 Ozone Level Detection 97,12 97,12 97,12 97,12 97,12 96,92 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 Pen Digits 75,58 80,96 82,55 83,93 84,49 73,09 78,52 81,10 83,28 84,26 72,33 78,73 81,77 83,20 84,33 73,77 78,79 81,98 83,51 84,30 Phishing Website 78,44 80,71 81,71 82,81 83,56 75,71 79,73 81,84 83,10 83,78 74,89 80,05 81,86 83,06 83,77 75,04 78,86 82,08 83,00 83,83 Pima 60,45 62,44 65,37 65,82 65,63 61,86 63,87 65,04 65,76 65,88 63,67 63,85 63,79 66,66 64,78 56,38 64,47 65,17 65,69 65,95 Planning Relax 71,46 70,91 69,24 71,46 69,24 71,46 67,02 69,62 71,46 71,46 71,46 71,46 71,46 71,46 71,46 71,46 69,62 70,91 71,46 71,46 Seeds 40,24 80,71 84,05 85,00 83,10 40,24 78,57 84,52 80,71 82,86 42,38 82,86 84,05 83,57 83,33 42,62 81,43 82,86 85,48 83,33 Semeion 78,92 82,62 84,37 86,99 87,38 74,55 79,63 83,33 85,09 86,23 70,63 78,68 84,03 85,15 86,06 74,65 82,68 83,55 84,61 85,89 Solar Flare 27,47 35,94 41,05 44,53 47,58 18,39 33,60 38,59 45,98 49,02 21,43 31,72 40,42 47,06 49,43 30,00 37,19 43,23 45,74 50,30 SPECTF Heart 71,40 72,79 72,22 73,07 72,53 72,35 71,68 73,08 72,22 73,22 70,58 72,36 73,48 72,07 73,06 71,79 73,67 72,22 73,07 73,39 Tic Tac Toe Endgame 63,85 63,31 65,23 65,34 65,55 64,93 64,46 64,98 65,04 65,40 63,82 62,86 65,24 65,45 64,98 65,34 64,98 65,19 65,45 65,34 Twonorm 78,35 81,39 81,94 82,18 82,33 80,91 80,03 80,53 81,49 81,76 78,96 80,77 81,09 81,67 81,91 80,00 81,05 81,36 80,80 81,55 Vehicle 45,23 56,73 61,31 61,82 64,48 38,55 52,18 58,28 62,92 62,16 42,73 53,39 57,74 61,17 62,23 45,90 54,06 57,57 59,65 62,11 Waveform 33,45 34,44 35,12 38,30 36,80 33,49 34,53 34,04 35,49 38,80 33,34 33,31 33,75 36,30 35,76 34,22 36,82 36,12 40,73 41,30 Wilt 94,61 94,73 94,71 94,61 94,61 94,81 94,69 94,61 94,61 94,61 94,79 94,79 94,61 94,61 94,61 94,70 95,15 94,79 94,61 94,61 MÉDIA 61,83 67,47 68,63 69,97 70,10 61,36 66,11 68,17 68,87 69,92 61,17 66,70 68,46 69,47 69,91 61,73 67,14 68,19 69,92 70,24 DESVIO PADRÃO 20,30 17,92 17,48 16,84 16,79 21,28 18,86 17,91 17,55 16,98 20,85 18,79 17,71 17,00 16,86 20,33 18,35 17,46 16,70 16,21 112 Tabela 18: Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando Ripper como classificador CT Original CT Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 45,52 46,96 47,35 49,90 47,43 64,79 65,04 65,43 67,68 66,08 48,17 48,49 46,55 47,44 47,60 46,42 45,40 47,67 53,60 55,60 BTSC 75,20 76,27 76,07 74,79 75,13 73,27 74,14 72,94 75,54 76,07 75,07 73,53 76,14 75,87 76,01 72,80 75,14 76,34 75,61 76,20 Bupa 53,87 53,51 51,73 53,95 57,84 60,47 57,39 55,35 55,26 57,41 54,66 54,50 56,24 53,50 56,53 54,34 53,04 52,09 53,49 54,63 Car Evaluation 58,11 70,02 70,02 70,02 70,02 68,90 70,20 72,08 72,10 72,40 63,93 63,31 70,02 70,02 70,02 62,18 70,02 70,26 70,02 70,02 Cnae-9 52,73 60,60 61,62 60,97 63,47 60,32 61,44 63,19 63,61 64,95 56,53 63,47 63,70 65,79 65,09 51,85 57,73 61,16 62,04 64,72 Connectionist Bench 51,84 57,75 59,36 59,52 57,70 57,73 60,00 59,15 57,92 64,21 55,01 52,14 53,06 58,58 55,63 54,60 60,05 63,33 62,32 59,60 Hill Valley With Noise 28,93 29,74 29,95 31,71 32,64 45,87 47,84 49,46 48,74 49,14 37,52 42,33 46,71 48,10 46,37 33,09 32,01 29,26 30,64 30,67 Image Segmentation 50,45 49,71 51,12 51,11 51,12 51,44 48,56 51,34 52,76 50,21 50,86 51,52 51,49 49,51 50,53 50,95 51,74 51,26 51,44 52,93 Indian Liver Patient 68,77 70,84 71,44 71,27 71,36 66,38 68,95 66,91 68,51 69,32 70,93 70,32 68,43 71,27 71,10 71,18 69,97 71,36 71,18 71,36 Iris 57,00 65,67 65,67 69,33 77,00 48,33 66,00 73,67 73,67 77,00 49,00 58,33 67,33 61,67 70,00 53,33 68,00 69,33 75,33 77,00 KR vs KP 54,90 60,68 63,80 62,59 66,79 70,07 75,44 73,75 75,70 76,69 54,06 57,96 59,75 63,00 65,83 59,39 63,61 65,76 67,56 69,59 Leukemia 58,49 61,79 57,65 62,18 69,54 48,99 65,12 62,96 59,46 68,41 48,99 56,58 58,56 62,03 67,77 49,00 65,50 64,50 68,00 71,50 Mammographic Mass 55,47 63,43 61,84 62,70 70,88 76,29 77,34 77,58 79,86 78,92 63,08 69,05 73,06 74,07 68,62 74,19 73,73 76,27 79,14 79,19 Multiple Features 30,43 40,65 45,20 47,78 50,70 29,58 37,20 43,43 47,15 48,45 35,20 42,05 44,78 47,30 51,15 32,58 39,83 42,55 47,73 48,98 Mushroom 80,53 78,78 78,61 78,84 82,21 80,67 84,71 85,55 84,64 84,80 82,61 80,98 80,66 83,45 86,40 78,55 79,89 77,69 78,32 82,72 Musk 59,79 68,40 86,26 89,01 90,78 87,22 88,67 92,71 92,98 94,14 87,42 89,35 91,91 93,71 93,91 88,20 91,41 92,79 93,28 94,73 Ozone Level Detection 97,10 97,00 96,75 97,08 97,04 96,93 97,06 96,94 97,04 97,16 97,00 97,04 96,83 97,08 96,94 97,00 96,73 96,86 96,96 96,96 Pen Digits 70,36 76,27 80,58 81,87 83,59 69,69 76,52 78,70 81,48 83,51 63,04 76,73 79,18 81,51 82,43 75,96 79,08 81,34 82,31 83,17 Phishing Website 58,40 63,85 67,46 71,17 76,26 79,94 82,51 83,06 83,68 84,02 59,63 64,11 69,14 77,09 77,52 79,54 81,99 82,68 82,66 83,51 Pima 65,50 62,71 63,32 66,21 66,73 66,76 67,91 69,80 70,00 69,34 65,18 60,36 66,22 64,64 66,53 63,53 66,80 66,86 68,04 68,23 Planning Relax 69,33 68,68 71,46 69,55 68,96 63,13 68,96 68,22 67,13 68,44 68,41 69,01 71,18 65,69 70,07 71,46 70,63 70,15 69,61 70,91 Seeds 75,00 78,10 81,19 82,62 84,52 68,33 80,24 83,57 81,19 84,05 74,52 81,90 81,19 84,76 79,29 71,43 82,14 80,71 83,81 82,62 Semeion 71,47 76,52 81,43 84,33 84,11 73,85 76,97 80,87 82,34 84,65 68,70 73,20 74,42 81,82 83,03 71,10 78,92 80,71 83,77 85,43 Solar Flare 30,70 37,31 41,68 43,04 44,95 27,08 32,83 36,87 43,30 45,42 28,73 36,38 40,31 44,48 46,61 22,56 29,63 34,19 39,08 40,18 SPECTF Heart 72,61 71,02 71,51 70,37 71,98 66,69 66,89 69,96 71,79 72,61 72,65 72,62 72,21 71,81 73,36 69,48 71,80 70,07 74,65 72,53 Tic Tac Toe Endgame 56,79 62,53 60,29 62,37 61,16 59,68 64,93 68,36 66,65 68,47 62,16 58,49 59,56 64,46 65,39 64,20 65,19 64,98 64,77 64,98 Twonorm 53,65 61,27 66,22 80,19 85,41 67,51 74,91 80,07 81,61 83,13 54,13 71,26 59,36 59,53 66,31 83,88 84,47 84,18 84,59 84,84 Vehicle 46,53 56,21 60,59 59,92 62,25 45,44 50,11 56,51 58,68 59,65 44,72 56,11 54,32 55,79 62,25 50,04 56,28 57,36 58,68 63,54 Waveform 33,88 34,71 37,41 40,09 43,22 51,09 54,21 54,61 55,18 55,14 33,41 39,03 44,98 49,12 51,89 33,22 33,72 33,83 34,21 34,42 Wilt 94,61 94,61 94,64 94,70 94,70 95,65 95,54 95,90 95,74 95,94 95,08 94,62 94,64 94,80 94,67 94,94 94,88 94,61 94,65 94,80 MÉDIA 59,26 63,19 65,07 66,64 68,65 64,07 67,92 69,63 70,38 71,66 60,68 64,16 65,73 67,26 68,63 62,70 66,31 67,00 68,58 69,52 DESVIO PADRÃO 16,78 15,64 15,91 15,77 15,87 16,33 15,30 14,80 14,29 14,12 17,04 15,57 14,95 14,93 14,20 18,54 17,86 17,60 17,04 16,97 113 Tabela 19: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando Ripper como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 45,83 44,53 48,47 49,76 53,71 43,69 45,74 44,67 47,04 54,42 43,59 44,97 47,00 46,73 49,76 46,23 44,48 47,96 51,35 54,22 BTSC 75,67 75,47 76,41 74,94 76,21 73,93 75,41 75,27 74,33 76,21 75,14 76,47 74,34 75,34 75,67 75,87 74,66 75,27 73,67 75,13 Bupa 53,60 53,79 57,55 56,37 57,54 53,58 51,13 54,06 57,42 56,95 54,47 57,41 56,11 56,84 55,39 53,05 56,93 52,85 53,20 56,24 Car Evaluation 67,67 70,02 70,02 70,02 70,02 60,37 70,02 70,02 70,02 70,02 62,69 70,03 70,03 70,03 70,03 70,02 70,02 70,02 70,02 70,02 Cnae-9 53,75 57,73 59,81 64,17 65,42 53,24 55,56 58,38 62,22 61,48 51,06 58,61 60,32 61,67 61,30 30,28 46,20 48,94 56,16 61,34 Connectionist Bench 60,07 56,45 50,95 63,00 64,68 54,12 55,82 56,45 59,37 62,05 57,12 56,06 59,88 63,18 61,60 53,65 55,98 58,11 63,14 64,39 Hill Valley With Noise 31,48 28,18 29,95 30,63 29,26 30,33 30,02 31,79 29,88 33,85 30,78 30,67 31,10 33,26 30,36 29,01 29,52 29,41 29,34 29,48 Image Segmentation 50,29 51,91 50,12 50,53 53,59 51,41 53,79 49,50 51,32 50,75 50,65 51,07 52,03 51,28 51,44 52,08 48,71 50,55 48,51 51,77 Indian Liver Patient 71,70 71,18 70,24 71,36 71,10 68,00 71,62 71,44 71,53 71,35 67,88 70,50 71,36 71,18 71,36 66,61 69,70 71,27 71,26 71,44 Iris 55,33 73,33 73,00 77,33 77,33 56,67 71,67 74,67 72,00 79,00 52,33 70,33 71,00 77,00 78,00 46,67 72,67 75,67 77,67 81,67 KR vs KP 60,73 64,42 64,86 67,66 71,61 59,20 62,80 66,55 70,15 71,34 59,31 62,19 68,05 69,43 70,82 58,43 63,52 66,36 67,69 70,10 Leukemia 48,99 68,10 68,03 72,14 65,14 48,99 66,02 64,83 69,15 75,49 48,99 62,85 64,58 58,17 72,63 48,99 66,38 64,72 62,86 71,94 Mammographic Mass 67,26 74,26 77,88 78,87 78,66 74,79 74,36 78,66 77,52 78,61 75,64 74,15 74,30 79,08 79,12 76,18 77,52 78,09 78,61 78,51 Multiple Features 29,73 37,30 40,73 46,90 46,48 34,35 43,45 45,68 49,03 52,45 32,23 40,63 47,33 47,93 52,00 28,00 34,73 42,33 43,85 48,40 Mushroom 78,08 82,49 79,06 78,20 79,49 76,01 80,23 81,75 80,37 79,94 77,43 80,77 78,49 79,56 79,92 79,04 80,48 81,18 79,13 81,49 Musk 88,61 90,75 92,91 93,26 94,44 84,35 91,13 92,19 93,39 93,39 88,13 88,99 92,16 93,60 93,65 88,00 91,00 92,41 93,22 93,78 Ozone Level Detection 96,59 96,59 96,90 96,98 97,08 97,12 96,69 97,10 97,10 97,08 96,96 96,88 97,02 97,06 97,04 97,12 96,83 97,00 97,00 96,89 Pen Digits 74,98 78,62 81,63 82,48 83,46 75,41 79,75 81,78 83,27 83,87 76,55 79,71 82,63 83,11 83,87 76,25 79,71 81,74 83,13 84,20 Phishing Website 80,35 82,17 82,97 83,09 83,29 73,67 77,79 79,49 80,98 82,50 75,50 76,71 79,50 80,61 81,99 74,01 77,97 78,20 80,33 82,48 Pima 65,62 65,36 65,30 67,71 68,16 64,14 67,72 66,61 66,87 67,85 64,31 66,28 67,05 66,61 67,51 66,21 65,83 67,38 66,55 66,98 Planning Relax 67,59 65,91 69,06 71,46 70,91 69,85 69,24 68,96 71,18 71,46 67,65 64,24 69,27 70,91 69,80 70,09 64,72 71,74 71,18 71,18 Seeds 70,48 80,24 84,52 83,57 84,05 70,24 79,29 81,67 84,29 84,05 79,52 77,62 84,05 84,29 83,33 69,05 81,19 81,43 85,00 80,71 Semeion 72,73 79,74 82,99 83,48 83,81 70,35 76,71 80,69 81,47 83,92 68,40 77,45 81,04 82,88 84,31 70,52 78,40 81,69 83,77 84,55 Solar Flare 23,14 30,07 35,69 38,64 41,62 21,40 31,63 35,64 41,37 42,19 22,29 30,55 35,83 40,17 43,66 23,88 31,81 35,08 41,45 45,27 SPECTF Heart 69,42 71,79 72,52 71,94 73,81 68,77 70,45 73,53 72,33 73,79 67,54 71,74 68,48 72,47 72,34 71,04 70,51 72,62 71,98 72,24 Tic Tac Toe Endgame 64,98 63,30 64,87 64,66 65,29 64,00 65,09 65,56 64,61 65,87 64,19 63,46 65,50 64,92 65,76 61,49 64,88 65,29 64,57 65,50 Twonorm 83,68 84,11 84,67 84,95 85,29 83,73 82,58 84,30 83,98 84,64 83,05 83,32 83,85 84,42 84,41 83,36 83,49 83,77 83,79 85,12 Vehicle 49,66 56,37 57,57 59,04 61,52 45,42 54,93 57,11 58,16 58,33 43,38 53,70 55,31 58,59 59,39 47,87 51,42 58,04 57,98 60,82 Waveform 33,78 34,03 35,81 33,92 35,52 33,67 34,72 34,17 36,17 37,13 33,12 33,58 34,78 36,50 40,27 33,74 33,56 33,90 34,07 35,52 Wilt 94,69 94,75 94,61 94,64 94,74 95,01 94,74 94,75 94,64 94,75 94,82 94,84 94,61 94,63 94,66 94,69 94,72 94,62 94,67 94,65 MÉDIA 62,88 66,10 67,30 68,72 69,44 61,86 66,00 67,24 68,37 69,82 62,16 65,53 67,23 68,38 69,38 61,38 65,25 66,92 67,84 69,53 DESVIO PADRÃO 18,58 18,30 17,87 17,19 16,87 18,35 17,48 17,58 16,85 16,33 18,96 17,55 17,05 16,89 16,43 19,86 18,57 17,97 17,49 16,69 114 Tabela 20: Acurácia dos métodos CT Original, CT Limiar fixo, FlexCon-G e FlexCon(s) para cada base de dados utilizando k -NN como classificador CT Original CT Limiar fixo FlexCon-G FlexCon(s) Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 45,92 46,08 46,32 45,76 46,80 60,81 65,28 66,57 69,04 68,63 46,24 47,53 48,86 47,99 50,17 45,54 48,99 50,88 56,84 58,40 BTSC 75,47 75,67 75,74 76,60 75,27 75,41 75,81 75,27 75,20 76,60 76,40 75,66 76,41 76,41 76,41 75,00 76,07 76,47 76,00 76,61 Bupa 56,79 54,07 56,55 57,41 58,13 55,37 53,48 54,41 55,68 57,41 52,73 56,41 56,50 56,84 59,71 57,54 55,64 54,50 55,94 55,34 Car Evaluation 70,02 70,02 70,02 70,02 70,02 69,68 71,38 73,16 71,65 72,11 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 Cnae-9 35,46 49,58 61,62 66,11 66,85 44,81 53,84 64,03 67,04 67,50 40,79 60,00 61,57 65,74 66,53 44,26 56,44 62,92 65,14 67,22 Connectionist Bench 52,65 58,15 59,90 68,15 67,12 56,72 60,01 67,38 68,83 70,73 56,19 63,00 62,51 68,35 70,21 61,24 59,94 65,80 69,49 67,82 Hill Valley With Noise 28,83 28,76 29,05 29,91 30,75 47,48 49,60 50,31 50,98 52,30 29,62 31,29 31,86 32,57 34,12 30,32 32,91 33,31 36,76 35,98 Image Segmentation 50,62 51,57 50,63 53,52 49,01 50,08 50,37 52,23 49,00 49,88 48,22 51,37 52,16 48,64 49,67 49,58 51,74 51,41 50,45 51,65 Indian Liver Patient 71,36 71,44 71,44 71,27 71,28 66,33 70,67 70,25 70,94 70,18 71,44 71,36 71,36 71,19 71,53 71,44 71,53 71,27 71,36 71,53 Iris 60,67 68,00 74,00 77,67 83,33 80,33 83,00 81,67 80,67 82,00 81,67 73,00 80,33 80,33 80,00 78,33 75,33 79,67 78,67 79,67 KR vs KP 58,84 61,75 64,77 66,23 68,76 67,74 71,10 73,54 74,06 75,48 59,96 65,10 66,54 68,68 71,94 62,14 65,27 66,04 68,41 68,57 Leukemia 69,81 84,51 82,91 80,91 84,57 76,96 76,54 86,41 83,32 81,81 79,04 86,02 83,02 82,52 85,47 72,06 78,52 84,56 84,96 84,91 Mammographic Mass 65,14 74,29 76,73 77,10 77,20 73,52 76,92 75,31 76,72 77,97 71,06 76,63 76,83 76,73 77,05 76,69 77,11 76,95 77,16 77,00 Multiple Features 51,23 69,60 72,38 78,20 81,00 65,65 70,28 75,25 75,75 78,48 63,95 66,60 76,53 75,90 80,40 67,38 76,08 78,10 79,65 81,83 Mushroom 79,55 81,43 85,68 90,29 90,34 86,61 90,43 91,01 90,92 91,22 82,93 83,01 85,17 89,18 90,07 81,08 88,73 88,88 89,55 90,69 Musk 86,73 90,14 91,91 93,09 94,22 92,08 94,54 95,28 96,10 96,35 90,94 94,23 95,13 95,74 96,07 91,57 93,53 94,45 95,16 95,72 Ozone Level Detection 97,12 97,12 97,12 97,10 97,12 97,12 97,12 97,08 97,10 97,10 97,06 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 97,12 Pen Digits 86,11 87,88 88,72 89,64 90,26 86,62 88,65 89,40 89,91 90,37 86,85 88,71 89,40 89,89 90,50 85,31 87,65 88,79 89,48 89,94 Phishing Website 75,33 79,43 80,66 82,17 82,81 80,09 82,52 83,43 84,25 84,60 79,05 80,81 82,13 82,92 83,29 77,93 80,55 81,40 82,38 83,25 Pima 65,30 65,17 65,37 65,24 65,69 66,01 67,45 66,67 68,55 69,47 65,62 65,04 65,11 66,08 65,43 66,87 66,61 66,35 66,93 68,23 Planning Relax 71,46 71,46 70,91 71,46 71,74 67,34 70,35 70,91 69,50 69,55 67,12 70,35 71,18 70,66 71,18 71,46 69,80 71,18 70,64 71,20 Seeds 74,76 84,52 86,90 88,57 88,57 83,57 85,48 85,24 89,52 86,19 83,33 88,57 87,86 88,10 86,43 88,57 85,95 86,43 89,05 88,33 Semeion 77,10 83,57 84,81 86,77 86,86 77,40 83,68 84,55 86,32 86,65 79,16 83,81 84,61 86,49 86,36 75,30 79,68 83,57 84,83 86,86 Solar Flare 47,27 57,32 64,70 68,52 69,87 53,32 58,15 63,87 65,62 67,04 49,56 61,43 66,76 67,57 69,55 53,35 60,23 65,45 66,61 67,23 SPECTF Heart 69,86 70,66 72,78 71,52 70,34 67,41 68,50 68,69 71,85 72,90 71,67 70,29 70,62 71,48 73,50 70,23 68,78 69,22 68,75 68,92 Tic Tac Toe Endgame 65,34 65,40 65,34 65,55 65,81 64,36 65,66 66,28 68,94 69,32 65,29 65,19 65,40 65,24 65,40 64,04 65,76 65,60 64,66 65,24 Twonorm 91,86 91,82 91,93 92,01 91,91 91,31 91,78 91,83 91,85 92,01 92,12 92,06 91,98 91,91 92,02 91,91 91,92 91,93 91,91 91,90 Vehicle 46,22 53,54 54,52 58,11 60,95 52,24 58,32 58,74 59,17 62,60 48,37 56,92 57,68 58,03 59,97 47,88 56,39 57,90 58,48 61,21 Waveform 33,16 33,54 33,31 34,09 35,11 57,54 58,15 58,77 59,11 58,80 34,29 37,22 38,61 41,01 47,09 35,95 42,25 45,31 46,27 51,00 Wilt 94,62 94,61 94,62 94,60 94,63 94,62 94,63 94,62 94,61 94,65 94,59 94,62 94,59 94,63 94,63 94,61 94,62 94,63 94,64 94,63 MÉDIA 65,15 69,04 70,71 72,25 72,88 70,28 72,79 74,41 75,07 75,66 67,84 70,78 71,93 72,60 73,73 68,49 70,84 72,34 73,24 73,93 DESVIO PADRÃO 17,88 17,32 17,05 16,87 17,01 14,66 14,06 13,32 13,27 12,81 18,14 16,61 16,37 16,36 15,61 17,30 16,03 15,76 15,26 15,00 115 Tabela 21: Acurácia dos métodos FlexCon(v), FlexCon-C1(s), FlexCon-C1(v) e FlexCon-C2 para cada base de dados utilizando k -NN como classificador FlexCon(v) FlexCon-C1(s) FlexCon-C1(v) FlexCon-C2 Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 45,39 49,77 53,59 56,89 57,02 42,88 42,91 51,61 50,50 58,37 46,32 43,28 49,27 53,13 59,78 47,03 53,43 56,24 57,40 59,37 BTSC 74,94 75,53 74,66 75,47 76,07 74,73 75,20 76,01 76,14 76,67 74,07 76,07 76,01 75,81 76,81 75,40 75,34 76,07 76,07 75,94 Bupa 55,92 58,15 55,08 54,93 55,80 56,95 53,66 55,38 58,26 58,99 57,84 57,99 57,98 58,12 57,97 53,91 53,47 51,77 54,00 56,37 Car Evaluation 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 70,02 Cnae-9 39,63 59,72 64,17 64,58 67,59 46,20 59,35 62,96 65,00 67,31 48,56 55,05 64,63 65,09 68,61 37,31 52,50 53,10 58,19 61,94 Connectionist Bench 57,48 64,80 63,31 63,73 68,27 55,13 65,16 63,97 67,97 68,96 59,16 63,95 64,19 68,89 69,70 57,90 61,81 59,87 66,60 72,86 Hill Valley With Noise 27,26 29,33 36,90 35,71 36,00 23,63 24,11 27,33 31,06 37,36 29,03 29,12 31,57 32,65 31,74 35,21 37,47 37,48 38,80 39,46 Image Segmentation 50,79 51,50 50,99 50,79 49,47 49,66 50,95 49,56 50,60 51,10 49,75 50,34 51,03 52,02 51,45 48,96 53,05 48,96 49,87 52,37 Indian Liver Patient 71,27 71,61 71,19 71,36 71,36 71,27 71,27 71,36 71,27 71,27 71,27 71,36 71,27 71,27 71,70 69,40 71,10 70,85 71,18 71,18 Iris 72,00 79,00 77,67 80,33 79,33 79,33 73,00 79,67 79,67 79,00 75,67 73,67 81,33 80,33 80,00 77,00 74,33 77,67 78,33 77,67 KR vs KP 61,95 64,97 66,77 69,49 70,12 64,09 69,08 71,28 72,87 73,76 63,17 68,55 71,46 73,37 73,34 64,33 68,58 70,64 72,97 74,66 Leukemia 78,08 82,64 82,55 86,11 82,64 74,94 72,02 80,65 83,75 85,30 74,16 81,06 85,42 83,53 86,63 69,51 79,63 82,57 78,91 84,53 Mammographic Mass 75,34 76,70 77,42 77,27 77,37 76,95 77,78 77,93 78,09 77,68 77,16 77,83 76,85 77,47 77,94 74,92 78,24 77,26 77,05 77,62 Multiple Features 67,38 75,35 77,95 80,05 82,18 67,85 76,00 78,53 79,95 81,15 64,55 75,58 78,55 80,10 81,85 65,65 76,50 78,33 80,58 81,78 Mushroom 81,90 86,18 87,33 90,02 90,87 80,76 85,95 86,24 89,82 90,92 82,41 86,93 86,42 89,15 90,19 80,12 86,64 89,27 90,03 90,89 Musk 92,25 93,66 94,61 95,18 95,51 92,07 93,70 94,34 95,05 95,48 91,72 93,28 94,20 94,96 95,66 91,92 93,63 94,36 95,23 95,47 Ozone Level Detection 97,08 97,12 97,14 97,14 97,04 97,08 97,06 97,12 97,06 97,10 97,10 97,12 97,08 97,12 97,12 96,86 97,08 97,10 97,12 97,12 Pen Digits 85,64 87,78 88,72 89,52 89,76 85,75 87,77 89,28 89,48 90,02 86,20 87,84 88,81 89,57 90,08 85,65 87,76 88,82 89,41 90,03 Phishing Website 78,48 80,55 81,77 82,46 83,25 79,75 81,65 82,34 83,14 84,03 79,27 80,90 82,38 83,41 83,86 79,59 80,74 82,72 83,43 84,26 Pima 65,24 66,08 67,58 67,25 66,54 65,94 65,89 66,67 65,76 67,32 66,86 66,41 67,19 66,86 67,90 66,21 67,19 67,00 67,26 67,90 Planning Relax 71,49 71,46 70,63 71,99 70,66 70,91 69,62 71,20 71,18 70,92 70,67 71,46 71,46 70,12 72,00 72,02 70,07 71,46 70,91 70,91 Seeds 83,81 86,90 86,19 86,90 87,62 85,24 85,48 85,95 86,19 87,86 85,71 86,43 88,57 87,38 87,62 83,10 84,29 88,57 87,86 88,10 Semeion 74,37 81,73 83,59 85,04 86,62 77,66 79,52 82,47 84,74 85,74 76,95 81,30 82,55 85,35 86,77 73,55 80,58 84,31 85,39 86,65 Solar Flare 49,40 60,49 63,89 66,96 68,21 50,65 59,55 65,00 66,76 68,55 55,04 60,79 64,71 66,45 68,48 53,08 61,24 63,26 66,19 69,21 SPECTF Heart 68,52 70,36 69,98 68,91 72,51 68,94 68,17 69,21 68,92 72,50 69,80 71,76 71,09 72,67 73,51 68,92 70,07 70,24 71,12 72,79 Tic Tac Toe Endgame 65,08 64,51 65,03 64,56 66,34 65,24 64,56 65,71 65,34 65,76 65,50 65,35 65,50 65,87 66,02 65,08 64,56 65,24 65,40 66,39 Twonorm 91,98 92,05 91,93 91,97 92,07 91,42 91,83 91,95 92,05 91,91 90,36 92,01 91,94 92,03 92,06 91,11 91,94 92,01 91,99 91,95 Vehicle 46,45 53,21 56,45 59,97 62,87 49,15 57,93 60,11 58,40 59,68 48,17 55,45 59,57 59,14 60,51 50,73 53,84 58,46 60,41 61,17 Waveform 37,82 38,55 45,99 49,15 49,93 36,64 44,60 47,20 55,04 57,55 36,31 39,51 49,42 54,00 57,01 36,80 44,50 50,23 54,98 55,77 Wilt 94,61 94,59 94,59 94,60 94,61 94,62 94,63 94,60 94,59 94,63 94,62 94,60 94,61 94,60 94,61 94,62 94,61 94,61 94,62 94,64 MÉDIA 67,72 71,14 72,26 73,28 73,92 68,18 70,28 72,19 73,29 74,56 68,58 70,83 72,84 73,68 74,70 67,86 71,14 72,28 73,38 74,63 DESVIO PADRÃO 17,78 16,52 15,24 15,24 15,01 17,98 16,72 15,98 15,42 14,37 17,02 16,79 15,57 15,08 14,87 16,97 15,43 15,63 14,74 14,29 116 APÊNDICE C -- Acurácia do método FlexCon(s)-CP para cada base de dados (co-training) 117 Tabela 22: Acurácia do método FlexCon(s)-CP (co-training) Naive Bayes Árvore de decisão Ripper k -NN Bases de dados % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente % instâncias rotuladas inicialmente 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% 5% 10% 15% 20% 25% Balance Scale 55,60 65,30 67,30 69,30 69,00 59,22 62,64 65,98 63,93 67,13 64,85 65,90 65,07 66,87 66,73 57,33 65,46 68,16 60,58 65,76 BTSC 74,30 74,60 74,50 74,00 73,90 75,81 76,47 76,27 76,07 75,80 73,80 74,14 73,54 74,13 75,20 76,21 76,07 75,87 76,14 76,74 Bupa 54,90 52,00 45,50 46,00 48,60 55,08 56,69 56,37 57,13 57,13 57,98 54,34 54,49 56,09 56,79 56,65 56,12 54,08 57,58 57,87 Car Evaluation 70,10 71,70 72,60 72,90 73,70 73,87 74,89 74,69 74,23 75,03 69,76 70,25 71,18 72,07 73,72 71,07 70,02 71,59 70,81 70,02 Cnae-9 17,10 19,00 18,30 15,60 15,80 55,65 58,43 61,39 64,21 66,44 53,98 59,49 61,53 62,73 65,88 44,31 58,61 64,68 66,20 68,19 Connectionist Bench 59,80 55,00 60,60 61,50 59,60 57,23 58,07 57,23 58,19 63,00 53,42 55,37 54,78 62,75 66,52 55,95 64,62 66,52 69,69 64,42 Hill Valley With Noise 50,60 50,80 52,70 51,40 49,30 52,68 48,56 53,46 50,82 51,28 49,79 50,25 51,20 49,71 52,14 51,49 47,61 50,74 50,86 50,66 Image Segmentation 58,90 60,80 60,10 60,70 60,80 78,29 83,90 86,62 86,97 87,97 72,90 79,70 83,29 83,68 85,32 77,92 82,40 84,76 86,10 86,84 Indian Liver Patient 44,30 38,70 39,40 38,60 38,60 69,71 70,42 71,27 70,50 70,24 66,09 67,26 68,87 68,08 68,96 70,59 70,07 71,01 71,44 70,49 Iris 77,00 83,70 88,30 87,00 87,30 33,33 69,67 75,67 78,33 74,67 53,33 75,33 73,33 76,67 80,00 85,33 84,00 75,67 83,00 79,67 KR vs KP 59,90 63,30 63,70 65,50 68,30 71,48 69,41 71,70 73,08 73,95 69,53 70,99 70,33 72,96 72,59 65,77 69,01 69,99 69,46 68,88 Leukemia 77,20 80,40 87,40 85,40 86,30 48,99 62,44 54,93 60,83 61,82 48,99 62,83 62,44 66,55 66,62 78,21 80,10 83,40 84,41 85,77 Mammographic Mass 76,10 77,20 77,60 76,90 77,40 78,51 75,58 79,09 78,41 78,67 76,85 78,31 78,47 79,35 78,62 74,67 77,16 77,05 76,79 76,95 Multiple Features 72,40 73,90 73,90 74,50 74,70 32,05 44,88 51,15 52,95 54,43 32,33 36,65 43,40 46,18 49,93 65,08 73,30 77,70 79,10 81,50 Mushroom 89,30 89,20 89,50 89,60 89,80 96,61 97,70 98,04 98,45 98,41 78,84 79,91 79,08 77,96 80,29 80,86 83,75 87,06 88,98 90,44 Musk 66,70 68,00 67,70 67,30 71,30 91,70 95,40 95,22 96,06 96,26 88,20 91,82 93,19 94,10 94,15 92,76 94,20 95,23 96,21 96,45 Ozone Level Detection 63,70 60,80 61,10 60,10 60,60 96,98 97,12 97,12 97,12 97,12 97,12 96,65 96,94 97,04 97,08 97,08 97,12 97,12 97,12 97,10 Pen Digits 61,40 63,20 64,10 65,90 68,00 80,14 82,92 84,08 84,93 85,37 76,69 79,71 81,73 82,53 83,00 86,30 89,04 89,62 89,97 90,43 Phishing Website 77,00 79,90 80,00 81,00 81,20 80,55 81,22 82,70 83,03 84,25 81,54 82,33 82,81 83,29 83,78 79,52 80,28 82,15 83,21 83,74 Pima 68,30 69,80 69,70 69,70 69,90 65,88 67,58 68,29 68,42 70,04 68,22 67,71 69,20 68,81 69,98 64,78 66,67 67,19 66,40 67,64 Planning Relax 71,20 70,70 68,50 70,10 68,20 71,46 70,15 71,46 70,35 71,46 66,87 66,24 70,06 68,73 67,60 70,35 70,64 71,18 71,18 71,74 Seeds 82,40 85,00 88,10 88,30 87,90 40,24 81,19 83,81 85,95 86,19 78,10 78,33 82,14 83,10 83,33 83,33 87,14 89,29 87,14 86,43 Semeion 31,60 41,70 50,30 52,50 54,70 30,10 39,93 46,78 47,81 51,09 27,05 33,29 37,22 41,59 43,78 57,63 64,07 65,96 68,40 70,57 Solar Flare 35,80 38,70 40,80 39,20 38,10 38,33 39,72 40,63 42,51 46,14 42,44 38,28 49,68 40,73 44,01 36,87 32,85 39,16 39,09 39,13 SPECTF Heart 64,30 57,10 54,70 55,00 54,30 72,50 72,50 71,50 71,46 72,68 71,76 69,58 72,62 71,48 72,62 72,33 71,97 70,50 71,24 72,69 Tic Tac Toe Endgame 63,60 65,70 66,50 68,70 68,30 63,24 66,44 67,80 67,37 69,26 64,66 63,28 68,48 64,87 67,17 65,03 66,13 66,13 65,98 67,28 Twonorm 92,10 92,10 92,20 92,10 92,20 78,32 81,07 81,93 82,10 82,52 80,39 84,55 84,36 84,89 85,16 91,92 91,98 92,03 92,06 91,94 Vehicle 41,30 39,10 38,00 38,90 39,40 51,27 56,99 59,25 60,84 61,35 47,54 55,65 58,33 58,98 62,71 51,90 55,51 58,06 61,35 62,18 Waveform 45,20 56,90 56,70 56,40 56,30 42,08 46,91 51,51 45,51 46,15 52,42 51,58 54,19 54,50 54,88 37,83 49,93 45,38 51,45 55,67 Wilt 94,40 94,60 94,60 94,60 94,60 95,47 95,78 95,86 96,03 95,92 95,16 95,75 95,90 95,64 96,03 94,60 94,60 94,60 94,64 94,68 MÉDIA 63,20 64,60 65,50 65,60 65,90 64,56 69,49 71,06 71,45 72,39 65,35 67,85 69,59 70,20 71,49 69,79 72,35 73,40 74,22 74,73 DESVIO PADR?O 17,90 17,80 18,20 18,40 18,40 19,53 16,44 15,66 15,74 15,04 16,90 16,25 14,98 14,94 14,23 16,26 15,18 14,74 14,44 14,16