Please use this identifier to cite or link to this item: https://repositorio.ufrn.br/jspui/handle/123456789/28464
Title: Uma proposta de automatização do processo de rotulagem de instâncias em algoritmos de aprendizado semissupervisionado
Other Titles: A proposal for automating the instance labeling process in semi-supervised learning algorithms
Authors: Vale, Karliane Medeiros Ovidio
Keywords: Inteligência artificial;Aprendizado de máquina;Aprendizado Semissupervisionado;Self-training;Co-training
Issue Date: 22-Nov-2019
Citation: VALE, Karliane Medeiros Ovidio. Uma proposta de automatização do processo de rotulagem de instâncias em algoritmos de aprendizado semissupervisionado. 2019. 117f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2019.
Portuguese Abstract: O aprendizado semissupervisionado é um tipo de aprendizado de máquina que integra os mecanismos de aprendizado supervisionado e não supervisionado. Nele, a maioria dos rótulos do conjunto de treinamento são desconhecidos, mas há uma pequena parcela que possui rótulo. Este tipo de aprendizado atrai atenção devido ao seu potencial de utilização de dados rotulados e não rotulados para alcançar melhor desempenho do que o aprendizado supervisionado. Este trabalho consiste em um estudo no campo da aprendizagem semissupervisionada e implementa mudanças na estrutura de dois algoritmos semissupervisionados, self-training e co-training. Na literatura, é comum o desenvolvimento de pesquisas que alteram a estrutura destes algoritmos, no entanto, nenhuma delas propõe a automatização no processo de rotulagem de instâncias não rotuladas, que é o principal propósito deste trabalho. Para atingir este objetivo, três métodos são propostos: FlexConG, FlexCon e FlexCon-C. As principais diferenças entre estes métodos são a forma de calcular o limiar de confiança e a estratégia para escolha dos rótulos a cada iteração, entre elas comitês de classificadores. Para avaliar a performance dos métodos propostos, foi realizada uma análise empírica em que o desempenho destes métodos foi avaliado em 30 conjuntos de dados com características diversificadas. Os resultados indicam que os três métodos propostos e suas versões apresentam melhor desempenho que os métodos self-training e co-training originais na maioria dos casos.
Abstract: Semi-supervised learning is a kind of machine learning that integrates supervised and unsupervised learning mechanisms. In this type of learning, most of training set labels are unknown, while there is a small part of data that has known labels. The semi-supervised learning is attractive because of its potential to use labeled and unlabeled data to perform better than supervised learning. This paper consists of a study in the field of semisupervised learning and implements changes on the self-training and co-training semisupervised learning algorithms. In the literature, it is common to develop researches that change the structure of such algorithms, however, none of them proposes automating the labeling process of unlabeled instances, which is the main purpose of this work. In order to achieve this goal, three methods are proposed: FlexCon-G, FlexCon e FlexCon-C. The main difference among these methods is how tje confidence rate is calculated and the strategy used to choose a label in each iteration, among them ensembles. In order to evaluate the proposed methods’ performance, we have carried out an empirical analysis, in which the performances of these methods have been evaluated on 30 datasets with diversified characteristics. The obtained results indicate that the three proposed methods perform better than original self-training and co-training methods in most cases.
URI: https://repositorio.ufrn.br/jspui/handle/123456789/28464
Appears in Collections:PPGSC - Doutorado em Sistemas e Computação

Files in This Item:
File Description SizeFormat 
Propostaautomatizacaoprocesso_Vale_2019.pdf1,92 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.