Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos

dc.contributor.advisorCanuto, Anne Magaly de Paula
dc.contributor.advisor-co1Xavier Júnior, João Carlos
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5088238300241110pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1357887401899097pt_BR
dc.contributor.authorBarreto, Cephas Alves da Silveira
dc.contributor.authorIDhttps://orcid.org/0000-0002-4756-8571pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/0693889560532640pt_BR
dc.contributor.referees1Nascimento, Diego Silveira Costa
dc.contributor.referees2Cavalcanti, George Darmiton da Cunha
dc.contributor.referees3Vale, Karliane Medeiros Ovidio
dc.contributor.referees4Bezerra, Leonardo César Teonácio
dc.date.accessioned2023-11-01T23:22:23Z
dc.date.available2023-11-01T23:22:23Z
dc.date.issued2023-07-24
dc.description.abstractIn recent years, the use of Machine Learning (ML) techniques to solve real problems has become very common and a technological pattern adopted in plenty of domains. However, several of these domains do not have enough labelled data to give ML methods a good performance. This problem led to the development of Semi-supervised methods, a type of method capable of using labelled and unlabelled instances in its model building. Among the semi-supervised learning techniques, the inductive methods stand out. The wrapper methods, a particular category within inductive methods, use a process, often iterative, that involves: training the method with labelled data; selection of the best data from the unlabelled set; and labelling the selected data. Despite showing a simple and efficient process, errors in the selection or labelling processes are common, which deteriorate the final performance of the method. This research aims to reduce selection and labelling errors in wrapper methods to establish selection and labelling approaches that are more robust and less susceptible to errors. To this end, this work proposes a selection and labelling approach based on classification agreement and a selection and agreement approach based on distance metric as an additional factor to an already used selection criterion (e.g. confidence or agreement). The proposed approaches can be applied to any wrapper method and were tested on 42 datasets with Self-training, Co-training and Boosting methods. The results obtained indicate that the proposals bring gains for both methods in terms of accuracy and F-measure.pt_BR
dc.description.resumoNos últimos anos, a utilização de técnicas de Aprendizado de Máquina (AM) para resolver problemas reais tem se tornado muito comum e um padrão tecnológico adotado em uma infinidade de domínios. Uma série desses domínios, entretanto, não possui dados rotulados suficientes para proporcionar aos métodos de AM um bom desempenho. Para tratar esse problema, foram desenvolvidos os métodos de aprendizado semissupervisionado, um tipo de método capaz de utilizar as instâncias rotuladas e não-rotuladas na construção de seu modelo. Dentre os métodos de aprendizado semissupervisionado, destacam-se os métodos indutivos. Os métodos do tipo wrapper, categoria particular dentre os métodos indutivos, utilizam um processo, muitas vezes iterativo, que envolve: treinamento do método com os dados rotulados; seleção dos melhores dados não-rotulados; e rotulagem dos dados selecionados. Apesar de se mostrar um processo simples e eficiente, é muito comum que erros na seleção ou na rotulagem ocorram, o que acaba por deteriorar o desempenho final do método. Buscando a diminuição dos erros de seleção e rotulagem em métodos indutivos, especialmente os métodos do tipo wrapper, esta pesquisa tem por objetivo estabelecer abordagens de seleção e rotulagem mais robustas e menos suscetíveis a erros. Para tal, são propostas uma abordagem de seleção e rotulagem de instâncias baseada em concordância de classificação e também uma abordagem de seleção e rotulagem baseada na utilização de métrica de distância como fator adicional a um critério de seleção já utilizado (e.g. confiança ou concordância). As abordagens propostas podem ser aplicadas a qualquer método wrapper e foram testadas sobre 42 datasets com os métodos Self-training, Co-training e Boosting. Os resultados obtidos apontam que as propostas trazem ganhos para os métodos em termos de acurácia e também de F-measure.pt_BR
dc.identifier.citationBARRETO, Cephas Alves da Silveira. Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos. Orientador: Anne Magaly de Paula Canuto. 2023. 166f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/55155
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectComputaçãopt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectAprendizado semissupervisionadopt_BR
dc.subjectMétodos wrapperpt_BR
dc.subjectSeleção e rotulagem de instânciaspt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleSeleção e rotulagem de instâncias para métodos semissupervisionados indutivospt_BR
dc.title.alternativeSelection and labelling of instances for indictive semi-supervised methodspt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Selecaorotulageminstancias_Barreto_2023.pdf
Tamanho:
3.88 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar