Aprendizado fracamente supervisionado para rotulagem de imagens de documentos de identificação em dados da JFRN

dc.contributor.advisorNeto Menezes, Elias Jacob de
dc.contributor.advisorLatteshttp://lattes.cnpq.br/9152955193794784pt_BR
dc.contributor.authorSilva, Matheus de Andrade
dc.contributor.authorLatteshttp://lattes.cnpq.br/8162638701965257pt_BR
dc.contributor.referees1Bezerra, Leonardo César Teonácio
dc.contributor.referees1Latteshttp://lattes.cnpq.br/0664132257054306pt_BR
dc.contributor.referees2Gurgel, André Morais
dc.contributor.referees2Latteshttp://lattes.cnpq.br/7215356171529987pt_BR
dc.date.accessioned2023-11-24T16:34:26Z
dc.date.available2023-11-24T16:34:26Z
dc.date.issued2023-10-27
dc.description.abstractThis work aims to solve a common problem in the Federal Court of Rio Grande do Norte, Brazil: verifying the presence of required documents in electronic cases, which creates rework for clerks who must request missing documents. The goal is to propose an artificial intelligence solution to label images of identification documents in cases from the Creta system. We extracted 62600 images of documents attached to cases. A subset was manually labeled (identity or not). Pre-trained models (ResNet50 and Vision Transformer) extracted features from the images. Clustering algorithms (KMeans, AffinityPropagation, etc.) grouped the features. The Snorkel labeling functions used the clusters to automatically label all images. The functions obtained an F1 Score of 0.89-0.90 on the development and test sets. Only about 2% of the images remained unlabeled. The proposed method successfully labeled a large volume of images, enabling the construction of AI services for document identification. The work also presents an efficient approach for automatic image labeling using weakly supervised learning.pt_BR
dc.description.resumoO trabalho visa resolver um problema comum na Justiça Federal do Rio Grande do Norte: a verificação da presença de documentos necessários em processos eletrônicos, o que gera retrabalho para servidores que precisam solicitar documentos em falta. O objetivo é propor uma solução de inteligência artificial para rotulagem de imagens de documentos de identificação em processos no sistema Creta. Foram extraídas 62600 imagens de documentos anexados nos processos. Um subconjunto foi rotulado manualmente (identidade ou não). Modelos pré-treinados (ResNet50 e Vision Transformer) extraíram features das imagens. Algoritmos de clusterização (KMeans, AffinityPropagation etc.) agruparam as features. As funções de rotulagem do Snorkel utilizaram os clusters para rotular todas as imagens automaticamente. As funções obtiveram F1 Score de 0,89-0,90 no conjunto de desenvolvimento e teste. Apenas cerca de 2% das imagens ficaram sem rótulo. O método proposto rotulou satisfatoriamente um grande volume de imagens, permitindo a construção de serviços de IA para identificação de documentos. O trabalho também apresenta uma abordagem eficiente para rotulagem automática de imagens utilizando aprendizado fracamente supervisionado.pt_BR
dc.description.sponsorshipFUNPECpt_BR
dc.identifier.citationSILVA, Matheus de Andrade. Aprendizado fracamente supervisionado para rotulagem de imagens de documentos de identificação em dados da JFRN. 2023. 50 f. Trabalho de Conclusão de Curso (Especialização em Residência em Tecnologia da Informação) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2023.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/55435
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto Metrópole Digitalpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPrograma de Residência em Tecnologia da Informaçãopt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectsupervisão fracapt_BR
dc.subjectweak supervisionpt_BR
dc.subjectvisão computacionalpt_BR
dc.subjectcomputer visionpt_BR
dc.subjectextração de característicaspt_BR
dc.subjectfeature extractionpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpt_BR
dc.titleAprendizado fracamente supervisionado para rotulagem de imagens de documentos de identificação em dados da JFRNpt_BR
dc.typebachelorThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
tcc-matheus-de-andrade-silva.pdf
Tamanho:
799.13 KB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.45 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar