Aprendizado fracamente supervisionado para rotulagem de imagens de documentos de identificação em dados da JFRN
dc.contributor.advisor | Neto Menezes, Elias Jacob de | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/9152955193794784 | pt_BR |
dc.contributor.author | Silva, Matheus de Andrade | |
dc.contributor.authorLattes | http://lattes.cnpq.br/8162638701965257 | pt_BR |
dc.contributor.referees1 | Bezerra, Leonardo César Teonácio | |
dc.contributor.referees1Lattes | http://lattes.cnpq.br/0664132257054306 | pt_BR |
dc.contributor.referees2 | Gurgel, André Morais | |
dc.contributor.referees2Lattes | http://lattes.cnpq.br/7215356171529987 | pt_BR |
dc.date.accessioned | 2023-11-24T16:34:26Z | |
dc.date.available | 2023-11-24T16:34:26Z | |
dc.date.issued | 2023-10-27 | |
dc.description.abstract | This work aims to solve a common problem in the Federal Court of Rio Grande do Norte, Brazil: verifying the presence of required documents in electronic cases, which creates rework for clerks who must request missing documents. The goal is to propose an artificial intelligence solution to label images of identification documents in cases from the Creta system. We extracted 62600 images of documents attached to cases. A subset was manually labeled (identity or not). Pre-trained models (ResNet50 and Vision Transformer) extracted features from the images. Clustering algorithms (KMeans, AffinityPropagation, etc.) grouped the features. The Snorkel labeling functions used the clusters to automatically label all images. The functions obtained an F1 Score of 0.89-0.90 on the development and test sets. Only about 2% of the images remained unlabeled. The proposed method successfully labeled a large volume of images, enabling the construction of AI services for document identification. The work also presents an efficient approach for automatic image labeling using weakly supervised learning. | pt_BR |
dc.description.resumo | O trabalho visa resolver um problema comum na Justiça Federal do Rio Grande do Norte: a verificação da presença de documentos necessários em processos eletrônicos, o que gera retrabalho para servidores que precisam solicitar documentos em falta. O objetivo é propor uma solução de inteligência artificial para rotulagem de imagens de documentos de identificação em processos no sistema Creta. Foram extraídas 62600 imagens de documentos anexados nos processos. Um subconjunto foi rotulado manualmente (identidade ou não). Modelos pré-treinados (ResNet50 e Vision Transformer) extraíram features das imagens. Algoritmos de clusterização (KMeans, AffinityPropagation etc.) agruparam as features. As funções de rotulagem do Snorkel utilizaram os clusters para rotular todas as imagens automaticamente. As funções obtiveram F1 Score de 0,89-0,90 no conjunto de desenvolvimento e teste. Apenas cerca de 2% das imagens ficaram sem rótulo. O método proposto rotulou satisfatoriamente um grande volume de imagens, permitindo a construção de serviços de IA para identificação de documentos. O trabalho também apresenta uma abordagem eficiente para rotulagem automática de imagens utilizando aprendizado fracamente supervisionado. | pt_BR |
dc.description.sponsorship | FUNPEC | pt_BR |
dc.identifier.citation | SILVA, Matheus de Andrade. Aprendizado fracamente supervisionado para rotulagem de imagens de documentos de identificação em dados da JFRN. 2023. 50 f. Trabalho de Conclusão de Curso (Especialização em Residência em Tecnologia da Informação) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2023. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/55435 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto Metrópole Digital | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | Programa de Residência em Tecnologia da Informação | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | supervisão fraca | pt_BR |
dc.subject | weak supervision | pt_BR |
dc.subject | visão computacional | pt_BR |
dc.subject | computer vision | pt_BR |
dc.subject | extração de características | pt_BR |
dc.subject | feature extraction | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | pt_BR |
dc.title | Aprendizado fracamente supervisionado para rotulagem de imagens de documentos de identificação em dados da JFRN | pt_BR |
dc.type | bachelorThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- tcc-matheus-de-andrade-silva.pdf
- Tamanho:
- 799.13 KB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.45 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível