Development of a system for creation, computer-aided alignment, and search in parallel corpora of low-resource languages

dc.contributor.advisorProlo, Carlos Augusto
dc.contributor.authorSilva, Társila Samille Santos da Silveira
dc.contributor.referees1Carvalho, Bruno M.
dc.contributor.referees2Aranha, Eduardo
dc.date.accessioned2025-07-21T13:44:22Z
dc.date.available2025-07-21T13:44:22Z
dc.date.issued2025-07-11
dc.description.abstractThis work presents the development of a web system for alignment, management, and search of parallel corpus, focusing on machine translation applications and linguistic studies. The system allows users to upload texts in different languages, perform automatic or manual alignment of corresponding sentences, and publicly share their corpora for research. The creation of high-quality parallel corpora is essential for Natural Language Processing (NLP) applications, yet low-resource languages face significant challenges due to data scarcity and linguistic diversity. By combining human expertise with computational efficiency, this system bridges the gap between scalability and accuracy in corpus creation. It is particularly suited for under-resourced languages, where fully automated methods struggle. The modular architecture of the system allows integration with existing NLP pipelines, fostering applications in machine translation, language preservation, and digital inclusion.
dc.description.resumoEste trabalho apresenta o desenvolvimento de um sistema web para alinhamento, gerenciamento e busca em corpora paralelos, com foco em aplicações de tradução automática e estudos linguísticos. O sistema permite que os usuários façam upload de textos em diferentes idiomas, realizem o alinhamento automático ou manual de sentenças correspondentes e compartilhem publicamente seus corpora para fins de pesquisa. A criação de corpora paralelos de alta qualidade é essencial para aplicações de Processamento de Linguagem Natural (PLN), mas as línguas com poucos recursos enfrentam desafios significativos devido à escassez de dados e à diversidade linguística. Ao combinar a expertise humana com a eficiência computacional, este sistema preenche a lacuna entre escalabilidade e precisão na criação de corpora. É particularmente adequado para línguas sub-representadas, nas quais métodos totalmente automatizados apresentam dificuldades. A arquitetura modular do sistema permite a integração com pipelines existentes de PLN, fomentando aplicações em tradução automática, preservação linguística e inclusão digital.
dc.identifier.citationSILVA, Társila Samille Santos da Silveira. Development of a system for creation, computer-aided alignment, and search in parallel corpora of low-resource languages. Orientador: Carlos Augusto Prolo. 2025. 95 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Departamento de Informática e Matemática Aplicada, Universidade Federal do Rio Grande do Norte, Natal, 2025.
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/64684
dc.language.isoen_US
dc.publisherUniversidade Federal do Rio Grande do Norte
dc.publisher.countryBrazil
dc.publisher.departmentDepartamento de Informática e Matemática Aplicada
dc.publisher.initialsUFRN
dc.publisher.programCiência da Computação
dc.rightsAttribution-NonCommercial 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/br/
dc.subjectCorpora paralelos
dc.subjectLínguas com poucos recursos
dc.subjectSistema web
dc.subjectFerramenta de alinhamento manual
dc.subjectAbordagem híbrida
dc.subjectPLN
dc.subjectTradução automática
dc.subjectEscassez de dados
dc.subjectFuncionalidade de busca
dc.subjectPreservação linguística
dc.subjectParallel corpora
dc.subjectLow-resource languages
dc.subjectWeb-based system
dc.subjectManual Alignment tool
dc.subjectHybrid approach
dc.subjectMachine translation
dc.subjectData scarcity
dc.subjectSearch functionality
dc.subjectLanguage preservation
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA
dc.titleDevelopment of a system for creation, computer-aided alignment, and search in parallel corpora of low-resource languages
dc.typebachelorThesis

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
MonografiaLaTeX___com_correcoes_de_Josenaldo__1___Version_158_-2.pdf
Tamanho:
2.85 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.53 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar