Development of a system for creation, computer-aided alignment, and search in parallel corpora of low-resource languages
dc.contributor.advisor | Prolo, Carlos Augusto | |
dc.contributor.author | Silva, Társila Samille Santos da Silveira | |
dc.contributor.referees1 | Carvalho, Bruno M. | |
dc.contributor.referees2 | Aranha, Eduardo | |
dc.date.accessioned | 2025-07-21T13:44:22Z | |
dc.date.available | 2025-07-21T13:44:22Z | |
dc.date.issued | 2025-07-11 | |
dc.description.abstract | This work presents the development of a web system for alignment, management, and search of parallel corpus, focusing on machine translation applications and linguistic studies. The system allows users to upload texts in different languages, perform automatic or manual alignment of corresponding sentences, and publicly share their corpora for research. The creation of high-quality parallel corpora is essential for Natural Language Processing (NLP) applications, yet low-resource languages face significant challenges due to data scarcity and linguistic diversity. By combining human expertise with computational efficiency, this system bridges the gap between scalability and accuracy in corpus creation. It is particularly suited for under-resourced languages, where fully automated methods struggle. The modular architecture of the system allows integration with existing NLP pipelines, fostering applications in machine translation, language preservation, and digital inclusion. | |
dc.description.resumo | Este trabalho apresenta o desenvolvimento de um sistema web para alinhamento, gerenciamento e busca em corpora paralelos, com foco em aplicações de tradução automática e estudos linguísticos. O sistema permite que os usuários façam upload de textos em diferentes idiomas, realizem o alinhamento automático ou manual de sentenças correspondentes e compartilhem publicamente seus corpora para fins de pesquisa. A criação de corpora paralelos de alta qualidade é essencial para aplicações de Processamento de Linguagem Natural (PLN), mas as línguas com poucos recursos enfrentam desafios significativos devido à escassez de dados e à diversidade linguística. Ao combinar a expertise humana com a eficiência computacional, este sistema preenche a lacuna entre escalabilidade e precisão na criação de corpora. É particularmente adequado para línguas sub-representadas, nas quais métodos totalmente automatizados apresentam dificuldades. A arquitetura modular do sistema permite a integração com pipelines existentes de PLN, fomentando aplicações em tradução automática, preservação linguística e inclusão digital. | |
dc.identifier.citation | SILVA, Társila Samille Santos da Silveira. Development of a system for creation, computer-aided alignment, and search in parallel corpora of low-resource languages. Orientador: Carlos Augusto Prolo. 2025. 95 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Departamento de Informática e Matemática Aplicada, Universidade Federal do Rio Grande do Norte, Natal, 2025. | |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/64684 | |
dc.language.iso | en_US | |
dc.publisher | Universidade Federal do Rio Grande do Norte | |
dc.publisher.country | Brazil | |
dc.publisher.department | Departamento de Informática e Matemática Aplicada | |
dc.publisher.initials | UFRN | |
dc.publisher.program | Ciência da Computação | |
dc.rights | Attribution-NonCommercial 3.0 Brazil | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/br/ | |
dc.subject | Corpora paralelos | |
dc.subject | Línguas com poucos recursos | |
dc.subject | Sistema web | |
dc.subject | Ferramenta de alinhamento manual | |
dc.subject | Abordagem híbrida | |
dc.subject | PLN | |
dc.subject | Tradução automática | |
dc.subject | Escassez de dados | |
dc.subject | Funcionalidade de busca | |
dc.subject | Preservação linguística | |
dc.subject | Parallel corpora | |
dc.subject | Low-resource languages | |
dc.subject | Web-based system | |
dc.subject | Manual Alignment tool | |
dc.subject | Hybrid approach | |
dc.subject | Machine translation | |
dc.subject | Data scarcity | |
dc.subject | Search functionality | |
dc.subject | Language preservation | |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA | |
dc.title | Development of a system for creation, computer-aided alignment, and search in parallel corpora of low-resource languages | |
dc.type | bachelorThesis |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- MonografiaLaTeX___com_correcoes_de_Josenaldo__1___Version_158_-2.pdf
- Tamanho:
- 2.85 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.53 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível