Metodologia orientada a grandes modelos de linguagens para extração de conhecimento em textos acadêmicos
dc.contributor.advisor | Silva, Ivanovitch Medeiros Dantas da | |
dc.contributor.advisorID | 0000-0002-0116-6489 | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/3608440944832201 | pt_BR |
dc.contributor.author | Andrade, Matheus Gomes Diniz | |
dc.contributor.authorID | 0009-0002-0268-2247 | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/7308297435660284 | pt_BR |
dc.contributor.referees1 | Santos, Breno Santana | |
dc.contributor.referees1ID | 0000-0002-8790-2546 | pt_BR |
dc.contributor.referees1Lattes | http://lattes.cnpq.br/1477295656421537 | pt_BR |
dc.contributor.referees2 | Menezes Neto, Elias Jacob de | |
dc.contributor.referees2ID | 0000-0002-1153-8899 | pt_BR |
dc.contributor.referees2Lattes | http://lattes.cnpq.br/9152955193794784 | pt_BR |
dc.contributor.referees3 | Pinheiro, Marcos Cesar Madruga Alves | |
dc.contributor.referees3Lattes | http://lattes.cnpq.br/1682925222063297 | pt_BR |
dc.date.accessioned | 2025-01-21T15:16:37Z | |
dc.date.available | 2025-01-21T15:16:37Z | |
dc.date.issued | 2025-01-16 | |
dc.description.abstract | The exponential growth of scientific production in recent decades, driven by the widespread availability of online journals and the need for academic progression, has generated a large volume of academic publications. Due to this growth, efficient access to academic information has become a significant challenge. Traditional academic information retrieval systems heavily rely on keywords provided by authors, which can introduce biases and limit the diversity and relevance of the results. In this context, this work proposes a methodology based on Large Language Models (LLMs) to optimize information retrieval in academic databases. The developed methodology integrates Retrieval-Augmented Generation (RAG) techniques and semantic analysis for natural language queries. Using tools such as LangChain and ChromaDB, the methodology was designed to include metadata-based filters and align searches with the Sustainable Development Goals (SDGs). The process also employs preprocessing and vector storage techniques, ensuring efficiency in data indexing and retrieval. The results of the case study indicate that the applied methodology enables personalized queries and precise responses. The system was able to perform complex searches, combining multiple criteria such as category, publication year, author, advisor, and SDGs. Additionally, the approach proved to be cost-efficient, with a maximum cost of $0.001385 in the test queries. | pt_BR |
dc.description.resumo | O crescimento exponencial da produção científica nas últimas décadas, impulsionado pela ampla disponibilidade de periódicos online e pela necessidade de progressão acadêmica, tem gerado um grande volume de publicações acadêmicas. Devido a esse crescimento, o acesso eficiente a informações acadêmicas tornou-se um desafio significativo. Os sistemas tradicionais de recuperação de informações acadêmicas dependem fortemente de palavras-chave fornecidas pelos autores, o que pode introduzir vieses e limitar a diversidade e a relevância dos resultados. Nesse contexto, o presente trabalho propõe uma metodologia baseada em Grandes Modelos de Linguagem (LLMs, do inglês, Large Language Models) para otimizar a recuperação de informações em bases de dados acadêmicas. A metodologia desenvolvida integra técnicas de Geração Aumentada por Recuperação (RAG, do inglês, Retrieval-Augmented Generation) e análise semântica para consultas em linguagem natural. Com o uso de ferramentas como LangChain e ChromaDB, a metodologia foi projetada para incluir filtros baseados em metadados e alinhar as buscas aos Objetivos de Desenvolvimento Sustentável (ODS). O processo também emprega técnicas de pré-processamento e armazenamento vetorial, garantindo eficiência na indexação e recuperação de dados. Os resultados do estudo de caso indicam que a metodologia aplicada permite consultas personalizadas e respostas precisas. O sistema foi capaz de realizar buscas complexas, combinando múltiplos critérios como categoria, ano de publicação, autor, orientador e ODS. Além disso, a abordagem mostrou-se eficiente em termos de custos, havendo um custo máximo de $0.001385 nas consultas utilizadas como testes. | pt_BR |
dc.identifier.citation | ANDRADE, Matheus Gomes Diniz. Metodologia orientada a grandes modelos de linguagens para extração de conhecimento em textos acadêmicos. 2025. 63 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Departamento de Engenharia da Computação, Universidade Federal do Rio Grande do Norte, Natal, 2025. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/61490 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Departamento de Engenharia de Computação e Automação | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | Engenharia de Computação | pt_BR |
dc.rights | Attribution 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | * |
dc.subject | Recuperação de Informações | pt_BR |
dc.subject | Grandes Modelos de Linguagem | pt_BR |
dc.subject | Bancos de Dados Vetoriais | pt_BR |
dc.subject | Objetivos de Desenvolvimento Sustentável | pt_BR |
dc.subject | Processamento de Linguagem Natural | pt_BR |
dc.title | Metodologia orientada a grandes modelos de linguagens para extração de conhecimento em textos acadêmicos | pt_BR |
dc.title.alternative | Methodology oriented towards large language models for knowledge extraction in academic texts | pt_BR |
dc.type | bachelorThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- TCC___Andrade_Matheus_Gomes_Diniz.pdf
- Tamanho:
- 985.1 KB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.45 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível