Metodologia orientada a grandes modelos de linguagens para extração de conhecimento em textos acadêmicos

dc.contributor.advisorSilva, Ivanovitch Medeiros Dantas da
dc.contributor.advisorID0000-0002-0116-6489pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3608440944832201pt_BR
dc.contributor.authorAndrade, Matheus Gomes Diniz
dc.contributor.authorID0009-0002-0268-2247pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/7308297435660284pt_BR
dc.contributor.referees1Santos, Breno Santana
dc.contributor.referees1ID0000-0002-8790-2546pt_BR
dc.contributor.referees1Latteshttp://lattes.cnpq.br/1477295656421537pt_BR
dc.contributor.referees2Menezes Neto, Elias Jacob de
dc.contributor.referees2ID0000-0002-1153-8899pt_BR
dc.contributor.referees2Latteshttp://lattes.cnpq.br/9152955193794784pt_BR
dc.contributor.referees3Pinheiro, Marcos Cesar Madruga Alves
dc.contributor.referees3Latteshttp://lattes.cnpq.br/1682925222063297pt_BR
dc.date.accessioned2025-01-21T15:16:37Z
dc.date.available2025-01-21T15:16:37Z
dc.date.issued2025-01-16
dc.description.abstractThe exponential growth of scientific production in recent decades, driven by the widespread availability of online journals and the need for academic progression, has generated a large volume of academic publications. Due to this growth, efficient access to academic information has become a significant challenge. Traditional academic information retrieval systems heavily rely on keywords provided by authors, which can introduce biases and limit the diversity and relevance of the results. In this context, this work proposes a methodology based on Large Language Models (LLMs) to optimize information retrieval in academic databases. The developed methodology integrates Retrieval-Augmented Generation (RAG) techniques and semantic analysis for natural language queries. Using tools such as LangChain and ChromaDB, the methodology was designed to include metadata-based filters and align searches with the Sustainable Development Goals (SDGs). The process also employs preprocessing and vector storage techniques, ensuring efficiency in data indexing and retrieval. The results of the case study indicate that the applied methodology enables personalized queries and precise responses. The system was able to perform complex searches, combining multiple criteria such as category, publication year, author, advisor, and SDGs. Additionally, the approach proved to be cost-efficient, with a maximum cost of $0.001385 in the test queries.pt_BR
dc.description.resumoO crescimento exponencial da produção científica nas últimas décadas, impulsionado pela ampla disponibilidade de periódicos online e pela necessidade de progressão acadêmica, tem gerado um grande volume de publicações acadêmicas. Devido a esse crescimento, o acesso eficiente a informações acadêmicas tornou-se um desafio significativo. Os sistemas tradicionais de recuperação de informações acadêmicas dependem fortemente de palavras-chave fornecidas pelos autores, o que pode introduzir vieses e limitar a diversidade e a relevância dos resultados. Nesse contexto, o presente trabalho propõe uma metodologia baseada em Grandes Modelos de Linguagem (LLMs, do inglês, Large Language Models) para otimizar a recuperação de informações em bases de dados acadêmicas. A metodologia desenvolvida integra técnicas de Geração Aumentada por Recuperação (RAG, do inglês, Retrieval-Augmented Generation) e análise semântica para consultas em linguagem natural. Com o uso de ferramentas como LangChain e ChromaDB, a metodologia foi projetada para incluir filtros baseados em metadados e alinhar as buscas aos Objetivos de Desenvolvimento Sustentável (ODS). O processo também emprega técnicas de pré-processamento e armazenamento vetorial, garantindo eficiência na indexação e recuperação de dados. Os resultados do estudo de caso indicam que a metodologia aplicada permite consultas personalizadas e respostas precisas. O sistema foi capaz de realizar buscas complexas, combinando múltiplos critérios como categoria, ano de publicação, autor, orientador e ODS. Além disso, a abordagem mostrou-se eficiente em termos de custos, havendo um custo máximo de $0.001385 nas consultas utilizadas como testes.pt_BR
dc.identifier.citationANDRADE, Matheus Gomes Diniz. Metodologia orientada a grandes modelos de linguagens para extração de conhecimento em textos acadêmicos. 2025. 63 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Departamento de Engenharia da Computação, Universidade Federal do Rio Grande do Norte, Natal, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/61490
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento de Engenharia de Computação e Automaçãopt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programEngenharia de Computaçãopt_BR
dc.rightsAttribution 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/*
dc.subjectRecuperação de Informaçõespt_BR
dc.subjectGrandes Modelos de Linguagempt_BR
dc.subjectBancos de Dados Vetoriaispt_BR
dc.subjectObjetivos de Desenvolvimento Sustentávelpt_BR
dc.subjectProcessamento de Linguagem Naturalpt_BR
dc.titleMetodologia orientada a grandes modelos de linguagens para extração de conhecimento em textos acadêmicospt_BR
dc.title.alternativeMethodology oriented towards large language models for knowledge extraction in academic textspt_BR
dc.typebachelorThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
TCC___Andrade_Matheus_Gomes_Diniz.pdf
Tamanho:
985.1 KB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.45 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar