Navegando por Autor "Silva, Larissa Kelmer de Menezes"
Agora exibindo 1 - 1 de 1
- Resultados por página
- Opções de Ordenação
TCC Avaliação eperimental do uso de agentes baseados em LLMs como assistentes de pesquisa científica(Universidade Federal do Rio Grande do Norte, 2025-07-07) Silva, Larissa Kelmer de Menezes; Silva, Ivanovitch; https://orcid.org/0000-0002-0116-6489; http://lattes.cnpq.br/3608440944832201; https://orcid.org/0000-0002-7330-5089; http://lattes.cnpq.br/6109370782431913; VIEGAS, Carlos Manuel Dias; https://orcid.org/0000-0001-5061-7242; http://lattes.cnpq.br/3134700668982522; SANTOS, Breno Santana; https://orcid.org/0000-0002-8790-2546; http://lattes.cnpq.br/1477295656421537; Silva, Ivanovitch; https://orcid.org/0000-0002-0116-6489; http://lattes.cnpq.br/3608440944832201Este trabalho apresenta uma avaliação experimental do Agent Laboratory, uma ferramenta baseada em agentes orientados a Large Language Model (LLM), projetada para apoiar tarefas de pesquisa científica com aprendizado de máquina. Quatro experimentos foram conduzidos em dois domínios temáticos — Edge AI e Smart Cities — explorando dois cenários distintos: um restrito com instruções detalhadas e um aberto, priorizando a criatividade. Cada experimento foi decomposto em três fases: revisão da literatura, planejamento da pesquisa e execução com interpretação dos resultados. A avaliação da saída do agente foi realizada por meio de uma rubrica humana, baseada em benchmarks como LEADER, MT-Bench e AgentEval, considerando seis dimensões: relevância científica, originalidade, clareza, viabilidade prática, fidelidade à literatura e síntese temática. O objetivo dessa pesquisa é avaliar a viabilidade de agentes de LLM no auxílio à pesquisa científica e identificar os pontos de confiabilidade e as limitações no processo automatizado. A análise dos resultados indica que a ferramenta apresenta bom desempenho na estruturação de propostas de pesquisa coerentes e originais, particularmente em cenários guiados. No entanto, limitações críticas surgiram durante a implementação, incluindo a substituição de modelos e conjuntos de dados, falha em atender às métricas planejadas e a ausência de justificativas para escolhas técnicas. Notou-se que as revisões da literatura foram superficiais e careceram de transparência, e os relatórios finais frequentemente omitiram seções importantes ou superestimaram os resultados. Porém, apesar desses problemas, a ferramenta demonstrou potencial para automatizar partes do fluxo de trabalho científico — especialmente a ideação e a estruturação em estágio inicial. Este estudo contribui com uma metodologia reprodutível e baseada em benchmarking para avaliar agentes de pesquisa orientados por LLM e reforça a necessidade de supervisão humana para garantir o rigor metodológico e a confiabilidade científica.