Integrating textual queries with aI-based object detection: a compositional prompt-guided approach

dc.contributor.advisorMartins, Allan de Medeiros
dc.contributor.advisor-co1Silva, Ivanovitch Medeiros Dantas da
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0002-0116-6489
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/3608440944832201
dc.contributor.advisorIDhttps://orcid.org/0000-0002-9486-4509
dc.contributor.advisorLatteshttp://lattes.cnpq.br/4402694969508077
dc.contributor.authorSilva Júnior, Silvan Ferreira da
dc.contributor.authorLatteshttp://lattes.cnpq.br/0669123874358910
dc.contributor.referees1Guimarães, João Paulo Ferreirapt_BR
dc.contributor.referees1Latteshttp://lattes.cnpq.br/8309552415999065
dc.contributor.referees2Villanueva, Juan Moisés Mauricio
dc.contributor.referees2IDhttps://orcid.org/0000-0002-8760-9390
dc.contributor.referees2Latteshttp://lattes.cnpq.br/1446817462218646
dc.contributor.referees3Oliveira, Luiz Affonso Henderson Guedes de
dc.contributor.referees3IDhttps://orcid.org/0000-0003-2690-1563
dc.contributor.referees3Latteshttp://lattes.cnpq.br/7987212907837941
dc.date.accessioned2025-08-22T22:07:40Z
dc.date.available2025-08-22T22:07:40Z
dc.date.issued2025-06-13
dc.description.abstractIn the field of computer vision, object detection and recognition play a central role in many applications that support automated decision-making. Over recent years, new algorithms and methodologies have emerged to further enhance the automatic identification of target objects. In particular, the rise of deep learning and language models has opened many possibilities in this area, although challenges in contextual query analysis and human interactions persist. This thesis presents a novel neuro-symbolic object detection framework that aligns object proposals with textual prompts using a deep learning module while enabling logical reasoning through a symbolic module. By integrating deep learning with symbolic reasoning, object detection and scene understanding are considerably enhanced, enabling complex, query-driven interactions. Using a synthetic 3D image dataset, the results demonstrate that this framework effectively generalizes to complex queries, combining simple attribute-based descriptions without explicit training on compound prompts. We present the numerical results and comprehensive discussions, highlighting the potential of our approach for emerging smart applications.
dc.description.resumoNo campo da visão computacional, a detecção e o reconhecimento de objetos desempenham um papel fundamental em diversas aplicações voltadas à tomada de decisão automática. Nos últimos anos, novos algoritmos e metodologias foram propostos para aprimorar a identificação automática de objetos-alvo. Em particular, o avanço do aprendizado profundo e dos modelos de linguagem abriu inúmeras possibilidades nessa área, embora persistam desafios na análise contextual de consultas e nas interações humanas. Esta tese apresenta um novo framework neuro-simbólico de detecção de objetos que alinha propostas de objetos a prompts textuais por meio de um módulo de aprendizado profundo, ao mesmo tempo em que possibilita o raciocínio lógico por meio de um módulo simbólico. Ao integrar aprendizado profundo com raciocínio simbólico, a detecção de objetos e a compreensão de cena são consideravelmente aprimoradas, viabilizando interações complexas orientadas por consultas. Utilizando um conjunto de dados sintéticos de imagens 3D, os resultados demonstram que o framework generaliza de forma eficaz para consultas complexas, combinando descrições baseadas em atributos simples sem treinamento explícito em prompts compostos. Apresentamos os resultados numéricos e discussões abrangentes, destacando o potencial de nossa abordagem para aplicações inteligentes emergentes.
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq
dc.identifier.citationSILVA JÚNIOR, Silvan Ferreira da. Integrating textual queries with aI-based object detection: a compositional prompt-guided approach. Orientador: Dr. Allan de Medeiros Martins. 2025. 73f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2025.
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/65285
dc.language.isoen
dc.publisher.countryBRpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectNeuro-symbolic AI
dc.subjectPrompt-guided object detection
dc.subjectCrossmodal reasoning
dc.subjectVisual-language alignment
dc.titleIntegrating textual queries with aI-based object detection: a compositional prompt-guided approach
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Integratingtextualqueries_SilvaJunior_2025.pdf
Tamanho:
4.62 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.53 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar