Integrating textual queries with aI-based object detection: a compositional prompt-guided approach
dc.contributor.advisor | Martins, Allan de Medeiros | |
dc.contributor.advisor-co1 | Silva, Ivanovitch Medeiros Dantas da | |
dc.contributor.advisor-co1ID | https://orcid.org/0000-0002-0116-6489 | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/3608440944832201 | |
dc.contributor.advisorID | https://orcid.org/0000-0002-9486-4509 | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/4402694969508077 | |
dc.contributor.author | Silva Júnior, Silvan Ferreira da | |
dc.contributor.authorLattes | http://lattes.cnpq.br/0669123874358910 | |
dc.contributor.referees1 | Guimarães, João Paulo Ferreira | pt_BR |
dc.contributor.referees1Lattes | http://lattes.cnpq.br/8309552415999065 | |
dc.contributor.referees2 | Villanueva, Juan Moisés Mauricio | |
dc.contributor.referees2ID | https://orcid.org/0000-0002-8760-9390 | |
dc.contributor.referees2Lattes | http://lattes.cnpq.br/1446817462218646 | |
dc.contributor.referees3 | Oliveira, Luiz Affonso Henderson Guedes de | |
dc.contributor.referees3ID | https://orcid.org/0000-0003-2690-1563 | |
dc.contributor.referees3Lattes | http://lattes.cnpq.br/7987212907837941 | |
dc.date.accessioned | 2025-08-22T22:07:40Z | |
dc.date.available | 2025-08-22T22:07:40Z | |
dc.date.issued | 2025-06-13 | |
dc.description.abstract | In the field of computer vision, object detection and recognition play a central role in many applications that support automated decision-making. Over recent years, new algorithms and methodologies have emerged to further enhance the automatic identification of target objects. In particular, the rise of deep learning and language models has opened many possibilities in this area, although challenges in contextual query analysis and human interactions persist. This thesis presents a novel neuro-symbolic object detection framework that aligns object proposals with textual prompts using a deep learning module while enabling logical reasoning through a symbolic module. By integrating deep learning with symbolic reasoning, object detection and scene understanding are considerably enhanced, enabling complex, query-driven interactions. Using a synthetic 3D image dataset, the results demonstrate that this framework effectively generalizes to complex queries, combining simple attribute-based descriptions without explicit training on compound prompts. We present the numerical results and comprehensive discussions, highlighting the potential of our approach for emerging smart applications. | |
dc.description.resumo | No campo da visão computacional, a detecção e o reconhecimento de objetos desempenham um papel fundamental em diversas aplicações voltadas à tomada de decisão automática. Nos últimos anos, novos algoritmos e metodologias foram propostos para aprimorar a identificação automática de objetos-alvo. Em particular, o avanço do aprendizado profundo e dos modelos de linguagem abriu inúmeras possibilidades nessa área, embora persistam desafios na análise contextual de consultas e nas interações humanas. Esta tese apresenta um novo framework neuro-simbólico de detecção de objetos que alinha propostas de objetos a prompts textuais por meio de um módulo de aprendizado profundo, ao mesmo tempo em que possibilita o raciocínio lógico por meio de um módulo simbólico. Ao integrar aprendizado profundo com raciocínio simbólico, a detecção de objetos e a compreensão de cena são consideravelmente aprimoradas, viabilizando interações complexas orientadas por consultas. Utilizando um conjunto de dados sintéticos de imagens 3D, os resultados demonstram que o framework generaliza de forma eficaz para consultas complexas, combinando descrições baseadas em atributos simples sem treinamento explícito em prompts compostos. Apresentamos os resultados numéricos e discussões abrangentes, destacando o potencial de nossa abordagem para aplicações inteligentes emergentes. | |
dc.description.sponsorship | Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq | |
dc.identifier.citation | SILVA JÚNIOR, Silvan Ferreira da. Integrating textual queries with aI-based object detection: a compositional prompt-guided approach. Orientador: Dr. Allan de Medeiros Martins. 2025. 73f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2025. | |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/65285 | |
dc.language.iso | en | |
dc.publisher.country | BR | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Neuro-symbolic AI | |
dc.subject | Prompt-guided object detection | |
dc.subject | Crossmodal reasoning | |
dc.subject | Visual-language alignment | |
dc.title | Integrating textual queries with aI-based object detection: a compositional prompt-guided approach | |
dc.type | doctoralThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Integratingtextualqueries_SilvaJunior_2025.pdf
- Tamanho:
- 4.62 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.53 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível