Comparando embeddings contextuais no problema de busca de similaridade semântica em português

Andrade Junior, José estevam de

Comparando embeddings contextuais no problema de busca de similaridade semântica em português

Página do item simplificado Estatísticas

dc.contributor.advisor	Bezerra, Leonardo Cesar Teonacio
dc.contributor.author	Andrade Junior, José estevam de
dc.contributor.referees1	Abreu, Márjory Cristiany da Costa
dc.contributor.referees2	Silva, Jonathan Cardoso
dc.date.accessioned	2021-04-29T19:18:20Z
dc.date.accessioned	2021-10-06T11:51:35Z
dc.date.available	2021-04-29T19:18:20Z
dc.date.available	2021-10-06T11:51:35Z
dc.date.issued	2021-04-27
dc.description.abstract	Semantic textual similarity (STS) is a natural language processing problem that aims to measure how similar two pairs of sentences are semantically. This problem has been gaining great attention both in the industry, through the development of several textual recommendation systems, and in academia, mainly with the popularity of shared tasks such as those proposed by the International Workshop on Semantic Evaluation(SemEval). Although SemEval has contributed to the increase in works in this area, the literature still lacks studies focused on STS for the Portuguese language. To that end, the ASSIN and ASSIN 2 workshops created shared tasks for semantic similarity search in Portuguese,providing datasets that were used to evaluate models during the events. More recently,a model produced by a Portuguese pre-trained and fine-tuned BERT established the state-of-the-art for those datasets. This work compares the performance of the BERT and Sentence-BERT(SBERT) contextual embeddings on the datasets created in the workshops ASSIN and ASSIN 2. The BERT models were pre-trained in portuguese with (ptBERTft) and without (ptBERT) fine-tuning for STS. On the other hand, the SBERT models was pre-trained in a multilingual corpus(mSBERT), initially without fine-tuning. The results of this comparison showed that the embeddings produced by SBERT models were competitive, surpassing the results of ptBERT and also the results observed during the shared tasks ASSIN and ASSIN 2. In fact, the result of mSBERT was second only to the results obtained by ptBERTft. In the second part of our investigation, we fine-tuned the multilingual SBERT models for the proposed problems. The results of this step vary depending on the dataset. For ASSIN 2,the fine-tuning made the SBERT models competitive with ptBERTft, however requiring less computational resources. For ASSIN, by contrast, the performance gain obtained by fine-tuning was not enough to match the performance of ptBERTft.	pt_BR
dc.description.resumo	Busca de similaridade semântica textual (STS, do inglês semantic textual similarity) é um problema de processamento de linguagem natural que tem por objetivo mensurar numericamente o quão similares dois pares de frases são semanticamente. Esse problema vem ganhando grande atenção tanto na indústria, por meio do desenvolvimento de diversos sistemas de recomendação textuais, quanto na academia, principalmente com a popularidade de tarefas compartilhadas como as propostas pelo International Workshop on Semantic Evaluation(SemEval). Apesar do SemEval ter contribuído para o aumento dos trabalhos nesta área, ainda vemos poucos estudos focados em STS para a língua portuguesa. Pensando nisso, os workshops ASSIN e ASSIN 2 criaram tarefas compartilhadas de busca de similaridade semântica em português, disponibilizando conjuntos de dados que foram usados para avaliar modelos durante os eventos. Mais recentemente, um modelo BERT pré-treinado em português com fine-tuning(ptBERTft) estabeleceu o estado-da-arte para estes conjuntos. Neste trabalho, comparamos o desempenho dos embeddings contextuais produzidos por modelos BERT e Sentence-BERT(SBERT) para os conjuntos de dados criados nos workshops ASSIN e ASSIN 2. Os modelos BERT foram pré-treinados no português com (ptBERTft) ou sem (ptBERT) fine-tuning para STS. Por sua vez, os modelos SBERT adotados foram pré-treinados em bases multi-língues (mSBERT), inicialmente sem fine-tuning. Os resultados desta comparação mostram que osembeddings produzidos pelos modelos multilíngues SBERT são competitivos, ultrapassando os resultados do ptBERT e também os resultados observados durante as tarefas compartilhadas do ASSIN e ASSIN 2. De fato, para este conjunto de dados o resultado do mSBERT ficou atrás apenas dos resultados obtidos pelo ptBERTft. Na segunda parte da nossa investigação, realizamos um fine-tuning dos modelos multilíngues SBERT para os problemas propostos. Os resultados desta fase variam em função do conjunto de dados considerado. Para o ASSIN 2, o fine-tuning torna os modelos multilíngues SBERT competitivos com o ptBERTft, requerendo porém menos recursos computacionais. Para o ASSIN, no entanto, o ganho de performance obtido pelo fine-tuning não foi suficiente para igualar a performance do modelo ptBERTft.	pt_BR
dc.identifier	20170009356	pt_BR
dc.identifier.citation	ANDRADE JUNIOR, José Estevam de. Comparando embeddings contextuais no problema de busca de similaridade semântica em português. 2021. 50f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021.	pt_BR
dc.identifier.uri	https://repositorio.ufrn.br/handle/123456789/43620
dc.language	pt_BR	pt_BR
dc.publisher	Universidade Federal do Rio Grande do Norte	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Engenharia de Computação	pt_BR
dc.publisher.initials	UFRN	pt_BR
dc.subject	Aprendizado profundo	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Similaridade semântica textual	pt_BR
dc.subject	Word embeddings	pt_BR
dc.title	Comparando embeddings contextuais no problema de busca de similaridade semântica em português	pt_BR
dc.type	bachelorThesis	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: ComparandoEmbeddingsContextuais_Andrade_2021.pdf
Tamanho:: 1.16 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 714 B
Formato:: Plain Text

Baixar

Coleções

CT - TCC - Engenharia de Computação

SIGAA

Comparando embeddings contextuais no problema de busca de similaridade semântica em português

Arquivos

Pacote Original

Licença do Pacote

Coleções