Comparando embeddings contextuais no problema de busca de similaridade semântica em português

dc.contributor.advisorBezerra, Leonardo Cesar Teonacio
dc.contributor.authorAndrade Junior, José estevam de
dc.contributor.referees1Abreu, Márjory Cristiany da Costa
dc.contributor.referees2Silva, Jonathan Cardoso
dc.date.accessioned2021-04-29T19:18:20Z
dc.date.accessioned2021-10-06T11:51:35Z
dc.date.available2021-04-29T19:18:20Z
dc.date.available2021-10-06T11:51:35Z
dc.date.issued2021-04-27
dc.description.abstractSemantic textual similarity (STS) is a natural language processing problem that aims to measure how similar two pairs of sentences are semantically. This problem has been gaining great attention both in the industry, through the development of several textual recommendation systems, and in academia, mainly with the popularity of shared tasks such as those proposed by the International Workshop on Semantic Evaluation(SemEval). Although SemEval has contributed to the increase in works in this area, the literature still lacks studies focused on STS for the Portuguese language. To that end, the ASSIN and ASSIN 2 workshops created shared tasks for semantic similarity search in Portuguese,providing datasets that were used to evaluate models during the events. More recently,a model produced by a Portuguese pre-trained and fine-tuned BERT established the state-of-the-art for those datasets. This work compares the performance of the BERT and Sentence-BERT(SBERT) contextual embeddings on the datasets created in the workshops ASSIN and ASSIN 2. The BERT models were pre-trained in portuguese with (ptBERTft) and without (ptBERT) fine-tuning for STS. On the other hand, the SBERT models was pre-trained in a multilingual corpus(mSBERT), initially without fine-tuning. The results of this comparison showed that the embeddings produced by SBERT models were competitive, surpassing the results of ptBERT and also the results observed during the shared tasks ASSIN and ASSIN 2. In fact, the result of mSBERT was second only to the results obtained by ptBERTft. In the second part of our investigation, we fine-tuned the multilingual SBERT models for the proposed problems. The results of this step vary depending on the dataset. For ASSIN 2,the fine-tuning made the SBERT models competitive with ptBERTft, however requiring less computational resources. For ASSIN, by contrast, the performance gain obtained by fine-tuning was not enough to match the performance of ptBERTft.pt_BR
dc.description.resumoBusca de similaridade semântica textual (STS, do inglês semantic textual similarity) é um problema de processamento de linguagem natural que tem por objetivo mensurar numericamente o quão similares dois pares de frases são semanticamente. Esse problema vem ganhando grande atenção tanto na indústria, por meio do desenvolvimento de diversos sistemas de recomendação textuais, quanto na academia, principalmente com a popularidade de tarefas compartilhadas como as propostas pelo International Workshop on Semantic Evaluation(SemEval). Apesar do SemEval ter contribuído para o aumento dos trabalhos nesta área, ainda vemos poucos estudos focados em STS para a língua portuguesa. Pensando nisso, os workshops ASSIN e ASSIN 2 criaram tarefas compartilhadas de busca de similaridade semântica em português, disponibilizando conjuntos de dados que foram usados para avaliar modelos durante os eventos. Mais recentemente, um modelo BERT pré-treinado em português com fine-tuning(ptBERTft) estabeleceu o estado-da-arte para estes conjuntos. Neste trabalho, comparamos o desempenho dos embeddings contextuais produzidos por modelos BERT e Sentence-BERT(SBERT) para os conjuntos de dados criados nos workshops ASSIN e ASSIN 2. Os modelos BERT foram pré-treinados no português com (ptBERTft) ou sem (ptBERT) fine-tuning para STS. Por sua vez, os modelos SBERT adotados foram pré-treinados em bases multi-língues (mSBERT), inicialmente sem fine-tuning. Os resultados desta comparação mostram que osembeddings produzidos pelos modelos multilíngues SBERT são competitivos, ultrapassando os resultados do ptBERT e também os resultados observados durante as tarefas compartilhadas do ASSIN e ASSIN 2. De fato, para este conjunto de dados o resultado do mSBERT ficou atrás apenas dos resultados obtidos pelo ptBERTft. Na segunda parte da nossa investigação, realizamos um fine-tuning dos modelos multilíngues SBERT para os problemas propostos. Os resultados desta fase variam em função do conjunto de dados considerado. Para o ASSIN 2, o fine-tuning torna os modelos multilíngues SBERT competitivos com o ptBERTft, requerendo porém menos recursos computacionais. Para o ASSIN, no entanto, o ganho de performance obtido pelo fine-tuning não foi suficiente para igualar a performance do modelo ptBERTft.pt_BR
dc.identifier20170009356pt_BR
dc.identifier.citationANDRADE JUNIOR, José Estevam de. Comparando embeddings contextuais no problema de busca de similaridade semântica em português. 2021. 50f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/43620
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentEngenharia de Computaçãopt_BR
dc.publisher.initialsUFRNpt_BR
dc.subjectAprendizado profundopt_BR
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectSimilaridade semântica textualpt_BR
dc.subjectWord embeddingspt_BR
dc.titleComparando embeddings contextuais no problema de busca de similaridade semântica em portuguêspt_BR
dc.typebachelorThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
ComparandoEmbeddingsContextuais_Andrade_2021.pdf
Tamanho:
1.16 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
714 B
Formato:
Plain Text
Nenhuma Miniatura disponível
Baixar