Comparando embeddings contextuais no problema de busca de similaridade semântica em português
dc.contributor.advisor | Bezerra, Leonardo Cesar Teonacio | |
dc.contributor.author | Andrade Junior, José estevam de | |
dc.contributor.referees1 | Abreu, Márjory Cristiany da Costa | |
dc.contributor.referees2 | Silva, Jonathan Cardoso | |
dc.date.accessioned | 2021-04-29T19:18:20Z | |
dc.date.accessioned | 2021-10-06T11:51:35Z | |
dc.date.available | 2021-04-29T19:18:20Z | |
dc.date.available | 2021-10-06T11:51:35Z | |
dc.date.issued | 2021-04-27 | |
dc.description.abstract | Semantic textual similarity (STS) is a natural language processing problem that aims to measure how similar two pairs of sentences are semantically. This problem has been gaining great attention both in the industry, through the development of several textual recommendation systems, and in academia, mainly with the popularity of shared tasks such as those proposed by the International Workshop on Semantic Evaluation(SemEval). Although SemEval has contributed to the increase in works in this area, the literature still lacks studies focused on STS for the Portuguese language. To that end, the ASSIN and ASSIN 2 workshops created shared tasks for semantic similarity search in Portuguese,providing datasets that were used to evaluate models during the events. More recently,a model produced by a Portuguese pre-trained and fine-tuned BERT established the state-of-the-art for those datasets. This work compares the performance of the BERT and Sentence-BERT(SBERT) contextual embeddings on the datasets created in the workshops ASSIN and ASSIN 2. The BERT models were pre-trained in portuguese with (ptBERTft) and without (ptBERT) fine-tuning for STS. On the other hand, the SBERT models was pre-trained in a multilingual corpus(mSBERT), initially without fine-tuning. The results of this comparison showed that the embeddings produced by SBERT models were competitive, surpassing the results of ptBERT and also the results observed during the shared tasks ASSIN and ASSIN 2. In fact, the result of mSBERT was second only to the results obtained by ptBERTft. In the second part of our investigation, we fine-tuned the multilingual SBERT models for the proposed problems. The results of this step vary depending on the dataset. For ASSIN 2,the fine-tuning made the SBERT models competitive with ptBERTft, however requiring less computational resources. For ASSIN, by contrast, the performance gain obtained by fine-tuning was not enough to match the performance of ptBERTft. | pt_BR |
dc.description.resumo | Busca de similaridade semântica textual (STS, do inglês semantic textual similarity) é um problema de processamento de linguagem natural que tem por objetivo mensurar numericamente o quão similares dois pares de frases são semanticamente. Esse problema vem ganhando grande atenção tanto na indústria, por meio do desenvolvimento de diversos sistemas de recomendação textuais, quanto na academia, principalmente com a popularidade de tarefas compartilhadas como as propostas pelo International Workshop on Semantic Evaluation(SemEval). Apesar do SemEval ter contribuído para o aumento dos trabalhos nesta área, ainda vemos poucos estudos focados em STS para a língua portuguesa. Pensando nisso, os workshops ASSIN e ASSIN 2 criaram tarefas compartilhadas de busca de similaridade semântica em português, disponibilizando conjuntos de dados que foram usados para avaliar modelos durante os eventos. Mais recentemente, um modelo BERT pré-treinado em português com fine-tuning(ptBERTft) estabeleceu o estado-da-arte para estes conjuntos. Neste trabalho, comparamos o desempenho dos embeddings contextuais produzidos por modelos BERT e Sentence-BERT(SBERT) para os conjuntos de dados criados nos workshops ASSIN e ASSIN 2. Os modelos BERT foram pré-treinados no português com (ptBERTft) ou sem (ptBERT) fine-tuning para STS. Por sua vez, os modelos SBERT adotados foram pré-treinados em bases multi-língues (mSBERT), inicialmente sem fine-tuning. Os resultados desta comparação mostram que osembeddings produzidos pelos modelos multilíngues SBERT são competitivos, ultrapassando os resultados do ptBERT e também os resultados observados durante as tarefas compartilhadas do ASSIN e ASSIN 2. De fato, para este conjunto de dados o resultado do mSBERT ficou atrás apenas dos resultados obtidos pelo ptBERTft. Na segunda parte da nossa investigação, realizamos um fine-tuning dos modelos multilíngues SBERT para os problemas propostos. Os resultados desta fase variam em função do conjunto de dados considerado. Para o ASSIN 2, o fine-tuning torna os modelos multilíngues SBERT competitivos com o ptBERTft, requerendo porém menos recursos computacionais. Para o ASSIN, no entanto, o ganho de performance obtido pelo fine-tuning não foi suficiente para igualar a performance do modelo ptBERTft. | pt_BR |
dc.identifier | 20170009356 | pt_BR |
dc.identifier.citation | ANDRADE JUNIOR, José Estevam de. Comparando embeddings contextuais no problema de busca de similaridade semântica em português. 2021. 50f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2021. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/43620 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Engenharia de Computação | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.subject | Aprendizado profundo | pt_BR |
dc.subject | Processamento de linguagem natural | pt_BR |
dc.subject | Similaridade semântica textual | pt_BR |
dc.subject | Word embeddings | pt_BR |
dc.title | Comparando embeddings contextuais no problema de busca de similaridade semântica em português | pt_BR |
dc.type | bachelorThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- ComparandoEmbeddingsContextuais_Andrade_2021.pdf
- Tamanho:
- 1.16 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 714 B
- Formato:
- Plain Text
Nenhuma Miniatura disponível