Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores

dc.contributor.advisorAranha, Eduardo Henrique da Silva
dc.contributor.advisorLatteshttp://lattes.cnpq.br/9520477461031645pt_BR
dc.contributor.authorLima, Alexandre Gomes de
dc.contributor.authorIDhttps://orcid.org/0000-0001-7251-0008pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/4063478137671603pt_BR
dc.contributor.referees1Silva, Ivanovitch Medeiros Dantas da
dc.contributor.referees1IDhttps://orcid.org/0000-0002-0116-6489pt_BR
dc.contributor.referees1Latteshttp://lattes.cnpq.br/3608440944832201pt_BR
dc.contributor.referees2Moreno, José Guillermo
dc.contributor.referees3Bezerra, Leonardo César Teonácio
dc.contributor.referees4Dkaki, Taoufiq
dc.date.accessioned2023-12-20T20:16:46Z
dc.date.available2023-12-20T20:16:46Z
dc.date.issued2023-06-29
dc.description.abstractLegal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.pt_BR
dc.description.resumoLegal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.pt_BR
dc.identifier.citationLIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/56540
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectComputaçãopt_BR
dc.subjectCodificação de sentençaspt_BR
dc.subjectBERTpt_BR
dc.subjectJulgamentopt_BR
dc.subjectClassificação de sentençaspt_BR
dc.subjectSentence encodingpt_BR
dc.subjectJudgmentpt_BR
dc.subjectSentence classificationpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleMelhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadorespt_BR
dc.title.alternativeImproving legal rhetorical role labeling through additional data and efficient exploitation of transformer modelspt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Melhorandorotulamentopapel_Lima_2023.pdf
Tamanho:
1.49 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar