Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2

dc.contributor.advisorSouza, Jorge Estefano Santana de
dc.contributor.advisor-co1Souza, Jorge Estefano Santana de
dc.contributor.advisor-co1ID17623795899pt_BR
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/8058577659019910pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/8058577659019910pt_BR
dc.contributor.authorMedeiros, Inácio Gomes
dc.contributor.authorLatteshttp://lattes.cnpq.br/8450369742588953pt_BR
dc.contributor.referees1Santos, Araken de Medeiros
dc.contributor.referees1Latteshttp://lattes.cnpq.br/8059198436766378pt_BR
dc.contributor.referees2Ferreira, Beatriz Stransky
dc.contributor.referees2Latteshttp://lattes.cnpq.br/3142264445097872pt_BR
dc.contributor.referees3Santos, Sidney Emanuel Batista dos
dc.contributor.referees3Latteshttp://lattes.cnpq.br/9809924843125163pt_BR
dc.contributor.referees4Petta, Tirzah Braz
dc.contributor.referees4Latteshttp://lattes.cnpq.br/9979644969955564pt_BR
dc.date.accessioned2021-11-17T17:24:53Z
dc.date.available2021-11-17T17:24:53Z
dc.date.issued2021-09-21
dc.description.abstractAnalysis of variants in clinical context and the support for the development of therapies against viral diseases are two areas which several research have used processes of integration and analysis of omics data. Assessing whether a given variant has a pathogenic impact is a challenge in the analysis of variants, especially when different tools for predicting pathogenicity point to divergent results. Regarding the development of RNA interference-based therapies, it is observed that there is a continuing need to design and evaluate the efficiency of new small-interfering RNAs (siRNAs) for each new virus that arises, like SARS-CoV-2, responsible for the COVID-19 pandemic. In this sense, it is argued in this thesis, based on the discussion of two works, that data integration and feature selection processes can contribute to the resolution of issues related to the identification of pathogenicity of variants and, in a second moment, to the availability of information and characteristics of sequences that may serve as the basis for therapies for COVID-19. In general terms, the study aimed (a) to develop data integration methods and selection of variant characteristics to measure pathogenicity and (b) to develop data integration methods for the construction of a database of siRNAs for SARS-CoV-2. To achieve the first objective, a decision tree-based classification model was proposed to estimate the pathogenicity of variants, built through an integration process of public data of already cataloged variants with pathogenicity predictions provided by machine learning-based tools. The model was able to present a higher accuracy than the state of the art regarding the prediction of pathogenicity of variants, constituting an important tool to support health professionals, such as in the diagnosis of genetic diseases. In the second objective, data on available properties, thermodynamics, toxicity, similarity, and efficiency were combined to assemble a global catalog of siRNAs for SARS-CoV-2. The integration of diverse properties related to siRNAs in a single consolidated database is an information reference that allows the realization of simple and targeted filtering in siRNA, saving the execution of many wet-lab tests on candidate molecules for COVID-19 antiviral therapies. These studies have common features with other data integration works in aspects involving data diversity, reproducibility, and knowledge discovery. Finally, it was found that these studies have potential for clinical application, either to increase the understanding of variants related to different genetic comorbidities, in the case of the first work, or to support the development of therapies against COVID-19, in the case of second job.pt_BR
dc.description.resumoA análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationMEDEIROS, Inácio Gomes. Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2. 2021. 121f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2021.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/44933
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICApt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectIntegração de dadospt_BR
dc.subjectAnálise de variantespt_BR
dc.subjectÁrvore de decisãopt_BR
dc.subjectsiRNApt_BR
dc.subjectBanco de dadospt_BR
dc.subjectCOVID-19pt_BR
dc.titleSeleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2pt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Selecaocaracteristicassequencias_Medeiros_2021.pdf
Tamanho:
3.42 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar