PPGBIONF - Doutorado em Bioinformática
URI Permanente para esta coleçãohttps://repositorio.ufrn.br/handle/123456789/24563
Navegar
Submissões Recentes
Tese Risco poligênico para esquizofrenia: do paleolítico ao pós-neolítico(Universidade Federal do Rio Grande do Norte, 2025-01-31) Oliveira, Thiago Felipe Fonseca Nunes de; Ribeiro, Sidarta Tollendal Gomes; Terrematte, Patrick César Alves; http://lattes.cnpq.br/0649912135067700; http://lattes.cnpq.br/4322962073592882; Leite, Marcos; Santos, Francisco Prosdocimi de Castro; Lagou, VasilikiEste estudo investigou a evolução dos escores de risco poligênico (PRS) para esquizofrenia em populações humanas antigas, do Paleolítico Superior Inicial ao Pós-Neolítico. Foram analisados dados genéticos de 13.353 indivíduos antigos e contemporâneos, com foco nas variações temporais e geográficas dos PRS, controlando-se a estrutura populacional. Os resultados revelam que os PRS foram significativamente mais altos durante o Paleolítico em comparação aos períodos Neolítico e Pós-Neolítico, com reduções expressivas a partir do advento da agricultura. Regionalmente, observou-se que a África apresentou os maiores valores médios e a maior dispersão, enquanto a Europa teve os menores valores e uma distribuição mais concentrada. Ásia, Américas e Oceania apresentaram padrões intermediários ou variáveis, com limitações amostrais especialmente na Oceania. Um modelo de Random Forest indicou que o tempo (anos antes do presente), o continente e os haplogrupos mitocondriais e do cromossomo Y foram os principais preditores da variação dos PRS, com desempenho preditivo variável entre continentes. A análise de efeitos locais acumulados (ALE) reforçou a importância da dimensão temporal na dinâmica dos escores. Esses achados descrevem padrões evolutivos nos PRS para esquizofrenia ao longo do tempo e entre regiões, fornecendo uma base empírica sólida para futuras investigações sobre os fatores que influenciam a distribuição de variantes genéticas associadas a transtornos psiquiátricos em populações humanas.Tese Advanced convolutional neural network techniques for classification of SARS-CoV-2 variants and other viruses: a study using k-mers and chaos game representation(Universidade Federal do Rio Grande do Norte, 2024-09-05) Câmara, Gabriel Bezerra Motta; Fernandes, Marcelo Augusto Costa; https://orcid.org/0000-0001-7536-2506; http://lattes.cnpq.br/3475337353676349; https://orcid.org/0000-0002-5736-0782; http://lattes.cnpq.br/3849103334728892; Silva, Ivanovitch Medeiros Dantas da; Terrematte, Patrick César Alves; Campos, Túlio de Lima; Barreto, Guilherme de AlencarDesde Dezembro de 2019, o impacto global da pandemia da Covid-19, causada pelo vírus SARS-CoV-2, tem sido profundo. A identificação precoce da classificação taxonômica e da origem genômica do vírus é fundamental para o planeamento estratégico, contenção e tratamento. As técnicas de aprendizagem profunda provaram ser bem-sucedidas na abordagem de vários desafios de classificação viral, incluindo diagnóstico, metagenômica, filogenética e análise genômica. Motivado por esses avanços, este estudo apresenta um classificador de genoma viral eficaz para SARS-CoV-2, utilizando uma estrutura de rede neural convolucional (CNN). Esta pesquisa empregou representações de imagem de sequências genômicas completas para treinar a CNN, alavancando dois conjuntos de dados distintos: um baseado na representação de imagem k-mers e o outro na Representação do Jogo do Caos (CGR). O conjunto de dados k-mers foi usado para experimentos de classificação taxonômica do vírus SARS-CoV-2, enquanto o conjunto de dados CGR focou na classificação de variantes de preocupação (VOCs) e variantes de interesse (VOIs) do SARS-CoV-2. A CNN obteve desempenho notável na classificação taxonômica usando k-mers, com taxas de precisão de cerca de 92% no conjunto de validação e igual a 100% no conjunto de teste contendo amostras de SARS-CoV-2. Esses resultados demonstram a adaptabilidade do modelo para classificar outros vírus emergentes. Para a classificação de variantes do SARS-CoV-2 usando imagens CGR, a CNN apresentou precisão ainda maior, atingindo 99,9% no conjunto de validação e 99,8% no conjunto de teste. As descobertas sublinham a aplicabilidade de técnicas de aprendizagem profunda em tarefas de classificação de genomas, fornecendo uma ferramenta robusta para a detecção precoce e classificação de ameaças virais. A integração de CNNs com representações de imagens k-mers e CGR apresenta um método novo e eficaz para análise do genoma viral, apoiando esforços contínuos em virologia e saúde pública.Tese Abordagens de Bioinformática aplicadas na análise de dados gerados por estresse abiótico em cana-de-açúcar: microgravidade e peróxido de hidrogênio(Universidade Federal do Rio Grande do Norte, 2024-03-07) Silva, Lucas Felipe da; Scortecci, Katia Castanho; https://orcid.org/0000-0002-4690-2785; http://lattes.cnpq.br/4808910380593455; http://lattes.cnpq.br/3918864615139279; Ferreira, Beatriz Stransky; https://orcid.org/0000-0003-4506-393X; http://lattes.cnpq.br/3142264445097872; Uchoa, Adriana Ferreira; Alvim, Fátima Cerqueira; Calsa Júnior, TercilioA cana-de-açúcar (Saccharum spp.) é uma planta monocotiledônea C4 adaptada a ambientes tropicais e subtropicais pertencente à família Poaceae. O Brasil destaca-se como o maior produtor mundial dessa cultura, desempenhando um papel fundamental na indústria global da cana-de-açúcar. Plantas, incluindo a cana-de-açúcar, são suscetíveis a uma variedade de fatores bióticos e abióticos que induzem ao estresse oxidativo. Esse estresse resulta de um desequilíbrio na homeostase entre a produção e degradação de Espécies Reativas de Oxigênio (EROs), cenário que pode afetar adversamente o desenvolvimento das plantas. Entre essas EROs, o peróxido de hidrogênio (H2O2 ) atua como uma molécula sinalizadora-chave, respondendo a vários estímulos celulares em sistemas de plantas. O principal objetivo deste estudo foi identificar, nas raízes e folhas da cana-de-açúcar, os transcritos e os genes que podem atuar em resposta ao estresse oxidativo induzido pela microgravidade e H2O2 em diferentes concentrações, correlacionando as respostas dos diferentes agentes estressores, assim como suas semelhanças, adaptações específicas e tolerância ao estresse oxidativo. Este trabalho foi realizado utilizando análises de bioinformática, com isso, esta tese foi estruturada em dois capítulos distintos. O primeiro capítulo utiliza ferramentas de bioinformática para investigar os efeitos dos campos gravitacionais alterados como agente estressor nas plantas de cana-de-açúcar, com foco específico na resposta ao estresse oxidativo. Essa investigação foi baseada na análise de dados de sequenciamento de RNA mensageiro. O segundo capítulo aborda a análise dos genes e proteínas expressas pela indução do estresse oxidativo por meio da aplicação exógena de concentrações variadas de H2O2 (0 mM, 10 mM, 20 mM e 30 mM) ao longo de um período de 8 horas, em uma faixa de temperatura controlada de 25-27 °C em plantas de cana-de-açúcar. Considerando que o H2O2 é uma molécula sinalizadora do estresse oxidativo. Essa investigação foi baseada na análise de dados obtidos com uma abordagem proteômica. Em ambas as abordagens metodológicas descritas nos capítulos, as espécies Sorghum bicolor, Zea mays e Oryza sativa subsp. japonica foram utilizadas como modelos de referência. Os resultados da análise de bioinformática identificaram genes específicos que atuam na resposta à microgravidade como o C5WVD4 associados à síntese de isoleucina e o C5YLK6 na produção de NADPH. Além disso, foram identificados genes com expressão alterada em diferentes concentrações de H2O2. Por exemplo, C5XFH6 e B4G143, relacionados ao fornecimento de NADPH e à regulação positiva de EROs na fotossíntese, respectivamente, estavam entre os genes com mudanças de expressão significativas. Além disso, o estudo identificou vias metabólicas enriquecidas em resposta à microgravidade e H2O2. Essas vias incluem o Metabolismo de compostos de selênio, fotossíntese - proteínas de antena e a via da pentose fosfato, destacando adaptações bioquímicas significativas na cana-de-açúcar nas condições estudadas. Este estudo multidisciplinar, que abrangeu histologia, bioquímica, análise de RNA-seq e proteômica, proporcionou uma compreensão dos efeitos da microgravidade e H2O2 nas plantas de cana-de-açúcar. Destaca mudanças interessantes na organização estrutural dos tecidos, acúmulo de lignina e nos níveis de H2O2 e EROs. Consequentemente, esta pesquisa foi fundamental para identificar genes/proteínas distintos expressos de maneira única em cada tecido e as vias metabólicas ativadas nas raízes e folhas. Observa-se respostas variadas das plantas de cana-de-açúcar às condições de gravidade alterada durante o voo do foguete de sondagem VSB-30 e à exposição a diferentes concentrações de H2O2. O estudo revela uma rede complexa de genes e vias metabólicas ativadas em resposta ao estresse oxidativo, desempenhando assim um papel fundamental no desencadeamento de mecanismos de defesa e tolerância. Os dados gerados melhoram significativamente nossa compreensão das respostas das plantas às condições adversas analisadas, destacando estratégias adaptativas específicas empregadas. Além disso, os resultados obtidos ressaltam o papel importante do H2O2 nas respostas adaptativas e de sobrevivência, assim como a versatilidade do fitormônio ácido abscísico (ABA) na mediação da sinalização entre raízes e folhas. Essas percepções são inestimáveis para o desenvolvimento de estratégias de melhoramento genético e otimização de práticas de cultivo para aprimorar o desempenho da planta em condições ambientais variáveis.Tese Proposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithms(Universidade Federal do Rio Grande do Norte, 2024-04-05) Oliveira, Fábio Fonseca de; Fernandes, Marcelo Augusto Costa; https://orcid.org/0000-0001-7536-2506; http://lattes.cnpq.br/3475337353676349; Moioli, Renan Cipriano; Araújo, Daniel Sabino Amorim de; Sakuyama, Carlos Alberto Valderrama; Silva, Lucileide Medeiros Dantas daNeste trabalho, abordamos o desafio crescente de processar eficientemente o vasto e continuamente expansivo volume de dados em bases de dados biológicas. A necessidade de técnicas de análise de sequências rápidas e precisas é mais premente do que nunca, dada a importância de identificar semelhanças entre sequências biológicas para aplicações em genômica, taxonomia e além. Central para este esforço é a otimização de algoritmos de alinhamento de sequências, particularmente o Smith-Waterman (SW), um método de alto nível de precisão baseado em programação dinâmica, e o K-Mers, uma técnica para a contagem de subsequências que é fundamental na análise genômica. Propomos uma inovadora arquitetura de hardware paralelo para o algoritmo SW, incorporando uma estrutura de array sistólico que acelera significativamente as fases de avanço e retrocesso do alinhamento. Esta arquitetura pré-organiza o alinhamento na etapa de avanço, reduzindo a complexidade do subsequente retrocesso, que é iniciado a partir da posição de pontuação máxima. Validada em Field-Programmable Gate Array (FPGA), a arquitetura alcançou uma taxa de até 79,5 Giga Cell Updates por Segundo (GCPUS), demonstrando um avanço notável na eficiência de processamento. Adicionalmente, desenvolvemos um algoritmo baseado em K-Mers focado na extração exata de subsequências curtas, caracterizado por seu baixo consumo de memória, viabilidade de tempo de execução, alta capacidade de paralelização, e eficiência energética. Destinado primariamente para uso em FPGA, o algoritmo é também adaptável a outras plataformas de hardware. Estas contribuições não apenas estabelecem novos padrões em termos de velocidade e eficiência para o processamento de dados biológicos, mas também abrem caminho para avanços significativos em pesquisas genômicas e taxonômicas, entre outras áreas de bioinformática.Tese Reconstrução de cenários evolutivos de sistemas genéticos em larga escala: introduzindo o algoritmo Bridge(Universidade Federal do Rio Grande do Norte, 2024-03-08) Campos, Leonardo René dos Santos; Dalmolin, Rodrigo Juliani Siqueira; Souza, Jorge Estefano de Santana; https://orcid.org/0000-0002-1688-6155; http://lattes.cnpq.br/4065178015615979; https://orcid.org/0000-0003-2937-0147; http://lattes.cnpq.br/5477636628791124; Costa, César Rennó; https://orcid.org/0000-0003-0417-8108; http://lattes.cnpq.br/9222565820639401; Sequerra, Eduardo Bouth; Farias, Sávio Torres de; Figuerola, Wilfredo BlancoAs metodologias de reconstrução de cenários evolutivos são importantes ferramentas que auxiliam na investigação do funcionamento de sistemas genéticos sob a perspectiva de sua conservação ao longo da evolução e de suas origens. O conceito primário para a compreensão dessas técnicas está nas relações estabelecidas comparando os genomas de diferentes espécies para formar famílias de genes conhecidas como grupos de ortólogos. Ortólogos são genes de espécies distintas originários de um ancestral comum que, tipicamente, desempenham funções similares nos respectivos organismos. Observando-se a distribuição dos ortólogos numa árvore de espécies é possível determinar em que ponto da evolução mais provavelmente emergiu a característica funcional representada por aquele grupo de ortólogos. Embora este processo seja trivial quando empregado a um único gene, sua aplicação em larga escala permanecia desafiadora. Nesta tese, introduzimos o algoritmo Bridge, implementado na linguagem R através do pacote GeneBridge, o qual permite interrogar simultaneamente milhares de grupos de ortólogos – atribuindo uma raiz evolutiva a cada um, bem como calcular a consistência e a confiabilidade estatística das inferências realizadas. Também desenvolvemos uma metodologia para construção sistemática de conjuntos de dados de entrada para as análises de enraizamento evolutivo a partir de bancos de ortólogos, disponibilizada através do pacote de anotações GeneBridge-Data. Assim, com a grande quantidade informações de ortologias disponíveis atualmente, as ferramentas apresentadas nesta tese destacam-se como alternativas viáveis para abordar a reconstrução de cenários evolutivos nesta escala.Tese Evaluation of a new nauronal induction protocol using Single-Cell RNA-Sequencing and machine learning(Universidade Federal do Rio Grande do Norte, 2024-02-26) Carvalho, Lukas Iohan da Cruz; Costa, Marcos Romualdo; http://lattes.cnpq.br/6118493598074445; http://lattes.cnpq.br/2797997375475881; Hedin-Pereira, Cecília; Lourenço, Mychael Vinícius da Costa; Dalmolin, Rodrigo Juliani Siqueira; https://orcid.org/0000-0002-1688-6155; http://lattes.cnpq.br/4065178015615979; Velho, Tarciso André FerreiraCell type identification is a critical step in the computational analysis of scRNA-Seq experiments, involving the unsupervised grouping of cells based on gene expression profiles. Traditional methods relying on canonical gene markers exhibit limitations, such as sensitivity to variations and the absence of characteristic genes for certain cell types. To address these challenges, we propose a novel approach combining machine learning algorithms with feature selection. Our methodology involves selecting a dataset suitable for training a model to ensure generalization to new data. We chose a comprehensive dataset encompassing the central and peripheral nervous system from mice at different developmental stages. Subsequently, feature selection was applied using the DUBStepR algorithm, considering gene-gene correlations to identify optimal features for cell classification. The resulting dataset, composed of 28,795 cells and 16,960 genes, was used to train and evaluate models employing k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NB), Support Vector Machine (SVM) and Multilayer Perceptron (MLP) algorithms. All models demonstrated F1-scores exceeding 90%, except for NB. Testing on a human brain scRNA-Seq dataset confirmed the robustness of the algorithms, with area under curve (AUC) values indicating accurate cell classification. SVM and MLP were selected for further analysis due to lower false positive and false negative rates. Comparisons with existing tools such as scAnnotatR and ACTINN highlight the versatility of our approach, particularly when dealing with diverse cell types. Next, we applied the SVM and MLP models to classify neurons generated in vitro human-induced neurons (hiNs) generated using distinct protocols, achieving consistent results in identifying glutamatergic and GABAergic neurons. We also attempted to classify hiNs according to cells of different brain regions, revealing challenges in classifying GABAergic neurons by region, possibly due to a limited number of optimal features. Gene expression analysis and Gene Set Enrichment Analysis (GSEA) contributed to identify gene sets associated with the electrophysiological maturation of glutamatergic hiNs generated through an alternative protocol using ASCL1 compared to other protocols. Regulatory network analysis identified master transcription factors with higher activity specifically in this protocol. In conclusion, our integrated approach of feature selection and machine learning algorithms offers an alternative way of identifying cell groups based on gene expression profiles, enhancing the refinement of single-cell analysis in the context of differential gene expression, GSEA, and regulatory gene networks.Tese Triagem virtual e identificação do potencial biológico de derivados espiro-acridínicos(Universidade Federal do Rio Grande do Norte, 2023-06-16) Viana, Jéssika de Oliveira; Barbosa, Euzébio Guimarães; http://lattes.cnpq.br/3197108792266393; http://lattes.cnpq.br/0754635433519696; Nascimento, Igor José dos Santos; Alencar Filho, Edilson Beserra de; Lima, João Paulo Matos Santos; https://orcid.org/0000-0002-6113-8834; http://lattes.cnpq.br/3289758851760692; Silva, Marcelo de Sousa daCompostos bioativos têm sido estudados de modo a oferecer melhor eficácia e seletividade contra diversas doenças, representando um cenário promissor no desenvolvimento de fármacos. Recentemente uma série de derivados acridínicos foi sintetizada e exibiu atividade antileishmania. No entanto, o conceito de “um medicamento, uma doença, um alvo” nem sempre é verdadeiro, pois compostos com aplicações terapêuticas previamente descritas podem atuar em mais de um alvo. Baseado nisto, este trabalho objetivou identificar, por triagem virtual inversa (IVS) baseada no receptor, o provável mecanismo de ação de derivados espiro-acridínicos. Adicionalmente, o mecanismo de ação foi comprovado por meio de ensaios enzimáticos in vitro. Utilizando tais abordagens, o capítulo I deste trabalho apresenta a identificação, por meio de metodologias computacionais, do alvo pteridina redutase 1 (PTR1) de L. major como potencial alvo para os compostos espiro-acridínicos. Adicionalmente, encontramos a enzima quitinase B1 (CHIB1) de Aspergillus fumigatus como potencial alvo contra Aspergilose. Para PTR1, os ensaios de docking e dinâmica molecular demonstraram a alta estabilidade do composto 1 no sítio ativo da enzima. Para quitinase, outros derivados foram submetidos a docking e dinâmica molecular, identificando 3 compostos como os de melhor perfil para o alvo. No capítulo II, ensaios in vitro foram realizados para comprovar experimentalmente a ação dos derivados espiro-acridínicos nas enzimas estudadas. Para PTR1, os ensaios in vitro demonstraram KD de 33,1 µM para o melhor composto, enquanto para quitinase o melhor composto apresentou um IC50 de 0.6 ng/µL. Portanto, o presente trabalho demonstrou a alta eficiência do IVS como uma abordagem de predição de alvos. Adicionalmente, o programa permitiu caracterizar sua potência, modalidade de inibição e perfil de interação com seu alvo terapêutico. Desta forma, os derivados espiro-acridínicos podem atuar como inibidores multi-alvo da PTR1 de Leishmania e quitinase de fungos.Tese A roadmap for building predictive models from the T cell receptor repertoire feature analysis(Universidade Federal do Rio Grande do Norte, 2023-03-28) Andrade, Dhiego Souto; Costa, César Rennó; https://orcid.org/0000-0003-0417-8108; http://lattes.cnpq.br/9222565820639401; http://lattes.cnpq.br/7232169055258869; Efroni, Sol; Moioli, Renan Cipriano; https://orcid.org/0000-0001-6036-8358; http://lattes.cnpq.br/3898958813303048; Dalmolin, Rodrigo Juliani Siqueira; Figuerola, Wilfredo BlancoEmbora a terapia do câncer forneça um vasto repertório de medicamentos e tratamentos, muitos tipos de câncer desenvolvem maneiras de escapar e continuam a proliferar. A imunoterapia, em particular, tem se mostrado eficiente na destruição de alguns tipos de câncer, mas não é uma opção infalível. Prever a eficiência de cada opção de tratamento seria uma ferramenta valiosa para o processo de tomada de decisão na prática clínica. A imunoterapia aumenta as células T do paciente para atacar as células cancerígenas. As células T usam uma proteína receptora de sua superfície para identificar possíveis alvos, como células cancerígenas. O advento do NGS (Next Generation Sequencing) trouxe uma velocidade considerável para sequenciar grandes quantidades de material genético, como o TCR (T Cell Receptor). A diversidade de receptores é colossal, e entender esses repertórios altamente complexos pode ser a chave para decifrar o comportamento do sistema imunológico. Aqui, avaliamos o processo de extração de recursos significativos dos dados do repertório do TCR para construir modelos preditivos para distinguir controles saudáveis de pacientes com câncer ou pacientes tratados com diferentes medicamentos. Diante disso, é essencial desenvolver ferramentas que possam gerar informações de maneira fácil e rápida a partir dos dados do repertório do TCR para prever resultados futuros. Desenvolvemos uma ferramenta de bioinformática chamada GENTLE (GENerator of T cell receptor repertoire features for machine LEARNING), voltada para qualquer pesquisador que trabalhe com dados de repertório TCR que visa explorar esses dados e construir ferramentas de previsão. O GENTLE é de código aberto, tem uma plataforma web, pode ser instalado localmente, implementa muitas métricas de diversidade, constrói redes usando a distância de Levenshtein, calcula a frequência de motivos, transforma os dados com métodos de redução dimensional, implementa métodos de normalização, realiza seleção de recursos, constrói, avalia e implanta classificadores. Usando esta ferramenta, pode-se obter grandes insights dos dados do repertório TCR.Tese Modelos de processos interativos em realidade virtual aplicados à Bioinformática(Universidade Federal do Rio Grande do Norte, 2022-11-29) Souza, Alyson Matheus de Carvalho; Costa, César Rennó; Pires, Izabel Augusta Hazin; http://lattes.cnpq.br/5496201609189471; https://orcid.org/0000-0003-0417-8108; http://lattes.cnpq.br/9222565820639401; http://lattes.cnpq.br/0529384820417065; Moioli, Renan Cipriano; Campos, Cleber da Silveira; Mota, Rosilane Ribeiro da; Manzolli, JonatasA Realidade Virtual (RV) vem evoluindo rapidamente e se tornando mais acessível a outras áreas do conhecimento através da facilitação no desenvolvimento de experiências e na aquisição de equipamentos específicos. Com isso, várias oportunidades de pesquisa são criadas ao integrar a RV com outras áreas do conhecimento. Nas neurociências e ciências cognitivas, a RV vem sendo utilizada de duas principais formas - como meio para trazer o mundo real ao laboratório, através de simulações, aumentando a validade ecológica dos experimentos ou como uma plataforma para criar situações impossíveis, estudando os usuários por uma janela que antes não estava disponível. Na educação, a RV tem sido vista como um meio para incluir outras formas de ensino no dia a dia do aluno, saindo do tradicional e aumentando o engajamento com ideias como a cognição corporificada, utilizando o corpo para aprender e guardar informação. Nas artes, a Realidade Virtual tanto complementa experiências reais quanto é capaz de criar novos mundos, com novas possibilidades de interação e novos caminhos de expressão. Baseado nessas vertentes de integração da RV, essa tese cumulativa apresenta nove trabalhos desenvolvidos dentro dessas três temáticas, visando a proposição e implementação de novas modelos de trabalho nas neurociências, ciências cognitivas, educação e artes, utilizando RV. Os trabalhos apresentados são discutidos quanto a sua relevância e seus aspectos inovadores e, por fim, concluímos algumas oportunidades de trabalhos futuros em cima dos textos apresentados.Tese Investigação das funções cognitivas do sono e dos sonhos através de eletroencefalografia, relatos verbais e jogos eletrônicos(Universidade Federal do Rio Grande do Norte, 2022-12-14) Brandão, Daniel Soares; Ribeiro, Sidarta Tollendal Gomes; http://lattes.cnpq.br/0649912135067700; http://lattes.cnpq.br/0373631364509781; Takahashi, Daniel Yasumasa; Beijamini, Felipe; Brockington, Guilherme; Miguel, Mário André Leocádio; https://orcid.org/0000-0002-7248-3529; http://lattes.cnpq.br/9973095281534917O sono é um estado mental e corporal importante para a consolidação das memórias. É muito conservado entre as espécies animais e provavelmente teve uma influência inicial e sustentada na evolução dos comportamentos de presas e predadores. A Teoria da Simulação de Ameaças afirma que sonhar também foi importante ao longo da evolução, devido à capacidade de alertar sobre possíveis ameaças futuras. Limitações metodológicas complicam as comparações de sono e sonhos entre presas e predadores em animais não humanos, mas isso pode ser resolvido convidando os humanos a jogar videogames. Propusemo-nos abordar a ligação entre sono, sonho e a dicotomia presa vs. predador em 13 pares de voluntários adultos que vieram ao laboratório e tiveram sua atividade cerebral registrada através de eletroencefalografia (EEG), enquanto jogavam um videogame um contra o outro por 45 minutos, então dormiam por 2 horas, tinham seus relatos de sonho coletados e então dormiam de novo por mais 45 minutos. No videogame, um participante foi caçado pelo outro em um confronto simulado de predador contra presa. Os resultados indicam que as presas relataram mais sonhos do que os predadores, e que os sonhos relacionados ao jogo contribuíram para a pontuação das presas. As presas também se beneficiaram de um sono mais profundo do que os predadores, o que também foi positivamente correlacionado com a pontuação das presas. Além disso, as presas apresentaram maior potência do EEG na banda de frequência delta (oscilações de ondas lentas entre 1 e 3 Hz), o que também favoreceu sua pontuação. Nenhum efeito foi encontrado para os fusos do sono. O desempenho da presa foi prejudicado pelo número de ocorrências do microestado C, um padrão de atividade elétrica associado com a falta de engajamento em tarefas propostas. Esses resultados sugerem que as ondas lentas durante o sono e os conteúdos dos sonhos relacionados ao jogo melhoram o desempenho pós-sono de indivíduos no papel de presa, enquanto nenhum benefício foi detectado para aqueles no papel de predador. Em conjunto, os resultados mostram que tanto o sono quanto os sonhos são importantes para a adaptação à situação de ser predado, mas não tão relevantes no contexto de ser um predador.Tese Desenvolvimento de abordagem computacional para análise e identificação de peptídeos polimórficos(Universidade Federal do Rio Grande do Norte, 2022-11-29) Cunha, Lucas Marques da; Souza, Gustavo Antônio de; Medeiros, Silvia Regina Batistuzzo de; https://orcid.org/0000-0003-2431-0479; http://lattes.cnpq.br/5882662534904226; http://lattes.cnpq.br/1012629455821774; https://orcid.org/0000-0003-1555-2505; http://lattes.cnpq.br/6545545471833974; Passetti, Fábio; Uchoa, Adriana Ferreira; Lanza, Daniel Carlos Ferreira; Carvalho, Paulo CostaA abordagem proteômica permite estudos em larga escala da expressão proteica em diferentes tecidos e fluidos corporais, tendo como objetivo identificar e quantificar o conteúdo proteico total. No processo de análise proteômica, a identificação de proteínas ainda apresenta lacunas, apesar dos grandes avanços na área. Frequentemente, um espectrômetro de massa é utilizado para gerar valores de massa/carga das amostras. Após esse processo, geralmente utiliza-se um banco de dados de proteínas referência (por exemplo, UniProt) para identificação das proteínas. Porém, utilizar uma base de referência limita as análises de identificação das proteínas, uma vez que não contém as variações que ocorrem no DNA, que podem impactar na sequência de aminoácidos, ocasionando identificação incorreta ou impossibilitando o processo. Nesse contexto, existem diversas bases de dados personalizadas que incorporam tais variações genéticas. Embora apresentem bons resultados, também se limitam devido à ausência de algumas mutações, tornando-se outro problema no processo de identificação. Portanto, essa pesquisa tem como objetivo construir m banco de dados de proteogenômica (dbPepVar) combinando informações de variação genética do dbSNP com sequências de proteínas do RefSeq do NCBI. Conjuntos de dados públicos de espectrometria de massa foram usados para realizar uma análise pan-câncer (Ovário, Colorretal, Mama e Próstata), permitindo a identificação de variações genéticas únicas. No total, 3.726 peptídeos variantes foram identificados em amostras de câncer de ovário, 2.543 em próstata, 2.661 em mama e 2.411 em câncer de cólon-retal. Uma análise de frequência mutacional mostrou genes envolvidos nos processos de progressão tumoral, sensibilidade à quimioterapia e risco de suscetibilidade ao câncer. Curiosamente, em muitas amostras, foram identificados peptídeos C-terminais de proteínas encurtadas originárias de eventos de códon de terminação prematura (PTC). Isso indica que tais proteínas escaparam do decaimento mediado por mutações Nonsense (NMD) e, não surpreendentemente, os genes da maquinaria NMD também estão mutados nas mesmas amostras. Isso sugere que o vestígio do transcrito truncado pode estar associado à ineficiência da maquinaria NMD causada por mutações genéticas. Em perspectiva, o portal web desenvolvido bem como as análises realizadas podem direcionar estudos para identificar novos alvos terapêuticos para diferentes tipos de câncer, podendo-se também utilizar nosso banco de dados para caracterização de variantes em amostras de antecedentes genéticos desconhecidos, como amostras arquivadas. O portal está disponível em: https://bioinfo.imd.ufrn.br/dbPepVar/.Tese Caracterização computacional de RNAs não codificantes longos a nível unicelular associados com o desenvolvimento do tecido cardíaco e com doenças cardiovasculares(Universidade Federal do Rio Grande do Norte, 2022-08-02) Ramos, Thaís de Almeida Ratis; Coutinho, Vinicius Ramos Henriques Maracajá; Rego, Thais Gaudêncio do; http://lattes.cnpq.br/5684206147354858; https://orcid.org/0000-0002-6699-7742; http://lattes.cnpq.br/4296700516154626; Dalmolin, Rodrigo Juliani Siqueira; https://orcid.org/0000-0002-1688-6155; http://lattes.cnpq.br/4065178015615979; Araújo, Gilderlanio Santana de; Barbosa, Yuri de Almeida MalheirosOs RNAs longos não codificantes (lncRNAs) compreendem as unidades transcricionais mais representativas do genoma dos mamíferos e estão associados ao desenvolvimento de órgãos que podem estar associados ao surgimento de doenças, como as cardiovasculares. A Organização Mundial da Saúde (do inglês, World Health Organization (WHO)), por exemplo, publicou que as doenças cardiovasculares são responsáveis pela morte de 17,9 milhões de pessoas a cada ano, correspondendo a 31% de todas as mortes em todo o mundo. Neste trabalho, foi construída uma base de dados de referência de lncRNAs e transcritos codificantes: foi utilizado uma combinação dos lncRNAs das bases de dados Gencode (M20), Ensembl (GRCm38.95) e Amaral et al (2018) para definir o conjunto de lncRNAs de referência não redundantes, ou seja, lncRNAs que não possuíam sobreposição acima de 50%; ademais, para a base de dados de referência dos transcritos codificantes foi utilizada a base de dados Gencode (M20). Além disso, foram utilizadas abordagens de bioinformática (foi adaptado um pipeline de RNA-seq para análise de dados single-cell), algoritmos de aprendizado de máquina (Hierárquico, Silhueta, PCA e t-SNE) e técnicas estatísticas para definir lncRNAs envolvidos no desenvolvimento cardíaco de mamíferos. Para isso, foi utilizado a base dados de single-cell publicada por DeLaughter et al (2016), no qual havia dados de 4 estágios embrionários (E9.5, E11.5, E14.5, E18.5) e 4 estágios pós-natais (P0, P3, P7, P21) do organismo modelo mus musculus. Neste trabalho, identificamos 8 tipos celulares distintos e novos transcritos marcadores (codificantes e diferentes tipos de lncRNAs) com o auxílio da ferramenta M3Drop e de testes estatísticos (Qui-quadrado e teste de aderência). Além disso, a expressão diferencial e análise de enriquecimento funcional revelaram subpopulações de cardiomiócitos associadas à função cardíaca; enquanto isso, a análise de co-expressão modular revelou insights funcionais específicos de células para lncRNAs durante o desenvolvimento do miocárdio, incluindo uma potencial associação com genes-chave relacionados à doença e ao “programa de genes fetais”. Nossos resultados evidenciam o papel de lncRNAs particulares no desenvolvimento do coração e destacam o uso de abordagens modulares de co-expressão na definição funcional do tipo de célula. Como trabalho futuro, pretende-se identificar os papéis funcionais desses RNAs no desenvolvimento de tecidos cardíacos e em doenças cardiovasculares, utilizando abordagens de validação experimental.Tese Análise das alterações transcricionais sexo-específicas do transtorno depressivo maior(Universidade Federal do Rio Grande do Norte, 2022-07-08) Souza, Iara Dantas de; Dalmolin, Rodrigo Juliani Siqueira; https://orcid.org/0000-0002-1688-6155; http://lattes.cnpq.br/4065178015615979; https://orcid.org/0000-0002-2550-6150; http://lattes.cnpq.br/8983310940285796; Franco, Glória Regina; Souza, Gustavo Antônio de; http://lattes.cnpq.br/1012629455821774; Lima, João Paulo Matos Santos; https://orcid.org/0000-0002-6113-8834; http://lattes.cnpq.br/3289758851760692; Pasquali, Matheus Augusto de BittencourtO transtorno depressivo maior (TDM) é um importante distúrbio neuropsiquiátrico com grande prevalência no Brasil, sendo caracterizado por persistente humor deprimido e/ou perda de prazer por pelo menos duas semanas. O TDM é uma condição incapacitante e que predispõe a outras patologias complexas, como doenças cardiovasculares, podendo até resultar em suicídio. O TDM é mais prevalente em mulheres do que em homens e observa-se diferenças anatômicas, imunológicas, neuronais e hormonais, as quais refletem diferentes prognósticos e sintomatologias entre os sexos. No entanto, não há consenso quanto às alterações transcricionais do TDM em homens e mulheres, bem como as implicações funcionais destas alterações no metabolismo celular. A maior parte dos estudos transcricionais do TDM tenta explicar a fisiopatologia do TDM buscando por alterações da expressão global dos genes. Entretanto as alterações podem ocorrer também em nível de transcrito, de modo que o processamento alternativo de transcritos pode estar alterado. O presente trabalho busca investigar as alterações transcricionais do TDM em homens e mulheres por meio da análise de expressão diferencial de genes (DGE), a análise de expressão diferencial de transcritos (DTE) e a análise do uso diferencial de isoformas (DTU) em amostras post-mortem de seis regiões cerebrais. O conjunto dos genes identificados em pelo menos uma das três abordagens foi chamado de genes transcricionalmente alterados (TAGs), os quais representam o perfil de alteração transcricional ampla do TDM. Ao todo, 1075 TAGs foram identificados principalmente nas regiões de córtex pré-frontal. Ainda, aproximadamente metade das alterações transcricionais ocorreram apenas em nível de transcrito. Verificamos uma quase ausência de sobreposição entre os genes alterados identificados em homens e mulheres, indicando que o perfil das alterações transcricionais do TDM, em nível de expressão global de genes e de transcritos, é distinto entre os sexos. Verificamos alterações nas vias de processamento e exportação de RNA mensageiro no córtex orbitofrontal de mulheres, além da alteração da expressão do gene DDX39B, um constituinte da maquinaria de processamento de RNA, em diferentes regiões cerebrais de homens e mulheres, respectivamente. Além disso, mostramos que o gene ATAT1 encontra-se alterado em múltiplas regiões cerebrais de mulheres e o gene ABR encontra-se alterado em múltiplas regiões cerebrais de homens, constituindo potenciais marcadores moleculares sexo-específicos para o TDM. Assim, nosso trabalho mostra que a perturbação na expressão gênica observada no TDM ocorre em nível de expressão global de genes e de seus transcritos.Tese Uma nova assinatura de 13 genes via aprendizagem de máquina para predição de sobrevida de pacientes com carcinoma renal de células clara(Universidade Federal do Rio Grande do Norte, 2022-05-13) Terrematte, Patrick Cesar Alves; Doria Neto, Adrião Duarte; Ferreira, Beatriz Stransky; https://orcid.org/0000-0003-4506-393X; http://lattes.cnpq.br/3142264445097872; https://orcid.org/0000-0002-5445-7327; http://lattes.cnpq.br/1987295209521433; http://lattes.cnpq.br/4283045850342312; Leite, Cicilia Raquel Maia; Araújo, Daniel Sabino Amorim de; http://lattes.cnpq.br/4744754780165354; Assumpção, Paulo Pimentel de; Sakamoto, TetsuPacientes com câncer renal têm sobrevida de 12% em 5 anos em caso de metástase, segundo dados entre 2009 e 2015 da American Cancer Society. Neste sentido, é de suma importância identificar biomarcadores em dados genômicos para ajudar a prever o avanço do carcinoma renal de células claras (ccRCC), sendo este o subtipo mais frequente. Assim, realizamos um estudo com o objetivo de avaliar assinaturas gênicas e propor uma nova assinatura com maior poder preditivo. Usando coortes ccRCC do The Cancer Genome Atlas (TCGA-KIRC) e do International Cancer Genome Consortium (ICGC-RECA), avaliamos modelos de sobrevida usando regressão de Cox comparando 14 assinaturas da literatura e seis métodos de seleção de características, e também realizamos análise funcional e de expressão diferencial. Neste estudo, apresentamos uma assinatura de 13 genes (AR, AL353637.1, DPP6, FOXJ1, GNB3, HHLA2, IL4, LIMCH1, LINC01732, OTX1, SAA1, SEMA3G, ZIC2) cujos níveis de expressão são capazes de prever risco de pacientes com ccCRC. A assinatura genética de melhor desempenho foi alcançada usando o método de comitês de Mínima Redundância e Máxima Relevância (mRMR). Essa assinatura apresenta características únicas em relação às demais, como a generalização por diferentes coortes e o enriquecimento funcional em vias relacionadas à doenças: Doença Renal Crônica, Carcinoma de células de transição, e Nefrolitíase. Dos 13 genes em nossa assinatura, oito são conhecidos na literatura por estarem correlacionados com a sobrevida de pacientes com ccRCC. Nosso modelo mostrou um desempenho de 0,82 usando a métrica Receiver Operator Characteristic (ROC) Area Under Curve (AUC). Nossos resultados revelaram dois agrupamentos de genes com alta expressão (SAA1, OTX1, ZIC2, LINC01732, GNB3 e IL4) e baixa expressão (AL353637.1, AR, HHLA2, LIMCH1, SEMA3G, e DPP6), ambos correlacionados com prognóstico desfavoráveis. Esta assinatura pode potencialmente ser desenvolvida para auxiliar tratamentos na prática clínica.Tese Investigação de complexos proteína-ligante por métodos de bioquímica quântica e evolução molecular(Universidade Federal do Rio Grande do Norte, 2022-02-21) Barbosa, Emmanuel Duarte; Fulco, Umberto Laino; Machado, Leonardo Dantas; https://orcid.org/0000-0003-1221-4228; http://lattes.cnpq.br/9253069541351708; https://orcid.org/0000-0002-4528-9878; http://lattes.cnpq.br/9579151361576173; https://orcid.org/0000-0001-8786-1281; http://lattes.cnpq.br/3372240387916364; Lima, João Paulo Matos Santos; https://orcid.org/0000-0003-1221-4228; http://lattes.cnpq.br/9253069541351708; Albuquerque, Eudenilson Lins de; https://orcid.org/0000-0002-1022-1048; http://lattes.cnpq.br/3594651355252245; Ribeiro Júnior, Luiz Antonio; Freire, Valder NogueiraEsta tese apresenta três frentes de pesquisa realizadas na esfera da modelagem molecular baseadas em princípios da Mecânica Quântica. Adicionalmente, métodos de evolução mo- lecular complementaram alguns resultados. O primeiro estudo retrata o desempenho dos resultados de energia e de custo computacional de 9 combinações de modelos baseados em DFT (DFT – do inglês, Density Functional Theory) em um sistema organometálico formado pelo cátion de zinco divalente e a enzima Porfobilinogênio Sintase PBGS. As energias de interação foram obtidas empregando o esquema de Fragmentação com Capas Conjugadas (MFCC). Os resultados do perfil de energia de interação total apresentaram diferenças quantitativas lineares, mas demonstraram-se qualitativamente uniformes. A de- pendência do tempo de processamento computacional mostrou-se mais associada à escolha do conjunto de base do que o funcional de troca e correlação. O segundo estudo apresenta uma descrição bioquímica a partir dos resultados de energia de interação obtidos no es- tudo anterior, analisando o perfil bioquímico dos resíduos mais relevantes de PBGS que interagem com o zinco. Além disso, foi feita uma análise filogenética e de agrupamento que avalia a conservação dos aminoácidos relevantes identificados no sistema zinco-PBGS. As interações intermoleculares mais importantes se deram pela participação dos aminoá- cidos CIS0122, CIS0124, CIS0132, ASP0169, SER0168, ARG0221, HIS0131, ASP0120, GLY0133, VAL0121, ARG0209 e ARG0174. Dentre esses resíduos, ASP0120, GLI0133, HIS0131, SER0168 e ARG0209 destacaram-se por ocorrer em todos os grupos gerados pela análise de agrupamento não supervisionada. Por outro lado, as cisteínas triplas a 2,5 Å do zinco (CIS0122, CIS0124 e CIS0132) apresentaram a maior de energia atração nos cálculos quânticos são ausentes nos táxons Viridiplantae, Sar, Rhodophyta e em alguns grupos de Bacteria. Já o terceiro trabalho apresentado aqui investiga as interações entre a toxina Lys49-PLA2 da peçonha de Bothrops moojeni, a qual causa necrose tecidual em vítimas de acidentes ofídicos, e dois compostos (varespladib, aspirina) com potencial para inibir a atividade miotóxica dessas proteínas. A partir desse estudo, foi possível predizer a relevância dos aminoácidos que compõem o sítio de ligação da toxina Lys49-PLA2, dentre eles pode-se citar LIS0069, LIS0049, LEU0005, ILE0009, CIS0029, GLI0030, HIS0048, PRO0018, ALA0019, CIS0045, TIR0052, TIR0022, PRO0125* e FEN0126* que anco- ram varespladib e os resíduos LIS0069, LIS0049, GLI0032, LEU0002, e LEU0005 para o composto aspirina.Tese Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas(Universidade Federal do Rio Grande do Norte, 2022-04-14) Morais, Diego Arthur de Azevedo; Dalmolin, Rodrigo Juliani Siqueira; Dalmolin, Rodrigo Juliani Siqueira; https://orcid.org/0000-0002-1688-6155; http://lattes.cnpq.br/4065178015615979; https://orcid.org/0000-0002-7357-3446; http://lattes.cnpq.br/0627546477822130; Souza, Jorge Estefano de Santana; http://lattes.cnpq.br/8058577659019910; Lima, Lucymara Fassarella Agnez; https://orcid.org/0000-0003-0642-3162; http://lattes.cnpq.br/1083882171718362; Guizelini, Dieval; Moreira, Fabiano CordeiroA metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology.Tese Investigação in silico do mecanismo de reorganização sináptica do sono. Um algoritmo para maximizar a capacidade computacional de redes neurais esparsas(Universidade Federal do Rio Grande do Norte, 2021-11-09) Silva, Ana Cláudia Costa da; Ribeiro, Sidarta Tollendal Gomes; Costa, César Renno; 22508952877; http://lattes.cnpq.br/9222565820639401; http://lattes.cnpq.br/0649912135067700; http://lattes.cnpq.br/4555593159788385; Dalmolin, Rodrigo Juliani Siqueira; http://lattes.cnpq.br/4065178015615979; Mohan, Madras Viswanathan Gandhi; http://lattes.cnpq.br/1995273890709490; Copelli, Mauro; http://lattes.cnpq.br/9400915429521069; Vasconcelos, Nivaldo Antônio Portela de; http://lattes.cnpq.br/4110109220389767As memórias são armazenadas no cérebro pela mudança persistente da conectividade entre neurônios e o sono desempenha um papel decisivo para a persistência dessas mudanças. Pesquisas sobre a neurobiologia do sono demonstram a ativação de mecanismos de plasticidade sináptica de longa duração. Dados experimentais apontam para um duplo papel do sono, tanto no esquecimento de memórias irrelevantes quanto no reforço das lembranças mais importantes. A hipótese investigada nesta tese é de que os mecanismos de reorganização sináptica envolvidos na consolidação de memórias podem trazer vantagens na performance das redes neurais artificiais. Este trabalho visa aplicar mecanismos neurobiológicos de aprendizagem dependente de sono na aprendizagem de máquina. Para isto, foi feita uma revisão das teorias de consolidação da memória através do sono, assim como dos modelos computacionais que dão suporte a essas teorias. Com a observação de como o cérebro otimiza os recursos biológicos, a pesquisa seguiu a tendência das redes neurais artificiais onde foram aplicados conceitos presentes na aprendizagem biológica, na aprendizagem de máquina. Então foram realizadas simulações de computador para explorar a hipótese de que os mecanismos subjacentes utilizados pelo cérebro para aprendizagem biológica através do sono são capazes de otimizar o aprendizado em redes neurais artificiais. A esparsialidade sináptica pode trazer vantagens na economia de recursos sem que haja um decaimento na aprendizagem, então, usamos uma rede neural artificial esparsa para aprender diferentes conjuntos de dados e, em seguida, testar se o sono poderia reduzir ainda mais o número mínimo de sinapses que um sistema precisa para o aprendizado de padrões. As simulações foram realizadas com diferentes tamanhos de rede, diferentes níveis de esparsialidades, diversas bases de dados além de utilizar modernos frameworks e algoritmos em aprendizagem de redes neurais profundas. Os resultados corroboram a hipótese de que o sono reduz o número necessário de sinapses para que se atinja um determinado limite de aprendizagem.Tese Uma plataforma de simulação de cenários evolutivos biológicos aplicada à teoria do fitness estendido(Universidade Federal do Rio Grande do Norte, 2021-11-24) Araújo, Guilherme Fernandes de; Moioli, Renan Cipriano; 30911587802; http://lattes.cnpq.br/8479967495464590; http://lattes.cnpq.br/7637841133437229; Fujita, André; http://lattes.cnpq.br/0247990329725342; Costa, Cesar Renno; http://lattes.cnpq.br/9222565820639401; Meyer, Diogo; http://lattes.cnpq.br/5443305901170965; Lima, João Paulo Matos Santos; http://lattes.cnpq.br/3289758851760692O impacto dos fenótipos estendidos na teoria da evolução contemporânea é controverso. A teoria do fenótipo estendido diz que a expressão dos genes pode ter efeitos além do corpo do indivíduo que os possuem, afetando resultados evolutivos de outros indivíduos que convivem com o mesmo. A teoria do fitness estendido propõe que indivíduos com similaridade genética o suficiente podem utilizar os fenótipos estendidos uns dos outros, assim aumentando as chances de sobrevivência e reprodução do grupo como um todo. Este trabalho tem como objetivo modelar estas interações através de redes aleatórias livres de escala, e investigar o impacto dos fenótipos estendidos e os seus efeitos no sucesso reprodutivo de indivíduos no contexto de grupos capazes de produzi-los e compartilhá-los. As vantagens conferidas pelo uso de fenótipos estendidos disponibilizados por vizinhos semelhantes pode conferir um incentivo evolucionário a nível de grupo para construí-los e compartilhá-los, e este equilíbrio é medido em diferentes simulações de modelos de comportamento.Tese Modelo para identificação de genes bimodais associados ao prognóstico no câncer(Universidade Federal do Rio Grande do Norte, 2021-09-16) Justino, Josivan Ribeiro; Souza, Sandro José de; Ferreira, Beatriz Stransky; 62825968668; http://lattes.cnpq.br/3142264445097872; http://lattes.cnpq.br/8479967495464590; http://lattes.cnpq.br/6470296449367089; Torrezan, Giovana; http://lattes.cnpq.br/1174527002469907; Souza, Jorge Estefano Santana de; http://lattes.cnpq.br/8058577659019910; Nunes, Marcus Alexandre; http://lattes.cnpq.br/2698100541879707; Santos, Ândrea Kely Campos Ribeiro dos; http://lattes.cnpq.br/3899534338451625Nas últimas décadas o interesse biológico em compreender a regulação gênica, tem levado a descobertas de genes tumorais com expressões diferenciadas em subgrupos de pacientes. Estes genes possuem um perfil bimodal de distribuição dos valores de expressão, o que têm despertado a atenção para investigar os padrões de desenvolvimento e de sua funcionalidade. Para melhor compreender o padrão bimodal destes genes, o objetivo principal do trabalho foi identificar grupos distintos de pacientes em determinado tipo de tumor, que apresentassem níveis baixo e alto da expressão para o mesmo gene, associados a um melhor ou pior prognóstico de sobrevida do câncer. Desenvolvemos um método que seleciona genes candidatos ao padrão de bimodalidade a partir da função densidade de probabilidade dos valores de expressão. Analisamos 25 tipos de tumor disponíveis no The Cancer Genome Atlas (TCGA), à realizamos análise de sobrevivência usando informações clínicas extraídas do cBioPortal for Cancer Genomics. Utilizamos os dados de expressão em Fragments by Exon Kilobase per Millions of Mapped Fragments (FPKM) para 24.456 genes, e encontramos nos 25 tipos de tumores 554 genes bimodais únicos, dos quais 46 apresentaram expressão bimodal em mais de um tipo de câncer, com maior prevalência no cromossomo Y. Os tumores KIRC, KIRP, LGG, SKCM, THCA e THYM apresentaram amostras consistentes quanto ao prognóstico de sobrevida com p-valor ≤ 0,01. O método mostrou-se eficiente em reduzir os níveis de variabilidade interna dos grupos, principalmente quando analisamos os dados pelo subtipo de câncer. Como contribuição apresentamos um método com o código livre, que possibilita reduzir os níveis de variabilidade interna dos grupos e que relaciona o padrão de expressão bimodal com o prognóstico de sobrevida. Assim, acreditamos que a utilização do método poderá ser útil na avaliação do padrão bimodal de expressão gênica e na descoberta de novos biomarcadores clínicos para diferentes tipos de câncer.Tese Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2(Universidade Federal do Rio Grande do Norte, 2021-09-21) Medeiros, Inácio Gomes; Souza, Jorge Estefano Santana de; Souza, Jorge Estefano Santana de; 17623795899; http://lattes.cnpq.br/8058577659019910; http://lattes.cnpq.br/8058577659019910; http://lattes.cnpq.br/8450369742588953; Santos, Araken de Medeiros; http://lattes.cnpq.br/8059198436766378; Ferreira, Beatriz Stransky; http://lattes.cnpq.br/3142264445097872; Santos, Sidney Emanuel Batista dos; http://lattes.cnpq.br/9809924843125163; Petta, Tirzah Braz; http://lattes.cnpq.br/9979644969955564A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.