Programa de Pós-Graduação em Bioinformática - IMD
URI Permanente desta comunidadehttps://repositorio.ufrn.br/handle/123456789/24561
Navegar
Navegando Programa de Pós-Graduação em Bioinformática - IMD por Data de Publicação
Agora exibindo 1 - 20 de 85
- Resultados por página
- Opções de Ordenação
Dissertação Mapa metabólico da intoxicação por chumbo(2017-12-14) Souza, Iara Dantas de; Dalmolin, Rodrigo Juliani Siqueira; https://orcid.org/0000-0002-1688-6155; http://lattes.cnpq.br/4065178015615979; https://orcid.org/0000-0002-2550-6150; http://lattes.cnpq.br/8983310940285796; Lima, João Paulo Matos Santos; https://orcid.org/0000-0002-6113-8834; http://lattes.cnpq.br/3289758851760692; Castro, Mauro Antonio Alves; http://lattes.cnpq.br/6484877487662355; Amaral, Viviane Souza do; https://orcid.org/0000-0003-4942-8131; https://orcid.org/0000-0002-9326-9054; http://lattes.cnpq.br/4440806451383783Desde a antiguidade, o chumbo (Pb) vem sendo utilizado pela humanidade em virtude das suas propriedades físico-químicas, como maleabilidade, ductilidade, resistência à corrosão, baixo ponto de fusão e baixa condutividade elétrica. Entretanto, além de sua importância econômica, o chumbo possui uma importância quanto à saúde humana, uma vez que causa intoxicação. Muitos efeitos da intoxicação pelo chumbo já foram relatados na literatura, sendo responsável pela toxicidade nos sistemas cardiovascular, imunológico, ósseo, reprodutivo, hematopoiético, renal, gastrointestinal e, principalmente, no sistema nervoso. Embora haja evidências sobre como o chumbo afeta a homeostase em nível celular, a descrição das vias metabólicas afetadas na intoxicação por chumbo não está estabelecida. Para esclarecer os efeitos da intoxicação, o objetivo deste estudo é propor vias metabólicas das interações do chumbo com os componentes celulares, através da curadoria das informações presentes na literatura e em repositórios públicos. Após a busca na literatura, encontramos um total de 23 proteínas, incluindo o tripeptídeo glutationa, as quais são capazes de interagir com o chumbo e estão relacionadas com a base celular da intoxicação. Estas informações, em conjunto com outras provenientes de repositórios especializados, permitiram a integração do conhecimento em uma via metabólica da intoxicação por chumbo. Por meio dela, observou-se que o chumbo atua de maneira sistêmica no organismo, em especial, interferindo na função normal de proteínas as quais se ligam a metais essenciais, como zinco e cálcio.Dissertação Autogating em dados de citometria de fluxo utilizando classificadores SVM para identificação de bacterioplâncton(2018-03-22) Cordeiro, Elionai Moura; Doria Neto, Adrião Duarte; ; ; Santos, Araken de Medeiros; ; Araújo, Daniel Sabino Amorim de; ; Souza, Jorge Estefano Santana de;Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de Support Vector Machine.Dissertação Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição(2018-03-28) Silva, Lucas Felipe da; Souza, Jorge Estefano Santana de; ; ; Dalmolin, Rodrigo Juliani Siqueira; ; Figuerola, Wilfredo Blanco;Atualmente há diversas ferramentas propostas para análise de Fatores de Transcrição (TF), tais como TFCheckpoint, JASPAR, SSTAR, GTRD, Enrichr. No entanto, nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo do tempo, foram construídas inúmeras bases de dados, todas elas com riquíssimas informações, porém a complexidade intrínseca do dado, o volume de informações, problemas de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com um grande volume de dados, se requer conhecimentos avançados de computação. Entretanto, o grande público interessado em analisar esses dados são os profissionais procedentes das áreas biológicas, configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares disciplinas de programação. Diante desta situação, este trabalho tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Desse modo, foi idealizado e desenvolvido o Transcription Factor Analysis Tools (TFAT), contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com os parâmetros cruciais definidos pelo usuário em sua análise. O cerne desta ferramenta é a análise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos componentes da ferramenta, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta verifica a confiabilidade do TF, disponibiliza as predições realizadas e converte os itens de uma lista para o GeneID ou Symbol do Entrez Gene. Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade leva em consideração evidências de diferentes bases de dados, experimentos, predições e outras características dos TFs. Este recurso de confiabilidade possui um modo padrão e um modo com parâmetros definidos pelo próprio usuário, que permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final.Dissertação Um circuito neural canônico com inibição feedback e feedforward(2018-03-29) Teixeira, Daniel Garcia; Costa, César Renno; ; ; Dalmolin, Rodrigo Juliani Siqueira; ; Moioli, Renan Cipriano; ; Figuerola, Wilfredo Blanco;A oscilação gama está presente em diversas áreas do cérebro, como no hipocampo, desempenhando um importante mecanismo para o funcionamento da memória. Encontramos diversos modelos capazes de explicar a geração das oscilações gama e explicam suas duas funcionalidades, agrupamento sincronizado temporalmente das sinapses dos neurônios e a de selecionar quais neurônios devem disparar em cada ciclo deste sincronismo. Funcionalidades estas que imprimem um caráter computacional do processamento neural a este sistema, como a separação de padrões e a formação de assembleias neurais. Porém, a análise destes modelos existentes demonstra ser muito sensível às variações das atividades cerebrais, sendo fortemente afetados por variações nas suas camadas de entrada, de modo a aparentar não possuir uma boa robustez, gerando muita variação de sua frequência de saída, assim como na competitividade entre estes neurônios. Entretanto, ao se considerar uma importante parte do circuito biológico não considerada em trabalhos anteriores, uma rede de inibição alimentada à frente nos possibilitou a criação de um novo modelo. Baseando-nos no modelo de neurônio de Izhikevich, geramos um novo modelo com uma maior estabilidade em sua saída às variações na camada de entrada, bem como um custo computacional reduzido e proximidade do modelo biológico. Em posse deste novo modelo, será possível criar redes neurais com maior capacidade de neurônios, com custo computacional reduzido, além da possibilidade de análise do comportamento individual em cada neurônio do modelo.Dissertação Desenvolvimento e uso do corazon: ferramenta para normalização e agrupamento de dados de expressão gênica(2018-05-11) Ramos, Thaís de Almeida Ratis; Ortega, José Miguel; Rego, Thais Gaudêncio do; ; ; ; Esteves, Gustavo Henrique; ; Dalmolin, Rodrigo Juliani Siqueira; ; Coutinho, Vinicius Ramos Henriques Maracajá;A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.Dissertação Transcriptogramer: pacote em R para análise transcricional(2018-06-29) Morais, Diego Arthur de Azevedo; Dalmolin, Rodrigo Juliani Siqueira; ; ; Souza, Jorge Estefano Santana de; ; Castro, Mauro Antonio Alves;O transcriptograma, um método utilizado na análise de transcriptomas, utiliza dados de interação proteína-proteína para construir uma lista ordenada de genes. Nesta lista, genes são posicionados de forma que a probabilidade de interação entre seus produtos decaia exponencialmente com o aumento da distância entre suas posições. A lista ordenada de genes é então utilizada para calcular o valor de expressão médio de genes funcionalmente associados numa janela com raio configurável, permitindo a expressão diferencial de grupos gênicos não pré-definidos em estudos caso-controle. O objetivo deste estudo é a implementação de um pacote em R que use transcriptogramas e integre funcionalidades de pacotes já conhecidos pela comunidade científica, capaz de realizar: expressão diferencial, enriquecimento funcional, e visualização de rede. O pacote transcriptogramer foi implementado e encontra-se disponível no Bioconductor, um repositório para softwares open source desenvolvidos na linguagem R para utilização em bioinformática. Numa comparação entre o transcriptogramer e um pipeline combinando funcionalidades dos pacotes limma e topGO, observou-se que o transcriptogramer identificou aproximadamente 10 vezes mais termos do Gene Ontology significativamente enriquecidos, dentre os quais foram encontrados a maioria dos termos identificados pelo pipeline convencional.Dissertação Descobrindo redes de associação envolvendo miRNAs e lincRNAs humanos através de uma análise de eQTL(2018-07-19) Lins, Paulo Roberto Branco; Barrera, Júnior; Souza, Sandro José de; ; ; ; Figuerola, Wilfredo Blanco; ; Kurtz, Guilherme Suarez;Variações no nível de expressão gênica estão entre as principais causas da diversidade fenotípica nos organismos, incluindo o desenvolvimento de patologias e a resposta aos fármacos em humanos. Os RNAs não codificantes (ncRNAs) desempenham um papel importante no complexo mecanismo das redes regulatórias. Embora ainda não completamente compreendidos, dois representantes dos ncRNAs despontam em pesquisas recentes como protagonistas no desenvolvimento de quadros clínicos. São eles os microRNAs (miRNAs) e os RNAs não codificantes intergênicos longos (lincRNAs). Assim, o presente trabalho integrou dados públicos para catalogar o vasto panorama dos efeitos regulatórios dos miRNAs e dos lincRNAs no genoma humano. Através de uma análise de expression Quantitative Trait Loci (eQTL) foram identificadas variações que tivessem efeito putativo na expressão gênica. Redes de associação também foram criadas relacionando os resultados da análise eQTL com tratos de relevância clínica e/ou farmacológica. Por meio dessa, foram reveladas associações que podem continuar despertando o interesse de novos estudos envolvendo o tema. Distúrbios mentais e coronários, além do câncer, foram os tratos com maior evidência nos resultados do estudo.Dissertação Desenvolvimento de abordagens computacionais para proteogenômica de procarioto(2018-07-27) Machado, Karla Cristina Tabosa; Souza, Gustavo Antonio de; ; ; Lima, João Paulo Matos Santos; ; Huergo, Luciano Fernandes;Com o desenvolvimento de sequenciadores de segunda geração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. A abordagem proteogenômica é aplicada por meio da construção de bancos de dados de sequências proteicas customizadas, que podem ser inspecionados contra dados de sequências peptídicas coletadas por MS. A natureza probabilística da identificação de peptídeos por MS, e as limitações encontradas na construção de bancos precisos de proteínas tem sido gargalos relevantes no que se refere ao desenvolvimento de abordagens para análise de amostras contendo proteínas de uma comunidade bacteriana. O desenvolvimento dessas abordagens torna-se cada vez mais crítico, dada a importância de se caracterizar biomas de relevância clínica, ambiental e industrial. Como a identificação de peptídeos depende da qualidade e precisão dos bancos de dados de proteínas, este trabalho tem como objetivo desenvolver uma abordagem computacional para construir bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bactéria. Para a construção dos bancos, a abordagem realiza o alinhamento de sequências proteicas de linhagens de bactérias. Em seguida, identifica e compara as proteínas homólogas e as unicamente anotadas em todas as linhagens. E por fim, reporta as sequências de proteínas de forma não redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do banco sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Utilizando dados de espectrometria de massa coletados de 8 linhagens clínicas de Mycobacterium tuberculosis, avaliou-se o desempenho de identificação de proteínas de dois bancos de dados de sequências, um incluindo todas as proteínas de 65 linhagens sequenciadas e outro construído com essa abordagem usando as mesmas 65 linhagens. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Além disso, foram criados bancos para 10 espécies bacterianas com genomas completamente sequenciados. Esses bancos foram monitorados de acordo com as características relevantes para a identificação de proteínas baseadas em probabilística por proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Ao analisar os bancos criados com essa abordagem, mostrou-se que, conforme esperado, o aumento na complexidade do banco de dados se correlaciona com a complexidade pangenômica das espécies de bactérias. No entanto, Mycobacterium tuberculosis e Bortedella pertusis geraram bancos de dados muito complexos, mesmo com baixa complexidade pangenômica ou nenhum pangenoma, respectivamente. Isso indica que as diferenças na anotação genética são mais altas que a média entre as linhagens dessas espécies. Demonstrou-se também a possibilidade de se utilizar tal abordagem para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.Dissertação Análise energética in silico da interação do ER? com estrogênios relacionados a neoplasma mamária: estradiol e dietilestilbestrol(2018-08-10) Costa, Aranthya Hevelly de Lima; ; ; Dalmolin, Rodrigo Juliani Siqueira; ; Freire, Valder Nogueira;O câncer de mama é uma doença hormônio-dependente, que possui vários subtipos diferentes, padrões de expressão de genes e manifestações distintos (CHENG et al., 2002). Segundo o Instituto Nacional de Câncer (INCA), nas mulheres, apresenta a maior incidência e mortalidade, tanto em países em desenvolvimento quanto em países desenvolvidos. A maioria das neoplasias mamárias são ER + (receptor de estrogênio positivo), isto é, dependentes de 17β-estradiol e o número de ERα (receptor de estrogênio subtipo alfa) é superior ao número de ERβ (receptor de estrogênio subtipo beta), evidenciando a importância do subtipo alfa nesta doença. Este trabalho mensurou as energias de ligação individual dos resíduos que compõem o ERα com o 17β-estradiol e Dietilestilbestrol, utilizando a simulação computacional. Para tanto, foi empregado a Teoria do Funcional Densidade (DFT) e o Método de Fracionamento Molecular com Caps Conjugados (MFCC). Os resultados obtidos constataram que os resíduos com os valores energéticos mais significativos são: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 e ARG548. Estes resultados ajudam a caracterizar a interação entre o 17β-estradiol e o Dietilestilbestrol com o ERα e, por sua vez, podem ser utilizados como base para estudos, planejamento estrutural do fármaco, modulação dos fármacos existentes, tal como para o design de novas drogas.Dissertação Implementação de funcionalidades para uma plataforma de análise de variantes e novos métodos para prover melhor acurácia na identificação de mutações patogênicas(2018-09-21) Nascimento, Priscilla Machado do; Souza, Jorge Estefano Santana de; ; ; Ferreira, Beatriz Stransky; ; Pasquali, Matheus Augusto de Bittencourt;Os atuais avanços científicos, no âmbito da genômica, têm sido proporcionados devido à crescente extração de informações significativas do DNA, em virtude do uso das novas tecnologias disponibilizadas para realização da análise dos dados genéticos. Considerando que um dos desafios atuais da medicina de precisão é identificar quais das mutações detectadas pelo processo de sequenciamento têm um papel possível na resposta a um tratamento, na tumorigênese ou no diagnóstico, propomos que através desse estudo fosse implementado um componente de melhora de um produto de software (ViVa), responsável por oferecer assistência aos dados coletados. Foi aprimorado, com o intuito de tornar as análises mais eficientes e sua visualização mais precisa. Este trabalho propõe a implementação de novas funcionalidades que agreguem valor ao produto, contribuindo diretamente na automatização e aperfeiçoamento dos processos realizados pelas ferramentas de análise de variantes disponíveis no mercado. Visando uma aplicabilidade prática do que foi desenvolvido, foi proposta uma análise dos dados públicos utilizados para anotar os variantes desse sistema. Para isso, foi realizado um estudo referente aos dados dos preditores existentes, através do qual foi identificado que a acurácia média dos preditores gira em torno de 85%. Porém, apesar desta taxa ser consideravelmente alta, também foi possível observar que existe um alto grau de discordância entre os preditores em relação a identificação do impacto mutacional e sua patogenicidade. Com o intuito melhorar essa acurácia, descrevemos a criação de uma árvore de decisão, e a discretização de características (atributos provenientes de integração das bases de dados). Nos testes realizados, quando comparamos os resultados obtidos em nossa árvore de decisão com os preditores, a nossa árvore de decisão alcançou a maior precisão em todas as variáveis testadas: verdadeiros neutros 87%, falsos neutros 6%, falsos patogênicos 13%, verdadeiros patogênicos 94%.Dissertação Engenharia reversa da rede regulatória do Sarcoma de Ewing e inferência de reguladores mestres(2018-09-21) Dantas, Marcel da Câmara Ribeiro; Dalmolin, Rodrigo Juliani Siqueira; Sinigaglia, Marialva; ; ; ; Costa, César Renno; ; Pasquali, Matheus Augusto de Bittencourt;O Sarcoma de Ewing (SE) é um tumor ósseo maligno raro com alta propensão a metástase ocorrendo mais frequentemente em adolescentes e jovens adultos. Não há uma célula de origem identificada para este câncer e o seu hallmark é a ocorrência de uma translocação cromossomal entre os cromossomos 11 e 22 que resulta em um fator de transcrição aberrante através da fusão de genes da família FET e ETS, comumente EWSR1 e FLI1. A translocação é associada com alteração da cromatina, o que leva a distúrbio significativo no transcriptoma da célula. Os mecanismos regulatórios por trás das alterações transcricionais observadas do SE permanecem pouco compreendidas. Aqui, nós inferimos a rede regulatória do SE e identificamos 7 fatores de transcrição como potenciais reguladores mestres. De acordo com nossos resultados, estes 7 reguladores mestres estão organizados em dois clusters: um que consiste do PAX7 e do RUNX3 e um outro composto pelo ARNT2, CREB3L1, GLI3, MEF2C e PBX3. Os reguladores mestres dentro de cada cluster são agonistas entre eles, e ambos os clusters agem antagonisticamente com relação ao outro. Baseado em dados de transcrição de biópsias de SE, nós classificamos pacientes de duas coortes de acordo com a atividade regulatória de cada um dos 7 regulões. Alta atividade regulatória do PAX7 e do RUNX3 está associada a um melhor prognóstico e alta atividade regulatória do ARNT2, CREB3L1, GLI3 e PBX3 está associada a um pior prognóstico. Este trabalho contribui para uma melhor compreensão do reguloma do SE, indicando potenciais reguladores mestres que podem levar a um potencial preditor de prognóstico e fatores chaves para tumorigênese.Dissertação Caracterização do gene 18S rRNA em parasitos do grupo Apicomplexa: uma abordagem aplicada à seleção de marcadores moleculares(2018-09-26) Pinheiro, Sthephanie Nassif; Lanza, Daniel Carlos Ferreira; ; ; Scortecci, Katia Castanho; ; Oliveira, Cláudio Bruno Silva de;O grupo Apicomplexa compreende protozoários causadores de deonças mundialmente distribuídas como malária, toxoplasmose ou distúrbios intestinais oportunistas. Ainda nos dias de hoje, os principais protozoários de importância médica geralmente são identificados por microscopia óptica, o que dificulta a classificação precisa e o diagnóstico dos pacientes principalmente nos casos em que a parasitemia é baixa. Nesse contexto, o presente trabalho teve como objetivo desenvolver um método molecular alternativo que possibilite a identificação de ampla variedade de protozoários do grupo Apicomplexa. Foi desenvolvido um sistema de primers para utilização em uma reação de PCR (Polymerase Chain Reaction) em duas etapas (semi-nested PCR). O alvo investigado para o desenho de primers foi o gene 18S rRNA, por ser um alvo amplamente utilizado para screening e identificação de espécies em estudos de biodiversidade. A partir da análise da sequência e caracterização de potencial formação de estruturas secundárias, foram desenhados conjuntos de primers que se anelam em regiões conservadas e flanqueiam regiões variáveis no gene. A eficiência de cada conjunto de primers foi avaliada por PCR in silico. Foi selecionado um conjunto de primers que, quando usado de forma aninhada, pode gerar ~166 amplicons com sequências distintas, que podem ser usados para discriminar gêneros e espécies de Apicomplexa por diferença no tamanho em gel de agarose e por sequenciamento. O método proposto foi validado in vitro e sua eficiência na identificação de algumas espécies de protozoários de interesse médico foi confirmada. Após etapas adicionais de validação, esse método poderá ser utilizado para triagem inicial em casos de suspeita de es e também para determinação de diferentes espécies de parasitos.Dissertação Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados(2018-10-31) Florentino, Laise Cavalcanti; Lima, João Paulo Matos Santos; ; ; Souza, Jorge Estefano Santana de; ; Balbino, Valdir;Nas últimas décadas, avanços em pesquisas abordando o genoma completo levaram à identificação de um grande número de mutações relacionadas ao câncer. Obter um alto desempenho nas estimativas dos impactos de mutações em câncer na estrutura da proteína não é uma tarefa fácil, e a maioria dos estudos está limitada a análises de estruturas completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações deletérias. Assim, entender o impacto estrutural de uma mudança específica de aminoácido é de grande importância para as pesquisas oncológicas. Entretanto, a maioria dos estudos tem enfatizado sequências e modificações estruturais baseadas em características químicas de aminoácidos e não nas características de conformação, nas quais a conservação de interações nãocovalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense em câncer, a fim de inferir seus efeitos na conservação de interações nãocovalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas, recuperadas do Protein Data Bank (rcsb.org). Em seguida, as RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de aresta, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações, tendendo a permanecer em nós com menor conectividade. Também comparamos à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs). Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações nãocovalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer.Tese Bioinformática aplicada ao desenvolvimento de estratégias de prognóstico e tratamento do câncer: estudos na prospecção de alvos terapêuticos, antígenos tumorais e na dinâmica de resposta a drogas(2018-11-01) Faustino, André Luís Fonseca; Souza, Sandro José de; ; ; Souza, Gustavo Antonio de; ; Lima, Lucymara Fassarella Agnez; ; Carraro, Dirce Maria; ; Balbino, Valdir;Essencialmente, a pesquisa do câncer é um campo que envolve vários ramos, abrangendo a compreensão da biologia do câncer, design de drogas e desenvolvimento terapêutico. De maneira geral, a pesquisa contra o câncer está concentrada no diagnóstico, prognóstico, tratamento e, finalmente, na cura do paciente. Nesse contexto, a bioinformática do câncer surge como um poderoso recurso, integrando dados públicos e, consequentemente, permitindo o avanço de aplicações clínicas. Têm-se como exemplo, o desenvolvimento de abordagens para tratamento, a descoberta de novas drogas e também, recentemente, de estratégias imunoterapêuticas. Neste trabalho, apresenta-se abordagens distintas para compreender a biologia do câncer com foco no seu tratamento e, principalmente, na predição do prognóstico. Cada capítulo mostra diferentes aplicações clínicas como, a previsão de resultados de sobrevida, oportunidades para novos tratamentos imunológicos e resistência a drogas. Nos capítulos iniciais são apresentados catálogos extensivos de genes associados a: i) marcadores de superfície de celular e ii) antígenos de câncer/testículo (CTAs). Em particular, foi demonstrado o efeito de assinaturas gênicas compostas por essas categorias, na predição do status de prognóstico em pacientes com câncer. Em um segundo momento, foi discutido o desenvolvimento de novas estratégias de imunoterapia baseadas em vacinas, combinando múltiplos CTAs. Particularmente, discute-se como as assinaturas de CTAs compostas por HEATR9, INSL3, GTSF1L e HSF5 melhoram o status de prognóstico em pacientes com melanoma. Por último, apresentamos uma metodologia com foco na regulação póstranscricional, a qual integra informação genotípica, dados de expressão e concentração de drogas para avaliar a resistência/sensibilidade do tratamento, utilizando dados de linhagem celular e de pacientes. Como conclusão, foram apresentadas três abordagens independentes para melhorar o tratamento do câncer, que podem ser usadas combinando ou não, os marcadores de prognóstico da superfície celular, o preditor de resposta a drogas e as vacinas contra o câncer. Ainda, como outros produtos importantes, são mencionados dois artigos publicados em períodos internacionais, bem como, uma patente em andamento.Dissertação Caracterização in silico de orfs variáveis e de regiões regulatórias no genoma do vírus da síndrome da mancha branca (WSSV)(2018-11-19) Mendes, Cayro de Macêdo; Lanza, Daniel Carlos Ferreira; Lima, João Paulo Matos Santos; ; ; ; Barbosa, Euzebio Guimarães; ; Farias, Sávio Torres de;O vírus causador da síndrome da mancha branca (WSSV) é um dos maiores problemas enfrentados pela carcinicultura mundial, causando consideráveis danos econômicos. O genoma do WSSV apresenta algumas regiões codificantes que variam entre os diferentes isolados. Essas regiões denominadas wsv129 (ORF75) , wsv178 (ORF94), wsv249 (ORF125), wsv461/464 (ORFs14/15) e wsv477/502 (ORFs23/24) possivelmente estão envolvidas em mecanismos de virulência, mas não foram totalmente caracterizadas funcionalmente até o momento. A caracterização in silico vem sendo empregada como uma alternativa mais acessível para predição e estudo da estrutura de proteínas que não tem a estrutura cristalográfica disponível. Esse trabalho teve como objetivo a caracterização in silico das proteínas putativas codificadas pelas regiões variáveis do genoma do WSSV, no intuito de identificar possíveis funções. As regiões codificantes das ORFs wsv129, wsv178, wsv249 e os clusters formados pelas ORFs wsv461/464 e wsv477/502 foram analisados filogeneticamente, e estruturalmente. As sequências de aminoácidos foram submetidas a buscas por homólogos remotos, motivos, domínios conservados, reconhecimento de fold e predição estruturas secundárias e terciárias. Foi possível modelar estruturas terciárias de domínios proteicos e inferir possíveis funções para as ORFs wsv463a (formina like - regulação de filamentos de actina), wsv477 (interação com RNA - processos pós - transcricionais), wsv479 e wsv497 (XPD like - helicase), wsv 492 (hemaglutinina like - sinalização, docking viral) e wsv249 (domínios ankyrim repeat e RING-H2 - modulação da proteólise dependente de Ubiquitina), além de propor funções estruturais para as ORFs wsv 129 e wsv 178 em decorrência suas características estruturais e carga. Também foi possível detectar assinaturas associadas a sinais de localização nuclear dentro das unidades de repetição das sequências codificadas pelas ORFs wsv129 e wsv178. Além das análises de estrutura proteica foi realizada a prospecção de algumas regiões regulatórias 100 e 200 nt upstream às regiões codificantes e foi possível detectar alguns motivos, incluindo um sítio de ligação de “Zinc-Finger”, sugerindo a interação entre possíveis fatores de transcrição. A partir dos resultados foi proposto um modelo de atuação para cada uma das proteínas estudadas.Dissertação Pareador de termos para pesquisa clínica: integrate paired toll - IPT(2018-12-18) Damasceno, Thaynã Nhaara Oliveira; Barbosa, Eusébio Guimarães; ; ; Araújo, Gilderlanio Santana de; ; Martins, Rand Randall; ; Sakamoto, Tetsu;Big Data é um termo utilizado para caracterizar o crescente volume de dados existentes sobre os mais diversos temas, sejam eles de cunho biomédico ou não. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. O algoritmo da ferramenta Integrate Paired Tool (IPT) foi escrito em linguagem de programação R e utiliza técnicas de Data Mining e Text Mining para análise de dados clínicos, não restringindo suas análises apenas à estes dados específicos. O IPT promove o pareamento de termos analisando a frequência existente entre pares de dados, a partir de um arquivo .csv fornecido pelo usuário. Além disso, a ferramenta WEB foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados dentro do próprio IPT. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados.Dissertação Metagenoma do músculo caudal de um exemplar do camarão Penaeus vannamei infectado pelo vírus da síndrome da mancha branca(2019-03-11) Soares, Paulo Eduardo Toscano; Lanza, Daniel Carlos Ferreira; ; ; Souza, Jorge Estefano Santana de; ; Santos, André Mauricio Ribeiro dos;O camarão de patas brancas (Penaeus vannamei) é a espécie mais cultivada na aquicultura mundial. O cultivo comercial geralmente ocorre em densidades altas, o que pode resultar na seleção de patógenos virulentos e surtos de doenças. Assim, estratégias de monitoramento da microbiota nos cultivos tornam-se necessárias e, neste contexto, o uso de metagenômica tem sido sugerido na aquicultura. A metagenômica shotgun é capaz de recuperar a informação genômica do hospedeiro e microbiota associada, incluindo vírus, permitindo descobrir sua composição taxonômica e funcional. Neste estudo foram analisados dados de sequenciamento shotgun do músculo caudal de um espécime de P. vannamei infectado pelo vírus da síndrome da mancha branca (WSSV), com o intuito de prospectar sequências e informações do metagenoma. Classificações taxonômicas e funcionais foram realizadas para se obter os respectivos perfis dos dados. P. vannamei e WSSV foram os organismos mais abundantes na classificação taxonômica. A classificação funcional foi realizada através do software MEGAN, mostrando várias funções relacionadas com as vias metabólicas de carboidratos, lipídios e proteínas, além de funções relacionadas com virulência (liberação da latência viral, integrase, CRISPR associated helicase, cas3 e resistência a acriflavina). Uma classificação taxonômica a partir do BLASTx realizada via MEGAN apresentou resultados similares aos da classificação usando BLASTn, reforçando-os. Os resultados do BLASTn guiaram a montagem do genoma mitocondrial completo do P. vannamei, no qual foi feito um estudo preliminar de caracterização da região d-loop e avaliação do seu potencial de barcoding. Também neste estudo foram anotados 287 contigs para P. vannamei, ainda sem um genoma de referência disponível. Por fim, este estudo revelou baixa diversidade taxonômica e funcional no músculo do camarão, além da caracterização do d-loop mitocondrial da espécie P. vannamei.Dissertação neoANT:HILL: uma ferramenta integrada para a detecção de potenciais neoantígenos(2019-04-18) Coêlho, Ana Carolina Miranda Fernandes; Souza, Sandro José de; ; ; Souza, Jorge Estefano Santana de; ; Santos, Ândrea Kely Campos Ribeiro dos;Nos últimos anos, os neoantígenos têm gerado grande interesse na imunoterapia devido à sua capacidade de desencadear respostas imunológicas antitumorais. Os neoantígenos surgem como consequências de mutações somáticas especificas e podem ser apresentados, pelas moléculas de HLA, na superfície das células tumorais e reconhecidos pelas células T como moléculas não-próprias. Diversos estudos indicaram resultados promissores quanto ao uso dos neoantígenos em diferentes abordagens imunoterapêuticas. No entanto, a identificação precisa dos neoantígenos ainda permanece um desafio. Portanto, o objetivo do presente trabalho foi desenvolver uma ferramenta computacional que integre análises imunogenômicas individuais, porém, fundamentais para a identificação de potenciais neoantígenos. Foram utilizados dados de RNA-seq do projeto GEUVADIS e dados de mutações somáticas provenientes de melanoma do projeto TCGA para auxiliar na validação do pipeline desenvolvido. Como resultado, obteve-se a ferramenta, denominada neoANT-HILL, desenvolvida na linguagem de programação Python e, disponível por meio de uma interface gráfica amigável e interativa. A ferramenta utiliza dados provenientes do sequenciamento genômico ou exômico e/ou dados de RNA-Seq para a execução das análises imunogenômicas disponíveis. A integração dos resultados auxiliam na identificação precisa de potenciais neoantígenos candidatos à imunoterapia.Dissertação Planejamento de novos inibidores da CYP51 do Trypanosoma Cruzi por estudos de QSAR(2019-06-07) Oliveira, Pedro Igor Câmara de; Barbosa, Euzébio Guimarães; Souza, Sandro José de; ; ; ; Scotti, Marcus Tullius; ; Guedes, Paulo Marcos da Matta;A doença de Chagas mata cerca de 10.000 pessoas por ano e aproximadamente 8 milhões de pessoas estão infectadas pelo Trypanosoma cruzi. O principal medicamento de referência para o tratamento da doença, o benzonidazol, é utilizado desde a década de 70. Nos últimos anos, muitos inibidores da CYP51 têm sido testados contra esta enzima do parasito. Um destes inibidores, o posaconazol chegou inclusive a testes clínicos, que infelizmente não teve resultados superiores ao benzonidazol. Porém ainda há indícios que a CYP51 é um ótimo alvo em potencial para tratar a infecção pelo T. cruzi. A pesquisa por novas moléculas eficazes que poderiam possivelmente curar a fase crônica da doença é algo essencial. Estudos de QSAR (Quantitative Structure Activity Relationship) 2D e 3D foram utilizados neste trabalho para criar três modelos para previsão de atividade biológica, baseados em estruturas químicas de 197 compostos com grupos piridina e azol publicados na literatura que já passaram por testes in vivo ou in vitro. Após a análise dos modelos, novos análogos que ainda não foram sintetizados foram sugeridos neste trabalho e tiveram sua atividade biológica prevista e acessibilidade sintética avaliada.Tese Análise baseada em biologia de sistemas de dados transcricionais de células progenitoras neurais humanas tratadas com chumbo(2019-11-01) Reis, Clóvis Ferreira dos; Dalmolin, Rodrigo Juliani Siqueira; Almeida, Rita Maria Cunha de; ; ; ; Ferreira, Beatriz Stransky; ; Bonatto, Diego; ; Pasquali, Matheus Augusto de Bittencourt; ; Amaral, Viviane Souza do;As consequências do envenenamento por chumbo são diversas e importantes na saúde humana uma vez que este metal pesado pode interagir com muitos sistemas orgânicos, afetando principalmente o sistema nervoso, com implicações graves e irreversíveis do neurodesenvolvimento, consolidação de memória e processos de aprendizagem em crianças. Sua interação com componentes celulares dá-se de muitas formas, afetando proteínas de ligação a íons, proteínas de sinalização de transdução, canais iônicos transmembrana e fatores de transcrição. Apesar da sintomatologia da intoxicação por chumbo já ser bastante conhecida, pouco ainda se sabe sobre seus efeitos sistêmicos e sobre o seu impacto global na modulação da transcrição de células neuronais. A fim de investigar tais efeitos sob uma ótica de biologia de sistemas, aplicamos o pipeline do pacote transcriptogramer R/Bioconductor com a finalidade de avaliar o perfil transcricional de células progenitoras neurais humanas (NPCs) tratadas com acetato de chumbo 30µM por 26 dias. Dotado de um método não supervisionado, o algoritmo do transcriptogramer é projetado para identificar, em experimentos do tipo caso-controle, grupos de genes funcionalmente associados e diferencialmente expressos. Tal pipeline foi capaz de identificar onze clusteres diferencialmente expressos entre os dias 3 e 11 do tratamento com chumbo. Destes, sete apresentaram uma regulação negativa de diversos sistemas celulares envolvidos na diferenciação celular, como organização do citoesqueleto, RNA e biossíntese de proteínas, caracterizados por redes grandes e fortemente conectadas. Os quatro clusteres positivamente regulados apresentaram nós esparsos e pouco conectados, principalmente relacionados a transcrição, transporte transmembrana e transdução de sinal. Já no período subsequente, envolvendo os dias 12 a 26 de tratamento, foi possível observar uma alteração maciça do perfil de transcrição celular com interferência em todas as camadas da regulação da expressão gênica. Desta forma, nossos resultados sugerem que o chumbo induz modificações transcricionais significativas nas NPCs que podem ser correlacionadas a danos e/ou adaptações de diversos sistemas, todos decorrentes da intoxicação por este metal pesado, influenciando, assim, o resultado final da diferenciação das células ES-NP.