Desenvolvimento de abordagens computacionais para proteogenômica de procarioto

dc.contributor.advisorSouza, Gustavo Antonio de
dc.contributor.advisorIDpt_BR
dc.contributor.authorMachado, Karla Cristina Tabosa
dc.contributor.authorIDpt_BR
dc.contributor.referees1Lima, João Paulo Matos Santos
dc.contributor.referees1IDpt_BR
dc.contributor.referees2Huergo, Luciano Fernandes
dc.contributor.referees2IDpt_BR
dc.date.accessioned2018-10-10T23:23:09Z
dc.date.available2018-10-10T23:23:09Z
dc.date.issued2018-07-27
dc.description.abstractNext-generation sequencers development cause a revolution in genomic research, and nowadays the complete genomic information of thousands of bacterial strains is available. Similar technological breakthroughs also happened for protein analysis by mass spectrometry (MS) in the last decade regarding sensitivity and throughput. Peptide sequence characterization in proteomics samples can be used to validate genomic regions as coding, research field known as proteogenomics. The proteogenomic approach is applied through the construction of customized protein sequence databases which will be inspected against peptide sequence data collected by MS. The probabilistic nature of peptide identification by MS, and the limitations found in the construction of precise protein databases have been relevant bottlenecks in the development of approaches for the analysis of samples containing proteins from a bacterial community. The development of these approaches becomes increasingly critical given the importance of characterizing biomes of clinical, environmental and industrial relevance. As the peptides identification depends on the quality and accuracy of the protein databases, this work aims to develop a computational strategy that builds customized protein databases sequence, through processing and analysis of protein sequence data from several strains of the same bacterial species. For the construction of databases, the approach performs the alignment of protein sequences of bacteria strains. Then, identifies and compares homologous and uniquely annotated proteins in all strains. And finally, reports those sequences in a non-redundant manner, which means, sequences extensively repeated among annotations are reported only once in order to keep the size database under control. Databases also report sequence variations, whether they result from genetic variations or annotation divergences, which are usually abdicated in databases used in proteomic analysis. Using mass spectrometry data collected from 8 clinical strains of Mycobacterium tuberculosis, assessed whether the protein identification performance of two sequence databases, one including all proteins from 65 sequenced strains, and one constructed with this approach using the same strains 65 strains. Besides reducing the computacional time, the number of identifications obtained in both searches was practically identical. Besides, databases for 10 bacterial species containing at least 65 strains characterized were created. These databases were monitored according to the relevant characteristics for the identification of proteins based on probabilistic by proteomics. Besides the databases, there was also a concern to create a registration file, in which each observation regarding the presence of homologous, differences of sequences, modification type and presence in strains was well described. When analyzing the databases created with this approach, it has been shown that, as expected the increase in database complexity correlates with pangenomic complexity of bacterial species. However Mycobacterium tuberculosis and Bortedella pertusis generated very complex databases even having low pangenomic complexity or no pangenome at all respectively. This indicates that differences in gene annotation is higher than average between strains of those species. It has also been demonstrated the possibility to use such strategy to create databases containing sequences of multiple species, in order to perform metaproteomic analyzes of MS data.pt_BR
dc.description.resumoCom o desenvolvimento de sequenciadores de segunda geração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. A abordagem proteogenômica é aplicada por meio da construção de bancos de dados de sequências proteicas customizadas, que podem ser inspecionados contra dados de sequências peptídicas coletadas por MS. A natureza probabilística da identificação de peptídeos por MS, e as limitações encontradas na construção de bancos precisos de proteínas tem sido gargalos relevantes no que se refere ao desenvolvimento de abordagens para análise de amostras contendo proteínas de uma comunidade bacteriana. O desenvolvimento dessas abordagens torna-se cada vez mais crítico, dada a importância de se caracterizar biomas de relevância clínica, ambiental e industrial. Como a identificação de peptídeos depende da qualidade e precisão dos bancos de dados de proteínas, este trabalho tem como objetivo desenvolver uma abordagem computacional para construir bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bactéria. Para a construção dos bancos, a abordagem realiza o alinhamento de sequências proteicas de linhagens de bactérias. Em seguida, identifica e compara as proteínas homólogas e as unicamente anotadas em todas as linhagens. E por fim, reporta as sequências de proteínas de forma não redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do banco sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Utilizando dados de espectrometria de massa coletados de 8 linhagens clínicas de Mycobacterium tuberculosis, avaliou-se o desempenho de identificação de proteínas de dois bancos de dados de sequências, um incluindo todas as proteínas de 65 linhagens sequenciadas e outro construído com essa abordagem usando as mesmas 65 linhagens. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Além disso, foram criados bancos para 10 espécies bacterianas com genomas completamente sequenciados. Esses bancos foram monitorados de acordo com as características relevantes para a identificação de proteínas baseadas em probabilística por proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Ao analisar os bancos criados com essa abordagem, mostrou-se que, conforme esperado, o aumento na complexidade do banco de dados se correlaciona com a complexidade pangenômica das espécies de bactérias. No entanto, Mycobacterium tuberculosis e Bortedella pertusis geraram bancos de dados muito complexos, mesmo com baixa complexidade pangenômica ou nenhum pangenoma, respectivamente. Isso indica que as diferenças na anotação genética são mais altas que a média entre as linhagens dessas espécies. Demonstrou-se também a possibilidade de se utilizar tal abordagem para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.pt_BR
dc.identifier.citationMACHADO, Karla Cristina Tabosa. Desenvolvimento de abordagens computacionais para proteogenômica de procarioto. 2018. 77f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/jspui/handle/123456789/26028
dc.languageporpt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICApt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectProteômicapt_BR
dc.subjectEspectrometria de massapt_BR
dc.subjectbancos de dadospt_BR
dc.subjectProteínaspt_BR
dc.subjectBactériapt_BR
dc.subject.cnpqCNPQ::CIENCIAS BIOLOGICAS: BIOINFORMÁTICApt_BR
dc.titleDesenvolvimento de abordagens computacionais para proteogenômica de procariotopt_BR
dc.title.alternativeDevelopment of a computational approach for proteogenomics of prokaryotespt_BR
dc.typemasterThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
DesenvolvimentoAbordagensComputacionais_Machado_2018.pdf
Tamanho:
1.75 MB
Formato:
Adobe Portable Document Format
Carregando...
Imagem de Miniatura
Baixar