Use este identificador para citar ou linkar para este item: https://repositorio.ufrn.br/jspui/handle/123456789/26028
Título: Desenvolvimento de abordagens computacionais para proteogenômica de procarioto
Título(s) alternativo(s): Development of a computational approach for proteogenomics of prokaryotes
Autor(es): Machado, Karla Cristina Tabosa
Palavras-chave: Proteômica;Espectrometria de massa;bancos de dados;Proteínas;Bactéria
Data do documento: 27-Jul-2018
Citação: MACHADO, Karla Cristina Tabosa. Desenvolvimento de abordagens computacionais para proteogenômica de procarioto. 2018. 77f. Dissertação (Mestrado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2018.
Resumo: Next-generation sequencers development cause a revolution in genomic research, and nowadays the complete genomic information of thousands of bacterial strains is available. Similar technological breakthroughs also happened for protein analysis by mass spectrometry (MS) in the last decade regarding sensitivity and throughput. Peptide sequence characterization in proteomics samples can be used to validate genomic regions as coding, research field known as proteogenomics. The proteogenomic approach is applied through the construction of customized protein sequence databases which will be inspected against peptide sequence data collected by MS. The probabilistic nature of peptide identification by MS, and the limitations found in the construction of precise protein databases have been relevant bottlenecks in the development of approaches for the analysis of samples containing proteins from a bacterial community. The development of these approaches becomes increasingly critical given the importance of characterizing biomes of clinical, environmental and industrial relevance. As the peptides identification depends on the quality and accuracy of the protein databases, this work aims to develop a computational strategy that builds customized protein databases sequence, through processing and analysis of protein sequence data from several strains of the same bacterial species. For the construction of databases, the approach performs the alignment of protein sequences of bacteria strains. Then, identifies and compares homologous and uniquely annotated proteins in all strains. And finally, reports those sequences in a non-redundant manner, which means, sequences extensively repeated among annotations are reported only once in order to keep the size database under control. Databases also report sequence variations, whether they result from genetic variations or annotation divergences, which are usually abdicated in databases used in proteomic analysis. Using mass spectrometry data collected from 8 clinical strains of Mycobacterium tuberculosis, assessed whether the protein identification performance of two sequence databases, one including all proteins from 65 sequenced strains, and one constructed with this approach using the same strains 65 strains. Besides reducing the computacional time, the number of identifications obtained in both searches was practically identical. Besides, databases for 10 bacterial species containing at least 65 strains characterized were created. These databases were monitored according to the relevant characteristics for the identification of proteins based on probabilistic by proteomics. Besides the databases, there was also a concern to create a registration file, in which each observation regarding the presence of homologous, differences of sequences, modification type and presence in strains was well described. When analyzing the databases created with this approach, it has been shown that, as expected the increase in database complexity correlates with pangenomic complexity of bacterial species. However Mycobacterium tuberculosis and Bortedella pertusis generated very complex databases even having low pangenomic complexity or no pangenome at all respectively. This indicates that differences in gene annotation is higher than average between strains of those species. It has also been demonstrated the possibility to use such strategy to create databases containing sequences of multiple species, in order to perform metaproteomic analyzes of MS data.
metadata.dc.description.resumo: Com o desenvolvimento de sequenciadores de segunda geração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. A abordagem proteogenômica é aplicada por meio da construção de bancos de dados de sequências proteicas customizadas, que podem ser inspecionados contra dados de sequências peptídicas coletadas por MS. A natureza probabilística da identificação de peptídeos por MS, e as limitações encontradas na construção de bancos precisos de proteínas tem sido gargalos relevantes no que se refere ao desenvolvimento de abordagens para análise de amostras contendo proteínas de uma comunidade bacteriana. O desenvolvimento dessas abordagens torna-se cada vez mais crítico, dada a importância de se caracterizar biomas de relevância clínica, ambiental e industrial. Como a identificação de peptídeos depende da qualidade e precisão dos bancos de dados de proteínas, este trabalho tem como objetivo desenvolver uma abordagem computacional para construir bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bactéria. Para a construção dos bancos, a abordagem realiza o alinhamento de sequências proteicas de linhagens de bactérias. Em seguida, identifica e compara as proteínas homólogas e as unicamente anotadas em todas as linhagens. E por fim, reporta as sequências de proteínas de forma não redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do banco sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Utilizando dados de espectrometria de massa coletados de 8 linhagens clínicas de Mycobacterium tuberculosis, avaliou-se o desempenho de identificação de proteínas de dois bancos de dados de sequências, um incluindo todas as proteínas de 65 linhagens sequenciadas e outro construído com essa abordagem usando as mesmas 65 linhagens. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Além disso, foram criados bancos para 10 espécies bacterianas com genomas completamente sequenciados. Esses bancos foram monitorados de acordo com as características relevantes para a identificação de proteínas baseadas em probabilística por proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Ao analisar os bancos criados com essa abordagem, mostrou-se que, conforme esperado, o aumento na complexidade do banco de dados se correlaciona com a complexidade pangenômica das espécies de bactérias. No entanto, Mycobacterium tuberculosis e Bortedella pertusis geraram bancos de dados muito complexos, mesmo com baixa complexidade pangenômica ou nenhum pangenoma, respectivamente. Isso indica que as diferenças na anotação genética são mais altas que a média entre as linhagens dessas espécies. Demonstrou-se também a possibilidade de se utilizar tal abordagem para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.
URI: https://repositorio.ufrn.br/jspui/handle/123456789/26028
Aparece nas coleções:PPGBIONF - Mestrado em Bioinformática

Arquivos associados a este item:
Arquivo TamanhoFormato 
Desenvolvimentoabordagenscomputacionais_Machado_2018.pdf1,79 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.