Universidade Federal do Rio Grande do Norte Instituto Metrópole Digital Programa de Pós-Graduação em Bioinformática Mestrado Acadêmico em Bioinformática Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais Tayná da Silva Fiúza Natal-RN 2019 Tayná da Silva Fiúza Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais Dissertação de Mestrado apresentada ao Pro- grama de Pós-Graduação em Bioinformática da Universidade Federal do Rio Grande do Norte como requisito parcial para a obten- ção do grau de Mestre em Bioinformática. Linha de pesquisa: Desenvolvimento de Produtos e Processos Orientador Prof. Dr. Gustavo Antônio De Souza Natal-RN Dezembro, 2019 Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede Fiúza, Tayná da Silva. Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais / Tayná da Silva Fiúza. - 2019. 68 f.: il. Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em Bioinformática, Natal, RN, 2019. Orientador: Prof. Dr. Gustavo Antônio De Souza. 1. Vacinologia Reversa - Dissertação. 2. Surfaceoma - Dissertação. 3. Mycobacterium Avium - Dissertação. I. Souza, Gustavo Antônio De. II. Título. RN/UF/BCZM CDU 351.774.7 Elaborado por Fernanda de Medeiros Ferreira Aquino - CRB-15/301 Às mulheres que continuam tornando essa jornada menos difícil. Agradecimentos À Universidade Federal do Rio Grande do Norte(UFRN) pelo apoio estrutural e recursos cedidos, à Coordenação de Aperfeiçoamento de Pessoal do Ensino Superior (CAPES) pelo fomento durante todo o mestrado. Ao Instituto Metrópole Digital (IMD), e em específico ao Bioinformatics Mul- tidisciplinary Environment (BioME) pelas oportunidades e pelos inspiradores pro- fissionais que pude encontrar. Ao meu orientador Gustavo Antônio De Souza pelas discussões e pela paciência. Aos professores João Paulo Lima, Sandro de Souza e Ro- drigo Dalmolin pelo apoio e pelas considerações neste trabalho. Aos servidoresRodrigo Romão, Aldo Nascimento e Jessica Petrovich por toda a assistência e gentileza. Aos amigos e colegas de pós-graduação, em especial a: Renata Cavalcante, pelas risadas, canções, carinho e apoio incansáveis, Danilo Martins, pela recepção gentil e pelos picos de glicose no meio da tarde, Emannuel Duarte pelas muitas risadas durante as refeições, Ricardo Almeida pelas discussões e recomendações instigantes, Iara Dan- tas por ser inspiração e apoio e Marília Viana pelos comentários que só outra cearense poderia fazer. Aos amigos Patrick Terremate, Danilo Rodrigo, Paulo Toscano e Dhiego Souto, do Pandora Team, por mostrar que pela diversão conjunta a gente chega a bons resultados. Aos que conheci mesmo antes de vir à Natal e que tão bem a apresentaram, espe- cialmente: Joab Mendes, Zuno Ribeiro, Amanda Ribeiro e Maria Carolina. Aos que conheci já aqui: Carol Macedo, Luiza Souza e Aureliano Medeiros e que me acolheram num grupo temporário que espero durar pra sempre. Ao Leia Mulheres por ser espaço de acolhimento e crescimento e por me ter permitido conhecer mulheres inspi- radoras longe e perto. Ao Acalanto Natal onde me recarrego no trabalho voluntário por ter me dado tantas pessoas queridas, em especial Andrea Amaral e Fabiana Fontes. Àquelas que de longe ajudam sempre mais do que supõem: Vanessa Carneiro, Fa- brícia Diniz, Lia Pinho, Bruna Andrade, Rebeca Guimarães, Caroline Landim, Morgana Feijão, Raíssa Lima e Brenda Sombra. Ao providencial Talles Azigon e à prestativa Ana Argentina por se articularem pra que eu fizesse a prova tranquila. À família querida e sempre presente: minha mãe, Francisca Alves e meu pai Anto- nio Edilson pela dedicação, minha irmã Taynan Fiúza pela empatia, Aurora e Lunar pelas histórias a contar e aos mais jovens Chicó e Rosinha pelas aventuras por vir. A primeira coisa sobre o empoderamento é entender que você tem o direito de estar envolvida. A segunda é que você tem contribuições importantes a fazer, e a terceira é que você tem de se arriscar para fazer essas contribuições. Mae Jemison Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais Autora: Tayná da Silva Fiúza Orientador: Prof. Dr. Gustavo Antônio de Souza Resumo Micobactérias não tuberculosas são micobactérias ambientais responsáveis por um cres- cente número de infecções respiratórias e sistêmicas nas últimas décadas, especialmente entre crianças, idosos e indivíduos imunodeficientes. O complexo doMycobacterium avium, composto por M. avium e M. intracellulare é responsável pela maior parte desses casos e esta primeira espécie possui quatro subespécies de diferentes capacidades infecciosas e hospedeiros. Uma dessas subespécies, Mycobacterium avium subsp. hominissuis, foi iso- lada de humanos e suínos, enquanto outras variedades infectam gado, aves e animais silvestres. Até o presente momento o tratamento das infecções causadas pelo complexo se dá pelo uso de múltiplos antibióticos em um regime longo, custoso e por vezes inefi- ciente. A identificação de alvos efetivos para o controle desses organismos é essencial e desafiadora uma vez que proteínas de superfície, moléculas alvo chave em diversas imuno- terapias bem-sucedidas, são de difícil isolamento. Além disso, o desenho de imunoterapias e formulações vacinais dependem da identificação de peptídeos de maior interesse imuno- lógico os quais decorrem de protocolos repetitivos e custosos. Nesse trabalho buscou-se integrar ferramentas computacionais de maneira a investigar proteínas de superfície com porções imunogênicas expostas e ubíquas a linhagens de Mycobacterium avium subsp. hominissuis. Para isto, 32648 proteínas de 7 diferentes linhagens de Mycobacterium avium subsp. hominissuis, obtidas do NCBI, foram submetidas à predição de seus domínios trans- membranares pelo software TMHMM e as 3426 sequências contendo estes domínios foram agrupadas em 577 clusters com respeito a sua homologia de modo a classificar proteínas de membrana comuns a todas esses organismos utilizando ferramentas da plataforma CMG Biotools. Utilizando essas sequências, juntamente com os métodos disponíveis no IEDB foram empregados em predições de afinidade aos 27 alelos de MHC mais frequentes em diversas populações humanas e os peptídeos de maior imunogenicidade foram seleciona- dos, restando 112 clusters. Dos peptídeos altamente imunogênicos presentes, apenas os pertencentes a 58 clusters cujas sequências os situavam mais de 50% na porção externa da membrana foram considerados possíveis candidatos a uma formulação vacinal. Foram ainda calculadas a conservação dos peptídeos (presença nas diferentes linhagens anali- sadas), em que 60% dos clusters são completamente formados por peptídeos ubíquos e a promiscuidade dos mesmos (número de diferentes MHCs aos quais se ligam), em que apenas um cluster possui um peptídeo com alta afinidade a quatro MHCs distintos. Com respeito aos candidatos para a formulação vacinal, um conjunto mínimo de 9 peptídeos com alta afinidade ao número maior de MHCs distintos foi selecionado com peptídeos interagindo com 15 moléculas. Nenhuma das sequências desses peptídeos candidatos mos- trou potencial para geração de reatividade cruzada com proteínas humanas ou suínas. O trabalho computacional aqui desenvolvido poderá ser aplicado a outros conjuntos de organismos de maneira a identificar possíveis candidatos para aplicações vacinais. Palavras-chave: Vacinologia Reversa, Surfaceoma, Mycobacterium avium. In silico Investigation of epitopes from Mycobacterium avium subsp. hominissuis strains as vaccine candidates Author: Tayná da Silva Fiúza Supervisor: Dr. Gustavo Antônio de Souza Abstract Non-tuberculous mycobacteria are environmental mycobacteria responsible for a growing number of systemic and respiratory infections affecting mostly children, elders and im- munocompromised individuals. The Mycobacterium avium Complex comprises Mycobac- terium avium as well as M. intracellulare and the major responsible for the reported cases to this day. M. avium has been recently classified as containing four subspecies with different infectivities as well as different hosts. One of those subspecies, Mycobacterium avium subsp. hominissuis has been isolated from humans and swines, whereas other va- rieties are found in cattle, birds and wild animals. To this moment, MAC infections are controlled with the use of multiple antibiotics through long, expensive and sometimes inefficient treatment regimens. The identification of effective targets for controlling such organisms is an essential and challenging task as surface proteins, which are key target molecules in several successful immunotherapies, are difficult to isolate. In addition, the design of immunotherapies and vaccine formulations depends on the identification of pep- tides of immunological interest which are usually found through repetitive and expensive experimental protocols. In this study applied computational tools to investigate surface proteins with exposed and ubiquitous immunogenic portions to strains of Mycobacterium avium subsp. hominissuis. To achieve that, 32648 amino acid sequences obtained from the NCBI database forMycobacterium avium subsp. hominissuis were submitted to TMHMM for detection of alpha-helix transmembane domain, which were present in 3426 of those sequences. These proteins were clustered in 577 groups by CMG Biotools according to their homology as to identify membrane proteins common to all the organisms of interest. Those sequences were then submitted to available methods obtained at IEDB to classify their affinity to a list of 27 MHC alleles frequent in human populations. Peptides with the highest predicted immunogenicities were selected and 112 clusters with core proteins and high MHC affinities were selected. Crossing information between IEDB and TMHMM allowed for the selection of the 58 clusters in which at least one peptide was predicted to be placed on the outer portion of membrane. We also calculated peptide A. conserva- tion (their presence in different strains), where 60% of clusters are formed by ubiquous peptides and B. promiscuity (the number of distinct MHCs to which they bind), where only a single cluster has a peptide that binds to four distinct MHCs with high affinities. As for vaccine epitope candidates, a minimum set with nine peptides of high binding affinity to the highest possible number of distinct MHCs were selected, interacting with 15 molecules. None of those nine sequences showed potential to cross-react with human or swine proteins. The protocol executed for this work can be applied to other organisms as means to identify possible vaccine application candidates. Keywords : Reverse Vaccinology, Surfaceome, Mycobacterium avium. Lista de figuras 1 Critérios considerados por HEIJNE (1992) . . . . . . . . . . . . . . . . . p. 25 2 Vias de Processamento de Antígenos . . . . . . . . . . . . . . . . . . . p. 27 3 Resumo do arquivo sumário do NCBI . . . . . . . . . . . . . . . . . . . p. 34 4 Alinhamento de sequências das cepas A e B . . . . . . . . . . . . . . . p. 35 5 Resumo do arquivo de saída group_n.dat da ferramenta CMG Biotools p. 35 6 Resumo do arquivo de saída tbl da ferramenta CMG Biotools . . . . . . p. 36 7 Resumo do arquivo de saída curto do TMHMM . . . . . . . . . . . . . p. 37 8 Alelos utilizados na predição de afinidade . . . . . . . . . . . . . . . . . p. 38 9 Resumo do arquivo de predição IEDB . . . . . . . . . . . . . . . . . . . p. 39 10 Resumo do arquivo de integração dos dados . . . . . . . . . . . . . . . p. 41 11 Registros para M. avium hominissuis . . . . . . . . . . . . . . . . . . . p. 43 12 Número de sequências nos arquivos FASTA Amino Acids (FAA) de M. avium hominissuis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44 13 Número de sequências com domínios alfa-hélice trans-membranares . . p. 44 15 Exemplo de alinhamento de quatro sequências . . . . . . . . . . . . . . p. 45 16 Número de Proteínas Perdidas por Tamanho de Cluster . . . . . . . . . p. 46 17 Média do Percentil Imunogênico de Proteínas dos Clusters . . . . . . . p. 47 18 Imunodominância de epítopos . . . . . . . . . . . . . . . . . . . . . . . p. 48 19 Classificação dos Peptídeos por Cluster . . . . . . . . . . . . . . . . . . p. 49 20 Conservação dos Peptídeos nos Clusters . . . . . . . . . . . . . . . . . . p. 50 21 Promiscuidade dos Peptídeos nos Clusters . . . . . . . . . . . . . . . . p. 50 22 Representação do conjunto mínimo de epítopos . . . . . . . . . . . . . p. 52 23 Peptídeos do Conjunto Mínimo . . . . . . . . . . . . . . . . . . . . . . p. 54 Lista de tabelas 1 Habitat de micobactérias ambientais oportunistas . . . . . . . . . . . . p. 18 2 Regimes de tratamento recomendados para doenças pulmonares associ- adas ao MAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 3 Tecnologias para separação proteínas em proteômica e suas vantagens e desvantages para a análise de proteínas bacterianas de superfície . . . . p. 22 Lista de abreviaturas e siglas MNT – Micobactérias Não-Tuberculosas MAC – Mycobacterium avium complex MAA – Mycobacterium avium subsp. avium TMHMM – Transmembrane Hidden Markov Model APCs – Antigen Presenting Cells, Células Apresentadoras de antígenos MHC – Major Histocombatibility Complex, Complexo de Histocompatibilidade Principal HLA – Human Leukocyte Antigen, Antígeno Leucocitário Humano IEDB – Immune Epitope Database and Analysis Resource, Banco de Dados de Epitopos Imunológicos NCBI –National Center for Biotechnology Information, Centro Nacional para Informações em Biotecnologia Sumário 1 Introdução p. 17 1.1 Micobactérias não tuberculosas . . . . . . . . . . . . . . . . . . . . . . p. 17 1.2 Surfaceoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21 1.2.1 Métodos de Predição de Domínios Trans-membranares . . . . . p. 24 1.3 Sistema Imune . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25 1.3.1 Métodos de Predição de Imunogenicidade . . . . . . . . . . . . . p. 27 1.3.2 Estratégias de Vacinologia Reversa . . . . . . . . . . . . . . . . p. 28 1.4 Agrupamento de sequências homólogas . . . . . . . . . . . . . . . . . . p. 29 1.5 Justificativa e relevância do trabalho . . . . . . . . . . . . . . . . . . . p. 30 2 Objetivos p. 32 2.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32 2.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32 3 Métodos p. 33 3.1 Desenvolvimento dos scripts . . . . . . . . . . . . . . . . . . . . . . . . p. 33 3.2 Aquisição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33 3.3 Comparação de Proteomas . . . . . . . . . . . . . . . . . . . . . . . . . p. 34 3.4 Identificação de Domínios Trans-membranares . . . . . . . . . . . . . . p. 37 3.5 Análise Imunogenética . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37 3.6 Integração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40 3.7 Similaridade com proteínas do hospedeiro . . . . . . . . . . . . . . . . . p. 42 4 Resultados e Discussão p. 43 4.1 Sequências Proteicas Obtidas . . . . . . . . . . . . . . . . . . . . . . . p. 43 4.2 Domínios Trans-membranares . . . . . . . . . . . . . . . . . . . . . . . p. 44 4.3 Pan e Core Surfaceomas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44 4.4 Análise Imunogenética . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46 5 Conclusão p. 55 Referências p. 56 Apêndice A -- get_proteome.py p. 66 Apêndice B -- anyat.py p. 67 17 1 Introdução 1.1 Micobactérias não tuberculosas O gênero Mycobacterium possui espécies amplamente estudadas como Mycobacterium leprae e aquelas do complexo de Mycobacterium tuberculosis, mas suas representantes mais numerosas são as micobactérias não tuberculosas (MNT) (TORTOLI, 2003). Essas bactérias estão presentes em nichos compartilhados por humanos e animais tais como o solo, fontes naturais e sistemas de distribuição de água potável (FALKINHAM, 2002) (Tabela 1). MNTs possuem ácido micólico de cadeia longa em suas membranas externas, o que confere maior hidrofobicidade, impermeabilidade e permitem crescimento lento mesmo para as micobactérias classificadas como de crescimento rápido (BRENNAN; NIKAIDO, 1995), o que torna essas espécies capazes de colonizar superfícies e, em alguns casos, resistentes à desinfetantes e antibióticos (BENDINGER et al., 1993; RASTOGI et al., 1981; JARLIER; NIKAIDO, 1994). Muitas vezes essas bactérias são identificadas em associação, no denominado com- plexo de Mycobacterium avium (MAC, do inglês Mycobacterium avium complex ). Esse complexo pôde ser isolado de secreções do aparelho respiratório de indivíduos com do- enças pulmonares (TSUKAMURA, 1973a, 1973b) assim como de indivíduos aparentemente saudáveis (EDWARDS; PALMER, 1959; PRINCE et al., 1989), podendo ser um fator agravante de doenças pré-existentes. Estima-se que infecções causadas por MNTs acometam 10 a cada 100000 pessoas nos Estados Unidos, o que configura 30.000 novos casos a cada ano nesse nesse país (PRIMM; III, 2017). Nos últimos anos, tem-se reportado aumento no registro de indivíduos acometidos por doenças pulmonares associadas à micobactérias não tuberculosas em diversos continentes (SOCIETY et al., 1997; O’BRIEN; GEITER; JR, 1987; TSUKAMURA et al., 1988; NISHIUCHI; IWAMOTO; MARUYAMA, 2017). Na Inglaterra, País de Gales e Irlanda do Norte a in- 18 Tabela 1: Habitat de micobactérias ambientais oportunistas Habitat Referência Fontes naturais de água (III; PARKER; GRUFT, 1980; REYN et al., 1993) Sistemas de distribuição de água potável (COVERT et al., 1999; FAL- KINHAM; NORTON; LECHE- VALLIER, 2001) Biofilmes em sistemas de distribuição de água potável (FALKINHAM; NORTON; LE- CHEVALLIER, 2001; TORVI- NEN et al., 2004) Sistemas de esgoto residenciais, hospitalares e de zonas (MOULIN et al., 1988; JR; de construção BROWN; GRIFFITH, 1998; NISHIUCHI et al., 2007; FAL- KINHAM et al., 2008) Banheiras aquecidas e SPAs (EMBIL et al., 1997; KAHANA et al., 1997; MANGIONE et al., 2001; MARRAS et al., 2005) Aerossóis residenciais e naturais (FALKINHAM et al., 2008) Solo e turfa de forestas boreais (IIVANAINEN et al., 1997, 1999) Pântanos acidicos (JR; PARKER; III, 1992) Terra de vaso (GROOTE et al., 2006) Sistemas de fluido de remoção de metal (BERNSTEIN et al., 1995; SHELTON; FLANDERS; MOR- RIS, 1999; MOORE et al., 2000) Fonte: Traduzida de (FALKINHAM III, 2009) cidência dessas infecções subiu de 5,6 para 7,6 a cada 100.000 habitantes (SHAH et al., 2016); na Alemanha foram 2,3 a 3,3 casos a cada 100.000 habitantes entre os anos de 2009 e 2014 (RINGSHAUSEN et al., 2016); em Ontário, no Canadá, há registros de 13,3 casos a cada 100.000 habitantes a cada ano (MARRAS et al., 2016) e no Japão esse número chega a 14,7 a cada 100.000 indivíduos (NAMKOONG et al., 2016). Fatores como o cres- cimento de populações portadoras do HIV (MARRAS; DALEY, 2002), envelhecimento populacional (OLIVER et al., 2001), aumento no número de pessoas protegidas do bacilo Calmette-Guérin e por conseguinte identificadas com outras micobactérias (ROMANUS et al., 1995), podem influenciar o aumento no número de casos registrados. Doenças associadas à MNTs ocorrem especialmente em indivíduos com anormalidades pulmonares decorrentes de enfermidades de origem não genética e também aqueles com condições genéticas e imunológicas que configuram predisposições a doenças pulmonares. Elas ocorrem em menor frequência em indivíduos saudáveis, e alguns dos fatores de risco 19 conhecidos incluem: 1. baixa capacidade de resposta imune devido à infecção pelo vírus da imunodefi- ciência humana, câncer, tratamento quimioterápico ou supressão imune devido a transplante; (O’BRIEN; CURRIE; KRAUSE, 2000) 2. doença pulmonar pre-existente (pneumoconiose, silicose, tuberculose, doença pul- monar obstrutiva crônica); (FALKINHAM III, 2009) 3. distúrbios da parede torácica; (FALKINHAM III, 2009) 4. alcoolismo; (O’BRIEN; CURRIE; KRAUSE, 2000) 5. tabagismo; (O’BRIEN; CURRIE; KRAUSE, 2000) Indivíduos infectados por variadas MNTs podem se mostrar assintomáticos por meses e até anos (JR, 1968 apud FIELD; FISHER; COWIE, 2004). Além disso, a natureza branda dos sintomas em alguns indivíduos dificulta a procura de ajuda especializada. Alguns pacientes relatam tosse crônica com ocasional secreção purulenta muitas vezes livre de traços de sangue (SOCIETY et al., 1997). Sintomas mais claros de infecção como febre, perda de peso e fadiga só costumam se manifestar na presença de doenças pulmonares mais pronunciadas que muitas vezes mascaram a presença dessas micobactérias (CROW et al., 1957). Crianças acometidas com infecções por MNTs costumam tipicamente manifestar a presença do patógeno na forma de linfadenites cervicais (WOLINSKY, 1995; HAZRA et al., 1999), porém esse quadro também pode comprometer adultos imunodeprimidos e, em menor grau, indivíduos adultos imunocompetentes (ASENSI et al., 2000; CHRISTENSEN; KOEPPE, 2010; PEDRO; QUINTANA-BELTRÁN; BERMÚDEZ-RUIZ, 2007). A população idosa também parece ser especialmente afetada, com estimativas que apontavam uma incidência de 15,5 casos para cada 100.000 indivíduos acima de 50 anos no estado de Oregon, EUA onde a estimativa geral para a população não ultrapassava 6 casos/100.000 em 2006 (CASSIDY et al., 2009). No estado de São Paulo, Brasil as três espécies mais frequentemente isoladas são o complexo M. avium, M. intracellulare e M. kansasii (UEKI et al., 2005; CHIMARA, 2005). Em institutos brasileiros como o Instituto Adolf Lutz o significado clínico do isolamento de MNTs é atribuído de acordo com o sítio de isolamento (estéril ou não-estéril) e quantidade 20 de isolamentos, sendo considerada uma sugestão de doença quando o indivíduo possui colônias de MNTs isoladas de um sítio estéril ou de três sítios não estéreis (SES-SP, 2005). Uma vez identificada a infecção, o tratamento da doença se dá em um regime com múltiplos antibióticos (Tabela 2) e por conta da crescente resistência das MNTs tal abor- dagem pode durar mais que cinco anos (PRIMM; III, 2017), o que junto com efeitos colate- rais e possíveis re-infecções resulta em uma alta taxa de fracassos no tratamento (FIELD; FISHER; COWIE, 2004). Além disso, o diagnóstico preciso e a genotipagem molecular de uma ou mais espécies envolvidas na infecção permite direcionar tratamentos apropriados (SADIKOT, 2019). Das infecções associadas à MNTs, as mais frequentes em humanos são causadas por Mycobacterium kansasii, Mycobacterium abscessus e, principalmente pelo MAC, que é formado pela associação de Mycobacterium avium e Mycobacterium intracel- lulare. Mycobacterium avium é o principal agente patogênico do complexo (YANO et al., 2017) e em 2002, baseando-se em diferenças de marcadores moleculares, na sequência 16S-23S e temperatura de crescimento, MIJS et al. propuseram nomear Mycobacterium avium subsp. avium (MAA) as variedades isoladas de aves e Mycobacterium avium subsp. hominis- suis (MAH) aquelas isoladas de humanos e suínos. Atualmente, há ainda outras duas subespécies classificadas: M. avium subespécie silvaticum (MAS) e M. avium subespécie paratuberculosis (MAP) (TURENNE et al., 2006; RINDI; GARZELLI, 2014). Apresentando patogeninicidade tanto em humanos quanto em suínos, MAH se apre- senta como alvo de crescente preocupação (VLUGGEN et al., 2016) de entidades de saúde e vigilância sanitária, tendo impactos no bem-estar da população, onerando hospitais e afetando a indústria da carne (ALVAREZ et al., 2011). Pesquisadores da área enfatizam a necessidade de melhor caracterização das subes- pécies de M. avium e seus genótipos como pontos chave para a compreensão de aspectos epidemiológicos como as origens desse patógeno e seu possível papel zoonótico (PATE et al., 2011; IWAMOTO et al., 2012; MUWONGE et al., 2014), além de permitir a concentração de esforços na prevenção da contaminação de fontes de água (WINTHROP, 2010). Ademais, análises moleculares, estudos de virulência e ensaios clínicos para identifica- ção de fármacos para uso em terapias mais rápidas, precisas e efetivas são ações essenciais para mitigar ou mesmo impedir avanço no número de infecções causadas por essas mico- bactérias (WINTHROP, 2010). 21 Tabela 2: Regimes de tratamento recomendados para doenças pulmonares associadas ao MAC STA STA STA STB SJT Tratamento Tratamento Doença inicial de inicial de reincidente bronquiecta- doença ou avançada sia nodular† cavitária (severa) Macrolídeo Clar 1000 Clar Clar Clar 10 mg TS Or 500‡–1000 500‡–1000 mg/kg/dia Azi 500–600 mg/dia mg/dia mg TS ou Azi ou Azi 250‡–300 250‡–300 mg/dia mg/dia Etambutol 25 mg/kg/- 15 mg/kg/- 15 mg/kg/- 15 mg/kg/- 15 mg/kg/- dia TS dia dia dia dia Rifamicina Rifampicina Rifampicina Rifabutina Rifampicina Rifampicina 600 mg TS 450‡–600 250–300 450‡–600 10 mg/kg/- mg/dia mg/dia ou mg/dia dia Rifampicina 450‡–600 mg/dia Aminogli- Nenhum Nenhum ou Amicacina Estreptomicina cosídeo Amicacina ou Estrepto- ou Canami- ou Estrepto- micina cina†† micina¶ Outros fár- Isoniazida macos 300 mg/dia ou Ciproflo- xacina 750 mg DD‡‡ Duração 12 meses de 12 meses de 12 meses de 2 anos 2 anos resultados resultados resultados negativos* negativos negativos* 1 Fonte: Traduzida de (THOMSON; YEW, 2009) † † Não recomendado para doenças gra- ves/ avançadas/reincidentes. ‡ Dose mais baixa para peso corporal <50 kg. § § A ser substituído em caso de intolerância à rifampicina ou ao etambutol, a claritromicina ou a ciprofloxacina. †† Administrado intermitentemente durante os primeiros 2 a 6 meses. ¶ Administrado intermitentemente durante os primeiros 2 a 3 meses. ‡‡ Pode ser adicionado aos 12 meses se o paciente estiver respondendo mal. STA, American Thoracic Society (Sociedade Torácica Americana); Azi, azitromicina; DD, duas vezes ao dia; STB, British Thoracic Society (Sociedade Torácica Britânica); Clar, claritromicina; SJT, Japanese Society for Tuberculosis (Sociedade Japonesa para a Tuberculose); MAC, Mycobacterium avium complex; TS, três vezes por semana. 1.2 Surfaceoma A membrana plasmática é a interface utilizada pelas células para perceber e responder ao seu ambiente. As proteínas presentes nessas interfaces desempenham funções relacio- 22 nadas à nutrição, transporte de íons, comunicação intra-celular e inter-celular, sinalização e outras (BOHELER; GUNDRY, 2018). A detecção de estímulos como temperatura, acidez, densidade e presença de antibióticos e a modulação das respostas a esses e outros fa- tores conferem vantagens competitivas que permitem a diferentes células ou organismos perdurarem em determinados nichos (SOLIS; CORDWELL, 2011). O surfaceoma é o conjunto das proteínas de superfície de uma unidade biológica (célula, órgão, tecido, organismo) e as características únicas dessas proteínas, em especial a acessibilidade, as coloca como alvo de drogas e imunoterapias, assim como marcadores para identificação de tipo celular e mesmo estágios de doença (BOHELER; GUNDRY, 2018). Apesar de somarem considerável parte dos alvos de imunoterapias, a caracterização e isolamento dessas entidades proteicas são processos demorados e trabalhosos especi- almente quando realizados por metodologias tradicionais como SDS-PAGE, e custosos quando feitos como o uso de tecnologias com enzimas de digestão ou anticorpos imo- bilizados (WILLIAMSON et al., 2018) (Tabela 3). No caso de bactérias gram-positivas, a dificuldade na solubilização da superfície rígida dessas células em protocolos de proteô- mica é um entrave a mais no estudo dessas entidades (CORDWELL, 2006). Tabela 3: Tecnologias para separação proteínas em proteômica e suas vantagens e des- vantages para a análise de proteínas bacterianas de superfície Método de sepa- Enriqueci- Vantagens Desvantagens ração mento de protei- nas de membrana Eletroforese Solubilidade Remoção dos componen- Subrrepresentação de PMIs; Bidimensional diferencial tes citosólicos abundantes; frações impuras; perda de baixo custo; técnica fácil; proteínas associadas a mem- apropriada para PMEs brana solúveis; viés de ele- troforese bidimensional anti proteínas básicas e de baixa abundância Enriqueci- Conforme acima Conforme acima mento Químico 23 Biotinilação Seletividade a proteínas Permeabilidade membranar de superfície e epítopos, e lise celular podem causar quando combinada com os marcação de proteínas cito- métodos acima sólicas; géis resultantes não são adequados para análise em EM; PMIs subrepresen- tadas por limitações da ele- troforese bidimensional Tratamento Permite análise compara- Lise celular e liberação de com tiva antes e depois do tra- proteínas citosólicas pode proteinase- tament; adequada para pro- ocorrer K teínas expostas na superfí- cie e PMEs Cromatografia MudPIT Libera peptídeos hidrofíli- Pobre*** para análises com- Líquida Bidi- cos de proteínas hidrofóbi- parativas exceto se mar- mensional cas, sendo assim adequado cadores forem adicionados para PMIs; sem viés para (ver abaixo); número de proteínas de acordo com seu falsos positivos maior pelo pI ou massa; adequado para maior volume de dados do proteínas pouco abundantes método ICAT Adequado para análise com- Depende de marcação da parativa de duas amostras e cisteína, logo diversos peptí- outros como para MudPIT deos podem não ser marca- dos; marcação ineficiente e requer passo de purificação; problemas genéricos associ- ados a Cromatografia Lí- quida Bidimensional como acima. iTRAQ Adequado para análise com- Marcação ineficiente e re- paratova de até quatro quer purificação dos peptí- amostras; e marca em gru- deos marcados pos amino (lisina); alta con- fiança estatística com um único experimento SILAC Marca proteínas traduzidas Células devem ser cultiva- e é adequado para análises das in vitro e possuir requi- comparativas sição nutricional dos ami- noácidos marcados Raspagem Abordagem surfaceômica de Lise celular e liberação de de superfí- facto proteínas citosólicas podem cie ocorrer SDS-PAGE Poder de solubilização do Difícil quantificação e baixa LC-MS/MS SDS; tecnicamente fácil resolução do SDS-PAGE Fonte: Traduzida de (CORDWELL, 2006). Avanços da última década em técnicas de sequenciamento em massa e na performance 24 de processadores permitiram a geração e armazenamento de uma grande quantidade de dados nas áreas de pesquisa clínica em diferentes níveis de organização biológica (YAN et al., 2018). Diversas sub-áreas de estudo surgiram para analisar e interpretar esses dados de maneira a auxiliar na busca de respostas para questões biológicas. 1.2.1 Métodos de Predição de Domínios Trans-membranares Os primeiros métodos in silico de predição de domínios α-hélice trans-membranares consideravam apenas o critério de hidrofobicidade local de algumas sequências (ARGOS; RAO; HARGRAVE, 1982), outros focavam na análise da distribuição resíduos carregados po- sitivamente (HEIJNE, 1986, 1994) e posteriormente uma junção dos dois critérios mostrou melhores resultados na identificação desses domínios (HEIJNE, 1992) (ver Figura 1). Os métodos in silico posteriores consideraram novos aspectos ao buscar por hélices trans-membranares em sequências proteicas e logo surgiu o método TMHMM (KROGH et al., 2001), baseado em Rede Oculta de Markov e incorporando os critérios acima mencio- nados assim como informações sobre o tamanho das hélices e restrições ditas gramaticais, isto é, restrições quanto aos tipos de topologia que hélices adotam quando presentes em re- giões trans-membranares. Esse método mostrou a melhor performance entre 17 softwares avaliados, contando com o menor número de falsos positivos e de falsos negativos mesmo quando comparado a outro método baseado em Rede Oculta de Markov (HMMTOP) (MÖLLER; CRONING; APWEILER, 2001). 25 Figura 1: Critérios considerados por HEIJNE (1992) (a) Janela deslizante usada para análise de (b) Gráfico de hidrofobicidade para a proteína hidrofobicidade. SecY. (b) O gráfico de hidrofobicidade mostra regiões bastante acima e bastante abaixo dos pontos li- mites para a classificação como região externa ou interna, contudo há um segmento com diversos pontos de inflexão. A partir desse gráfico, seriam duas as possibilidades de topologia transmembra- nar (c), com o segmento em questão marcado em preto. A soma dos resíduos positivos Arginina e Lisina é apontada em cada volta e a diferença do total de resíduos de Arg e Lys em cada face da membrana é representado pelo delta ao lado das representações. Nesse, como em outros casos a to- (c) Duas topologias possíveis para a proteína pologia correta é finalmente definida por esse viésde resíduos básicos. Fonte: Adaptadas de (HEIJNE, SecY baseadas no gráfico de hidrofobicidade. 1992) 1.3 Sistema Imune O sistema imune é uma rede complexa de órgãos, células e macromoléculas que atuam em conjunto em organismos vertebrados (PARKIN; COHEN, 2001). Convenciona-se chamar imunidade adquirida a característica desse sistema de reconhecer ameaças específicas por meio de recursos de memória celular, resultando em uma proteção imune duradoura e com respostas rápidas. (BACKERT; KOHLBACHER, 2015) Para a aquisição de imunidade a diferentes invasores, tecidos especializados (órgãos linfoides periféricos) funcionam como ponto de reconhecimento de antígenos, onde Células Apresentadoras de Antígenos (APCs) entram em contato com linfócitos T imaturos - 26 iniciando uma cascata bioquímica que leva ao amadurecimento desses últimos em linfócitos efetores ou de memória. Antígenos são substâncias exógenas capazes de induzir respostas imunes ou mesmo os alvos dessas respostas imunes e epítopos são as porções específicas dos antígenos reconhecidas por linfócitos individuais (ABBAS; LICHTMAN; PILLAI, 2007). Linfócitos T efetores CD8+ se diferenciam em linfócitos T citotóxicos, tendo a habili- dade de matar alvos celulares. Já linfócitos T efetores CD4+ se diferenciam em linfócitos T auxiliares e trabalham na ativação de macrófagos, ativação e proliferação de linfócitos B e outros linfócitos T e inflamação (ABBAS; LICHTMAN; PILLAI, 2007). A interação entre APCs e linfócitos T imaturos é mediada por uma sinapse imuno- gênica entre diversas proteínas de membrana, dentre elas estão moléculas do complexo de histocompatibilidade principal, também conhecido como MHC (do inglês major histo- combatibility complex ) ou HLA (do inglês Human Leukocyte Antigen), responsáveis por apresentar peptídeos provenientes da clivagem de proteínas exógenas (ABBAS; LICHTMAN; PILLAI, 2007). As moléculas de MHC são categorizadas em duas classes. A primeira classe de MHCs possui uma cadeia polimórfica α em complexo não covalente com uma β2-microglobulina não-polimórfica, sendo capaz de reter peptídeos de 8 a 11 resíduos de comprimento em sua fenda e estando presente em todas as células nucleadas. Já moléculas de MHC de classe II possuem duas cadeias polimórficas α e β, sendo capazes de apresentar peptídeos de 11 a 30 resíduos de comprimento e sendo expressas em APCs especializadas tais como células dendríticas, macrófagos e poucas outras. Os domínios tipo-imunoglobulina de MHCs de classe I e II possuem sítios de ligação aos co-receptores presentes em linfócitos T do tipo CD8+ e CD4+, respectivamente (ver Figura 2) (ABBAS; LICHTMAN; PILLAI, 2007). A interação entre os peptídeos fagocitados e o MHC é pré-requisito para toda a sequên- cia de eventos que irá gerar memória celular contra a entidade de origem do peptídeo e tem sido estudada experimentalmente por meio de diversas abordagens (MARGALIT; AL- TUVIA, 2003). Para que essa interação ocorra, é necessária a existência de uma afinidade entre os motivos de ligação específicos dos peptídeos e os resíduos presentes na fenda do MHC (SETTE et al., 1990) Desde a década de 90 pesquisadores trabalham e aperfeiçoam diferentes técnicas de identificação de peptídeos com potencial de gerar respostas imunes de acordo com a afi- nidade destes peptídeos com fendas de MHCs de diferentes alelos. 27 Figura 2: Vias de Processamento de Antígenos (ABBAS; LICHTMAN; PILLAI, 2007) 1.3.1 Métodos de Predição de Imunogenicidade Alguns desses métodos exploram escores calculados por meio de afinidade, outros se baseiam em simulações de docking molecular, outros buscam a relação quantitativa estrutura-atividade do complexo MHC-peptídeo e, mais recentemente alguns empregam redes neurais artificiais, máquinas de vetores de suporte e outras estratégias de aprendi- zado de máquina (DESAI; KULKARNI-KALE, 2014). Os principais métodos desenvolvidos e utilizados para identificar epítopos estão dis- poníveis no Banco de Dados de Epitopos Imunológicos (IEDB, do inglês Immune Epitope Database and Analysis Resource, www.iedb.org), o qual contém informações sobre alvos da imunidade adquirida devidamente curadas da literatura (VITA et al., 2014). Para predição da afinidade de ligação peptídeo-MHC de classe II alguns dos métodos disponíveis são: TEPITOPE (STURNIOLO et al., 1999), SMM-Align (NIELSEN; LUNDEGA- ARD; LUND, 2007), NN-Align (NIELSEN; LUND, 2009) e NetMHCIIPan (NIELSEN et al., 2008) - certos métodos possuem maior aplicabilidade e acurácia para trabalhar com alelos específicos. O TEPITOPE implementa um algoritmo que utiliza 11 matrizes de pontuação posição específica para representar afinidades de ligação peptídeo-MHC, sendo cada matriz uma representação do bolsão de ligação. As matrizes indicam a contribuição de cada um dos vinte aminoácidos para a afinidade de ligação peptídeo-MHC de acordo com suas possíveis 28 posições dentro do bolsão de ligação. Essas matrizes são específicas para os 51 alelos de HLA-DR e sua aplicação se restringe às análises com esses alelos (MARGALIT; ALTUVIA, 2003). O SMM-align atribui pesos diferentes e independentes para aminoácidos em diferen- tes posições e considera a influência dos resíduos flanqueadores na afinidade de ligação. Suas matrizes foram construídas usando uma estratégia de aprendizagem de máquina que buscou reproduzir valores de IC50 dos dados de seu conjunto de treinamento (NIELSEN; LUNDEGAARD; LUND, 2007). Já o NN-Align acrescenta uma correção para o viés gerado por múltiplos epítopos com centros de ligação idênticos representados no conjunto de treinamento (NIELSEN; LUND, 2009). O método NetMHCIIPan utiliza todos esses critérios e computa quaisquer resíduos do MHC de classe II que tenham sido observados a uma distância que permita interação direta com resíduos do peptídeo analisado. Uma rede neural artificial é alimentada com esses dados de modo a realizar predições generalizáveis para alelos de HLA-DR com poucos dados ou mesmo nenhum dado experimental (NIELSEN et al., 2008). Existe ainda o método Consensus3 (WANG et al., 2008, 2010) em que o valor de afi- nidade para cada dupla peptídeo-MHC se dá pelo percentil ranqueado da mediana dos escores de imunogenicidade apontados pelos três melhores preditores de peptídeos ligantes a um dado alelo de MHC. Todos esses preditores podem ser explorados em conjunto com outras ferramentas de análise imunológica, assim como acoplados a outros programas de in silico e dados experimentais como meios de obter conjuntos de candidatos vacinais em potencial (CVPs), abordagem conhecida como vacinologia reversa (VR) (MOXON; RECHE; RAPPUOLI, 2019). 1.3.2 Estratégias de Vacinologia Reversa As grandes vantagens dessa abordagem de desenvolvimento de vacinas incluem detec- ção de antígenos que poderiam ser pouco presentes em amostras purificadas, uma limitação bioquímica e, ainda mais importante, a ausência do cultivo de cepas patogênicas para a purificação de tais antígenos (DALSASS et al., 2019). O primeiro emprego de um protocolo de VR ocorreu na década de 90, num trabalho que buscava epítopos imunogênicos no meningococo do tipo B (MenB) e que trabalhou com dados de todas as janelas de leituras extraídas de uma linhagem de MenB (MC58) (MASIGNANI; PIZZA; MOXON, 2019). Das proteínas selecionadas como CVPs, cerca de 61% 29 foram expressas em E. coli com sucesso, 5% foram capazes de gerar atividade bactericida e, ao fim, 5 proteínas foram utilizadas na formulação final da vacina comercializada como Bexsero® (SERRUTO et al., 2012). Protocolos similares foram aplicados nos anos seguintes para patógenos como Ch- lamydia pneumonia, Streptococcus pneumoniae e Porphyromonas gingivalis e obtiveram sucesso (CAPO et al., 2005; WIZEMANN et al., 2001; ROSS et al., 2001). Além disso, surgiram programas de vacinologia reversa com propostas variadas para resolver a mesma questão, tendo sido aplicados a diferentes proteomas, são eles: NERVE (VIVONA; BERNANTE; FI- LIPPINI, 2006), VaxiJen (DOYTCHINOVA; FLOWER, 2007), Vaxign (HE; XIANG; MOBLEY, 2010), Bowman-Heinson (BOWMAN et al., 2011; HEINSON et al., 2017), Jenner-predict (JAISWAL et al., 2013), VacSol (RIZWAN et al., 2017), PanRV Hisham-Ashhab (HISHAM; ASHHAB, 2018) e ReVac (D’MELLO et al., 2019). Com exceção dos dois últimos, mais re- centes, todos esses programas se especializam na identificação de CVPs em conjuntos de proteínas provenientes de uma única linhagem patogênica. 1.4 Agrupamento de sequências homólogas O grande número de sequências biológicas disponíveis atualmente permite a realiza- ção de análises quanto a relações genômicas entre bactérias e outros organismos. Essas comparações se baseiam no grau de similaridade entre duas ou mais sequências, o qual é pontuado, ranqueado e analisado quando apresentam significância estatística (CALLISTER et al., 2008). Nesse contexto o uso de conceitos como core e pan proteoma têm sido importantes no esclarecimento de alguns pontos sobre a evolução de espécies e subespécies (CALLIS- TER et al., 2008). Aqui, o termo proteoma designa o coletivo de proteínas passíveis de expressão de acordo com o genoma disponível para um organismo. O core proteoma de um grupo costuma ser definido como o conjunto de proteínas encontradas em todos os proteomas analisados, enquanto o pan proteoma designa todas as proteínas presentes. O pan proteoma costuma ainda ser subdividido em proteoma acessório, contendo sequências presentes em pelo menos dois proteomas, mas não em todos e o proteoma único, composto por proteínas encontradas em apenas um conjunto. Para o agrupamento de sequências como homólogas e consequente classificação desses grupos de sequências como pertencentes ao core proteoma ou alguma das outras classi- ficações podem ser empregados algoritmos de clusterização por melhor hit bidirecional 30 também conhecido como melhor hit simétrico, em que são testados alinhamentos entre todas as proteínas de todos os proteomas (all-vs-all, incluindo as proteínas de um mesmo proteoma) e as sequências que possuem os melhores alinhamentos recíprocos estatistica- mente significativos são agrupadas. Nesses agrupamentos a porcentagem de identidade (quantidade de correspondências exatas em posições correspondentes das sequências ana- lisadas) e e-value (probabilidade do alinhamento em questão ter sido obtido por acaso naquele banco de dados) dos alinhamentos também são considerados. 1.5 Justificativa e relevância do trabalho Conforme discutido anteriormente, infecções causadas por MNTs têm acometido mais indivíduos a cada ano, tendo como grupos de risco crianças, idosos e indivíduos imuno- deprimidos. Seu diagnóstico é muitas vezes tardio, com tratamento longo (mínimo de 12 meses), com múltiplos antibióticos, oneroso e por vezes ineficiente. As infecções dessa ca- tegoria são mais frequentemente causadas pelo MAC, o qual por sua vez é uma associação entre M. intracellulare e M. avium. MAH é a subspécie de M. avium isolada tipicamente de humanos e suínos, existindo então uma demanda por estratégias eficazes de controle e eliminação da infecção. A identificação de um biofármaco para tal controle pode ser direcionada pela carac- terização e isolamento de proteínas de superfície, as quais desempenham funções muitas vezes essenciais enquanto acessíveis no ambiente externo - alguns dos fatores que as co- locam em grande abundância entre alvos de imunoterapias já estabelecidas. Contudo, o isolamento experimental dessas proteínas é prejudicado pelas características intrínsecas dessas entidades, sendo útil então utilizar estratégias de predição in silico para a separação de proteínas de superfície das demais sequências aminocídicas dessas micobactérias. Estimular a maquinaria do sistema imune de maneira precisa para o controle de in- fecções é uma estratégia utilizada tanto de maneira preventiva (como na elaboração de vacinas) quanto tardia e mais uma vez estratégias de predição in silico podem ser em- pregadas para apontar proteínas, e mais precisamente, regiões de maior interesse a se considerar na formulação de uma vacina ou medicamento. Além disso, compreender a diversidade nas linhagens envolvidas em infecções geradas por um agente patogênico permite traçar abordagens voltadas à entidades moleculares únicas a uma delas, compartilhada por algumas ou ubíquas a todas - a depender dos objetivos traçados por diferentes projetos. Para isso, a comparação das sequências dessas 31 entidades permite a realização de agrupamentos por parâmetros obtidos na análise da presença de homologia entre as sequências. Utilizar-se dessas estratégias separadamente pode conferir algumas vantagens, mas a integração desses dados permite um apoio mútuo de evidências, além da investigação de características insurgentes dessa agregação de informações. Nesse trabalho, a sequência de algoritmos utilizados e concatenados permite a identificação de epítopos oriundos de linhagens de MAH e sua investigação em face de informações sobre suas topologias trans- membranares, conservação em diferentes linhagens, promiscuidade à diferentes HLAs e em comparação a epítopos similares de proteínas homólogas ou não. As análises desenvolvidas poderão ser aplicadas em outros projetos a outras linhagens uma vez que adaptadas para os objetivos e finalidades desses outros estudos. 32 2 Objetivos 2.1 Objetivo geral Desenvolver uma análise computacional capaz de integrar dados provenientes de softwa- res de predição de imunogenicidade, predição de domínios trans-membranares e agru- pamento de sequências por homologia de maneira a identificar peptídeos candidatos a epítopos vacinais de um conjunto de linhagens e aplicar esta análise à linhagens de My- cobacterium avium subsp. hominissuis. 2.2 Objetivos específicos • Obter conjuntos de proteínas de diferentes linhagens de MAH; • Agrupar as proteínas dessas linhagens de acordo com a homologia entre elas; • Selecionar proteínas de superfície contendo alfa-hélices trans-membranares; • Identificar peptídeos com alta afinidade de ligação a diferentes molécula do MHC; • Integrar estes resultados realizando uma análise de dados das propriedades insur- gentes; • Discriminar epítopos ou conjuntos de epítopos candidatos para uma abordagem vacinal contra diferentes linhagens de MAH. 33 3 Métodos 3.1 Desenvolvimento dos scripts Os scripts das primeiras etapas desta análise foram desenvolvidos usando a versão 3.6.0 do Python (ROSSUM; JR, 1995) e os módulos argparse (versão 1.1) (BETHARD, 2006), Bio (versão 1.74) (COCK et al., 2009), matplotlib (versão 3.1.1) (HUNTER, 2007), numpy (versão 1.11.3) (OLIPHANT, 2006), pandas (versão 0.19.2) (MCKINNEY et al., 2010), pro- gressbar (versão 3.47.0) (HATTEM, ), re (versão 2.2.1) (Secret Labs AB, 1998), subprocess (ASTRAND, 2003), time, wget (versão 3.2) (Anatoly Techtonik, 2010) e zipfile e os, sys, re- source, gzip. Os códigos da plataforma CMG Biotools foram escritos em Perl e modificados localmente de modo a registrar apenas a sequência com melhor alinhamento para uma dada query e se este critério fosse respeitado bidirecionalmente. O software TMHMM (SONNHAMMER et al., 1998; KROGH et al., 2001) também foi desenvolvido em Perl. A fer- ramenta de predição fornecida pelo IEDB foi escrita em Python 2.7. Os códigos finais para análise imunogênica, geração de figuras e integração dos dados foi foram escritos em R 3.4.4 no Rstudio 1.1.442 (R Core Team, 2013) utilizando as bibliotecas dplyr (versão 0.8.3) (WICKHAM et al., 2019), tidyr (versão 0.8.3) (WICKHAM; HENRY, 2019), ggplot2 (versão 3.2.1) (WICKHAM, 2016), stringr (versão 1.4.0) (WICKHAM, 2019). 3.2 Aquisição dos Dados Para comparar os proteomas de diferentes linhagens de Mycobacterium avium su- bespécie hominissuis foram obtidas sequências aminoacídicas das cepas com genomas completos disponíveis no National Center for Biotechnology Information - NCBI. O código get_proteome.py foi escrito em linguagem Python e recebe um arquivo contendo o nome científico do organismo de interesse, consultando o arquivo do NCBI que sumariza as informações de montagem do genoma (ver figura 3). As sequências de proteínas disponíveis para montagens com status Complete Genome do organismo de 34 interesse são obtidas e alocadas em um diretório específico. Figura 3: Resumo do arquivo sumário do NCBI ︷ ︸1︸ ︷ ︷ ︸8︸ ︷ ︷ ︸9︸ ︷ ︷ 1︸︸2 ︷ GCA_000829075 Mycobacterium avium subsp. hominissuis TH135 strain=TH135 Complete genome GCA_002315935.1 Ruminococcaceae bacterium UBA1730 Scaffold GCA_001187785.1 Wenzhouxiangella marina strain=KCTC 42284 Complete Genome GCA_000481625.1 Pseudomonas aeruginosa BWHPSA004 strain=BWHPSA004 Scaffold GCA_000325405.1 Yersinia pestis YN2179 strain=YN2179 Contig GCA_001556215.1 Rhizobiales bacterium CCH9-A3 strain=CCH9-A3 Contig ... ... ... ... Colunas: 1. assembly_accession: número de acesso, um código único pra essa versão da montagem. 8. organism_name: nome científico da espécie da qual provém as sequências daquela montagem. 9. infraspecific_name: a cepa, raça, cultivar ou ecotipo do organismo do qual provém as sequências daquela montagem. 12. assembly_level: o nível mais alto de montagem para o conteúdo do genoma, pode receber quatro valores: Contig, Scaffold, Chromosome e Complete Genome. 3.3 Comparação de Proteomas Posteriormente, os proteomas obtidos foram comparados para identificar proteínas compartilhadas por todas as linhagens, conjunto denominado core proteoma. As compara- ções e agrupamentos foram feitas por versões modificadas dos códigos pancoreplot_create Config.pl e pancoreplot.pl, cujos algoritmo original foi desenvolvido por VESTH et al. para a suíte de ferramentas CMG Biotools. Na versão original da ferramenta, duas proteínas quaisquer são consideradas homólogas quando há no mínimo 50% de identidade e 50% de cobertura em seu alinhamento. As alterações realizadas comprazem considerar uma proteína X de uma linhagem A como homóloga de uma proteína Y de uma linhagem B apenas quando esta proteína X é a melhor candidata de sua linhagem ao alinhamento com as proteínas da linhagem B e vice-versa para a proteína Y (ver figura 4). Após esta etapa, todos os homólogos são agrupados e considerados um único cluster. As principais saídas da ferramenta são: arquivos denominados genericamente group_n.dat para cada iteração em que uma nova linhagem é comparada às anteriores (ver figura 5) e um arquivo denominado tbl que contém um resumo das linhagens analisadas, número total de genes e famílias, novos genes encontrados a cada iteração, total de grupos no pan proteoma e no core proteoma (ver figura 6). 35 Figura 4: Alinhamento de sequências das cepas A e B A-B.blast B-A.blast Homólogos CCHHD - CCCDC FFFFG - FFFFG FFFFG - FFFFG FFFFG - FFFFG CCCDC - CCCCC CCCDC - CCCCC CCCCC - CCCDC CCCDC - CCCED CCCED - CCCDC Quando as proteínas da linhagem A são comparadas às da linhagem B, vê-se que a sequência FFFFG da linhagem A produz alinhamento significativo apenas com a sequência FFFFG da linhagem B, en- quanto três diferentes sequências da linhagem A alinham significativamente com a sequência CCCDC da linhagem B, sendo CCCCC o que produz o melhor alinhamento. Uma vez comparadas as proteínas da linhagem B com as da linhagem A, mais uma vez a sequência FFFFG da linhagem B só produz alinhamento significativo com a sequência FFFFG da linhagem A. Quando considerado apenas o melhor hit bidirecional para uma dada sequência, são considerados homólogos e agrupados juntos apenas os pares FFFFG.A e FFFFG.B, e CCCCC.A e CCCDC.B. Caso fossem considerados apenas os hits bidirecionais, haveria um grupo com FFFFG.A e FFFFG.B e outro grupo com CCCCC.A, CCCED.A e CCCDC.B. Fonte: a autora. Figura 5: Resumo do arquivo de saída group_n.dat da ferramenta CMG Biotools ︷︸1︸︷ ︷︸2︸︷ ︷ ︸3︸ ︷ ︷ ︸4︸ ︷ ︷ ︸5︸ ︷ ︷ ︸6︸ ︷ ︷ ︸7︸ ︷ ︷ ︸8︸ ︷ ︷︸9︸︷ 339 6 85a...d.372 eff...3.373 442...f.370 e59...6.360 ed0...c.359 0ff...2.379 - 369 3 0ff...2.66 85a...d.70 654...7.68 484 4 85a...d.396 ed0...c.380 442...f.392 654...7.383 523 7 e59...6.217 85a...d.232 ed0...c.222 eff...3.227 654...7.228 442...f.231 0ff...2.235 545 1 654...7.178 547 2 0ff...2.199 654...7.46 . A ID da proteína é um identificador longo criado aleatoriamente para otimizar o funcionamento da ferramenta CMG Biotools - nele a sequência de números e letras antes do ponto identifica a linhagem a qual a proteína pertence e os números depois do ponto representam posição daquela sequência de proteínas quando as sequências FASTA são ordenadas alfabeticamente. 1. Número do cluster. 2. Número de proteínas no cluster. 3-N. Identificadores de linhagem e número da proteína. Fonte: a autora. 36 Figura 6: Resumo do arquivo de saída tbl da ferramenta CMG Biotools ︷︸1︸︷ ︷ ︸2︸ ︷ ︷︸3︸︷ ︷︸4︸︷ ︷︸5︸︷ ︷︸6︸︷ ︷︸7︸︷ 0 A.fsa 496 496 460 460 460 1 B.fsa 481 25 25 485 426 2 C.fsa 509 26 24 509 411 O arquivo de saída mostra cada um dos identi- 3 D.fsa 490 14 11 520 403 4 E.fsa 497 10 9 529 402 ficadores das linhagens, assim como o nome dos 5 F.fsa 481 11 11 540 395 arquivos que contém as sequências. A cada novo 6 G.fsa 475 0 0 540 393 arquivo analisado, são contabilizados os genes da- quela cepa e o agrupamento ocorre. A contagem de novos genes, aqueles que não foram clusteriza- dos é exibida, assim como o número de novas fa- mílias (grupos, clusters) Também são exibidos os números de proteínas no pan e no core genomas/- proteomas. 1. id 2. descrição 3. total de genes 4. novos genes 5. novas famílias 6. pan geno- ma/proteoma 7. core genoma/proteoma Fonte: a autora. 37 3.4 Identificação de Domínios Trans-membranares As sequências de cada proteoma foram submetidas à identificação de domínios alfa- hélice trans-membranares com a utilização do software TMHMM, que é chamado pelo código predict_transmembrane.py o qual também analisa o arquivo de saída do TMHMM (ver figura 7) filtrando possíveis proteínas trans-membranares pelos critérios de (1) nú- mero esperado de aminoácidos em hélices trans-membranares, que deve ser maior que 18, (2) número de hélices que deve ser maior que 1 ou igual a 1 quando a primeira hélice transmembranar ocorre depois do sexagésimo resíduo. Figura 7: Resumo do arquivo de saída curto do TMHMM ︷ ︸1︸ ︷ ︷ ︸2︸ ︷ ︷ ︸3︸ ︷ ︷ ︸4︸ ︷ ︷ ︸5︸ ︷ ︷ ︸6︸ ︷ f9ce5... 3efc4.19 len=84 ExpAA=45.90 First60=27.55 PredHel=2 Topology=i7-29o56-78i f9ce5... 3efc4.305 len=335 ExpAA=91.37 First60=21.08 PredHel=3 Topology=o15-37i67-86o307-329i f9ce5... 3efc4.261 len=661 ExpAA=52.85 First60=22.47 PredHel=2 Topology=i7-29o165-184i f9ce5... 3efc4.184 len=465 ExpAA=83.37 First60=21.09 PredHel=4 Topology=i29-46o61-80i93-115o438-460i ... ... ... ... ... ... 1. identificador da sequência aminoacídica 2. comprimento da sequência aminoacídica 3. número esperado de aminoácidos em hélices trans-membranares 4. número esperado de aminoácidos em hélices trans-membranares entre os primeiros 60 resíduos da proteína 5. número de hélices trans-membranares preditas pelo N-best 6. topologia predita pelo N-best 3.5 Análise Imunogenética Para a predição de afinidade peptídeo-MHC foram utilizados métodos disponibili- zados pelo IEDB para uso local. Para tanto o script immuno_pred.py chama o script mhc_II_binding.py do IEDB e fornece a ele o tipo de método de predição a ser utilizado. No trabalho aqui realizado optou-se pela IEDB_recommended que busca utilizar as mé- tricas do método Consensus3 ou, caso essas métricas não estejam disponíveis para o alelo de interesse, utiliza as métricas do método NetMHCIIPan. Além disso, deve-se fornecer o alelo ou a lista de alelos a serem considerados no cálculo de afinidade dos peptídeos. Aqui foi utilizado um conjunto de alelos proposto por GREENBAUM et al. (ver figura 8) para maximizar a cobertura de haplótipos e fenótipos de acordo com as frequências globais desses alelos. 38 Figura 8: Alelos utilizados na predição de afinidade HLA-DRB1*01:01 HLA-DRB1*03:01 HLA-DRB1*04:01 HLA-DRB1*04:05 HLA-DRB1*07:01 HLA-DRB1*08:02 HLA-DRB1*09:01 HLA-DRB1*11:01 HLA-DRB1*12:01 HLA-DRB1*13:02 HLA-DRB1*15:01 HLA-DRB3*01:01 HLA-DRB3*02:02 HLA-DRB4*01:01 HLA-DRB5*01:01 HLA-DQA1*05:01/DQB1*02:01 HLA-DQA1*05:01/DQB1*03:01 HLA-DQA1*03:01/DQB1*03:02 HLA-DQA1*04:01/DQB1*04:02 HLA-DQA1*01:01/DQB1*05:01 HLA-DQA1*01:02/DQB1*06:02 HLA-DPA1*02:01/DPB1*01:01 HLA-DPA1*01:03/DPB1*02:01 HLA-DPA1*01/DPB1*04:01 HLA-DPA1*03:01/DPB1*04:02 HLA-DPA1*02:01/DPB1*05:01 HLA-DPA1*02:01/DPB1*14:01 Fonte: Adaptado de (GREENBAUM et al., 2011) Para cada proteína, o IEDB gera um arquivo listando todos os peptídeos presentes e suas métricas calculadas usando um algoritmo de janela deslizante de tamanho 15 (ver figura 9). Nesse trabalho foi considerada a classificação dos peptídeos de acordo com o método consensus3, que corresponde à mediana dos escores dos três métodos de predição utilizados para avaliar a afinidade da interação peptídeo-HLA. Peptídeos cujo percentil de classificação era igual ou menor a 0.02 foram considerados altamente imunogênicos e utilizados nas análises subsequentes. 39 Figura 9: Resumo do arquivo de predição IEDB ︷ ︸1︸ ︷ ︷︸2︸︷ ︷︸3︸︷ ︷︸4︸︷ ︷ ︸5︸ ︷ ︷ ︸6︸ ︷ ︷︸7︸︷ ︷︸8︸︷ ︷︸9︸︷ ︷1︸︸0︷ ︷ 1︸1︸ ︷ HLA-DRB1*03:01 1 266 280 VTVAAVQGNVPRLGF SMM-Sturniolo 7.49 - - - VQGNVPRLG HLA-DRB5*01:01 1 335 349 EISQAASAIGAPILI SMM-Sturniolo 17.37 - - - AASAIGAPI HLA-DRB4*01:01 1 97 111 AFYLPLLPWVGLLVG COMB.LIB.-SMM 43.6 LPWVGLLVG 1000000.0 83.87 LPLLPWVGL HLA-DRB1*09:01 1 242 256 VLFAAVIVWPQVRHS COMB.LIB.-SMM 23.435 VIVWPQVRH 0.35 26.98 AAVIVWPQV HLA-DRB1*15:01 1 63 77 WWAAVPAAALLAWVL SMM-Sturniolo 12.37 - - - WAAVPAAAL HLA-DRB1*12:01 1 263 277 EPSVTVAAVQGNVPR SMM 60.01 - - - VTVAAVQGN ︷ 1︸2︸ ︷ ︷1︸3︸︷ ︷1︸4︸︷ ︷1︸5︸︷ ︷1︸6︸︷ ︷1︸7︸︷ ︷1︸8︸︷ ︷1︸9︸︷ ︷ 2︸0︸ ︷ ︷2︸︸1︷ ︷2︸︸2︷ 3062.0 5.51 - - - - - - VQGNVPRLG 1.6 9.47 1468.0 11.96 - - - - - - ISQAASAIG -1.4 22.78 430.0 3.33 - - - - - - - - - 2019.0 19.89 - - - - - - - - - 262.0 4.75 - - - - - - VPAAALLAW 0.2 19.99 9635.0 60.01 - - - - - - - - - 1. alelo utilizado na predição 12. ic50 da predição para o método smm_align 2. número da sequência 13. classificação da predição para o método smm_align 3. posição inicial da janela 14. cerne do peptídeo para o método nn_align 4. posição final da janela 15. ic50 da predição para o método nn_align 5. peptídeo na janela 16. classificação da predição para o método nn_align 6. método utilizado na predição 17. cerne do peptídeo para o método netmhciipan 7. ranque do percentil do método consensus3 18. ic50 da predição para o método netmhciipan 8. cerne do peptídeo para o método comblib 19. classificação da predição para o método netmhciipan 9. escore da predição para o método comblib 20. cerne do peptídeo para o método sturniolo 10. classificação da predição para o método comblib 21. escore da predição para o método sturniolo 11. cerne do peptídeo para o método smm_align 22. classificação da predição para o método sturniolo 40 3.6 Integração dos Dados Uma vez obtidos os arquivos das seções acima, os dados coletados foram processados em R para seleção final e visualização da informação adquirida. Os arquivos de saída do CMG Biotools foram cruzados com os dados de topologia transmembranar do TMHMM de maneira a expor apenas clusters formados por proteínas com domínios de alfa-hélices trans-membranares. Uma vez obtidas essas informações, aos dados dos clusters de proteínas trans-membranares foram agregadas as pontuações de imunogenicidade calculadas com os escores gerados pelos métodos do IEDB. Aqueles peptídeos que passaram pela filtragem do percentil de classificação menor ou igual 0.02 ainda passaram por um outro critério de avaliação, sua posição na sequência aminoacídica: apenas aqueles cuja maior parte dos resíduos (>50%) se situa em porções extracelulares da proteína foram considerados como peptídeos de interesse. Após a estruturação desses dados relevantes em uma única tabela (ver Figura 10) foram analisadas promiscuidade, capacidade de ligação de um peptídeo a diferentes alelos do MHC e conservação, referente à quantidade de proteínas em um dado cluster que possuem um peptídeo. Dessa maneira foram observados os peptídeos de maior interesse para uma aplicação vacinal. Foi possível ainda analisar a localização dos peptídeos na sequência aminoacídica em relação a topologia trans-membranar dessa mesma entidade proteica. A partir dessas características foi possível apontar peptídeos de interesse e um conjunto mínimo de maior promiscuidade foi construído. 41 Figura 10: Resumo do arquivo de integração dos dados ︷ ︸1︸ ︷ ︷ ︸2︸ ︷ ︷ ︸3︸ ︷ ︷︸4︸︷ ︷︸5︸︷ SRIDALAAVVVPMVA 442...f.12.consensus3 HLA-DQA1*04:01/DQB1*04:02 0.03 72 LWLFLLFLLTATAAH 654...7.209.consensus3 HLA-DPA1*01:03/DPB1*02:01 0.015 388 NA 654...7.134.consensus3 NA NA 149 NA 0ff...2.127.consensus3 NA NA 1 NA 654...7.14.consensus3 NA NA 32 ︷︸6︸︷ ︷︸7︸︷ ︷ ︸8︸ ︷ ︷ ︸9︸ ︷ ︷ 1︸︸0 ︷ 86 81 EPITOPE SRIDALAAVVVPMVA 0.266666666666667 402 73 EPITOPE LWLFLLFLLTATAAH 0 157 37 OUTSIDE i24-46o91-113i126-148o158-177i227-249o NA 84 327 PROTEIN 0ff...2.127.consensus3 NA 51 283 TRANSMEMBRANE i32-51o66-88i109-131o146-168i175-197o237-259i NA 1. peptide: peptídeo considerado na predição de afinidade 8. type: tipo de entidade descrita: PROTEIN para uma proteína e suas 2. order : identificação da proteína a qual esta entidade pertence informações, EPITOPE para um peptídeo e suas informações de imu- nogenicidade, INSIDE para uma região intracelular de uma proteína, 3. allele: alelo considerado na predição de afinidade TRANSMEMBRANE para uma região embebida em membrana e OUT- 4. consensus_percentile_rank : ranque do percentil do método consensus3 SIDE para uma região extracelular da proteína. 5. start : posição inicial da janela 9. description: descrição da entidade, podendo ser o próprio identificador 6. end : posição inicial da janela da proteína, a sequência peptídica ou a topologia transmembranar 7. cluster : cluster ao qual esta entidade pertence 10. outside_ratio: razão extracelular calculada apenas para peptídeos. 42 3.7 Similaridade com proteínas do hospedeiro Os peptídeos selecionados para o conjunto mínimo foram analisados quanto a sua similaridade a proteínas humanas e suínas utilizando a plataforma Web da ferramenta BlastP 2.10.0+ (ALTSCHUL et al., 1997), tendo como parâmetros o banco de proteínas de referência (refseq_protein) de humanos (Homo sapiens, taxid:9606 ) e suínos domésticos (Sus scrofa domesticus, taxid:9825 ) e demais parâmetros ajustados para alinhamento de sequências pequenas pelo próprio programa (word size = 2, expect value = 200000, hitlist size = 100, gapcosts = 9,1, matrix = pam30, filter string = f, genetic code = 1, window size = 40, threshold = 11, composition-based stats = 0). 43 4 Resultados e Discussão Dos 201 registros disponíveis de genomas de Mycobacterium avium no sumário do NCBI em Novembro de 2018, apenas sete possuem dados referentes à montagem completa do genoma para a subspécie hominissuis, de acordo com o valor Complete Genome na coluna assembly_level (ver Figura 11). Figura 11: Registros para M. avium hominissuis Número de Acesso Nome da Espécie Linhagem Status da Anotação GCA_000829075.1 Mycobacterium avium subsp. hominissuis TH135 strain=TH135 Complete Genome GCA_001865635.2 Mycobacterium avium subsp. hominissuis strain=OCU464 Complete Genome GCA_001936215.1 Mycobacterium avium subsp. hominissuis strain=H87 Complete Genome GCA_002716905.1 Mycobacterium avium subsp. hominissuis strain=HP17 Complete Genome GCA_002716925.1 Mycobacterium avium subsp. hominissuis strain=OCU901s_S2_2s Complete Genome GCA_002716965.1 Mycobacterium avium subsp. hominissuis strain=OCU873s_P7_4s Complete Genome GCA_003408535.1 Mycobacterium avium subsp. hominissuis strain=MAC109 Complete Genome A mesma consulta realizada em fevereiro de 2019 mostrou que dos 122 registros para linhagens de Mycobacterium avium subsp. hominissuis, 73 anotações estavam em estágio Contig na coluna assembly_level e 42 no estágio Scaffold. 4.1 Sequências Proteicas Obtidas Os arquivos de proteoma obtidos somam cerca de 14 MB divididos em arquivos com cerca de 4713 sequências por arquivo, a princípio, e 4664 sequências em média depois da remoção de duplicatas (ver Figura 12). 44 Figura 12: Número de sequências nos arquivos FASTA Amino Acids (FAA) de M. avium hominissuis Linhagem # Sequências # Sequências sem duplicatas Mycobacterium avium subsp. hominissuis H87 4969 4805 Mycobacterium avium subsp. hominissuis HP17 4561 4549 Mycobacterium avium subsp. hominissuis MAC109 4841 4771 Mycobacterium avium subsp. hominissuis OCU464 4754 4713 Mycobacterium avium subsp. hominissuis OCU873s_P7_4s 4499 4488 Mycobacterium avium subsp. hominissuis OCU901s_S2_2s 4569 4548 Mycobacterium avium subsp. hominissuis TH135 4800 4774 4.2 Domínios Trans-membranares Das sequências aminoacídicas submetidas ao TMHMM, cerca de 10,5% foram classifi- cadas como contendo domínios de alfa-hélice trans-membranar de acordo com os critérios recomendados pelos criadores do método (ver Figura 13). Figura 13: Número de sequências com domínios alfa-hélice trans-membranares Linhagem # Sequências Sem Du- # Sequências com Domínio plicatas TM Sem Duplicatas Mycobacterium avium subsp. hominissuis H87 4805 508 Mycobacterium avium subsp. hominissuis HP17 4549 488 Mycobacterium avium subsp. hominissuis MAC109 4771 497 Mycobacterium avium subsp. hominissuis OCU464 4713 481 Mycobacterium avium subsp. hominissuis OCU873s_P7_4s 4488 475 Mycobacterium avium subsp. hominissuis OCU901s_S2_2s 4548 496 Mycobacterium avium subsp. hominissuis TH135 4774 481 Essas proteínas com domínio alfa-hélice trans-membranar foram consideradas o sur- faceoma de Mycobacterium avium subsp. hominissuis para este estudo. A incorporação da predição de domínios de barris-beta nessas sequências foi desconsiderada pela baixa robustez dos métodos in-silico disponíveis e natureza da membrana gram-positiva de My- cobacterium avium. 4.3 Pan e Core Surfaceomas As proteínas dos surfaceomas foram agrupadas em 577 clusters de tamanhos variados. A maior parte (397) dos clusters de proteínas homólogas das linhagens de Mycobacterium 45 avium subsp. hominissuis é composto de sete sequências (ver Figura 14a). Existem ainda 10 clusters com mais de sete sequências (ver Figura 14a), o que pode se dar por eventos de duplicação em algumas dessas linhagens ou mesmo por conta de erros de anotação. Number of Clusters with N proteins Number of Clusters with N proteins 400 3.0 2.5 300 2.0 200 1.5 1.0 100 0.5 0 0.0 Number of Proteins in Cluster Number of Proteins in Cluster (a) Número de clusters Contendo n Proteínas (b) Número de clusters Contendo n>7 Proteínas Em um dos casos há 27 proteínas em um mesmo cluster, valor contra-intuitivo consi- derando os esforços e alterações realizadas nos códigos de agrupamento do CMG Biotools. Contudo, este número pode ser explicado pela comparação par-a-par utilizada na cons- trução dos clusters. Uma sequência analisada é incorporada a um cluster ao alcançar os critérios de seleção (identidade, e-value, bidirecionalidade) no alinhamento com pelo me- nos um dos membros daquele cluster, o que significa que a cada nova cepa analisada, N proteínas podem ser incluídas ao cluster, sendo N o número total de cepas (ver Figura 15). Figura 15: Exemplo de alinhamento de quatro sequências ︷ 5︸3︸% ︷ ︷ 4︸7︸% ︷ SeqA AAAAAAAAAA TTTTTTTTT C1: SeqA SeqB AAAAAAAAAA CCCCCCCCC C1: SeqA, SeqB (53% identidade com SeqA) SeqC GGGGGGGGGG TTTTTTTTT C1: SeqA, SeqB, SeqC (47% identidade com SeqA) SeqD GGGGGGGGGG CCCCCCCCC C1: SeqA, SeqB, SeqC, SeqD (53% de identidade com SeqC e 47% iden- tidade com SeqB) Considerando apenas identidade superior a 40% como critério de agrupamento dessas sequências, todas elas estariam representadas no mesmo cluster apesar de a sequência identificada como SeqD ter identidade suficiente apenas com SeqC. C1: cluster 1. Já os clusters com menos de 7 proteínas são considerados a priori o pan-surfaceoma destas espécies. Uma observação do padrão de composição dos clusters formados a par- Number of Clusters 1 2 3 4 5 6 7 8 9 10 12 13 14 27 Number of Clusters 8 9 10 12 13 14 27 46 tir do proteoma inteiro (antes da predição de domínios trans-membranares) versus os clusters do surfaceoma apontou que algumas proteínas de clusters do proteoma não são classificadas como trans-membranares e portanto estão ausentes nos respectivos clusters do surfaceoma (ver Figura 16). Isto pode se dar por mutações na sequência que modifi- quem o perfil topológico predito pelo TMHMM ou mesmo por erros de anotação dessas sequências que causem a perda dessas informações. Figura N1u6m:beNr oúf mMisesrinog dPerotPeinrso pteerí nCalusstePrerdidas por Tamanho de Cluster Considering clusters with 6−1 protein(s). 50 Number of Missing Proteins 40 0 1 2 3 30 4 5 6 7 20 9 11 10 0 1 2 3 4 5 6 Cluster size No caso de clusters com tamanho pequeno e um grande número de proteínas perdidas depois da seleção por presença de domínios trans-membranares, como nos clusters de proteínas de superfície de tamanho dois com onze homólogos classificados como não- superficiais, investigações posteriores poderão sugerir se estas separações ocorreram devido a falsos positivos para as duas sequências preditas como de superfície ou se eventuais mutações na história evolutiva da espécie produziram este padrão. 4.4 Análise Imunogenética Foram considerados os perfis imunogenéticos de proteínas presentes em clusters com ao menos uma proteína representante de cada linhagem. Clusters de classificação dúbia Number of Clusters 47 devido a perda de uma ou mais proteínas por conta da classificação trans-membranar não foram utilizados. Ao considerar apenas clusters com uma proteína de cada linhagem e média de percentil imunogênico inferior ou igual a 0.05, 387 grupos seriam selecionados, proporcionando uma redução pequena na quantidade de dados a serem analisados adiante. Por esta razão a análise foi restringida àqueles cuja média de percentil imunogênico é inferior ou igual a 0.02, resultando nos 112 clusters mais imunogênicos de nosso conjunto de dados como visto na Figura 17. MeaFnig Iumrmau1n7o:geMnicéidtyi aScdooreP oefr cCeonrtei lPIromteuinnsogênico de Proteínas dos Clusters 0.01 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● 0.02 ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● 0.03 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● 0.04 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.05 ● ● ● 0 50 100 150 200 250 300 350 400 450 500 Cluster 112 clusters com sete linhagens possuem valor médio de percentil imunogênico menor ou igual a 0.02. O valor de corte utilizado para o percentil imunogênico poderá ser ajustado para outras análises de acordo com a abundância ou escassez de peptídeos candidatos viáveis ao fim de todas as etapas de seleção realizadas nesse trabalho ou mesmo em validações experimentais. A escolha por epítopos de maior afinidade se baseia na imunodominância de epítopos, quando sequências com maior afinidade aos peptídeos presentes nas fendas de um alelo de HLA são mais frequentemente apresentadas pelas APCs, tendo maiores chances de se tornarem determinantes antigênicos (ver Figura 18) (ABBAS; LICHTMAN; PILLAI, 2007). Percentile Rank 48 Figura 18: Imunodominância de epítopos (ABBAS; LICHTMAN; PILLAI, 2007) Todas as janelas peptídicas das proteínas foram analisadas pelo método de predição de imunogenicidade, e apesar de alguns dos peptídeos nessas janelas possuírem afinidade teórica aos diferentes alelos de HLA testados, nem todos estarão acessíveis à maquinaria do sistema imune, em especial aos anticorpos. Por este motivo, faz-se necessário integrar os dados de topologia trans-membranar aos de imunogenicidade. Para este trabalho foram considerados válidos peptídeos com mais da metade de suas sequências presentes em regiões extracelulares de acordo com o TMHMM, descartando de nossa caracterização todos os (54) clusters que não possuem ao menos um peptídeo dentro desse critérios (ver Figura 19). Mesmo para uma maior parte dos 58 clusters restantes grande parte dos peptídeos identificados pertencem a regiões intracelulares ou trans-membranares, sendo o conteúdo mínimo de peptídeos extracelulares igual a 3.125% e identificado em um cluster (77) e o conteúdo máximo igual a 100% nos clusters 228, 347 e 414. A mediana desse conteúdo (23.810%) é menor que a média em quase 10%, apontando poucos clusters com um número alto de peptídeos extracelulares. O baixo volume de peptídeos com alta afinidade nas porções externas da célula é es- perado uma vez que patógenos com uma alta taxa de epítopos expostos seriam facilmente detectados pelo sistema imune, existindo uma pressão de seleção para que sequências ex- postas ao ambiente sejam inócuas à moléculas do sistema imune. Esse padrão pode ser observado quando clusters contendo peptídeos de baixa afinidade ao MHC (percentil imu- nogênico maior ou igual a 95) são também classificados de acordo com sua posição: cerca de 85% (228) desses peptídeos se situam na região externa da membrana. Outro fator a se considerar é a conservação dos peptídeos nas diferentes proteínas de 49 Peptide Position By Cluster Figura 19: Classificação dos Peptídeos por Cluster 80 60 Peptide Position Extracellular 40 Intracellular 20 0 Peptide Position By Cluster Cluster For clusters with at least one extracellular peptide. 80 60 Peptide Position Extracellular 40 Intracellular 20 0 Cluster Cada peptídeo foi contabilizado uma única vez em cada cluster, não importando quantas vezes era en- contrado em uma ou mais proteínas. Quase metade (54) dos clusters não possui peptídeos altamente imunogênicos nas regiões extracelulares e foram descartados das análises seguintes, restando apenas 58 clusters. Nessa figura todos os peptídeos com outside_ratio menor ou igual a 0.5 foram classificados como "Intracellular". um mesmo cluster (ver Figura 20). No caso dos clusters restantes em nossa análise, a distribuição de peptídeos mostra que cerca de 80% das sequências de interesse estão con- servadas em pelo menos seis das sete linhagens consideradas. Cerca de 7% desses peptídeos estão conservados entre 2 e 5 linhagens, enquanto 12% são únicos a uma linhagem. Dos 58 clusters, 35 são formados apenas por peptídeos presentes em todas as linhagens e 43 possuem ao menos um peptídeo presente em todas as linhagens. Dos doze clusters restantes, 5 possuem peptídeos presentes em até seis linhagens, 1 conta com peptídeos presentes em até cinco linhagens e os demais são candidatos ainda menos apropriados para uma estratégia de imunização generalizada que os primeiros. A conservação desses peptídeos em todas as linhagens é de fundamental importância no desenho de uma formulação vacinal, uma vez que esses core peptídeos poderão permitir Count Count 1 18 19 1719 25 2526 28 2834 34 35 36 37 37 38 55 44 45 58 52 54 71 55 56 73 58 59 77 62 64 88 69 71 96 73 97 7783 103 8895 110 9697 114 103104 115 109110 121 114 115 125 121 122 180 125 137 199 142 150 211 171 176 215 180 181 233 193 199 246 211 215 270 217 276 227233 279 242244 283 246247 288 249254 297 255 263 299 266 270 300 276 279 306 283 287 308 288 297 321 299 300 327 306 308 331 312 317 337 321 347 326327 349 329331 352 337345 357 347349 359 352357 365 359 365 371 368 371 379 379 382 383 383 391 391 396 401 396 404 408 408 410 412 410 414 440 414 444 444 458474 474 475481 475 495503 495 511529 50 Peptide Frequency in ClusFterisgura 20: Conservação dos Peptídeos nos Clusters 20 15 Frequency 1 2 3 10 5 6 7 5 0 Cluster Na maior parte dos clusters selecionados há diversos peptídeos presentes nas sete diferentes linhagens. Eixo Y: Número de Peptídeos. a geração de defesas imunes contra diversas cepas destes organismos. Outra característica dos epítopos é sua promiscuidade, valor que diz respeito a quan- tidade de diferentes alelos de MHC aos quais um epítopo se liga. Para o conjunto de peptídeos de altíssima afinidade aos seus respectivos MHCs e provenientes de proteínas presentes nas sete linhagens, poucos foram os epítopos com promiscuidade maior que 1 (ver Figura 21). Promiscuidade PeptídeoF−MiHgCu nroas C2lu1st:erPs romiscuidade dos Peptídeos nos Clusters 20 15 Promiscuidade Peptídeo−MHC 1 10 2 3 4 5 0 Clusters A promiscuidade de um peptídeo diz respeito a quantos alelos de HLA ele é capaz de se ligar. Poucos peptídeos selecionados se ligam a mais de quatro HLAs distintos. Número de peptídeos Number of Peptides 1 1 19 19 25 25 28 28 34 34 37 37 55 55 58 58 71 71 73 73 77 77 88 88 96 96 97 97 103 103 110 110 114 114 115 115 125 125 180 211 180 215 211 233 215 246 233 270 246 276 270 279 276 283 279 288 283 299 288 300 299 306 300 308 306 321 308 327 321 331 327 337 331 347 337 349 347 352 349 357 352 359 357 365 359 371 365 379 371 383 379 391 383 396 391 408 396 410 408 414 410 444 414 475 495 444 475 495 51 Apenas 1 peptídeo (SVFRLFWLLYLGMTF) presente no cluster 327 possui alta afi- nidade a quatro HLAs distintos: "HLA-DPA1*01:03/DPB1*02:01", "HLA-DPA1*01/DP B1*04:01", "HLA-DQA1*01:01/DQB1*05:01", "HLA-DPA1*03:01/DPB1*04:02". Cinco clusters possuem peptídeos com promiscuidade igual ou superior a dois HLAs e os quais possuem peptídeos encontrados em todas as linhagens. Considerando ainda todos os core peptídeos em clusters distintos, o cluster mais promíscuo segue sendo o número 327 que ganha mais um alelo ("HLA-DRB1*09:01") com o peptídeo GMTFGWLFGAMVFQV, seguido dos clusters 1 e 88 com promiscuidade de 4 cada. Sendo o MHC um gene altamente polimórfico, existem grupos diversos em uma mesma população e uma estratégia vacinal eficiente pressupõe que os sistemas imunes de indiví- duos de diversas origens e composições genéticas serão capazes de responder a um mesmo peptídeo ou conjunto de peptídeos, por isso avaliar as promiscuidades dessas sequências se faz necessário e ranqueá-las também de acordo com esse parâmetro auxilia na identificação de candidatos adequados. Ainda foi possível gerar um conjunto mínimo de peptídeos de maneira a maximizar o valor de promiscuidade. Um conjunto mínimo é fechado quando todos os alelos presentes nos dados de origem estão representados. Utilizando como fonte o conjunto de epítopos extracelulares presentes em todas as linhagens foi possível construir um set em que nove peptídeos de nove proteínas distintas, oriundas de nove clusters possuem alta afinidade a 15 alelos de HLA distintos (ver Figura 22). 52 Topologia ImFiugnuorgaê2n2ic:aR e pTrreasnesn−tmaçeãmo bdroancaonr jduanst oPrmotíeníinmaos deo eCpoítnojupnotso Mínimo 9 414 AXO23287.1 8 391 AXO21874.1 7 379 AXO23855.1 6 Representação 331 AXO25018.1 Epítopo 5 Intracelular 327 AXO23431.1 Extracelular 4 Trans−membranar 308 AXO23409.1 3 96 AXO22487.1 2 71 AXO24709.1 1 25 AXO24634.1 Posição dos Aminoácidos Cada epítopo está marcado em vermelho na sequência de sua proteína de origem. Na parte inferior de cada retângulo há a representação da topologia trans-membranar de cada uma dessas proteínas, sendo as regiões externas da célula marcadas em azul. O conjunto mínimo permite uma estimulação teórica de um número aproximadamente quatro vezes maior de moléculas de HLA que o melhor peptídeo em termos de promis- cuidade. Nenhuma das sequências desse conjunto mostram similaridade significativa com proteínas de referência pertencentes a Homo sapiens ou Sus scrofa domesticus, o que aponta uma maior segurança de uso dessas sequências como estratégia de proteção desses organismos sem risco alto de desenvolvimento inesperado de resposta autoimune. Com exceção dos dois últimos protocolos de VR publicados, de PanRV Hisham- Ashhab (HISHAM; ASHHAB, 2018) and ReVac (D’MELLO et al., 2019), todas as estratégias anteriores trabalhavam com dados provenientes de apenas uma linhagem, fator limitante ao se considerar patógenos com linhagens de modos de vida diversos (MORA et al., 2006). O protocolo aqui executado leva em consideração os dados de diversas linhagens de maneira a otimizar a capacidade protetiva de uma potencial formulação vacinal. Ademais, trabalhos que comparam o desempenho e os resultados produzidos por seis protocolos de VR de proteoma único mostram baixa sobreposição entre as proteínas apon- tadas como candidatas vacinais potenciais (DALSASS et al., 2019). A grande diversidade nos conjuntos de CVPs resultantes desses diversos protocolos aponta tanto para um cres- Proteína 0 15 30 45 60 75 90 105 120 135 150 165 180 195 210 225 240 255 270 285 300 315 330 345 360 375 390 405 420 435 450 465 480 495 510 525 540 555 570 585 600 615 630 645 660 675 690 705 720 735 750 765 780 795 53 cente interesse na área de VR quanto para a necessidade de mais avaliações de referência com dados experimentais, visto que no benchmarking realizado nenhum dos programas atingiu mais de 76% de verdadeiros positivos (DALSASS et al., 2019). Na integração de dados realizada neste trabalho a unidade de análise é o peptídeo, característica que difere de todas as demais abordagens que atribuem à entidade proteica graus de maior ou menor imunogenicidade de acordo com os epítopos que a compõem. Essa estratégia pode se mostrar mais adequada na formulação de vacinas quiméricas mul- tivalentes (XIN, U.S. Patent US20170137476A1, Jun. 2017), evitar a exclusão de peptídeos adequados para a geração de resposta imune que pertençam a proteínas com baixa den- sidade de epítopos (HALLING-BROWN et al., 2008) e facilitar o trabalho de caracterização e produção dessas entidades químicas, dada a dificuldade na expressão e purificação de proteínas de membrana (HELBIG; HECK; SLIJPER, 2010). O grupo de peptídeos aqui apresentado (ver Figura 23) é apenas um dentre os diversos que podem ser formados por combinações entre os core peptídeos altamente imunogêni- cos de aqui observados, o que permite a substituição de uma ou mais sequências que por ventura se mostrem inadequadas para uma formulação vacinal. Além disso, dados expe- rimentais de transcriptômica e proteômica de estágios iniciais de infecção no hospedeiro podem ser agregados, aumentando ainda mais a possibilidade de sucesso de abordagens de proteção desenvolvidas. Estratégias de identificação de peptídeos vacinais frequentemente utilizam uma ou duas linhagens como ponto de partida para a obtenção de seus objetos de estudo. O trabalho aqui desenvolvido explora o conjunto completo de proteínas conhecidas para sete linhagens de Mycobacterium avium subsp. hominissuis, integrando a predições de domínios trans-membranares e de imunogenicidade a diversos alelos de HLA. 54 Figura 23: Peptídeos do Conjunto Mínimo allele peptide consensus_percentile_rank start end outside_ratio outside frequency promiscuity fasta_id cluster HLA-DRB1*01:01 IAVFLLLRAVPSLRV 0.01 48 62 0.533333333333333 yes 7 3 AXO24634.1 25 HLA-DRB1*09:01 IAVFLLLRAVPSLRV 0.01 48 62 0.533333333333333 yes 7 3 AXO24634.1 25 HLA-DRB3*02:02 IAVFLLLRAVPSLRV 0.01 48 62 0.533333333333333 yes 7 3 AXO24634.1 25 HLA-DPA1*02:01/DPB1*01:01 DSNDFFTYYFFLTGI 0.01 123 137 0.533333333333333 yes 7 3 AXO24709.1 71 HLA-DRB1*12:01 ADLLILPILNIYRKY 0.01 280 294 0.6 yes 7 1 AXO22487.1 96 HLA-DRB1*07:01 AFGYLLASVASLVVM 0.02 141 155 1 yes 7 1 AXO23409.1 308 HLA-DPA1*01:03/DPB1*02:01 SVFRLFWLLYLGMTF 0.01 34 48 0.533333333333333 yes 7 4 AXO23431.1 327 HLA-DPA1*01/DPB1*04:01 SVFRLFWLLYLGMTF 0.015 34 48 0.533333333333333 yes 7 4 AXO23431.1 327 HLA-DPA1*03:01/DPB1*04:02 SVFRLFWLLYLGMTF 0.01 34 48 0.533333333333333 yes 7 4 AXO23431.1 327 HLA-DQA1*01:01/DQB1*05:01 SVFRLFWLLYLGMTF 0.01 34 48 0.533333333333333 yes 7 4 AXO23431.1 327 HLA-DRB1*11:01 GLFVMFSRMQGGARM 0.02 127 141 0.533333333333333 yes 7 1 AXO25018.1 331 HLA-DQA1*04:01/DQB1*04:02 AKNWAIAAIAAADGL 0.01 138 152 1 yes 7 1 AXO23855.1 379 HLA-DRB1*03:01 DTAVRMDPPNDLGDL 0.02 115 129 1 yes 7 2 AXO21874.1 391 HLA-DRB3*01:01 DTAVRMDPPNDLGDL 0.01 115 129 1 yes 7 2 AXO21874.1 391 HLA-DQA1*03:01/DQB1*03:02 DDVYLPIAAEAEAAS 0.015 397 411 1 yes 7 1 AXO23287.1 414 Demonstração parcial da estrutura de dados em que constam os peptídeos do conjunto mínimo. Na primeira coluna constam os haplótipos dos HLAs que se ligam com alta afinidade aos peptídeos presentes na segunda coluna. Para cada combinação existe uma linha e o percentil ranqueado de afinidade calculado pelo método Consensus3 é exibido na terceira coluna, seguido pelas posições inicial e final do peptídeo na sequência proteica. A quinta coluna exibe a fração exposta da proteína, calculada através dos dados do TMHMM. Todas esses peptídeos são classificados como externos pelo critério de fração exposta > 0.5. Na sétima coluna consta a frequência ou conservação dos peptídeos nas proteínas de seu cluster, sendo todos estes do conjunto mínimo core peptídeos. A promiscuidade é representada na oitava coluna e a seleção dos peptídeos também considera esse valor a ordenação, de maneira a selecionar o conjunto mínimo. Na penúltima coluna está o identificador do cabeçalho do arquivo FASTA das proteínas de origem desses peptídeos e os clusters aos quais eles pertencem estão denotados na décima primeira coluna. Fonte: a autora. 55 5 Conclusão A análise computacional aqui realizada logrou integrar dados teóricos de imunogenici- dade, presença de domínios trans-membranares e agrupamento de sequências por homolo- gia podendo identificar um conjunto de peptídeos candidatos adequado a uma formulação vacinal para Mycobacterium avium subsp. hominissuis. As análises in silico indicam que os nove peptídeos considerados no conjunto mínimo estão conservados em todas as linha- gens consideradas, possuem alta afinidade a pelo menos quinze moléculas de MHC, estão voltados à porções externas da membrana e não possuem identidade estatisticamente sig- nificativa a qualquer proteína humana. A sequência de análises aqui desenvolvidas poderá ser aplicada com possíveis ajustes de parâmetros a outros conjuntos de organismos. 56 Referências ABBAS, A. K.; LICHTMAN, A. H.; PILLAI, S. Cellular and molecular immunology 6th edition. [S.l.: s.n.], 2007. ALTSCHUL, S. F. et al. Gapped blast and psi-blast: a new generation of protein database search programs. Nucleic acids research, Oxford University Press, v. 25, n. 17, p. 3389–3402, 1997. ALVAREZ, J. et al. Epidemiological investigation of a mycobacterium avium subsp. hominissuis outbreak in swine. Epidemiology & Infection, Cambridge University Press, v. 139, n. 1, p. 143–148, 2011. Anatoly Techtonik. Wget PyPI. 2010. Disponível em: . ARGOS, P.; RAO, J. M.; HARGRAVE, P. A. Structural prediction of membrane-bound proteins. European Journal of Biochemistry, Wiley Online Library, v. 128, n. 2-3, p. 565–575, 1982. ASENSI, V. et al. Mycobacterium avium complex cervical lymphadenitis in an immunocompetent adult patient. Journal of Infection, Elsevier, v. 41, n. 2, p. 195–197, 2000. ASTRAND, P. PEP 324 – subprocess - New process module. 2003. Disponível em: . BACKERT, L.; KOHLBACHER, O. Immunoinformatics and epitope prediction in the age of genomic medicine. Genome medicine, BioMed Central, v. 7, n. 1, p. 119, 2015. BENDINGER, B. et al. Physicochemical cell surface and adhesive properties of coryneform bacteria related to the presence and chain length of mycolic acids. Appl. Environ. Microbiol., Am Soc Microbiol, v. 59, n. 11, p. 3973–3977, 1993. BERNSTEIN, D. I. et al. Machine operator’s lung: a hypersensitivity pneumonitis disorder associated with exposure to metalworking fluid aerosols. Chest, Elsevier, v. 108, n. 3, p. 636–641, 1995. BETHARD, S. J. Argparse. 2006. Disponível em: . BOHELER, K. R.; GUNDRY, R. L. The Surfaceome. [S.l.]: Springer, 2018. BOWMAN, B. N. et al. Improving reverse vaccinology with a machine learning approach. Vaccine, Elsevier, v. 29, n. 45, p. 8156–8164, 2011. 57 BRENNAN, P. J.; NIKAIDO, H. The envelope of mycobacteria. Annual review of biochemistry, Annual Reviews 4139 El Camino Way, PO Box 10139, Palo Alto, CA 94303-0139, USA, v. 64, n. 1, p. 29–63, 1995. CALLISTER, S. J. et al. Comparative bacterial proteomics: analysis of the core genome concept. PloS one, Public Library of Science, v. 3, n. 2, p. e1542, 2008. CAPO, S. et al. Chlamydia pneumoniae genome sequence analysis and identification of hla-a2-restricted cd8+ t cell epitopes recognized by infection-primed t cells. Vaccine, Elsevier, v. 23, n. 42, p. 5028–5037, 2005. CASSIDY, P. M. et al. Nontuberculous mycobacterial disease prevalence and risk factors: a changing epidemiology. Clinical Infectious Diseases, The University of Chicago Press, v. 49, n. 12, p. e124–e129, 2009. CHIMARA, E. Avaliação de métodos moleculares para identificação de micobactérias e elaboração de um algoritmo de identificação. Tese (Doutorado) — Universidade Federal de São Paulo, 2005. CHRISTENSEN, J. B.; KOEPPE, J. Mycobacterium avium complex cervical lymphadenitis in an immunocompetent adult. Clin. Vaccine Immunol., Am Soc Microbiol, v. 17, n. 9, p. 1488–1490, 2010. COCK, P. J. et al. Biopython: freely available python tools for computational molecular biology and bioinformatics. Bioinformatics, Oxford University Press, v. 25, n. 11, p. 1422–1423, 2009. CORDWELL, S. J. Technologies for bacterial surface proteomics. Current opinion in microbiology, Elsevier, v. 9, n. 3, p. 320–329, 2006. COVERT, T. C. et al. Occurrence of nontuberculous mycobacteria in environmental samples. Appl. Environ. Microbiol., Am Soc Microbiol, v. 65, n. 6, p. 2492–2496, 1999. CROW, H. E. et al. A limited clinical, pathologic, and epidemiologic study of patients with pulmonary lesions associated with atypical acid-fast bacilli in the sputum. American Review of Tuberculosis and Pulmonary Diseases, National Tuberculosis Association, v. 75, n. 2, p. 199–222, 1957. DALSASS, M. et al. Comparison of open-source reverse vaccinology programs for bacterial vaccine antigen discovery. Frontiers in immunology, Frontiers, v. 10, p. 113, 2019. DESAI, D. V.; KULKARNI-KALE, U. T-cell epitope prediction methods: an overview. Immunoinformatics, Springer, p. 333–364, 2014. DOYTCHINOVA, I. A.; FLOWER, D. R. Vaxijen: a server for prediction of protective antigens, tumour antigens and subunit vaccines. BMC bioinformatics, BioMed Central, v. 8, n. 1, p. 4, 2007. D’MELLO, A. et al. Revac: a reverse vaccinology computational pipeline for prioritization of prokaryotic protein vaccine candidates. BMC genomics, Springer, v. 20, n. 1, p. 981, 2019. 58 EDWARDS, L. B.; PALMER, C. E. Isolation of “atypical” mycobacteria from healthy persons. American Review of Respiratory Disease, American Lung Association, v. 80, n. 5, p. 747–749, 1959. EMBIL, J. et al. Pulmonary illness associated with exposure to mycobacterium-avium complex in hot tub water: hypersensitivity pneumonitis or infection? Chest, Elsevier, v. 111, n. 3, p. 813–816, 1997. FALKINHAM III, J. Surrounded by mycobacteria: nontuberculous mycobacteria in the human environment. Journal of applied microbiology, Wiley Online Library, v. 107, n. 2, p. 356–367, 2009. FALKINHAM, J. O. Nontuberculous mycobacteria in the environment. Clinics in chest medicine, Elsevier, v. 23, n. 3, p. 529–551, 2002. FALKINHAM, J. O. et al. Mycobacterium avium in a shower linked to pulmonary disease. Journal of water and health, IWA Publishing, v. 6, n. 2, p. 209–213, 2008. FALKINHAM, J. O.; NORTON, C. D.; LECHEVALLIER, M. W. Factors influencing numbers of mycobacterium avium, mycobacterium intracellulare, and other mycobacteria in drinking water distribution systems. Appl. Environ. Microbiol., Am Soc Microbiol, v. 67, n. 3, p. 1225–1231, 2001. FIELD, S. K.; FISHER, D.; COWIE, R. L. Mycobacterium avium complex pulmonary disease in patients without hiv infection. Chest, Elsevier, v. 126, n. 2, p. 566–581, 2004. GREENBAUM, J. et al. Functional classification of class ii human leukocyte antigen (hla) molecules reveals seven different supertypes and a surprising degree of repertoire sharing across supertypes. Immunogenetics, Springer, v. 63, n. 6, p. 325–335, 2011. GROOTE, M. A. D. et al. Relationships between mycobacterium isolates from patients with pulmonary mycobacterial infection and potting soils. Appl. Environ. Microbiol., Am Soc Microbiol, v. 72, n. 12, p. 7602–7606, 2006. HALLING-BROWN, M. et al. Are bacterial vaccine antigens t-cell epitope depleted? Trends in immunology, Elsevier, v. 29, n. 8, p. 374–379, 2008. HATTEM, R. van. Progressbar2. Disponível em: . HAZRA, R. et al. Lymphadenitis due to nontuberculous mycobacteria in children: presentation and response to therapy. Clinical Infectious Diseases, The University of Chicago Press, v. 28, n. 1, p. 123–129, 1999. HE, Y.; XIANG, Z.; MOBLEY, H. L. Vaxign: the first web-based vaccine design program for reverse vaccinology and applications for vaccine development. BioMed Research International, Hindawi Publishing Corporation, v. 2010, 2010. HEIJNE, G. V. Membrane protein structure prediction: hydrophobicity analysis and the positive-inside rule. Journal of molecular biology, Elsevier, v. 225, n. 2, p. 487–494, 1992. 59 HEIJNE, G. von. The distribution of positively charged residues in bacterial inner membrane proteins correlates with the trans-membrane topology. The EMBO journal, John Wiley & Sons, Ltd, v. 5, n. 11, p. 3021–3027, 1986. HEIJNE, G. von. Membrane proteins: from sequence to structure. Annual review of biophysics and biomolecular structure, Annual Reviews 4139 El Camino Way, PO Box 10139, Palo Alto, CA 94303-0139, USA, v. 23, n. 1, p. 167–192, 1994. HEINSON, A. et al. Enhancing the biological relevance of machine learning classifiers for reverse vaccinology. International journal of molecular sciences, Multidisciplinary Digital Publishing Institute, v. 18, n. 2, p. 312, 2017. HELBIG, A. O.; HECK, A. J.; SLIJPER, M. Exploring the membrane prote- ome—challenges and analytical strategies. Journal of proteomics, Elsevier, v. 73, n. 5, p. 868–878, 2010. HISHAM, Y.; ASHHAB, Y. Identification of cross-protective potential antigens against pathogenic brucella spp. through combining pan-genome analysis with reverse vaccinology. Journal of immunology research, Hindawi, v. 2018, 2018. HUNTER, J. D. Matplotlib: A 2d graphics environment. Computing in science & engineering, IEEE, v. 9, n. 3, p. 90–95, 2007. III, J. O. F.; PARKER, B. C.; GRUFT, H. Epidemiology of infection by nontuberculous mycobacteria: I. geographic distribution in the eastern united states. American review of respiratory disease, American Lung Association, v. 121, n. 6, p. 931–937, 1980. IIVANAINEN, E. et al. Mycobacteria in runoff waters from natural and drained peatlands. Journal of environmental quality, American Society of Agronomy, Crop Science Society of America, and Soil . . . , v. 28, n. 4, p. 1226–1234, 1999. IIVANAINEN, E. K. et al. Mycobacteria in boreal coniferous forest soils. FEMS Microbiology Ecology, Blackwell Publishing Ltd Oxford, UK, v. 23, n. 4, p. 325–332, 1997. IWAMOTO, T. et al. Genetic diversity of mycobacterium avium subsp. hominissuis strains isolated from humans, pigs, and human living environment. Infection, Genetics and Evolution, Elsevier, v. 12, n. 4, p. 846–852, 2012. JAISWAL, V. et al. Jenner-predict server: prediction of protein vaccine candidates (pvcs) in bacteria based on host-pathogen interactions. BMC bioinformatics, BioMed Central, v. 14, n. 1, p. 211, 2013. JARLIER, V.; NIKAIDO, H. Mycobacterial cell wall: structure and role in natural resistance to antibiotics. FEMS microbiology letters, Oxford University Press, v. 123, n. 1-2, p. 11–18, 1994. JR, F. C. W. Mycobacteria in a new england hospital: a study of mycobacterial species occurring in the sputum of patients with chronic pulmonary disease. American Review of Respiratory Disease, American Lung Association, v. 98, n. 6, p. 965–977, 1968. JR, R. A. K.; PARKER, B. C.; III, J. O. F. Epidemiology of infection by nontuberculous mycobacteria. Mycobacterium avium, Mycobacterium intracellulare, p. 271–275, 1992. 60 JR, R. J. W.; BROWN, B. A.; GRIFFITH, D. E. Nosocomial outbreaks/pseudo outbreaks caused by nontuberculous mycobacteria. Annual review of microbiology, Annual Reviews 4139 El Camino Way, PO Box 10139, Palo Alto, CA 94303-0139, USA, v. 52, n. 1, p. 453–490, 1998. KAHANA, L. M. et al. Mycobacterium avium complex infection in an immunocompetent young adult related to hot tub exposure. Chest, Elsevier, v. 111, n. 1, p. 242–245, 1997. KROGH, A. et al. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. Journal of molecular biology, Elsevier, v. 305, n. 3, p. 567–580, 2001. MANGIONE, E. J. et al. Nontuberculous mycobacterial disease following hot tub exposure. Emerging infectious diseases, Centers for Disease Control and Prevention, v. 7, n. 6, p. 1039, 2001. MARGALIT, H.; ALTUVIA, Y. Insights from mhc-bound peptides. In: WILEY ONLINE LIBRARY. Novartis Foundation symposium. [S.l.], 2003. p. 77–97. MARRAS, T. K. et al. Risk of nontuberculous mycobacterial pulmonary disease with obstructive lung disease. European Respiratory Journal, Eur Respiratory Soc, v. 48, n. 3, p. 928–931, 2016. MARRAS, T. K. et al. Hypersensitivity pneumonitis reaction to mycobacterium avium in household water. Chest, Elsevier, v. 127, n. 2, p. 664–671, 2005. MASIGNANI, V.; PIZZA, M.; MOXON, E. R. The development of a vaccine against meningococcus b using reverse vaccinology. Frontiers in Immunology, Frontiers Media SA, v. 10, 2019. MCKINNEY, W. et al. Data structures for statistical computing in python. In: AUSTIN, TX. Proceedings of the 9th Python in Science Conference. [S.l.], 2010. v. 445, p. 51–56. MIJS, W. et al. Molecular evidence to support a proposal to reserve the designation mycobacterium avium subsp. avium for bird-type isolates and’m. avium subsp. hominissuis’ for the human/porcine type of m. avium. International journal of systematic and evolutionary microbiology, Microbiology Society, v. 52, n. 5, p. 1505–1518, 2002. MÖLLER, S.; CRONING, M. D.; APWEILER, R. Evaluation of methods for the prediction of membrane spanning regions. Bioinformatics, Oxford University Press, v. 17, n. 7, p. 646–653, 2001. MOORE, J. S. et al. Mycobacterial contamination of metalworking fluids: involvement of a possible new taxon of rapidly growing mycobacteria. AIHAJ-American Industrial Hygiene Association, AIHAJ, v. 61, n. 2, p. 205–213, 2000. MORA, M. et al. Microbial genomes and vaccine design: refinements to the classical reverse vaccinology approach. Current opinion in microbiology, Elsevier, v. 9, n. 5, p. 532–536, 2006. MOULIN, G. C. du et al. Concentration of mycobacterium avium by hospital hot water systems. Jama, American Medical Association, v. 260, n. 11, p. 1599–1601, 1988. 61 MOXON, R.; RECHE, P. A.; RAPPUOLI, R. Reverse vaccinology. Frontiers in Immunology, Frontiers Media SA, v. 10, 2019. MUWONGE, A. et al. Molecular characterization of mycobacterium avium subspecies hominissuis isolated from humans, cattle and pigs in the uganda cattle corridor using vntr analysis. Infection, Genetics and Evolution, Elsevier, v. 21, p. 184–191, 2014. NAMKOONG, H. et al. Epidemiology of pulmonary nontuberculous mycobacterial disease, japan. 2016. NIELSEN, M.; LUND, O. NN-align. An artificial neural network-based alignment algorithm for MHC class II peptide binding prediction. BMC Bioinformatics, 2009. NIELSEN, M. et al. Quantitative predictions of peptide binding to any HLA-DR molecule of known sequence: NetMHCIIpan. PLoS Computational Biology, 2008. NIELSEN, M.; LUNDEGAARD, C.; LUND, O. Prediction of MHC class II binding affinity using SMM-align, a novel stabilization matrix alignment method. BMC Bioinformatics, 2007. NISHIUCHI, Y.; IWAMOTO, T.; MARUYAMA, F. Infection sources of a common non-tuberculous mycobacterial pathogen, mycobacterium avium complex. Frontiers in medicine, Frontiers, v. 4, p. 27, 2017. NISHIUCHI, Y. et al. The recovery of mycobacterium avium-intracellulare complex (mac) from the residential bathrooms of patients with pulmonary mac. Clinical Infectious Diseases, The University of Chicago Press, v. 45, n. 3, p. 347–351, 2007. O’BRIEN, D. P.; CURRIE, B. J.; KRAUSE, V. L. Nontuberculous mycobacterial disease in northern australia: a case series and review of the literature. Clinical infectious diseases, The University of Chicago Press, v. 31, n. 4, p. 958–967, 2000. O’BRIEN, R. J.; GEITER, L. J.; JR, D. E. S. The epidemiology of nontuberculous mycobacterial diseases in the united states: results from a national survey. American Review of Respiratory Disease, American Lung Association, v. 135, n. 5, p. 1007–1014, 1987. OLIPHANT, T. E. A guide to NumPy. [S.l.]: Trelgol Publishing USA, 2006. PARKIN, J.; COHEN, B. An overview of the immune system. The Lancet, Elsevier, v. 357, n. 9270, p. 1777–1789, 2001. PATE, M. et al. Miru–vntr typing of mycobacterium avium in animals and humans: Heterogeneity of mycobacterium avium subsp. hominissuis versus homogeneity of mycobacterium avium subsp. avium strains. Research in veterinary science, Elsevier, v. 91, n. 3, p. 376–381, 2011. PEDRO, I. P. de; QUINTANA-BELTRÁN, P. de la; BERMÚDEZ-RUIZ, P. Linfadenitis cervical por mycobacterium avium en adulto inmunocompetente. Enfermedades Infecciosas y Microbiología Clínica, Elsevier, v. 25, n. 2, p. 159–161, 2007. PRIMM, T. P.; III, J. O. F. Nontuberculous mycobacteria. Elsevier, 2017. 62 PRINCE, D. S. et al. Infection with mycobacterium avium complex in patients without predisposing conditions. New England Journal of Medicine, Mass Medical Soc, v. 321, n. 13, p. 863–868, 1989. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2013. Disponível em: . RASTOGI, N. et al. Multiple drug resistance in mycobacterium avium: is the wall architecture responsible for exclusion of antimicrobial agents? Antimicrobial Agents and Chemotherapy, Am Soc Microbiol, v. 20, n. 5, p. 666–677, 1981. REYN, C. F. V. et al. Isolation of mycobacterium avium complex from water in the united states, finland, zaire, and kenya. Journal of clinical microbiology, Am Soc Microbiol, v. 31, n. 12, p. 3227–3230, 1993. RINDI, L.; GARZELLI, C. Genetic diversity and phylogeny of mycobacterium avium. Infection, genetics and evolution, Elsevier, v. 21, p. 375–383, 2014. RINGSHAUSEN, F. C. et al. Prevalence of nontuberculous mycobacterial pulmonary disease, germany, 2009–2014. Emerging infectious diseases, Centers for Disease Control and Prevention, v. 22, n. 6, p. 1102, 2016. RIZWAN, M. et al. Vacsol: a high throughput in silico pipeline to predict potential therapeutic targets in prokaryotic pathogens using subtractive reverse vaccinology. BMC bioinformatics, BioMed Central, v. 18, n. 1, p. 106, 2017. ROSS, B. C. et al. Identification of vaccine candidate antigens from a genomic analysis of porphyromonas gingivalis. Vaccine, Elsevier, v. 19, n. 30, p. 4135–4142, 2001. ROSSUM, G. V.; JR, F. L. D. Python tutorial. [S.l.]: Centrum voor Wiskunde en Informatica Amsterdam, The Netherlands, 1995. SADIKOT, R. T. Nontuberculous mycobacterial lung disease. In: Nontuberculous Mycobacteria (NTM). [S.l.]: Elsevier, 2019. p. 121–132. Secret Labs AB. Regular Expression Engine. 1998. Disponível em: . SERRUTO, D. et al. The new multicomponent vaccine against meningococcal serogroup b, 4cmenb: immunological, functional and structural characterization of the antigens. Vaccine, Elsevier, v. 30, p. B87–B97, 2012. SES-SP. MICOBACTERIOSES: RECOMENDAÇÕES PARA O DIAGNÓSTICO E TRATAMENTO. [S.l.: s.n.], 2005. SETTE, A. et al. Structural requirements for the interaction between class ii mhc molecules and peptide antigens. Immunologic research, Springer, v. 9, n. 1, p. 2–7, 1990. SHAH, N. M. et al. Pulmonary mycobacterium avium-intracellulare is the main driver of the rise in non-tuberculous mycobacteria incidence in england, wales and northern ireland, 2007–2012. BMC infectious diseases, BioMed Central, v. 16, n. 1, p. 195, 2016. 63 SHELTON, B. G.; FLANDERS, W. D.; MORRIS, G. K. Mycobacterium sp. as a possible cause of hypersensitivity pneumonitis in machine workers. Emerging infectious diseases, Centers for Disease Control and Prevention, v. 5, n. 2, p. 270, 1999. SOCIETY, A. T. et al. Diagnosis and treatment of disease caused by nontuberculous mycobacteria. Am. J. Respir. Crit. Care Med., v. 156, p. S1–S25, 1997. SOLIS, N.; CORDWELL, S. J. Current methodologies for proteomics of bacterial surface-exposed and cell envelope proteins. Proteomics, Wiley Online Library, v. 11, n. 15, p. 3169–3189, 2011. SONNHAMMER, E. L. et al. A hidden markov model for predicting transmembrane helices in protein sequences. In: Ismb. [S.l.: s.n.], 1998. v. 6, p. 175–182. STURNIOLO, T. et al. Generation of tissue-specific and promiscuous hla ligand databases using dna microarrays and virtual hla class ii matrices. Nature biotechnology, Nature Publishing Group, v. 17, n. 6, p. 555–561, 1999. THOMSON, R. M.; YEW, W.-W. When and how to treat pulmonary non-tuberculous mycobacterial diseases. Respirology, Wiley Online Library, v. 14, n. 1, p. 12–26, 2009. TORTOLI, E. Impact of genotypic studies on mycobacterial taxonomy: the new mycobacteria of the 1990s. Clinical microbiology reviews, Am Soc Microbiol, v. 16, n. 2, p. 319–354, 2003. TORVINEN, E. et al. Mycobacteria in water and loose deposits of drinking water distribution systems in finland. Appl. Environ. Microbiol., Am Soc Microbiol, v. 70, n. 4, p. 1973–1981, 2004. TSUKAMURA, M. Background factors for casual isolation of mycobacterium intracellulare from sputum of patients with tuberculosis. American Review of Respiratory Disease, American Lung Association, v. 108, n. 3, p. 679–683, 1973. TSUKAMURA, M. Clinical significance of casual isolation of acid-fast organisms from sputum of tuberculous patients. American Review of Respiratory Disease, American Lung Association, v. 108, n. 6, p. 1429–1430, 1973. TSUKAMURA, M. et al. Mycobacteriosis in japan1. 2. Am Rev Respir Dis, v. 137, p. 1280–1284, 1988. TURENNE, C. Y. et al. Sequencing of hsp65 distinguishes among subsets of the mycobacterium avium complex. Journal of clinical microbiology, Am Soc Microbiol, v. 44, n. 2, p. 433–440, 2006. UEKI, S. Y. M. et al. Micobactérias-tuberculosas: diversidade das espécies no estado de São Paulo. Jornal Brasileiro de Patologia e Medicina Laboratorial, scielo, v. 41, p. 1 – 8, 02 2005. ISSN 1676-2444. Disponível em: . VESTH, T. et al. Cmg-biotools, a free workbench for basic comparative microbial genomics. PLOS ONE, Public Library of Science, v. 8, n. 4, p. 1–16, 04 2013. Disponível em: . 64 VITA, R. et al. The immune epitope database (iedb) 3.0. Nucleic acids research, Oxford University Press, v. 43, n. D1, p. D405–D412, 2014. VIVONA, S.; BERNANTE, F.; FILIPPINI, F. Nerve: new enhanced reverse vaccinology environment. BMC biotechnology, BioMed Central, v. 6, n. 1, p. 35, 2006. VLUGGEN, C. et al. Genotyping and strain distribution of mycobacterium avium subspecies hominissuis isolated from humans and pigs in belgium, 2011-2013. Euro Surveillance: Bulletin Européen sur les Maladies Transmissibles, European Centre for Disease Prevention and Control, v. 21, n. 3, p. 18–25, 2016. WANG, P. et al. A systematic assessment of MHC class II peptide binding predictions and evaluation of a consensus approach. PLoS Computational Biology, 2008. WANG, P. et al. Peptide binding predictions for hla dr, dp and dq molecules. BMC bioinformatics, 2010. WICKHAM, H. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016. ISBN 978-3-319-24277-4. Disponível em: . WICKHAM, H. stringr: Simple, Consistent Wrappers for Common String Operations. [S.l.], 2019. R package version 1.4.0. Disponível em: . WICKHAM, H. et al. dplyr: A Grammar of Data Manipulation. [S.l.], 2019. R package version 0.8.3. Disponível em: . WICKHAM, H.; HENRY, L. tidyr: Easily Tidy Data with ’spread()’ and ’gather()’ Functions. [S.l.], 2019. R package version 0.8.3. Disponível em: . WILLIAMSON, Y. M. et al. Surfaceome analysis protocol for the identification of novel bordetella pertussis antigens. In: The Surfaceome. [S.l.]: Springer, 2018. p. 3–20. WINTHROP, K. L. Pulmonary disease due to nontuberculous mycobacteria: an epidemiologist’s view. Future microbiology, Future Medicine, v. 5, n. 3, p. 343–345, 2010. WIZEMANN, T. M. et al. Use of a whole genome approach to identify vaccine molecules affording protection against streptococcus pneumoniae infection. Infection and immunity, Am Soc Microbiol, v. 69, n. 3, p. 1593–1598, 2001. WOLINSKY, E. Mycobacterial lymphadenitis in children: a prospective study of 105 nontuberculous cases with long-term follow-up. Clinical Infectious Diseases, The University of Chicago Press, v. 20, n. 4, p. 954–963, 1995. XIN, H. Chimeric Vaccine Against Fungal Infections. U.S. Patent US20170137476A1, Jun. 2017. YAN, B. et al. Discovery of surface target proteins linking drugs, molecular markers, gene regulation, protein networks, and disease by using a web-based platform targets-search. In: The Surfaceome. [S.l.]: Springer, 2018. p. 331–344. 65 YANO, H. et al. Population structure and local adaptation of mac lung disease agent mycobacterium avium subsp. hominissuis. Genome biology and evolution, Oxford University Press, v. 9, n. 9, p. 2403–2417, 2017. 66 APÊNDICE A -- get_proteome.py   1 import argparse 2 import os 3 import anyat 4 5 parser = argparse.ArgumentParser(description='Get proteome from intraspecies name.') 6 parser.add_argument('--intraspecies_file', action = 'store', dest = 'species_file', default = False, required = ↪→ True, help = 'The file with the intraspecies name.') 7 parser.add_argument('--assembly_summary', action = 'store', dest = 'assembly_summary', default = False, ↪→ required = True, help = 'NCBI most recent assembly summary file') 8 parser.add_argument('--output_file', action = 'store', dest = 'output_file', default = '../intermediateOutput/ ↪→ species.csv', required = False, help = 'The csv output file name.') 9 parser.add_argument('--output_folder', action = 'store', dest = 'output_folder', default = '../ ↪→ intermediateOutput/faa_files', required = False, help = 'The csv output folder name.') 10 11 args = parser.parse_args() 12 13 #------------------ 14 15 species_file = args.species_file 16 assembly_summary = args.assembly_summary 17 output_csv = args.output_file 18 output_folder = args.output_folder 19 20 #get paths to download protein/nucleic acid info 21 sp_df = anyat.get_paths( species_file, assembly_summary ) 22 23 #consider only those with complete genomes 24 sp_df = sp_df.loc[sp_df[2] == 'Complete Genome'] 25 26 #save this info in a csv file 27 sp_df.to_csv(output_csv) 28 29 #download fna files from all links in sp_df 30 dir_path = output_folder 31 anyat.create_dir(output_folder) 32 sp_df.apply(lambda row: anyat.download_ftp(row[0]+'_'+row[1], row[3], '_protein.faa.gz', output_folder), axis=1) 33 34 #decompress files 35 for file_ in os.listdir(dir_path): 36 anyat.decompress(dir_path+'/'+file_)  67 APÊNDICE B -- anyat.py   1 2 # -*- coding: utf-8 -*- 3 """ 4 Created on Fri Jun 21 09:25:12 2019 5 6 @author: tayna 7 """ 8 9 import pandas as pd 10 import numpy as np 11 import wget 12 import os 13 import gzip 14 import shutil 15 import progressbar 16 17 def create_dir(directory): 18 import os, errno 19 20 try: 21 os.makedirs(directory) 22 except OSError as e: 23 if e.errno != errno.EEXIST: 24 raise 25 26 def get_paths( species_file, assembly_summary ): 27 import re 28 import pandas as pd 29 30 with open ( species_file, 'r') as speciesfile: 31 species_list = [] 32 for line in speciesfile: 33 species_list.append(line.strip()) 34 35 for species in species_list: 36 print("Getting paths of proteins from "+species+" to download.") 37 print("") 38 39 40 with open ( assembly_summary, 'r') as genbankfile: 41 valid_entries = [] 42 for line in genbankfile: 68 43 re.findall(r'|'.join(species_list), line, re.IGNORECASE) 44 if any(re.findall(r'|'.join(species_list), line, re.IGNORECASE)): 45 valid_e = line.split('\t')[7], line.split('\t')[8], line.split('\t')[11], line.split('\t')[19] 46 valid_entries.append(valid_e) 47 48 valid_entries = pd.DataFrame(valid_entries) 49 valid_entries.drop_duplicates 50 #print(valid_entries) 51 return valid_entries 52 53 def download_ftp( species, path, extension, dir_path ): 54 create_dir(dir_path) 55 output_file = species.replace(' ', '_')+'_'+path.split('/')[-1]+extension 56 file_path = os.path.join(dir_path, output_file) 57 58 url = path+'/'+path.split('/')[-1]+extension 59 60 if not os.path.isfile(file_path): 61 try: 62 print("Trying to download "+url) 63 print("") 64 wget.download(url, out=file_path) 65 print("") 66 print("Downloaded") 67 print("") 68 except: 69 print("") 70 print("Unexpected error with download "+url) 71 print("") 72 73 def decompress ( file_ ): 74 print('Decompressing '+file_) 75 print("") 76 with gzip.open(file_, 'rb') as f_in: 77 with open(file_.replace('.gz', ''), 'wb') as f_out: 78 shutil.copyfileobj(f_in, f_out) 79 80 def execute_tmhmm( file, output_path ): 81 import subprocess 82 pbar = progressbar.ProgressBar() 83 84 outpt = '.'.join(file.split("/")[-1].split('.')[:-1]) 85 86 print(outpt) 87 with open(os.path.join(output_path, outpt),"w") as out: 88 p = subprocess.Popen(["perl", "tmhmm-2.0c/bin/tmhmm", "-short", file], stdout=out, stderr=out) 89 90 result = [] 91 92 while p.stdout is not None: 93 94 # Update spinner on one step: 95 # It will update only when any line was printed to stdout! 96 pbar.update() 69 97 # Read each line: 98 99 line = p.stdout.readline() 100 # Add line in list and remove carriage return 101 102 result.append(line.decode('UTF-8').rstrip('\r')) 103 104 # When no lines appears: 105 if not line: 106 print("\n") 107 p.stdout.flush() 108 break 109 110 # Show finish message, it also useful because bar cannot start new line on console, why? 111 print("Finish:") 112 # Results as string: 113 print(''.join(result)) 114 115 def remove_duplicates(infile): 116 s = set() 117 for line in open(infile): 118 s.add(line) 119 open(infile, 'w').writelines(s) 120 121 def linearize_fasta(infile): 122 l = [] 123 print(infile) 124 with open (infile, 'r') as in_file: 125 for line in in_file: 126 if line.startswith('>'): 127 l.append(line.replace('>', '\n>')) 128 if not line.startswith('>'): 129 l.append(line.strip()) 130 131 with open (infile, 'w') as out_file: 132 for item in l: 133 out_file.write(item)