Universidade Federal do Rio Grande do Norte
Instituto Metrópole Digital
Programa de Pós-Graduação em Bioinformática
Mestrado Acadêmico em Bioinformática
Investigação in silico de epítopos oriundos de
linhagens de Mycobacterium avium subsp.
hominissuis como candidatos vacinais
Tayná da Silva Fiúza
Natal-RN
2019
Tayná da Silva Fiúza
Investigação in silico de epítopos oriundos de
linhagens de Mycobacterium avium subsp.
hominissuis como candidatos vacinais
Dissertação de Mestrado apresentada ao Pro-
grama de Pós-Graduação em Bioinformática
da Universidade Federal do Rio Grande do
Norte como requisito parcial para a obten-
ção do grau de Mestre em Bioinformática.
Linha de pesquisa:
Desenvolvimento de Produtos e Processos
Orientador
Prof. Dr. Gustavo Antônio De Souza
Natal-RN
Dezembro, 2019
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Fiúza, Tayná da Silva.
   Investigação in silico de epítopos oriundos de linhagens de
Mycobacterium avium subsp. hominissuis como candidatos vacinais
/ Tayná da Silva Fiúza. - 2019.
   68 f.: il.
   Dissertação (mestrado) - Universidade Federal do Rio Grande
do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação
em Bioinformática, Natal, RN, 2019.
   Orientador: Prof. Dr. Gustavo Antônio De Souza.
   1. Vacinologia Reversa - Dissertação. 2. Surfaceoma -
Dissertação. 3. Mycobacterium Avium - Dissertação. I. Souza,
Gustavo Antônio De. II. Título.
RN/UF/BCZM                                      CDU 351.774.7
Elaborado por Fernanda de Medeiros Ferreira Aquino - CRB-15/301

Às mulheres que continuam tornando essa jornada menos difícil.
Agradecimentos
À Universidade Federal do Rio Grande do Norte(UFRN) pelo apoio estrutural
e recursos cedidos, à Coordenação de Aperfeiçoamento de Pessoal do Ensino
Superior (CAPES) pelo fomento durante todo o mestrado.
Ao Instituto Metrópole Digital (IMD), e em específico ao Bioinformatics Mul-
tidisciplinary Environment (BioME) pelas oportunidades e pelos inspiradores pro-
fissionais que pude encontrar. Ao meu orientador Gustavo Antônio De Souza pelas
discussões e pela paciência. Aos professores João Paulo Lima, Sandro de Souza e Ro-
drigo Dalmolin pelo apoio e pelas considerações neste trabalho. Aos servidoresRodrigo
Romão, Aldo Nascimento e Jessica Petrovich por toda a assistência e gentileza.
Aos amigos e colegas de pós-graduação, em especial a: Renata Cavalcante, pelas
risadas, canções, carinho e apoio incansáveis, Danilo Martins, pela recepção gentil e
pelos picos de glicose no meio da tarde, Emannuel Duarte pelas muitas risadas durante
as refeições, Ricardo Almeida pelas discussões e recomendações instigantes, Iara Dan-
tas por ser inspiração e apoio e Marília Viana pelos comentários que só outra cearense
poderia fazer. Aos amigos Patrick Terremate, Danilo Rodrigo, Paulo Toscano e
Dhiego Souto, do Pandora Team, por mostrar que pela diversão conjunta a gente
chega a bons resultados.
Aos que conheci mesmo antes de vir à Natal e que tão bem a apresentaram, espe-
cialmente: Joab Mendes, Zuno Ribeiro, Amanda Ribeiro e Maria Carolina. Aos
que conheci já aqui: Carol Macedo, Luiza Souza e Aureliano Medeiros e que me
acolheram num grupo temporário que espero durar pra sempre. Ao Leia Mulheres por
ser espaço de acolhimento e crescimento e por me ter permitido conhecer mulheres inspi-
radoras longe e perto. Ao Acalanto Natal onde me recarrego no trabalho voluntário por
ter me dado tantas pessoas queridas, em especial Andrea Amaral e Fabiana Fontes.
Àquelas que de longe ajudam sempre mais do que supõem: Vanessa Carneiro, Fa-
brícia Diniz, Lia Pinho, Bruna Andrade, Rebeca Guimarães, Caroline Landim,
Morgana Feijão, Raíssa Lima e Brenda Sombra. Ao providencial Talles Azigon e
à prestativa Ana Argentina por se articularem pra que eu fizesse a prova tranquila.
À família querida e sempre presente: minha mãe, Francisca Alves e meu pai Anto-
nio Edilson pela dedicação, minha irmã Taynan Fiúza pela empatia, Aurora e Lunar
pelas histórias a contar e aos mais jovens Chicó e Rosinha pelas aventuras por vir.
A primeira coisa sobre o empoderamento é entender que você tem o direito de estar
envolvida. A segunda é que você tem contribuições importantes a fazer, e a terceira é que
você tem de se arriscar para fazer essas contribuições.
Mae Jemison
Investigação in silico de epítopos oriundos de
linhagens de Mycobacterium avium subsp.
hominissuis como candidatos vacinais
Autora: Tayná da Silva Fiúza
Orientador: Prof. Dr. Gustavo Antônio de Souza
Resumo
Micobactérias não tuberculosas são micobactérias ambientais responsáveis por um cres-
cente número de infecções respiratórias e sistêmicas nas últimas décadas, especialmente
entre crianças, idosos e indivíduos imunodeficientes. O complexo doMycobacterium avium,
composto por M. avium e M. intracellulare é responsável pela maior parte desses casos
e esta primeira espécie possui quatro subespécies de diferentes capacidades infecciosas e
hospedeiros. Uma dessas subespécies, Mycobacterium avium subsp. hominissuis, foi iso-
lada de humanos e suínos, enquanto outras variedades infectam gado, aves e animais
silvestres. Até o presente momento o tratamento das infecções causadas pelo complexo
se dá pelo uso de múltiplos antibióticos em um regime longo, custoso e por vezes inefi-
ciente. A identificação de alvos efetivos para o controle desses organismos é essencial e
desafiadora uma vez que proteínas de superfície, moléculas alvo chave em diversas imuno-
terapias bem-sucedidas, são de difícil isolamento. Além disso, o desenho de imunoterapias
e formulações vacinais dependem da identificação de peptídeos de maior interesse imuno-
lógico os quais decorrem de protocolos repetitivos e custosos. Nesse trabalho buscou-se
integrar ferramentas computacionais de maneira a investigar proteínas de superfície com
porções imunogênicas expostas e ubíquas a linhagens de Mycobacterium avium subsp.
hominissuis. Para isto, 32648 proteínas de 7 diferentes linhagens de Mycobacterium avium
subsp. hominissuis, obtidas do NCBI, foram submetidas à predição de seus domínios trans-
membranares pelo software TMHMM e as 3426 sequências contendo estes domínios foram
agrupadas em 577 clusters com respeito a sua homologia de modo a classificar proteínas de
membrana comuns a todas esses organismos utilizando ferramentas da plataforma CMG
Biotools. Utilizando essas sequências, juntamente com os métodos disponíveis no IEDB
foram empregados em predições de afinidade aos 27 alelos de MHC mais frequentes em
diversas populações humanas e os peptídeos de maior imunogenicidade foram seleciona-
dos, restando 112 clusters. Dos peptídeos altamente imunogênicos presentes, apenas os
pertencentes a 58 clusters cujas sequências os situavam mais de 50% na porção externa
da membrana foram considerados possíveis candidatos a uma formulação vacinal. Foram
ainda calculadas a conservação dos peptídeos (presença nas diferentes linhagens anali-
sadas), em que 60% dos clusters são completamente formados por peptídeos ubíquos e
a promiscuidade dos mesmos (número de diferentes MHCs aos quais se ligam), em que
apenas um cluster possui um peptídeo com alta afinidade a quatro MHCs distintos. Com
respeito aos candidatos para a formulação vacinal, um conjunto mínimo de 9 peptídeos
com alta afinidade ao número maior de MHCs distintos foi selecionado com peptídeos
interagindo com 15 moléculas. Nenhuma das sequências desses peptídeos candidatos mos-
trou potencial para geração de reatividade cruzada com proteínas humanas ou suínas.
O trabalho computacional aqui desenvolvido poderá ser aplicado a outros conjuntos de
organismos de maneira a identificar possíveis candidatos para aplicações vacinais.
Palavras-chave: Vacinologia Reversa, Surfaceoma, Mycobacterium avium.
In silico Investigation of epitopes from
Mycobacterium avium subsp. hominissuis strains as
vaccine candidates
Author: Tayná da Silva Fiúza
Supervisor: Dr. Gustavo Antônio de Souza
Abstract
Non-tuberculous mycobacteria are environmental mycobacteria responsible for a growing
number of systemic and respiratory infections affecting mostly children, elders and im-
munocompromised individuals. The Mycobacterium avium Complex comprises Mycobac-
terium avium as well as M. intracellulare and the major responsible for the reported
cases to this day. M. avium has been recently classified as containing four subspecies with
different infectivities as well as different hosts. One of those subspecies, Mycobacterium
avium subsp. hominissuis has been isolated from humans and swines, whereas other va-
rieties are found in cattle, birds and wild animals. To this moment, MAC infections are
controlled with the use of multiple antibiotics through long, expensive and sometimes
inefficient treatment regimens. The identification of effective targets for controlling such
organisms is an essential and challenging task as surface proteins, which are key target
molecules in several successful immunotherapies, are difficult to isolate. In addition, the
design of immunotherapies and vaccine formulations depends on the identification of pep-
tides of immunological interest which are usually found through repetitive and expensive
experimental protocols. In this study applied computational tools to investigate surface
proteins with exposed and ubiquitous immunogenic portions to strains of Mycobacterium
avium subsp. hominissuis. To achieve that, 32648 amino acid sequences obtained from the
NCBI database forMycobacterium avium subsp. hominissuis were submitted to TMHMM
for detection of alpha-helix transmembane domain, which were present in 3426 of those
sequences. These proteins were clustered in 577 groups by CMG Biotools according to
their homology as to identify membrane proteins common to all the organisms of interest.
Those sequences were then submitted to available methods obtained at IEDB to classify
their affinity to a list of 27 MHC alleles frequent in human populations. Peptides with
the highest predicted immunogenicities were selected and 112 clusters with core proteins
and high MHC affinities were selected. Crossing information between IEDB and TMHMM
allowed for the selection of the 58 clusters in which at least one peptide was predicted
to be placed on the outer portion of membrane. We also calculated peptide A. conserva-
tion (their presence in different strains), where 60% of clusters are formed by ubiquous
peptides and B. promiscuity (the number of distinct MHCs to which they bind), where
only a single cluster has a peptide that binds to four distinct MHCs with high affinities.
As for vaccine epitope candidates, a minimum set with nine peptides of high binding
affinity to the highest possible number of distinct MHCs were selected, interacting with
15 molecules. None of those nine sequences showed potential to cross-react with human
or swine proteins. The protocol executed for this work can be applied to other organisms
as means to identify possible vaccine application candidates.
Keywords : Reverse Vaccinology, Surfaceome, Mycobacterium avium.
Lista de figuras
1 Critérios considerados por HEIJNE (1992) . . . . . . . . . . . . . . . . . p. 25
2 Vias de Processamento de Antígenos . . . . . . . . . . . . . . . . . . . p. 27
3 Resumo do arquivo sumário do NCBI . . . . . . . . . . . . . . . . . . . p. 34
4 Alinhamento de sequências das cepas A e B . . . . . . . . . . . . . . . p. 35
5 Resumo do arquivo de saída group_n.dat da ferramenta CMG Biotools p. 35
6 Resumo do arquivo de saída tbl da ferramenta CMG Biotools . . . . . . p. 36
7 Resumo do arquivo de saída curto do TMHMM . . . . . . . . . . . . . p. 37
8 Alelos utilizados na predição de afinidade . . . . . . . . . . . . . . . . . p. 38
9 Resumo do arquivo de predição IEDB . . . . . . . . . . . . . . . . . . . p. 39
10 Resumo do arquivo de integração dos dados . . . . . . . . . . . . . . . p. 41
11 Registros para M. avium hominissuis . . . . . . . . . . . . . . . . . . . p. 43
12 Número de sequências nos arquivos FASTA Amino Acids (FAA) de M.
avium hominissuis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44
13 Número de sequências com domínios alfa-hélice trans-membranares . . p. 44
15 Exemplo de alinhamento de quatro sequências . . . . . . . . . . . . . . p. 45
16 Número de Proteínas Perdidas por Tamanho de Cluster . . . . . . . . . p. 46
17 Média do Percentil Imunogênico de Proteínas dos Clusters . . . . . . . p. 47
18 Imunodominância de epítopos . . . . . . . . . . . . . . . . . . . . . . . p. 48
19 Classificação dos Peptídeos por Cluster . . . . . . . . . . . . . . . . . . p. 49
20 Conservação dos Peptídeos nos Clusters . . . . . . . . . . . . . . . . . . p. 50
21 Promiscuidade dos Peptídeos nos Clusters . . . . . . . . . . . . . . . . p. 50
22 Representação do conjunto mínimo de epítopos . . . . . . . . . . . . . p. 52
23 Peptídeos do Conjunto Mínimo . . . . . . . . . . . . . . . . . . . . . . p. 54
Lista de tabelas
1 Habitat de micobactérias ambientais oportunistas . . . . . . . . . . . . p. 18
2 Regimes de tratamento recomendados para doenças pulmonares associ-
adas ao MAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21
3 Tecnologias para separação proteínas em proteômica e suas vantagens e
desvantages para a análise de proteínas bacterianas de superfície . . . . p. 22
Lista de abreviaturas e siglas
MNT – Micobactérias Não-Tuberculosas
MAC – Mycobacterium avium complex
MAA – Mycobacterium avium subsp. avium
TMHMM – Transmembrane Hidden Markov Model
APCs – Antigen Presenting Cells, Células Apresentadoras de antígenos
MHC – Major Histocombatibility Complex, Complexo de Histocompatibilidade Principal
HLA – Human Leukocyte Antigen, Antígeno Leucocitário Humano
IEDB – Immune Epitope Database and Analysis Resource, Banco de Dados de Epitopos
Imunológicos
NCBI –National Center for Biotechnology Information, Centro Nacional para Informações
em Biotecnologia
Sumário
1 Introdução p. 17
1.1 Micobactérias não tuberculosas . . . . . . . . . . . . . . . . . . . . . . p. 17
1.2 Surfaceoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21
1.2.1 Métodos de Predição de Domínios Trans-membranares . . . . . p. 24
1.3 Sistema Imune . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25
1.3.1 Métodos de Predição de Imunogenicidade . . . . . . . . . . . . . p. 27
1.3.2 Estratégias de Vacinologia Reversa . . . . . . . . . . . . . . . . p. 28
1.4 Agrupamento de sequências homólogas . . . . . . . . . . . . . . . . . . p. 29
1.5 Justificativa e relevância do trabalho . . . . . . . . . . . . . . . . . . . p. 30
2 Objetivos p. 32
2.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32
2.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 32
3 Métodos p. 33
3.1 Desenvolvimento dos scripts . . . . . . . . . . . . . . . . . . . . . . . . p. 33
3.2 Aquisição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33
3.3 Comparação de Proteomas . . . . . . . . . . . . . . . . . . . . . . . . . p. 34
3.4 Identificação de Domínios Trans-membranares . . . . . . . . . . . . . . p. 37
3.5 Análise Imunogenética . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 37
3.6 Integração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 40
3.7 Similaridade com proteínas do hospedeiro . . . . . . . . . . . . . . . . . p. 42
4 Resultados e Discussão p. 43
4.1 Sequências Proteicas Obtidas . . . . . . . . . . . . . . . . . . . . . . . p. 43
4.2 Domínios Trans-membranares . . . . . . . . . . . . . . . . . . . . . . . p. 44
4.3 Pan e Core Surfaceomas . . . . . . . . . . . . . . . . . . . . . . . . . . p. 44
4.4 Análise Imunogenética . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 46
5 Conclusão p. 55
Referências p. 56
Apêndice A -- get_proteome.py p. 66
Apêndice B -- anyat.py p. 67
17
1 Introdução
1.1 Micobactérias não tuberculosas
O gênero Mycobacterium possui espécies amplamente estudadas como Mycobacterium
leprae e aquelas do complexo de Mycobacterium tuberculosis, mas suas representantes
mais numerosas são as micobactérias não tuberculosas (MNT) (TORTOLI, 2003). Essas
bactérias estão presentes em nichos compartilhados por humanos e animais tais como
o solo, fontes naturais e sistemas de distribuição de água potável (FALKINHAM, 2002)
(Tabela 1).
MNTs possuem ácido micólico de cadeia longa em suas membranas externas, o que
confere maior hidrofobicidade, impermeabilidade e permitem crescimento lento mesmo
para as micobactérias classificadas como de crescimento rápido (BRENNAN; NIKAIDO,
1995), o que torna essas espécies capazes de colonizar superfícies e, em alguns casos,
resistentes à desinfetantes e antibióticos (BENDINGER et al., 1993; RASTOGI et al., 1981;
JARLIER; NIKAIDO, 1994).
Muitas vezes essas bactérias são identificadas em associação, no denominado com-
plexo de Mycobacterium avium (MAC, do inglês Mycobacterium avium complex ). Esse
complexo pôde ser isolado de secreções do aparelho respiratório de indivíduos com do-
enças pulmonares (TSUKAMURA, 1973a, 1973b) assim como de indivíduos aparentemente
saudáveis (EDWARDS; PALMER, 1959; PRINCE et al., 1989), podendo ser um fator agravante
de doenças pré-existentes. Estima-se que infecções causadas por MNTs acometam 10 a
cada 100000 pessoas nos Estados Unidos, o que configura 30.000 novos casos a cada ano
nesse nesse país (PRIMM; III, 2017).
Nos últimos anos, tem-se reportado aumento no registro de indivíduos acometidos por
doenças pulmonares associadas à micobactérias não tuberculosas em diversos continentes
(SOCIETY et al., 1997; O’BRIEN; GEITER; JR, 1987; TSUKAMURA et al., 1988; NISHIUCHI;
IWAMOTO; MARUYAMA, 2017). Na Inglaterra, País de Gales e Irlanda do Norte a in-
18
Tabela 1: Habitat de micobactérias ambientais oportunistas
Habitat Referência
Fontes naturais de água (III; PARKER; GRUFT, 1980;
REYN et al., 1993)
Sistemas de distribuição de água potável (COVERT et al., 1999; FAL-
KINHAM; NORTON; LECHE-
VALLIER, 2001)
Biofilmes em sistemas de distribuição de água potável (FALKINHAM; NORTON; LE-
CHEVALLIER, 2001; TORVI-
NEN et al., 2004)
Sistemas de esgoto residenciais, hospitalares e de zonas (MOULIN et al., 1988; JR;
de construção BROWN; GRIFFITH, 1998;
NISHIUCHI et al., 2007; FAL-
KINHAM et al., 2008)
Banheiras aquecidas e SPAs (EMBIL et al., 1997; KAHANA
et al., 1997; MANGIONE et al.,
2001; MARRAS et al., 2005)
Aerossóis residenciais e naturais (FALKINHAM et al., 2008)
Solo e turfa de forestas boreais (IIVANAINEN et al., 1997,
1999)
Pântanos acidicos (JR; PARKER; III, 1992)
Terra de vaso (GROOTE et al., 2006)
Sistemas de fluido de remoção de metal (BERNSTEIN et al., 1995;
SHELTON; FLANDERS; MOR-
RIS, 1999; MOORE et al.,
2000)
Fonte: Traduzida de (FALKINHAM III, 2009)
cidência dessas infecções subiu de 5,6 para 7,6 a cada 100.000 habitantes (SHAH et al.,
2016); na Alemanha foram 2,3 a 3,3 casos a cada 100.000 habitantes entre os anos de
2009 e 2014 (RINGSHAUSEN et al., 2016); em Ontário, no Canadá, há registros de 13,3
casos a cada 100.000 habitantes a cada ano (MARRAS et al., 2016) e no Japão esse número
chega a 14,7 a cada 100.000 indivíduos (NAMKOONG et al., 2016). Fatores como o cres-
cimento de populações portadoras do HIV (MARRAS; DALEY, 2002), envelhecimento
populacional (OLIVER et al., 2001), aumento no número de pessoas protegidas do bacilo
Calmette-Guérin e por conseguinte identificadas com outras micobactérias (ROMANUS
et al., 1995), podem influenciar o aumento no número de casos registrados.
Doenças associadas à MNTs ocorrem especialmente em indivíduos com anormalidades
pulmonares decorrentes de enfermidades de origem não genética e também aqueles com
condições genéticas e imunológicas que configuram predisposições a doenças pulmonares.
Elas ocorrem em menor frequência em indivíduos saudáveis, e alguns dos fatores de risco
19
conhecidos incluem:
1. baixa capacidade de resposta imune devido à infecção pelo vírus da imunodefi-
ciência humana, câncer, tratamento quimioterápico ou supressão imune devido a
transplante; (O’BRIEN; CURRIE; KRAUSE, 2000)
2. doença pulmonar pre-existente (pneumoconiose, silicose, tuberculose, doença pul-
monar obstrutiva crônica); (FALKINHAM III, 2009)
3. distúrbios da parede torácica; (FALKINHAM III, 2009)
4. alcoolismo; (O’BRIEN; CURRIE; KRAUSE, 2000)
5. tabagismo; (O’BRIEN; CURRIE; KRAUSE, 2000)
Indivíduos infectados por variadas MNTs podem se mostrar assintomáticos por meses
e até anos (JR, 1968 apud FIELD; FISHER; COWIE, 2004). Além disso, a natureza branda
dos sintomas em alguns indivíduos dificulta a procura de ajuda especializada. Alguns
pacientes relatam tosse crônica com ocasional secreção purulenta muitas vezes livre de
traços de sangue (SOCIETY et al., 1997). Sintomas mais claros de infecção como febre,
perda de peso e fadiga só costumam se manifestar na presença de doenças pulmonares
mais pronunciadas que muitas vezes mascaram a presença dessas micobactérias (CROW et
al., 1957).
Crianças acometidas com infecções por MNTs costumam tipicamente manifestar a
presença do patógeno na forma de linfadenites cervicais (WOLINSKY, 1995; HAZRA et al.,
1999), porém esse quadro também pode comprometer adultos imunodeprimidos e, em
menor grau, indivíduos adultos imunocompetentes (ASENSI et al., 2000; CHRISTENSEN;
KOEPPE, 2010; PEDRO; QUINTANA-BELTRÁN; BERMÚDEZ-RUIZ, 2007).
A população idosa também parece ser especialmente afetada, com estimativas que
apontavam uma incidência de 15,5 casos para cada 100.000 indivíduos acima de 50 anos
no estado de Oregon, EUA onde a estimativa geral para a população não ultrapassava 6
casos/100.000 em 2006 (CASSIDY et al., 2009).
No estado de São Paulo, Brasil as três espécies mais frequentemente isoladas são o
complexo M. avium, M. intracellulare e M. kansasii (UEKI et al., 2005; CHIMARA, 2005).
Em institutos brasileiros como o Instituto Adolf Lutz o significado clínico do isolamento de
MNTs é atribuído de acordo com o sítio de isolamento (estéril ou não-estéril) e quantidade
20
de isolamentos, sendo considerada uma sugestão de doença quando o indivíduo possui
colônias de MNTs isoladas de um sítio estéril ou de três sítios não estéreis (SES-SP, 2005).
Uma vez identificada a infecção, o tratamento da doença se dá em um regime com
múltiplos antibióticos (Tabela 2) e por conta da crescente resistência das MNTs tal abor-
dagem pode durar mais que cinco anos (PRIMM; III, 2017), o que junto com efeitos colate-
rais e possíveis re-infecções resulta em uma alta taxa de fracassos no tratamento (FIELD;
FISHER; COWIE, 2004). Além disso, o diagnóstico preciso e a genotipagem molecular de
uma ou mais espécies envolvidas na infecção permite direcionar tratamentos apropriados
(SADIKOT, 2019). Das infecções associadas à MNTs, as mais frequentes em humanos são
causadas por Mycobacterium kansasii, Mycobacterium abscessus e, principalmente pelo
MAC, que é formado pela associação de Mycobacterium avium e Mycobacterium intracel-
lulare.
Mycobacterium avium é o principal agente patogênico do complexo (YANO et al., 2017)
e em 2002, baseando-se em diferenças de marcadores moleculares, na sequência 16S-23S e
temperatura de crescimento, MIJS et al. propuseram nomear Mycobacterium avium subsp.
avium (MAA) as variedades isoladas de aves e Mycobacterium avium subsp. hominis-
suis (MAH) aquelas isoladas de humanos e suínos. Atualmente, há ainda outras duas
subespécies classificadas: M. avium subespécie silvaticum (MAS) e M. avium subespécie
paratuberculosis (MAP) (TURENNE et al., 2006; RINDI; GARZELLI, 2014).
Apresentando patogeninicidade tanto em humanos quanto em suínos, MAH se apre-
senta como alvo de crescente preocupação (VLUGGEN et al., 2016) de entidades de saúde
e vigilância sanitária, tendo impactos no bem-estar da população, onerando hospitais e
afetando a indústria da carne (ALVAREZ et al., 2011).
Pesquisadores da área enfatizam a necessidade de melhor caracterização das subes-
pécies de M. avium e seus genótipos como pontos chave para a compreensão de aspectos
epidemiológicos como as origens desse patógeno e seu possível papel zoonótico (PATE et
al., 2011; IWAMOTO et al., 2012; MUWONGE et al., 2014), além de permitir a concentração
de esforços na prevenção da contaminação de fontes de água (WINTHROP, 2010).
Ademais, análises moleculares, estudos de virulência e ensaios clínicos para identifica-
ção de fármacos para uso em terapias mais rápidas, precisas e efetivas são ações essenciais
para mitigar ou mesmo impedir avanço no número de infecções causadas por essas mico-
bactérias (WINTHROP, 2010).
21
Tabela 2: Regimes de tratamento recomendados para doenças pulmonares associadas ao
MAC
STA STA STA STB SJT
Tratamento Tratamento Doença
inicial de inicial de reincidente
bronquiecta- doença ou avançada
sia nodular† cavitária (severa)
Macrolídeo Clar 1000 Clar Clar Clar 10
mg TS Or 500‡–1000 500‡–1000 mg/kg/dia
Azi 500–600 mg/dia mg/dia
mg TS ou Azi ou Azi
250‡–300 250‡–300
mg/dia mg/dia
Etambutol 25 mg/kg/- 15 mg/kg/- 15 mg/kg/- 15 mg/kg/- 15 mg/kg/-
dia TS dia dia dia dia
Rifamicina Rifampicina Rifampicina Rifabutina Rifampicina Rifampicina
600 mg TS 450‡–600 250–300 450‡–600 10 mg/kg/-
mg/dia mg/dia ou mg/dia dia
Rifampicina
450‡–600
mg/dia
Aminogli- Nenhum Nenhum ou Amicacina Estreptomicina
cosídeo Amicacina ou Estrepto- ou Canami-
ou Estrepto- micina cina††
micina¶
Outros fár- Isoniazida
macos 300 mg/dia
ou Ciproflo-
xacina 750
mg DD‡‡
Duração 12 meses de 12 meses de 12 meses de 2 anos 2 anos
resultados resultados resultados
negativos* negativos negativos*
1 Fonte: Traduzida de (THOMSON; YEW, 2009) † † Não recomendado para doenças gra-
ves/ avançadas/reincidentes. ‡ Dose mais baixa para peso corporal <50 kg. § § A ser
substituído em caso de intolerância à rifampicina ou ao etambutol, a claritromicina ou a
ciprofloxacina. †† Administrado intermitentemente durante os primeiros 2 a 6 meses. ¶
Administrado intermitentemente durante os primeiros 2 a 3 meses. ‡‡ Pode ser adicionado
aos 12 meses se o paciente estiver respondendo mal. STA, American Thoracic Society
(Sociedade Torácica Americana); Azi, azitromicina; DD, duas vezes ao dia; STB, British
Thoracic Society (Sociedade Torácica Britânica); Clar, claritromicina; SJT, Japanese
Society for Tuberculosis (Sociedade Japonesa para a Tuberculose); MAC, Mycobacterium
avium complex; TS, três vezes por semana.
1.2 Surfaceoma
A membrana plasmática é a interface utilizada pelas células para perceber e responder
ao seu ambiente. As proteínas presentes nessas interfaces desempenham funções relacio-
22
nadas à nutrição, transporte de íons, comunicação intra-celular e inter-celular, sinalização
e outras (BOHELER; GUNDRY, 2018). A detecção de estímulos como temperatura, acidez,
densidade e presença de antibióticos e a modulação das respostas a esses e outros fa-
tores conferem vantagens competitivas que permitem a diferentes células ou organismos
perdurarem em determinados nichos (SOLIS; CORDWELL, 2011).
O surfaceoma é o conjunto das proteínas de superfície de uma unidade biológica
(célula, órgão, tecido, organismo) e as características únicas dessas proteínas, em especial
a acessibilidade, as coloca como alvo de drogas e imunoterapias, assim como marcadores
para identificação de tipo celular e mesmo estágios de doença (BOHELER; GUNDRY, 2018).
Apesar de somarem considerável parte dos alvos de imunoterapias, a caracterização
e isolamento dessas entidades proteicas são processos demorados e trabalhosos especi-
almente quando realizados por metodologias tradicionais como SDS-PAGE, e custosos
quando feitos como o uso de tecnologias com enzimas de digestão ou anticorpos imo-
bilizados (WILLIAMSON et al., 2018) (Tabela 3). No caso de bactérias gram-positivas, a
dificuldade na solubilização da superfície rígida dessas células em protocolos de proteô-
mica é um entrave a mais no estudo dessas entidades (CORDWELL, 2006).
Tabela 3: Tecnologias para separação proteínas em proteômica e suas vantagens e des-
vantages para a análise de proteínas bacterianas de superfície
Método de sepa- Enriqueci- Vantagens Desvantagens
ração mento de
protei-
nas de
membrana
Eletroforese Solubilidade Remoção dos componen- Subrrepresentação de PMIs;
Bidimensional diferencial tes citosólicos abundantes; frações impuras; perda de
baixo custo; técnica fácil; proteínas associadas a mem-
apropriada para PMEs brana solúveis; viés de ele-
troforese bidimensional anti
proteínas básicas e de baixa
abundância
Enriqueci- Conforme acima Conforme acima
mento
Químico
23
Biotinilação Seletividade a proteínas Permeabilidade membranar
de superfície e epítopos, e lise celular podem causar
quando combinada com os marcação de proteínas cito-
métodos acima sólicas; géis resultantes não
são adequados para análise
em EM; PMIs subrepresen-
tadas por limitações da ele-
troforese bidimensional
Tratamento Permite análise compara- Lise celular e liberação de
com tiva antes e depois do tra- proteínas citosólicas pode
proteinase- tament; adequada para pro- ocorrer
K teínas expostas na superfí-
cie e PMEs
Cromatografia MudPIT Libera peptídeos hidrofíli- Pobre*** para análises com-
Líquida Bidi- cos de proteínas hidrofóbi- parativas exceto se mar-
mensional cas, sendo assim adequado cadores forem adicionados
para PMIs; sem viés para (ver abaixo); número de
proteínas de acordo com seu falsos positivos maior pelo
pI ou massa; adequado para maior volume de dados do
proteínas pouco abundantes método
ICAT Adequado para análise com- Depende de marcação da
parativa de duas amostras e cisteína, logo diversos peptí-
outros como para MudPIT deos podem não ser marca-
dos; marcação ineficiente e
requer passo de purificação;
problemas genéricos associ-
ados a Cromatografia Lí-
quida Bidimensional como
acima.
iTRAQ Adequado para análise com- Marcação ineficiente e re-
paratova de até quatro quer purificação dos peptí-
amostras; e marca em gru- deos marcados
pos amino (lisina); alta con-
fiança estatística com um
único experimento
SILAC Marca proteínas traduzidas Células devem ser cultiva-
e é adequado para análises das in vitro e possuir requi-
comparativas sição nutricional dos ami-
noácidos marcados
Raspagem Abordagem surfaceômica de Lise celular e liberação de
de superfí- facto proteínas citosólicas podem
cie ocorrer
SDS-PAGE Poder de solubilização do Difícil quantificação e baixa
LC-MS/MS SDS; tecnicamente fácil resolução do SDS-PAGE
Fonte: Traduzida de (CORDWELL, 2006).
Avanços da última década em técnicas de sequenciamento em massa e na performance
24
de processadores permitiram a geração e armazenamento de uma grande quantidade de
dados nas áreas de pesquisa clínica em diferentes níveis de organização biológica (YAN et
al., 2018). Diversas sub-áreas de estudo surgiram para analisar e interpretar esses dados
de maneira a auxiliar na busca de respostas para questões biológicas.
1.2.1 Métodos de Predição de Domínios Trans-membranares
Os primeiros métodos in silico de predição de domínios α-hélice trans-membranares
consideravam apenas o critério de hidrofobicidade local de algumas sequências (ARGOS;
RAO; HARGRAVE, 1982), outros focavam na análise da distribuição resíduos carregados po-
sitivamente (HEIJNE, 1986, 1994) e posteriormente uma junção dos dois critérios mostrou
melhores resultados na identificação desses domínios (HEIJNE, 1992) (ver Figura 1).
Os métodos in silico posteriores consideraram novos aspectos ao buscar por hélices
trans-membranares em sequências proteicas e logo surgiu o método TMHMM (KROGH et
al., 2001), baseado em Rede Oculta de Markov e incorporando os critérios acima mencio-
nados assim como informações sobre o tamanho das hélices e restrições ditas gramaticais,
isto é, restrições quanto aos tipos de topologia que hélices adotam quando presentes em re-
giões trans-membranares. Esse método mostrou a melhor performance entre 17 softwares
avaliados, contando com o menor número de falsos positivos e de falsos negativos mesmo
quando comparado a outro método baseado em Rede Oculta de Markov (HMMTOP)
(MÖLLER; CRONING; APWEILER, 2001).
25
Figura 1: Critérios considerados por HEIJNE (1992)
(a) Janela deslizante usada para análise de (b) Gráfico de hidrofobicidade para a proteína
hidrofobicidade. SecY.
(b) O gráfico de hidrofobicidade mostra regiões
bastante acima e bastante abaixo dos pontos li-
mites para a classificação como região externa ou
interna, contudo há um segmento com diversos
pontos de inflexão. A partir desse gráfico, seriam
duas as possibilidades de topologia transmembra-
nar (c), com o segmento em questão marcado em
preto. A soma dos resíduos positivos Arginina e
Lisina é apontada em cada volta e a diferença do
total de resíduos de Arg e Lys em cada face da
membrana é representado pelo delta ao lado das
representações. Nesse, como em outros casos a to-
(c) Duas topologias possíveis para a proteína pologia correta é finalmente definida por esse viésde resíduos básicos. Fonte: Adaptadas de (HEIJNE,
SecY baseadas no gráfico de hidrofobicidade. 1992)
1.3 Sistema Imune
O sistema imune é uma rede complexa de órgãos, células e macromoléculas que atuam
em conjunto em organismos vertebrados (PARKIN; COHEN, 2001). Convenciona-se chamar
imunidade adquirida a característica desse sistema de reconhecer ameaças específicas por
meio de recursos de memória celular, resultando em uma proteção imune duradoura e
com respostas rápidas. (BACKERT; KOHLBACHER, 2015)
Para a aquisição de imunidade a diferentes invasores, tecidos especializados (órgãos
linfoides periféricos) funcionam como ponto de reconhecimento de antígenos, onde Células
Apresentadoras de Antígenos (APCs) entram em contato com linfócitos T imaturos -
26
iniciando uma cascata bioquímica que leva ao amadurecimento desses últimos em linfócitos
efetores ou de memória. Antígenos são substâncias exógenas capazes de induzir respostas
imunes ou mesmo os alvos dessas respostas imunes e epítopos são as porções específicas
dos antígenos reconhecidas por linfócitos individuais (ABBAS; LICHTMAN; PILLAI, 2007).
Linfócitos T efetores CD8+ se diferenciam em linfócitos T citotóxicos, tendo a habili-
dade de matar alvos celulares. Já linfócitos T efetores CD4+ se diferenciam em linfócitos
T auxiliares e trabalham na ativação de macrófagos, ativação e proliferação de linfócitos
B e outros linfócitos T e inflamação (ABBAS; LICHTMAN; PILLAI, 2007).
A interação entre APCs e linfócitos T imaturos é mediada por uma sinapse imuno-
gênica entre diversas proteínas de membrana, dentre elas estão moléculas do complexo
de histocompatibilidade principal, também conhecido como MHC (do inglês major histo-
combatibility complex ) ou HLA (do inglês Human Leukocyte Antigen), responsáveis por
apresentar peptídeos provenientes da clivagem de proteínas exógenas (ABBAS; LICHTMAN;
PILLAI, 2007).
As moléculas de MHC são categorizadas em duas classes. A primeira classe de MHCs
possui uma cadeia polimórfica α em complexo não covalente com uma β2-microglobulina
não-polimórfica, sendo capaz de reter peptídeos de 8 a 11 resíduos de comprimento em sua
fenda e estando presente em todas as células nucleadas. Já moléculas de MHC de classe II
possuem duas cadeias polimórficas α e β, sendo capazes de apresentar peptídeos de 11 a
30 resíduos de comprimento e sendo expressas em APCs especializadas tais como células
dendríticas, macrófagos e poucas outras. Os domínios tipo-imunoglobulina de MHCs de
classe I e II possuem sítios de ligação aos co-receptores presentes em linfócitos T do tipo
CD8+ e CD4+, respectivamente (ver Figura 2) (ABBAS; LICHTMAN; PILLAI, 2007).
A interação entre os peptídeos fagocitados e o MHC é pré-requisito para toda a sequên-
cia de eventos que irá gerar memória celular contra a entidade de origem do peptídeo e
tem sido estudada experimentalmente por meio de diversas abordagens (MARGALIT; AL-
TUVIA, 2003). Para que essa interação ocorra, é necessária a existência de uma afinidade
entre os motivos de ligação específicos dos peptídeos e os resíduos presentes na fenda do
MHC (SETTE et al., 1990)
Desde a década de 90 pesquisadores trabalham e aperfeiçoam diferentes técnicas de
identificação de peptídeos com potencial de gerar respostas imunes de acordo com a afi-
nidade destes peptídeos com fendas de MHCs de diferentes alelos.
27
Figura 2: Vias de Processamento de Antígenos
(ABBAS; LICHTMAN; PILLAI, 2007)
1.3.1 Métodos de Predição de Imunogenicidade
Alguns desses métodos exploram escores calculados por meio de afinidade, outros
se baseiam em simulações de docking molecular, outros buscam a relação quantitativa
estrutura-atividade do complexo MHC-peptídeo e, mais recentemente alguns empregam
redes neurais artificiais, máquinas de vetores de suporte e outras estratégias de aprendi-
zado de máquina (DESAI; KULKARNI-KALE, 2014).
Os principais métodos desenvolvidos e utilizados para identificar epítopos estão dis-
poníveis no Banco de Dados de Epitopos Imunológicos (IEDB, do inglês Immune Epitope
Database and Analysis Resource, www.iedb.org), o qual contém informações sobre alvos
da imunidade adquirida devidamente curadas da literatura (VITA et al., 2014).
Para predição da afinidade de ligação peptídeo-MHC de classe II alguns dos métodos
disponíveis são: TEPITOPE (STURNIOLO et al., 1999), SMM-Align (NIELSEN; LUNDEGA-
ARD; LUND, 2007), NN-Align (NIELSEN; LUND, 2009) e NetMHCIIPan (NIELSEN et al.,
2008) - certos métodos possuem maior aplicabilidade e acurácia para trabalhar com alelos
específicos.
O TEPITOPE implementa um algoritmo que utiliza 11 matrizes de pontuação posição
específica para representar afinidades de ligação peptídeo-MHC, sendo cada matriz uma
representação do bolsão de ligação. As matrizes indicam a contribuição de cada um dos
vinte aminoácidos para a afinidade de ligação peptídeo-MHC de acordo com suas possíveis
28
posições dentro do bolsão de ligação. Essas matrizes são específicas para os 51 alelos de
HLA-DR e sua aplicação se restringe às análises com esses alelos (MARGALIT; ALTUVIA,
2003).
O SMM-align atribui pesos diferentes e independentes para aminoácidos em diferen-
tes posições e considera a influência dos resíduos flanqueadores na afinidade de ligação.
Suas matrizes foram construídas usando uma estratégia de aprendizagem de máquina que
buscou reproduzir valores de IC50 dos dados de seu conjunto de treinamento (NIELSEN;
LUNDEGAARD; LUND, 2007). Já o NN-Align acrescenta uma correção para o viés gerado
por múltiplos epítopos com centros de ligação idênticos representados no conjunto de
treinamento (NIELSEN; LUND, 2009).
O método NetMHCIIPan utiliza todos esses critérios e computa quaisquer resíduos
do MHC de classe II que tenham sido observados a uma distância que permita interação
direta com resíduos do peptídeo analisado. Uma rede neural artificial é alimentada com
esses dados de modo a realizar predições generalizáveis para alelos de HLA-DR com poucos
dados ou mesmo nenhum dado experimental (NIELSEN et al., 2008).
Existe ainda o método Consensus3 (WANG et al., 2008, 2010) em que o valor de afi-
nidade para cada dupla peptídeo-MHC se dá pelo percentil ranqueado da mediana dos
escores de imunogenicidade apontados pelos três melhores preditores de peptídeos ligantes
a um dado alelo de MHC.
Todos esses preditores podem ser explorados em conjunto com outras ferramentas
de análise imunológica, assim como acoplados a outros programas de in silico e dados
experimentais como meios de obter conjuntos de candidatos vacinais em potencial (CVPs),
abordagem conhecida como vacinologia reversa (VR) (MOXON; RECHE; RAPPUOLI, 2019).
1.3.2 Estratégias de Vacinologia Reversa
As grandes vantagens dessa abordagem de desenvolvimento de vacinas incluem detec-
ção de antígenos que poderiam ser pouco presentes em amostras purificadas, uma limitação
bioquímica e, ainda mais importante, a ausência do cultivo de cepas patogênicas para a
purificação de tais antígenos (DALSASS et al., 2019).
O primeiro emprego de um protocolo de VR ocorreu na década de 90, num trabalho
que buscava epítopos imunogênicos no meningococo do tipo B (MenB) e que trabalhou
com dados de todas as janelas de leituras extraídas de uma linhagem de MenB (MC58)
(MASIGNANI; PIZZA; MOXON, 2019). Das proteínas selecionadas como CVPs, cerca de 61%
29
foram expressas em E. coli com sucesso, 5% foram capazes de gerar atividade bactericida
e, ao fim, 5 proteínas foram utilizadas na formulação final da vacina comercializada como
Bexsero® (SERRUTO et al., 2012).
Protocolos similares foram aplicados nos anos seguintes para patógenos como Ch-
lamydia pneumonia, Streptococcus pneumoniae e Porphyromonas gingivalis e obtiveram
sucesso (CAPO et al., 2005; WIZEMANN et al., 2001; ROSS et al., 2001). Além disso, surgiram
programas de vacinologia reversa com propostas variadas para resolver a mesma questão,
tendo sido aplicados a diferentes proteomas, são eles: NERVE (VIVONA; BERNANTE; FI-
LIPPINI, 2006), VaxiJen (DOYTCHINOVA; FLOWER, 2007), Vaxign (HE; XIANG; MOBLEY,
2010), Bowman-Heinson (BOWMAN et al., 2011; HEINSON et al., 2017), Jenner-predict
(JAISWAL et al., 2013), VacSol (RIZWAN et al., 2017), PanRV Hisham-Ashhab (HISHAM;
ASHHAB, 2018) e ReVac (D’MELLO et al., 2019). Com exceção dos dois últimos, mais re-
centes, todos esses programas se especializam na identificação de CVPs em conjuntos de
proteínas provenientes de uma única linhagem patogênica.
1.4 Agrupamento de sequências homólogas
O grande número de sequências biológicas disponíveis atualmente permite a realiza-
ção de análises quanto a relações genômicas entre bactérias e outros organismos. Essas
comparações se baseiam no grau de similaridade entre duas ou mais sequências, o qual é
pontuado, ranqueado e analisado quando apresentam significância estatística (CALLISTER
et al., 2008).
Nesse contexto o uso de conceitos como core e pan proteoma têm sido importantes
no esclarecimento de alguns pontos sobre a evolução de espécies e subespécies (CALLIS-
TER et al., 2008). Aqui, o termo proteoma designa o coletivo de proteínas passíveis de
expressão de acordo com o genoma disponível para um organismo. O core proteoma de
um grupo costuma ser definido como o conjunto de proteínas encontradas em todos os
proteomas analisados, enquanto o pan proteoma designa todas as proteínas presentes. O
pan proteoma costuma ainda ser subdividido em proteoma acessório, contendo sequências
presentes em pelo menos dois proteomas, mas não em todos e o proteoma único, composto
por proteínas encontradas em apenas um conjunto.
Para o agrupamento de sequências como homólogas e consequente classificação desses
grupos de sequências como pertencentes ao core proteoma ou alguma das outras classi-
ficações podem ser empregados algoritmos de clusterização por melhor hit bidirecional
30
também conhecido como melhor hit simétrico, em que são testados alinhamentos entre
todas as proteínas de todos os proteomas (all-vs-all, incluindo as proteínas de um mesmo
proteoma) e as sequências que possuem os melhores alinhamentos recíprocos estatistica-
mente significativos são agrupadas. Nesses agrupamentos a porcentagem de identidade
(quantidade de correspondências exatas em posições correspondentes das sequências ana-
lisadas) e e-value (probabilidade do alinhamento em questão ter sido obtido por acaso
naquele banco de dados) dos alinhamentos também são considerados.
1.5 Justificativa e relevância do trabalho
Conforme discutido anteriormente, infecções causadas por MNTs têm acometido mais
indivíduos a cada ano, tendo como grupos de risco crianças, idosos e indivíduos imuno-
deprimidos. Seu diagnóstico é muitas vezes tardio, com tratamento longo (mínimo de 12
meses), com múltiplos antibióticos, oneroso e por vezes ineficiente. As infecções dessa ca-
tegoria são mais frequentemente causadas pelo MAC, o qual por sua vez é uma associação
entre M. intracellulare e M. avium. MAH é a subspécie de M. avium isolada tipicamente
de humanos e suínos, existindo então uma demanda por estratégias eficazes de controle e
eliminação da infecção.
A identificação de um biofármaco para tal controle pode ser direcionada pela carac-
terização e isolamento de proteínas de superfície, as quais desempenham funções muitas
vezes essenciais enquanto acessíveis no ambiente externo - alguns dos fatores que as co-
locam em grande abundância entre alvos de imunoterapias já estabelecidas. Contudo, o
isolamento experimental dessas proteínas é prejudicado pelas características intrínsecas
dessas entidades, sendo útil então utilizar estratégias de predição in silico para a separação
de proteínas de superfície das demais sequências aminocídicas dessas micobactérias.
Estimular a maquinaria do sistema imune de maneira precisa para o controle de in-
fecções é uma estratégia utilizada tanto de maneira preventiva (como na elaboração de
vacinas) quanto tardia e mais uma vez estratégias de predição in silico podem ser em-
pregadas para apontar proteínas, e mais precisamente, regiões de maior interesse a se
considerar na formulação de uma vacina ou medicamento.
Além disso, compreender a diversidade nas linhagens envolvidas em infecções geradas
por um agente patogênico permite traçar abordagens voltadas à entidades moleculares
únicas a uma delas, compartilhada por algumas ou ubíquas a todas - a depender dos
objetivos traçados por diferentes projetos. Para isso, a comparação das sequências dessas
31
entidades permite a realização de agrupamentos por parâmetros obtidos na análise da
presença de homologia entre as sequências.
Utilizar-se dessas estratégias separadamente pode conferir algumas vantagens, mas a
integração desses dados permite um apoio mútuo de evidências, além da investigação de
características insurgentes dessa agregação de informações. Nesse trabalho, a sequência
de algoritmos utilizados e concatenados permite a identificação de epítopos oriundos de
linhagens de MAH e sua investigação em face de informações sobre suas topologias trans-
membranares, conservação em diferentes linhagens, promiscuidade à diferentes HLAs e em
comparação a epítopos similares de proteínas homólogas ou não. As análises desenvolvidas
poderão ser aplicadas em outros projetos a outras linhagens uma vez que adaptadas para
os objetivos e finalidades desses outros estudos.
32
2 Objetivos
2.1 Objetivo geral
Desenvolver uma análise computacional capaz de integrar dados provenientes de softwa-
res de predição de imunogenicidade, predição de domínios trans-membranares e agru-
pamento de sequências por homologia de maneira a identificar peptídeos candidatos a
epítopos vacinais de um conjunto de linhagens e aplicar esta análise à linhagens de My-
cobacterium avium subsp. hominissuis.
2.2 Objetivos específicos
• Obter conjuntos de proteínas de diferentes linhagens de MAH;
• Agrupar as proteínas dessas linhagens de acordo com a homologia entre elas;
• Selecionar proteínas de superfície contendo alfa-hélices trans-membranares;
• Identificar peptídeos com alta afinidade de ligação a diferentes molécula do MHC;
• Integrar estes resultados realizando uma análise de dados das propriedades insur-
gentes;
• Discriminar epítopos ou conjuntos de epítopos candidatos para uma abordagem
vacinal contra diferentes linhagens de MAH.
33
3 Métodos
3.1 Desenvolvimento dos scripts
Os scripts das primeiras etapas desta análise foram desenvolvidos usando a versão
3.6.0 do Python (ROSSUM; JR, 1995) e os módulos argparse (versão 1.1) (BETHARD, 2006),
Bio (versão 1.74) (COCK et al., 2009), matplotlib (versão 3.1.1) (HUNTER, 2007), numpy
(versão 1.11.3) (OLIPHANT, 2006), pandas (versão 0.19.2) (MCKINNEY et al., 2010), pro-
gressbar (versão 3.47.0) (HATTEM, ), re (versão 2.2.1) (Secret Labs AB, 1998), subprocess
(ASTRAND, 2003), time, wget (versão 3.2) (Anatoly Techtonik, 2010) e zipfile e os, sys, re-
source, gzip. Os códigos da plataforma CMG Biotools foram escritos em Perl e modificados
localmente de modo a registrar apenas a sequência com melhor alinhamento para uma
dada query e se este critério fosse respeitado bidirecionalmente. O software TMHMM
(SONNHAMMER et al., 1998; KROGH et al., 2001) também foi desenvolvido em Perl. A fer-
ramenta de predição fornecida pelo IEDB foi escrita em Python 2.7. Os códigos finais para
análise imunogênica, geração de figuras e integração dos dados foi foram escritos em R
3.4.4 no Rstudio 1.1.442 (R Core Team, 2013) utilizando as bibliotecas dplyr (versão 0.8.3)
(WICKHAM et al., 2019), tidyr (versão 0.8.3) (WICKHAM; HENRY, 2019), ggplot2 (versão
3.2.1) (WICKHAM, 2016), stringr (versão 1.4.0) (WICKHAM, 2019).
3.2 Aquisição dos Dados
Para comparar os proteomas de diferentes linhagens de Mycobacterium avium su-
bespécie hominissuis foram obtidas sequências aminoacídicas das cepas com genomas
completos disponíveis no National Center for Biotechnology Information - NCBI.
O código get_proteome.py foi escrito em linguagem Python e recebe um arquivo
contendo o nome científico do organismo de interesse, consultando o arquivo do NCBI
que sumariza as informações de montagem do genoma (ver figura 3). As sequências de
proteínas disponíveis para montagens com status Complete Genome do organismo de
34
interesse são obtidas e alocadas em um diretório específico.
Figura 3: Resumo do arquivo sumário do NCBI
︷ ︸1︸ ︷ ︷ ︸8︸ ︷ ︷ ︸9︸ ︷ ︷ 1︸︸2 ︷
GCA_000829075 Mycobacterium avium subsp. hominissuis TH135 strain=TH135 Complete genome
GCA_002315935.1 Ruminococcaceae bacterium UBA1730 Scaffold
GCA_001187785.1 Wenzhouxiangella marina strain=KCTC 42284 Complete Genome
GCA_000481625.1 Pseudomonas aeruginosa BWHPSA004 strain=BWHPSA004 Scaffold
GCA_000325405.1 Yersinia pestis YN2179 strain=YN2179 Contig
GCA_001556215.1 Rhizobiales bacterium CCH9-A3 strain=CCH9-A3 Contig
... ... ... ...
Colunas:
1. assembly_accession: número de acesso, um código único pra essa versão da montagem.
8. organism_name: nome científico da espécie da qual provém as sequências daquela montagem.
9. infraspecific_name: a cepa, raça, cultivar ou ecotipo do organismo do qual provém as sequências
daquela montagem.
12. assembly_level: o nível mais alto de montagem para o conteúdo do genoma, pode receber quatro
valores: Contig, Scaffold, Chromosome e Complete Genome.
3.3 Comparação de Proteomas
Posteriormente, os proteomas obtidos foram comparados para identificar proteínas
compartilhadas por todas as linhagens, conjunto denominado core proteoma. As compara-
ções e agrupamentos foram feitas por versões modificadas dos códigos pancoreplot_create
Config.pl e pancoreplot.pl, cujos algoritmo original foi desenvolvido por VESTH et al. para
a suíte de ferramentas CMG Biotools. Na versão original da ferramenta, duas proteínas
quaisquer são consideradas homólogas quando há no mínimo 50% de identidade e 50% de
cobertura em seu alinhamento.
As alterações realizadas comprazem considerar uma proteína X de uma linhagem A
como homóloga de uma proteína Y de uma linhagem B apenas quando esta proteína
X é a melhor candidata de sua linhagem ao alinhamento com as proteínas da linhagem
B e vice-versa para a proteína Y (ver figura 4). Após esta etapa, todos os homólogos
são agrupados e considerados um único cluster. As principais saídas da ferramenta são:
arquivos denominados genericamente group_n.dat para cada iteração em que uma nova
linhagem é comparada às anteriores (ver figura 5) e um arquivo denominado tbl que
contém um resumo das linhagens analisadas, número total de genes e famílias, novos
genes encontrados a cada iteração, total de grupos no pan proteoma e no core proteoma
(ver figura 6).
35
Figura 4: Alinhamento de sequências das cepas A e B
A-B.blast B-A.blast Homólogos
CCHHD - CCCDC FFFFG - FFFFG FFFFG - FFFFG
FFFFG - FFFFG CCCDC - CCCCC CCCDC - CCCCC
CCCCC - CCCDC CCCDC - CCCED
CCCED - CCCDC
Quando as proteínas da linhagem A são comparadas às da linhagem B, vê-se que a sequência FFFFG
da linhagem A produz alinhamento significativo apenas com a sequência FFFFG da linhagem B, en-
quanto três diferentes sequências da linhagem A alinham significativamente com a sequência CCCDC
da linhagem B, sendo CCCCC o que produz o melhor alinhamento. Uma vez comparadas as proteínas
da linhagem B com as da linhagem A, mais uma vez a sequência FFFFG da linhagem B só produz
alinhamento significativo com a sequência FFFFG da linhagem A. Quando considerado apenas o melhor
hit bidirecional para uma dada sequência, são considerados homólogos e agrupados juntos apenas os pares
FFFFG.A e FFFFG.B, e CCCCC.A e CCCDC.B. Caso fossem considerados apenas os hits bidirecionais,
haveria um grupo com FFFFG.A e FFFFG.B e outro grupo com CCCCC.A, CCCED.A e CCCDC.B.
Fonte: a autora.
Figura 5: Resumo do arquivo de saída group_n.dat da ferramenta CMG Biotools
︷︸1︸︷ ︷︸2︸︷ ︷ ︸3︸ ︷ ︷ ︸4︸ ︷ ︷ ︸5︸ ︷ ︷ ︸6︸ ︷ ︷ ︸7︸ ︷ ︷ ︸8︸ ︷ ︷︸9︸︷
339 6 85a...d.372 eff...3.373 442...f.370 e59...6.360 ed0...c.359 0ff...2.379 -
369 3 0ff...2.66 85a...d.70 654...7.68
484 4 85a...d.396 ed0...c.380 442...f.392 654...7.383
523 7 e59...6.217 85a...d.232 ed0...c.222 eff...3.227 654...7.228 442...f.231 0ff...2.235
545 1 654...7.178
547 2 0ff...2.199 654...7.46
.
A ID da proteína é um identificador longo criado aleatoriamente para otimizar o funcionamento da
ferramenta CMG Biotools - nele a sequência de números e letras antes do ponto identifica a linhagem
a qual a proteína pertence e os números depois do ponto representam posição daquela sequência de
proteínas quando as sequências FASTA são ordenadas alfabeticamente. 1. Número do cluster. 2. Número
de proteínas no cluster. 3-N. Identificadores de linhagem e número da proteína. Fonte: a autora.
36
Figura 6: Resumo do arquivo de saída tbl da ferramenta CMG Biotools
︷︸1︸︷ ︷ ︸2︸ ︷ ︷︸3︸︷ ︷︸4︸︷ ︷︸5︸︷ ︷︸6︸︷ ︷︸7︸︷
0 A.fsa 496 496 460 460 460
1 B.fsa 481 25 25 485 426
2 C.fsa 509 26 24 509 411 O arquivo de saída mostra cada um dos identi-
3 D.fsa 490 14 11 520 403
4 E.fsa 497 10 9 529 402 ficadores das linhagens, assim como o nome dos
5 F.fsa 481 11 11 540 395 arquivos que contém as sequências. A cada novo
6 G.fsa 475 0 0 540 393
arquivo analisado, são contabilizados os genes da-
quela cepa e o agrupamento ocorre. A contagem
de novos genes, aqueles que não foram clusteriza-
dos é exibida, assim como o número de novas fa-
mílias (grupos, clusters) Também são exibidos os
números de proteínas no pan e no core genomas/-
proteomas. 1. id 2. descrição 3. total de genes
4. novos genes 5. novas famílias 6. pan geno-
ma/proteoma 7. core genoma/proteoma Fonte:
a autora.
37
3.4 Identificação de Domínios Trans-membranares
As sequências de cada proteoma foram submetidas à identificação de domínios alfa-
hélice trans-membranares com a utilização do software TMHMM, que é chamado pelo
código predict_transmembrane.py o qual também analisa o arquivo de saída do TMHMM
(ver figura 7) filtrando possíveis proteínas trans-membranares pelos critérios de (1) nú-
mero esperado de aminoácidos em hélices trans-membranares, que deve ser maior que 18,
(2) número de hélices que deve ser maior que 1 ou igual a 1 quando a primeira hélice
transmembranar ocorre depois do sexagésimo resíduo.
Figura 7: Resumo do arquivo de saída curto do TMHMM
︷ ︸1︸ ︷ ︷ ︸2︸ ︷ ︷ ︸3︸ ︷ ︷ ︸4︸ ︷ ︷ ︸5︸ ︷ ︷ ︸6︸ ︷
f9ce5... 3efc4.19 len=84 ExpAA=45.90 First60=27.55 PredHel=2 Topology=i7-29o56-78i
f9ce5... 3efc4.305 len=335 ExpAA=91.37 First60=21.08 PredHel=3 Topology=o15-37i67-86o307-329i
f9ce5... 3efc4.261 len=661 ExpAA=52.85 First60=22.47 PredHel=2 Topology=i7-29o165-184i
f9ce5... 3efc4.184 len=465 ExpAA=83.37 First60=21.09 PredHel=4 Topology=i29-46o61-80i93-115o438-460i
... ... ... ... ... ...
1. identificador da sequência aminoacídica
2. comprimento da sequência aminoacídica
3. número esperado de aminoácidos em hélices trans-membranares
4. número esperado de aminoácidos em hélices trans-membranares entre os primeiros 60 resíduos da
proteína
5. número de hélices trans-membranares preditas pelo N-best
6. topologia predita pelo N-best
3.5 Análise Imunogenética
Para a predição de afinidade peptídeo-MHC foram utilizados métodos disponibili-
zados pelo IEDB para uso local. Para tanto o script immuno_pred.py chama o script
mhc_II_binding.py do IEDB e fornece a ele o tipo de método de predição a ser utilizado.
No trabalho aqui realizado optou-se pela IEDB_recommended que busca utilizar as mé-
tricas do método Consensus3 ou, caso essas métricas não estejam disponíveis para o alelo
de interesse, utiliza as métricas do método NetMHCIIPan. Além disso, deve-se fornecer o
alelo ou a lista de alelos a serem considerados no cálculo de afinidade dos peptídeos. Aqui
foi utilizado um conjunto de alelos proposto por GREENBAUM et al. (ver figura 8) para
maximizar a cobertura de haplótipos e fenótipos de acordo com as frequências globais
desses alelos.
38
Figura 8: Alelos utilizados na predição de afinidade
HLA-DRB1*01:01 HLA-DRB1*03:01 HLA-DRB1*04:01
HLA-DRB1*04:05 HLA-DRB1*07:01 HLA-DRB1*08:02
HLA-DRB1*09:01 HLA-DRB1*11:01 HLA-DRB1*12:01
HLA-DRB1*13:02 HLA-DRB1*15:01 HLA-DRB3*01:01
HLA-DRB3*02:02 HLA-DRB4*01:01 HLA-DRB5*01:01
HLA-DQA1*05:01/DQB1*02:01 HLA-DQA1*05:01/DQB1*03:01 HLA-DQA1*03:01/DQB1*03:02
HLA-DQA1*04:01/DQB1*04:02 HLA-DQA1*01:01/DQB1*05:01 HLA-DQA1*01:02/DQB1*06:02
HLA-DPA1*02:01/DPB1*01:01 HLA-DPA1*01:03/DPB1*02:01 HLA-DPA1*01/DPB1*04:01
HLA-DPA1*03:01/DPB1*04:02 HLA-DPA1*02:01/DPB1*05:01 HLA-DPA1*02:01/DPB1*14:01
Fonte: Adaptado de (GREENBAUM et al., 2011)
Para cada proteína, o IEDB gera um arquivo listando todos os peptídeos presentes e
suas métricas calculadas usando um algoritmo de janela deslizante de tamanho 15 (ver
figura 9). Nesse trabalho foi considerada a classificação dos peptídeos de acordo com o
método consensus3, que corresponde à mediana dos escores dos três métodos de predição
utilizados para avaliar a afinidade da interação peptídeo-HLA. Peptídeos cujo percentil
de classificação era igual ou menor a 0.02 foram considerados altamente imunogênicos e
utilizados nas análises subsequentes.
39
Figura 9: Resumo do arquivo de predição IEDB
︷ ︸1︸ ︷ ︷︸2︸︷ ︷︸3︸︷ ︷︸4︸︷ ︷ ︸5︸ ︷ ︷ ︸6︸ ︷ ︷︸7︸︷ ︷︸8︸︷ ︷︸9︸︷ ︷1︸︸0︷ ︷ 1︸1︸ ︷
HLA-DRB1*03:01 1 266 280 VTVAAVQGNVPRLGF SMM-Sturniolo 7.49 - - - VQGNVPRLG
HLA-DRB5*01:01 1 335 349 EISQAASAIGAPILI SMM-Sturniolo 17.37 - - - AASAIGAPI
HLA-DRB4*01:01 1 97 111 AFYLPLLPWVGLLVG COMB.LIB.-SMM 43.6 LPWVGLLVG 1000000.0 83.87 LPLLPWVGL
HLA-DRB1*09:01 1 242 256 VLFAAVIVWPQVRHS COMB.LIB.-SMM 23.435 VIVWPQVRH 0.35 26.98 AAVIVWPQV
HLA-DRB1*15:01 1 63 77 WWAAVPAAALLAWVL SMM-Sturniolo 12.37 - - - WAAVPAAAL
HLA-DRB1*12:01 1 263 277 EPSVTVAAVQGNVPR SMM 60.01 - - - VTVAAVQGN
︷ 1︸2︸ ︷ ︷1︸3︸︷ ︷1︸4︸︷ ︷1︸5︸︷ ︷1︸6︸︷ ︷1︸7︸︷ ︷1︸8︸︷ ︷1︸9︸︷ ︷ 2︸0︸ ︷ ︷2︸︸1︷ ︷2︸︸2︷
3062.0 5.51 - - - - - - VQGNVPRLG 1.6 9.47
1468.0 11.96 - - - - - - ISQAASAIG -1.4 22.78
430.0 3.33 - - - - - - - - -
2019.0 19.89 - - - - - - - - -
262.0 4.75 - - - - - - VPAAALLAW 0.2 19.99
9635.0 60.01 - - - - - - - - -
1. alelo utilizado na predição 12. ic50 da predição para o método smm_align
2. número da sequência 13. classificação da predição para o método smm_align
3. posição inicial da janela 14. cerne do peptídeo para o método nn_align
4. posição final da janela 15. ic50 da predição para o método nn_align
5. peptídeo na janela 16. classificação da predição para o método nn_align
6. método utilizado na predição 17. cerne do peptídeo para o método netmhciipan
7. ranque do percentil do método consensus3 18. ic50 da predição para o método netmhciipan
8. cerne do peptídeo para o método comblib 19. classificação da predição para o método netmhciipan
9. escore da predição para o método comblib 20. cerne do peptídeo para o método sturniolo
10. classificação da predição para o método comblib 21. escore da predição para o método sturniolo
11. cerne do peptídeo para o método smm_align 22. classificação da predição para o método sturniolo
40
3.6 Integração dos Dados
Uma vez obtidos os arquivos das seções acima, os dados coletados foram processados
em R para seleção final e visualização da informação adquirida.
Os arquivos de saída do CMG Biotools foram cruzados com os dados de topologia
transmembranar do TMHMM de maneira a expor apenas clusters formados por proteínas
com domínios de alfa-hélices trans-membranares. Uma vez obtidas essas informações,
aos dados dos clusters de proteínas trans-membranares foram agregadas as pontuações
de imunogenicidade calculadas com os escores gerados pelos métodos do IEDB. Aqueles
peptídeos que passaram pela filtragem do percentil de classificação menor ou igual 0.02
ainda passaram por um outro critério de avaliação, sua posição na sequência aminoacídica:
apenas aqueles cuja maior parte dos resíduos (>50%) se situa em porções extracelulares
da proteína foram considerados como peptídeos de interesse.
Após a estruturação desses dados relevantes em uma única tabela (ver Figura 10)
foram analisadas promiscuidade, capacidade de ligação de um peptídeo a diferentes alelos
do MHC e conservação, referente à quantidade de proteínas em um dado cluster que
possuem um peptídeo. Dessa maneira foram observados os peptídeos de maior interesse
para uma aplicação vacinal. Foi possível ainda analisar a localização dos peptídeos na
sequência aminoacídica em relação a topologia trans-membranar dessa mesma entidade
proteica. A partir dessas características foi possível apontar peptídeos de interesse e um
conjunto mínimo de maior promiscuidade foi construído.
41
Figura 10: Resumo do arquivo de integração dos dados
︷ ︸1︸ ︷ ︷ ︸2︸ ︷ ︷ ︸3︸ ︷ ︷︸4︸︷ ︷︸5︸︷
SRIDALAAVVVPMVA 442...f.12.consensus3 HLA-DQA1*04:01/DQB1*04:02 0.03 72
LWLFLLFLLTATAAH 654...7.209.consensus3 HLA-DPA1*01:03/DPB1*02:01 0.015 388
NA 654...7.134.consensus3 NA NA 149
NA 0ff...2.127.consensus3 NA NA 1
NA 654...7.14.consensus3 NA NA 32
︷︸6︸︷ ︷︸7︸︷ ︷ ︸8︸ ︷ ︷ ︸9︸ ︷ ︷ 1︸︸0 ︷
86 81 EPITOPE SRIDALAAVVVPMVA 0.266666666666667
402 73 EPITOPE LWLFLLFLLTATAAH 0
157 37 OUTSIDE i24-46o91-113i126-148o158-177i227-249o NA
84 327 PROTEIN 0ff...2.127.consensus3 NA
51 283 TRANSMEMBRANE i32-51o66-88i109-131o146-168i175-197o237-259i NA
1. peptide: peptídeo considerado na predição de afinidade 8. type: tipo de entidade descrita: PROTEIN para uma proteína e suas
2. order : identificação da proteína a qual esta entidade pertence informações, EPITOPE para um peptídeo e suas informações de imu-
nogenicidade, INSIDE para uma região intracelular de uma proteína,
3. allele: alelo considerado na predição de afinidade TRANSMEMBRANE para uma região embebida em membrana e OUT-
4. consensus_percentile_rank : ranque do percentil do método consensus3 SIDE para uma região extracelular da proteína.
5. start : posição inicial da janela 9. description: descrição da entidade, podendo ser o próprio identificador
6. end : posição inicial da janela da proteína, a sequência peptídica ou a topologia transmembranar
7. cluster : cluster ao qual esta entidade pertence 10. outside_ratio: razão extracelular calculada apenas para peptídeos.
42
3.7 Similaridade com proteínas do hospedeiro
Os peptídeos selecionados para o conjunto mínimo foram analisados quanto a sua
similaridade a proteínas humanas e suínas utilizando a plataforma Web da ferramenta
BlastP 2.10.0+ (ALTSCHUL et al., 1997), tendo como parâmetros o banco de proteínas de
referência (refseq_protein) de humanos (Homo sapiens, taxid:9606 ) e suínos domésticos
(Sus scrofa domesticus, taxid:9825 ) e demais parâmetros ajustados para alinhamento de
sequências pequenas pelo próprio programa (word size = 2, expect value = 200000, hitlist
size = 100, gapcosts = 9,1, matrix = pam30, filter string = f, genetic code = 1, window
size = 40, threshold = 11, composition-based stats = 0).
43
4 Resultados e Discussão
Dos 201 registros disponíveis de genomas de Mycobacterium avium no sumário do
NCBI em Novembro de 2018, apenas sete possuem dados referentes à montagem completa
do genoma para a subspécie hominissuis, de acordo com o valor Complete Genome na
coluna assembly_level (ver Figura 11).
Figura 11: Registros para M. avium hominissuis
Número de Acesso Nome da Espécie Linhagem Status da Anotação
GCA_000829075.1 Mycobacterium avium subsp. hominissuis TH135 strain=TH135 Complete Genome
GCA_001865635.2 Mycobacterium avium subsp. hominissuis strain=OCU464 Complete Genome
GCA_001936215.1 Mycobacterium avium subsp. hominissuis strain=H87 Complete Genome
GCA_002716905.1 Mycobacterium avium subsp. hominissuis strain=HP17 Complete Genome
GCA_002716925.1 Mycobacterium avium subsp. hominissuis strain=OCU901s_S2_2s Complete Genome
GCA_002716965.1 Mycobacterium avium subsp. hominissuis strain=OCU873s_P7_4s Complete Genome
GCA_003408535.1 Mycobacterium avium subsp. hominissuis strain=MAC109 Complete Genome
A mesma consulta realizada em fevereiro de 2019 mostrou que dos 122 registros para linhagens
de Mycobacterium avium subsp. hominissuis, 73 anotações estavam em estágio Contig na coluna
assembly_level e 42 no estágio Scaffold.
4.1 Sequências Proteicas Obtidas
Os arquivos de proteoma obtidos somam cerca de 14 MB divididos em arquivos com
cerca de 4713 sequências por arquivo, a princípio, e 4664 sequências em média depois da
remoção de duplicatas (ver Figura 12).
44
Figura 12: Número de sequências nos arquivos FASTA Amino Acids (FAA) de M. avium
hominissuis
Linhagem # Sequências # Sequências sem duplicatas
Mycobacterium avium subsp. hominissuis H87 4969 4805
Mycobacterium avium subsp. hominissuis HP17 4561 4549
Mycobacterium avium subsp. hominissuis MAC109 4841 4771
Mycobacterium avium subsp. hominissuis OCU464 4754 4713
Mycobacterium avium subsp. hominissuis OCU873s_P7_4s 4499 4488
Mycobacterium avium subsp. hominissuis OCU901s_S2_2s 4569 4548
Mycobacterium avium subsp. hominissuis TH135 4800 4774
4.2 Domínios Trans-membranares
Das sequências aminoacídicas submetidas ao TMHMM, cerca de 10,5% foram classifi-
cadas como contendo domínios de alfa-hélice trans-membranar de acordo com os critérios
recomendados pelos criadores do método (ver Figura 13).
Figura 13: Número de sequências com domínios alfa-hélice trans-membranares
Linhagem # Sequências Sem Du- # Sequências com Domínio
plicatas TM Sem Duplicatas
Mycobacterium avium subsp. hominissuis H87 4805 508
Mycobacterium avium subsp. hominissuis HP17 4549 488
Mycobacterium avium subsp. hominissuis MAC109 4771 497
Mycobacterium avium subsp. hominissuis OCU464 4713 481
Mycobacterium avium subsp. hominissuis OCU873s_P7_4s 4488 475
Mycobacterium avium subsp. hominissuis OCU901s_S2_2s 4548 496
Mycobacterium avium subsp. hominissuis TH135 4774 481
Essas proteínas com domínio alfa-hélice trans-membranar foram consideradas o sur-
faceoma de Mycobacterium avium subsp. hominissuis para este estudo. A incorporação
da predição de domínios de barris-beta nessas sequências foi desconsiderada pela baixa
robustez dos métodos in-silico disponíveis e natureza da membrana gram-positiva de My-
cobacterium avium.
4.3 Pan e Core Surfaceomas
As proteínas dos surfaceomas foram agrupadas em 577 clusters de tamanhos variados.
A maior parte (397) dos clusters de proteínas homólogas das linhagens de Mycobacterium
45
avium subsp. hominissuis é composto de sete sequências (ver Figura 14a). Existem ainda
10 clusters com mais de sete sequências (ver Figura 14a), o que pode se dar por eventos
de duplicação em algumas dessas linhagens ou mesmo por conta de erros de anotação.
Number of Clusters with N proteins Number of Clusters with N proteins
400 3.0
2.5
300
2.0
200 1.5
1.0
100
0.5
0 0.0
Number of Proteins in Cluster Number of Proteins in Cluster
(a) Número de clusters Contendo n Proteínas (b) Número de clusters Contendo n>7 Proteínas
Em um dos casos há 27 proteínas em um mesmo cluster, valor contra-intuitivo consi-
derando os esforços e alterações realizadas nos códigos de agrupamento do CMG Biotools.
Contudo, este número pode ser explicado pela comparação par-a-par utilizada na cons-
trução dos clusters. Uma sequência analisada é incorporada a um cluster ao alcançar os
critérios de seleção (identidade, e-value, bidirecionalidade) no alinhamento com pelo me-
nos um dos membros daquele cluster, o que significa que a cada nova cepa analisada, N
proteínas podem ser incluídas ao cluster, sendo N o número total de cepas (ver Figura
15).
Figura 15: Exemplo de alinhamento de quatro sequências
︷ 5︸3︸% ︷ ︷ 4︸7︸% ︷
SeqA AAAAAAAAAA TTTTTTTTT C1: SeqA
SeqB AAAAAAAAAA CCCCCCCCC C1: SeqA, SeqB (53% identidade com SeqA)
SeqC GGGGGGGGGG TTTTTTTTT C1: SeqA, SeqB, SeqC (47% identidade com SeqA)
SeqD GGGGGGGGGG CCCCCCCCC C1: SeqA, SeqB, SeqC, SeqD (53% de identidade com SeqC e 47% iden-
tidade com SeqB)
Considerando apenas identidade superior a 40% como critério de agrupamento dessas sequências, todas
elas estariam representadas no mesmo cluster apesar de a sequência identificada como SeqD ter
identidade suficiente apenas com SeqC. C1: cluster 1.
Já os clusters com menos de 7 proteínas são considerados a priori o pan-surfaceoma
destas espécies. Uma observação do padrão de composição dos clusters formados a par-
Number of Clusters
1
2
3
4
5
6
7
8
9
10
12
13
14
27
Number of Clusters
8
9
10
12
13
14
27
46
tir do proteoma inteiro (antes da predição de domínios trans-membranares) versus os
clusters do surfaceoma apontou que algumas proteínas de clusters do proteoma não são
classificadas como trans-membranares e portanto estão ausentes nos respectivos clusters
do surfaceoma (ver Figura 16). Isto pode se dar por mutações na sequência que modifi-
quem o perfil topológico predito pelo TMHMM ou mesmo por erros de anotação dessas
sequências que causem a perda dessas informações.
Figura N1u6m:beNr oúf mMisesrinog dPerotPeinrso pteerí nCalusstePrerdidas por Tamanho de Cluster
Considering clusters with 6−1 protein(s).
50
Number of Missing Proteins
40
0
1
2
3
30
4
5
6
7
20 9
11
10
0
1 2 3 4 5 6
Cluster size
No caso de clusters com tamanho pequeno e um grande número de proteínas perdidas
depois da seleção por presença de domínios trans-membranares, como nos clusters de
proteínas de superfície de tamanho dois com onze homólogos classificados como não-
superficiais, investigações posteriores poderão sugerir se estas separações ocorreram devido
a falsos positivos para as duas sequências preditas como de superfície ou se eventuais
mutações na história evolutiva da espécie produziram este padrão.
4.4 Análise Imunogenética
Foram considerados os perfis imunogenéticos de proteínas presentes em clusters com
ao menos uma proteína representante de cada linhagem. Clusters de classificação dúbia
Number of Clusters
47
devido a perda de uma ou mais proteínas por conta da classificação trans-membranar não
foram utilizados.
Ao considerar apenas clusters com uma proteína de cada linhagem e média de percentil
imunogênico inferior ou igual a 0.05, 387 grupos seriam selecionados, proporcionando uma
redução pequena na quantidade de dados a serem analisados adiante. Por esta razão a
análise foi restringida àqueles cuja média de percentil imunogênico é inferior ou igual a
0.02, resultando nos 112 clusters mais imunogênicos de nosso conjunto de dados como
visto na Figura 17.
MeaFnig Iumrmau1n7o:geMnicéidtyi aScdooreP oefr cCeonrtei lPIromteuinnsogênico de Proteínas dos Clusters
0.01 ● ●
●
●
●
● ●
● ●
● ●
● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ● ● ● ● ●●
● ● ●● ●
● ● ● ● ●
● ● ● ● ●● ● ●● ● ●●● ●
●
●● ●
● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ●● ●
● ● ● ●
● ● ●
0.02 ● ● ● ●● ●
● ●
● ● ● ● ● ●
●
● ● ● ● ● ●
● ● ● ●● ●
●
● ●
●
● ● ● ● ● ●
●● ● ● ●
● ● ● ● ●
● ● ● ● ● ● ●
●
● ● ● ●
● ●● ● ●● ●● ●● ● ● ● ●
●
● ● ● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ●
●
● ●
●
● ● ● ●
● ● ● ● ● ●
● ● ●
● ●
●
● ● ●
● ● ● ● ●
●
● ● ●
● ●● ● ●● ●
● ● ● ●
● ● ● ●●● ● ● ●● ●
● ● ●● ● ● ●
● ● ●
● ● ● ● ● ● ● ●
●● ● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
● ● ●
● ● ● ● ● ● ● ●●
● ● ●
● ●
● ● ●● ● ●● ● ●
●● ●
● ●
● ● ● ●
●
●
● ● ●
●
● ● ●● ●
0.03 ● ● ● ● ● ● ●
● ●
●
● ● ●
● ● ● ● ●●
● ● ●
● ● ●
●
● ●
●
● ●
● ●
● ●
●
● ● ●
●
● ● ●●
0.04 ●
●
●
●
● ●
●
●
● ● ● ●
● ●
0.05 ● ● ●
0 50 100 150 200 250 300 350 400 450 500
Cluster
112 clusters com sete linhagens possuem valor médio de percentil imunogênico menor ou igual a 0.02.
O valor de corte utilizado para o percentil imunogênico poderá ser ajustado para
outras análises de acordo com a abundância ou escassez de peptídeos candidatos viáveis
ao fim de todas as etapas de seleção realizadas nesse trabalho ou mesmo em validações
experimentais. A escolha por epítopos de maior afinidade se baseia na imunodominância
de epítopos, quando sequências com maior afinidade aos peptídeos presentes nas fendas
de um alelo de HLA são mais frequentemente apresentadas pelas APCs, tendo maiores
chances de se tornarem determinantes antigênicos (ver Figura 18) (ABBAS; LICHTMAN;
PILLAI, 2007).
Percentile Rank
48
Figura 18: Imunodominância de epítopos
(ABBAS; LICHTMAN; PILLAI, 2007)
Todas as janelas peptídicas das proteínas foram analisadas pelo método de predição
de imunogenicidade, e apesar de alguns dos peptídeos nessas janelas possuírem afinidade
teórica aos diferentes alelos de HLA testados, nem todos estarão acessíveis à maquinaria
do sistema imune, em especial aos anticorpos. Por este motivo, faz-se necessário integrar os
dados de topologia trans-membranar aos de imunogenicidade. Para este trabalho foram
considerados válidos peptídeos com mais da metade de suas sequências presentes em
regiões extracelulares de acordo com o TMHMM, descartando de nossa caracterização
todos os (54) clusters que não possuem ao menos um peptídeo dentro desse critérios (ver
Figura 19).
Mesmo para uma maior parte dos 58 clusters restantes grande parte dos peptídeos
identificados pertencem a regiões intracelulares ou trans-membranares, sendo o conteúdo
mínimo de peptídeos extracelulares igual a 3.125% e identificado em um cluster (77) e o
conteúdo máximo igual a 100% nos clusters 228, 347 e 414. A mediana desse conteúdo
(23.810%) é menor que a média em quase 10%, apontando poucos clusters com um número
alto de peptídeos extracelulares.
O baixo volume de peptídeos com alta afinidade nas porções externas da célula é es-
perado uma vez que patógenos com uma alta taxa de epítopos expostos seriam facilmente
detectados pelo sistema imune, existindo uma pressão de seleção para que sequências ex-
postas ao ambiente sejam inócuas à moléculas do sistema imune. Esse padrão pode ser
observado quando clusters contendo peptídeos de baixa afinidade ao MHC (percentil imu-
nogênico maior ou igual a 95) são também classificados de acordo com sua posição: cerca
de 85% (228) desses peptídeos se situam na região externa da membrana.
Outro fator a se considerar é a conservação dos peptídeos nas diferentes proteínas de
49
Peptide Position By Cluster Figura 19: Classificação dos Peptídeos por Cluster
80
60
Peptide Position
Extracellular
40 Intracellular
20
0
Peptide Position By Cluster
Cluster
For clusters with at least one extracellular peptide.
80
60
Peptide Position
Extracellular
40 Intracellular
20
0
Cluster
Cada peptídeo foi contabilizado uma única vez em cada cluster, não importando quantas vezes era en-
contrado em uma ou mais proteínas. Quase metade (54) dos clusters não possui peptídeos altamente
imunogênicos nas regiões extracelulares e foram descartados das análises seguintes, restando apenas 58
clusters. Nessa figura todos os peptídeos com outside_ratio menor ou igual a 0.5 foram classificados como
"Intracellular".
um mesmo cluster (ver Figura 20). No caso dos clusters restantes em nossa análise, a
distribuição de peptídeos mostra que cerca de 80% das sequências de interesse estão con-
servadas em pelo menos seis das sete linhagens consideradas. Cerca de 7% desses peptídeos
estão conservados entre 2 e 5 linhagens, enquanto 12% são únicos a uma linhagem.
Dos 58 clusters, 35 são formados apenas por peptídeos presentes em todas as linhagens
e 43 possuem ao menos um peptídeo presente em todas as linhagens. Dos doze clusters
restantes, 5 possuem peptídeos presentes em até seis linhagens, 1 conta com peptídeos
presentes em até cinco linhagens e os demais são candidatos ainda menos apropriados
para uma estratégia de imunização generalizada que os primeiros.
A conservação desses peptídeos em todas as linhagens é de fundamental importância
no desenho de uma formulação vacinal, uma vez que esses core peptídeos poderão permitir
Count Count
1 18
19 1719
25 2526
28 2834
34 35
36
37 37
38
55 44
45
58 52
54
71 55
56
73 58
59
77 62
64
88 69
71
96 73
97 7783
103 8895
110 9697
114 103104
115 109110
121 114
115
125 121
122
180 125
137
199 142
150
211 171
176
215 180
181
233 193
199
246 211
215
270 217
276 227233
279 242244
283 246247
288 249254
297 255
263
299 266
270
300 276
279
306 283
287
308 288
297
321 299
300
327 306
308
331 312
317
337 321
347 326327
349 329331
352 337345
357 347349
359 352357
365 359
365
371 368
371
379 379
382
383 383
391
391 396
401
396 404
408
408 410
412
410 414
440
414 444
444 458474
474 475481
475 495503
495 511529
50
Peptide Frequency in ClusFterisgura 20: Conservação dos Peptídeos nos Clusters
20
15
Frequency
1
2
3
10
5
6
7
5
0
Cluster
Na maior parte dos clusters selecionados há diversos peptídeos presentes nas sete diferentes linhagens.
Eixo Y: Número de Peptídeos.
a geração de defesas imunes contra diversas cepas destes organismos.
Outra característica dos epítopos é sua promiscuidade, valor que diz respeito a quan-
tidade de diferentes alelos de MHC aos quais um epítopo se liga. Para o conjunto de
peptídeos de altíssima afinidade aos seus respectivos MHCs e provenientes de proteínas
presentes nas sete linhagens, poucos foram os epítopos com promiscuidade maior que 1
(ver Figura 21).
Promiscuidade PeptídeoF−MiHgCu nroas C2lu1st:erPs romiscuidade dos Peptídeos nos Clusters
20
15
Promiscuidade
Peptídeo−MHC
1
10 2
3
4
5
0
Clusters
A promiscuidade de um peptídeo diz respeito a quantos alelos de HLA ele é capaz de se ligar. Poucos
peptídeos selecionados se ligam a mais de quatro HLAs distintos.
Número de peptídeos Number of Peptides
1 1
19 19
25 25
28 28
34 34
37 37
55 55
58 58
71 71
73 73
77 77
88 88
96
96
97
97
103
103
110
110
114
114
115
115
125
125
180
211 180
215 211
233 215
246 233
270 246
276 270
279 276
283 279
288 283
299 288
300 299
306 300
308 306
321 308
327 321
331 327
337 331
347 337
349 347
352 349
357 352
359 357
365 359
371 365
379 371
383
379
391
383
396
391
408
396
410
408
414
410
444
414
475
495 444
475
495
51
Apenas 1 peptídeo (SVFRLFWLLYLGMTF) presente no cluster 327 possui alta afi-
nidade a quatro HLAs distintos: "HLA-DPA1*01:03/DPB1*02:01", "HLA-DPA1*01/DP
B1*04:01", "HLA-DQA1*01:01/DQB1*05:01", "HLA-DPA1*03:01/DPB1*04:02". Cinco
clusters possuem peptídeos com promiscuidade igual ou superior a dois HLAs e os quais
possuem peptídeos encontrados em todas as linhagens. Considerando ainda todos os core
peptídeos em clusters distintos, o cluster mais promíscuo segue sendo o número 327 que
ganha mais um alelo ("HLA-DRB1*09:01") com o peptídeo GMTFGWLFGAMVFQV,
seguido dos clusters 1 e 88 com promiscuidade de 4 cada.
Sendo o MHC um gene altamente polimórfico, existem grupos diversos em uma mesma
população e uma estratégia vacinal eficiente pressupõe que os sistemas imunes de indiví-
duos de diversas origens e composições genéticas serão capazes de responder a um mesmo
peptídeo ou conjunto de peptídeos, por isso avaliar as promiscuidades dessas sequências se
faz necessário e ranqueá-las também de acordo com esse parâmetro auxilia na identificação
de candidatos adequados.
Ainda foi possível gerar um conjunto mínimo de peptídeos de maneira a maximizar o
valor de promiscuidade. Um conjunto mínimo é fechado quando todos os alelos presentes
nos dados de origem estão representados. Utilizando como fonte o conjunto de epítopos
extracelulares presentes em todas as linhagens foi possível construir um set em que nove
peptídeos de nove proteínas distintas, oriundas de nove clusters possuem alta afinidade a
15 alelos de HLA distintos (ver Figura 22).
52
Topologia ImFiugnuorgaê2n2ic:aR e pTrreasnesn−tmaçeãmo bdroancaonr jduanst oPrmotíeníinmaos deo eCpoítnojupnotso Mínimo
9
414 AXO23287.1
8
391 AXO21874.1
7
379 AXO23855.1
6 Representação
331 AXO25018.1 Epítopo
5 Intracelular
327 AXO23431.1 Extracelular
4 Trans−membranar
308 AXO23409.1
3
96 AXO22487.1
2
71 AXO24709.1
1
25 AXO24634.1
Posição dos Aminoácidos
Cada epítopo está marcado em vermelho na sequência de sua proteína de origem. Na parte inferior de
cada retângulo há a representação da topologia trans-membranar de cada uma dessas proteínas, sendo
as regiões externas da célula marcadas em azul.
O conjunto mínimo permite uma estimulação teórica de um número aproximadamente
quatro vezes maior de moléculas de HLA que o melhor peptídeo em termos de promis-
cuidade. Nenhuma das sequências desse conjunto mostram similaridade significativa com
proteínas de referência pertencentes a Homo sapiens ou Sus scrofa domesticus, o que
aponta uma maior segurança de uso dessas sequências como estratégia de proteção desses
organismos sem risco alto de desenvolvimento inesperado de resposta autoimune.
Com exceção dos dois últimos protocolos de VR publicados, de PanRV Hisham-
Ashhab (HISHAM; ASHHAB, 2018) and ReVac (D’MELLO et al., 2019), todas as estratégias
anteriores trabalhavam com dados provenientes de apenas uma linhagem, fator limitante
ao se considerar patógenos com linhagens de modos de vida diversos (MORA et al., 2006). O
protocolo aqui executado leva em consideração os dados de diversas linhagens de maneira
a otimizar a capacidade protetiva de uma potencial formulação vacinal.
Ademais, trabalhos que comparam o desempenho e os resultados produzidos por seis
protocolos de VR de proteoma único mostram baixa sobreposição entre as proteínas apon-
tadas como candidatas vacinais potenciais (DALSASS et al., 2019). A grande diversidade
nos conjuntos de CVPs resultantes desses diversos protocolos aponta tanto para um cres-
Proteína
0
15
30
45
60
75
90
105
120
135
150
165
180
195
210
225
240
255
270
285
300
315
330
345
360
375
390
405
420
435
450
465
480
495
510
525
540
555
570
585
600
615
630
645
660
675
690
705
720
735
750
765
780
795
53
cente interesse na área de VR quanto para a necessidade de mais avaliações de referência
com dados experimentais, visto que no benchmarking realizado nenhum dos programas
atingiu mais de 76% de verdadeiros positivos (DALSASS et al., 2019).
Na integração de dados realizada neste trabalho a unidade de análise é o peptídeo,
característica que difere de todas as demais abordagens que atribuem à entidade proteica
graus de maior ou menor imunogenicidade de acordo com os epítopos que a compõem.
Essa estratégia pode se mostrar mais adequada na formulação de vacinas quiméricas mul-
tivalentes (XIN, U.S. Patent US20170137476A1, Jun. 2017), evitar a exclusão de peptídeos
adequados para a geração de resposta imune que pertençam a proteínas com baixa den-
sidade de epítopos (HALLING-BROWN et al., 2008) e facilitar o trabalho de caracterização
e produção dessas entidades químicas, dada a dificuldade na expressão e purificação de
proteínas de membrana (HELBIG; HECK; SLIJPER, 2010).
O grupo de peptídeos aqui apresentado (ver Figura 23) é apenas um dentre os diversos
que podem ser formados por combinações entre os core peptídeos altamente imunogêni-
cos de aqui observados, o que permite a substituição de uma ou mais sequências que por
ventura se mostrem inadequadas para uma formulação vacinal. Além disso, dados expe-
rimentais de transcriptômica e proteômica de estágios iniciais de infecção no hospedeiro
podem ser agregados, aumentando ainda mais a possibilidade de sucesso de abordagens
de proteção desenvolvidas.
Estratégias de identificação de peptídeos vacinais frequentemente utilizam uma ou
duas linhagens como ponto de partida para a obtenção de seus objetos de estudo. O
trabalho aqui desenvolvido explora o conjunto completo de proteínas conhecidas para
sete linhagens de Mycobacterium avium subsp. hominissuis, integrando a predições de
domínios trans-membranares e de imunogenicidade a diversos alelos de HLA.
54
Figura 23: Peptídeos do Conjunto Mínimo
allele peptide consensus_percentile_rank start end outside_ratio outside frequency promiscuity fasta_id cluster
HLA-DRB1*01:01 IAVFLLLRAVPSLRV 0.01 48 62 0.533333333333333 yes 7 3 AXO24634.1 25
HLA-DRB1*09:01 IAVFLLLRAVPSLRV 0.01 48 62 0.533333333333333 yes 7 3 AXO24634.1 25
HLA-DRB3*02:02 IAVFLLLRAVPSLRV 0.01 48 62 0.533333333333333 yes 7 3 AXO24634.1 25
HLA-DPA1*02:01/DPB1*01:01 DSNDFFTYYFFLTGI 0.01 123 137 0.533333333333333 yes 7 3 AXO24709.1 71
HLA-DRB1*12:01 ADLLILPILNIYRKY 0.01 280 294 0.6 yes 7 1 AXO22487.1 96
HLA-DRB1*07:01 AFGYLLASVASLVVM 0.02 141 155 1 yes 7 1 AXO23409.1 308
HLA-DPA1*01:03/DPB1*02:01 SVFRLFWLLYLGMTF 0.01 34 48 0.533333333333333 yes 7 4 AXO23431.1 327
HLA-DPA1*01/DPB1*04:01 SVFRLFWLLYLGMTF 0.015 34 48 0.533333333333333 yes 7 4 AXO23431.1 327
HLA-DPA1*03:01/DPB1*04:02 SVFRLFWLLYLGMTF 0.01 34 48 0.533333333333333 yes 7 4 AXO23431.1 327
HLA-DQA1*01:01/DQB1*05:01 SVFRLFWLLYLGMTF 0.01 34 48 0.533333333333333 yes 7 4 AXO23431.1 327
HLA-DRB1*11:01 GLFVMFSRMQGGARM 0.02 127 141 0.533333333333333 yes 7 1 AXO25018.1 331
HLA-DQA1*04:01/DQB1*04:02 AKNWAIAAIAAADGL 0.01 138 152 1 yes 7 1 AXO23855.1 379
HLA-DRB1*03:01 DTAVRMDPPNDLGDL 0.02 115 129 1 yes 7 2 AXO21874.1 391
HLA-DRB3*01:01 DTAVRMDPPNDLGDL 0.01 115 129 1 yes 7 2 AXO21874.1 391
HLA-DQA1*03:01/DQB1*03:02 DDVYLPIAAEAEAAS 0.015 397 411 1 yes 7 1 AXO23287.1 414
Demonstração parcial da estrutura de dados em que constam os peptídeos do conjunto mínimo. Na primeira coluna constam os haplótipos dos HLAs que se
ligam com alta afinidade aos peptídeos presentes na segunda coluna. Para cada combinação existe uma linha e o percentil ranqueado de afinidade calculado pelo
método Consensus3 é exibido na terceira coluna, seguido pelas posições inicial e final do peptídeo na sequência proteica. A quinta coluna exibe a fração exposta
da proteína, calculada através dos dados do TMHMM. Todas esses peptídeos são classificados como externos pelo critério de fração exposta > 0.5. Na sétima
coluna consta a frequência ou conservação dos peptídeos nas proteínas de seu cluster, sendo todos estes do conjunto mínimo core peptídeos. A promiscuidade
é representada na oitava coluna e a seleção dos peptídeos também considera esse valor a ordenação, de maneira a selecionar o conjunto mínimo. Na penúltima
coluna está o identificador do cabeçalho do arquivo FASTA das proteínas de origem desses peptídeos e os clusters aos quais eles pertencem estão denotados na
décima primeira coluna. Fonte: a autora.
55
5 Conclusão
A análise computacional aqui realizada logrou integrar dados teóricos de imunogenici-
dade, presença de domínios trans-membranares e agrupamento de sequências por homolo-
gia podendo identificar um conjunto de peptídeos candidatos adequado a uma formulação
vacinal para Mycobacterium avium subsp. hominissuis. As análises in silico indicam que
os nove peptídeos considerados no conjunto mínimo estão conservados em todas as linha-
gens consideradas, possuem alta afinidade a pelo menos quinze moléculas de MHC, estão
voltados à porções externas da membrana e não possuem identidade estatisticamente sig-
nificativa a qualquer proteína humana. A sequência de análises aqui desenvolvidas poderá
ser aplicada com possíveis ajustes de parâmetros a outros conjuntos de organismos.
56
Referências
ABBAS, A. K.; LICHTMAN, A. H.; PILLAI, S. Cellular and molecular immunology 6th
edition. [S.l.: s.n.], 2007.
ALTSCHUL, S. F. et al. Gapped blast and psi-blast: a new generation of protein
database search programs. Nucleic acids research, Oxford University Press, v. 25, n. 17,
p. 3389–3402, 1997.
ALVAREZ, J. et al. Epidemiological investigation of a mycobacterium avium subsp.
hominissuis outbreak in swine. Epidemiology & Infection, Cambridge University Press,
v. 139, n. 1, p. 143–148, 2011.
Anatoly Techtonik. Wget PyPI. 2010. Disponível em: <https://pypi.org/project/wget/>.
ARGOS, P.; RAO, J. M.; HARGRAVE, P. A. Structural prediction of membrane-bound
proteins. European Journal of Biochemistry, Wiley Online Library, v. 128, n. 2-3, p.
565–575, 1982.
ASENSI, V. et al. Mycobacterium avium complex cervical lymphadenitis in an
immunocompetent adult patient. Journal of Infection, Elsevier, v. 41, n. 2, p. 195–197,
2000.
ASTRAND, P. PEP 324 – subprocess - New process module. 2003. Disponível em:
<www.python.org/dev/peps/pep-0324>.
BACKERT, L.; KOHLBACHER, O. Immunoinformatics and epitope prediction in the
age of genomic medicine. Genome medicine, BioMed Central, v. 7, n. 1, p. 119, 2015.
BENDINGER, B. et al. Physicochemical cell surface and adhesive properties of
coryneform bacteria related to the presence and chain length of mycolic acids. Appl.
Environ. Microbiol., Am Soc Microbiol, v. 59, n. 11, p. 3973–3977, 1993.
BERNSTEIN, D. I. et al. Machine operator’s lung: a hypersensitivity pneumonitis
disorder associated with exposure to metalworking fluid aerosols. Chest, Elsevier, v. 108,
n. 3, p. 636–641, 1995.
BETHARD, S. J. Argparse. 2006. Disponível em:
<www.github.com/python/cpython/blob/3.8/Lib/argparse.py>.
BOHELER, K. R.; GUNDRY, R. L. The Surfaceome. [S.l.]: Springer, 2018.
BOWMAN, B. N. et al. Improving reverse vaccinology with a machine learning approach.
Vaccine, Elsevier, v. 29, n. 45, p. 8156–8164, 2011.
57
BRENNAN, P. J.; NIKAIDO, H. The envelope of mycobacteria. Annual review of
biochemistry, Annual Reviews 4139 El Camino Way, PO Box 10139, Palo Alto, CA
94303-0139, USA, v. 64, n. 1, p. 29–63, 1995.
CALLISTER, S. J. et al. Comparative bacterial proteomics: analysis of the core genome
concept. PloS one, Public Library of Science, v. 3, n. 2, p. e1542, 2008.
CAPO, S. et al. Chlamydia pneumoniae genome sequence analysis and identification of
hla-a2-restricted cd8+ t cell epitopes recognized by infection-primed t cells. Vaccine,
Elsevier, v. 23, n. 42, p. 5028–5037, 2005.
CASSIDY, P. M. et al. Nontuberculous mycobacterial disease prevalence and risk factors:
a changing epidemiology. Clinical Infectious Diseases, The University of Chicago Press,
v. 49, n. 12, p. e124–e129, 2009.
CHIMARA, E. Avaliação de métodos moleculares para identificação de micobactérias e
elaboração de um algoritmo de identificação. Tese (Doutorado) — Universidade Federal
de São Paulo, 2005.
CHRISTENSEN, J. B.; KOEPPE, J. Mycobacterium avium complex cervical
lymphadenitis in an immunocompetent adult. Clin. Vaccine Immunol., Am Soc
Microbiol, v. 17, n. 9, p. 1488–1490, 2010.
COCK, P. J. et al. Biopython: freely available python tools for computational molecular
biology and bioinformatics. Bioinformatics, Oxford University Press, v. 25, n. 11, p.
1422–1423, 2009.
CORDWELL, S. J. Technologies for bacterial surface proteomics. Current opinion in
microbiology, Elsevier, v. 9, n. 3, p. 320–329, 2006.
COVERT, T. C. et al. Occurrence of nontuberculous mycobacteria in environmental
samples. Appl. Environ. Microbiol., Am Soc Microbiol, v. 65, n. 6, p. 2492–2496, 1999.
CROW, H. E. et al. A limited clinical, pathologic, and epidemiologic study of patients
with pulmonary lesions associated with atypical acid-fast bacilli in the sputum. American
Review of Tuberculosis and Pulmonary Diseases, National Tuberculosis Association,
v. 75, n. 2, p. 199–222, 1957.
DALSASS, M. et al. Comparison of open-source reverse vaccinology programs for
bacterial vaccine antigen discovery. Frontiers in immunology, Frontiers, v. 10, p. 113,
2019.
DESAI, D. V.; KULKARNI-KALE, U. T-cell epitope prediction methods: an overview.
Immunoinformatics, Springer, p. 333–364, 2014.
DOYTCHINOVA, I. A.; FLOWER, D. R. Vaxijen: a server for prediction of protective
antigens, tumour antigens and subunit vaccines. BMC bioinformatics, BioMed Central,
v. 8, n. 1, p. 4, 2007.
D’MELLO, A. et al. Revac: a reverse vaccinology computational pipeline for prioritization
of prokaryotic protein vaccine candidates. BMC genomics, Springer, v. 20, n. 1, p. 981,
2019.
58
EDWARDS, L. B.; PALMER, C. E. Isolation of “atypical” mycobacteria from healthy
persons. American Review of Respiratory Disease, American Lung Association, v. 80,
n. 5, p. 747–749, 1959.
EMBIL, J. et al. Pulmonary illness associated with exposure to mycobacterium-avium
complex in hot tub water: hypersensitivity pneumonitis or infection? Chest, Elsevier,
v. 111, n. 3, p. 813–816, 1997.
FALKINHAM III, J. Surrounded by mycobacteria: nontuberculous mycobacteria in the
human environment. Journal of applied microbiology, Wiley Online Library, v. 107, n. 2,
p. 356–367, 2009.
FALKINHAM, J. O. Nontuberculous mycobacteria in the environment. Clinics in chest
medicine, Elsevier, v. 23, n. 3, p. 529–551, 2002.
FALKINHAM, J. O. et al. Mycobacterium avium in a shower linked to pulmonary
disease. Journal of water and health, IWA Publishing, v. 6, n. 2, p. 209–213, 2008.
FALKINHAM, J. O.; NORTON, C. D.; LECHEVALLIER, M. W. Factors influencing
numbers of mycobacterium avium, mycobacterium intracellulare, and other mycobacteria
in drinking water distribution systems. Appl. Environ. Microbiol., Am Soc Microbiol,
v. 67, n. 3, p. 1225–1231, 2001.
FIELD, S. K.; FISHER, D.; COWIE, R. L. Mycobacterium avium complex pulmonary
disease in patients without hiv infection. Chest, Elsevier, v. 126, n. 2, p. 566–581, 2004.
GREENBAUM, J. et al. Functional classification of class ii human leukocyte antigen
(hla) molecules reveals seven different supertypes and a surprising degree of repertoire
sharing across supertypes. Immunogenetics, Springer, v. 63, n. 6, p. 325–335, 2011.
GROOTE, M. A. D. et al. Relationships between mycobacterium isolates from patients
with pulmonary mycobacterial infection and potting soils. Appl. Environ. Microbiol.,
Am Soc Microbiol, v. 72, n. 12, p. 7602–7606, 2006.
HALLING-BROWN, M. et al. Are bacterial vaccine antigens t-cell epitope depleted?
Trends in immunology, Elsevier, v. 29, n. 8, p. 374–379, 2008.
HATTEM, R. van. Progressbar2. Disponível em:
<https://readthedocs.org/projects/progressbar-2/>.
HAZRA, R. et al. Lymphadenitis due to nontuberculous mycobacteria in children:
presentation and response to therapy. Clinical Infectious Diseases, The University of
Chicago Press, v. 28, n. 1, p. 123–129, 1999.
HE, Y.; XIANG, Z.; MOBLEY, H. L. Vaxign: the first web-based vaccine design program
for reverse vaccinology and applications for vaccine development. BioMed Research
International, Hindawi Publishing Corporation, v. 2010, 2010.
HEIJNE, G. V. Membrane protein structure prediction: hydrophobicity analysis and the
positive-inside rule. Journal of molecular biology, Elsevier, v. 225, n. 2, p. 487–494, 1992.
59
HEIJNE, G. von. The distribution of positively charged residues in bacterial inner
membrane proteins correlates with the trans-membrane topology. The EMBO journal,
John Wiley & Sons, Ltd, v. 5, n. 11, p. 3021–3027, 1986.
HEIJNE, G. von. Membrane proteins: from sequence to structure. Annual review of
biophysics and biomolecular structure, Annual Reviews 4139 El Camino Way, PO Box
10139, Palo Alto, CA 94303-0139, USA, v. 23, n. 1, p. 167–192, 1994.
HEINSON, A. et al. Enhancing the biological relevance of machine learning classifiers for
reverse vaccinology. International journal of molecular sciences, Multidisciplinary Digital
Publishing Institute, v. 18, n. 2, p. 312, 2017.
HELBIG, A. O.; HECK, A. J.; SLIJPER, M. Exploring the membrane prote-
ome—challenges and analytical strategies. Journal of proteomics, Elsevier, v. 73, n. 5, p.
868–878, 2010.
HISHAM, Y.; ASHHAB, Y. Identification of cross-protective potential antigens
against pathogenic brucella spp. through combining pan-genome analysis with reverse
vaccinology. Journal of immunology research, Hindawi, v. 2018, 2018.
HUNTER, J. D. Matplotlib: A 2d graphics environment. Computing in science &
engineering, IEEE, v. 9, n. 3, p. 90–95, 2007.
III, J. O. F.; PARKER, B. C.; GRUFT, H. Epidemiology of infection by nontuberculous
mycobacteria: I. geographic distribution in the eastern united states. American review of
respiratory disease, American Lung Association, v. 121, n. 6, p. 931–937, 1980.
IIVANAINEN, E. et al. Mycobacteria in runoff waters from natural and drained
peatlands. Journal of environmental quality, American Society of Agronomy, Crop
Science Society of America, and Soil . . . , v. 28, n. 4, p. 1226–1234, 1999.
IIVANAINEN, E. K. et al. Mycobacteria in boreal coniferous forest soils. FEMS
Microbiology Ecology, Blackwell Publishing Ltd Oxford, UK, v. 23, n. 4, p. 325–332,
1997.
IWAMOTO, T. et al. Genetic diversity of mycobacterium avium subsp. hominissuis
strains isolated from humans, pigs, and human living environment. Infection, Genetics
and Evolution, Elsevier, v. 12, n. 4, p. 846–852, 2012.
JAISWAL, V. et al. Jenner-predict server: prediction of protein vaccine candidates (pvcs)
in bacteria based on host-pathogen interactions. BMC bioinformatics, BioMed Central,
v. 14, n. 1, p. 211, 2013.
JARLIER, V.; NIKAIDO, H. Mycobacterial cell wall: structure and role in natural
resistance to antibiotics. FEMS microbiology letters, Oxford University Press, v. 123,
n. 1-2, p. 11–18, 1994.
JR, F. C. W. Mycobacteria in a new england hospital: a study of mycobacterial species
occurring in the sputum of patients with chronic pulmonary disease. American Review
of Respiratory Disease, American Lung Association, v. 98, n. 6, p. 965–977, 1968.
JR, R. A. K.; PARKER, B. C.; III, J. O. F. Epidemiology of infection by nontuberculous
mycobacteria. Mycobacterium avium, Mycobacterium intracellulare, p. 271–275, 1992.
60
JR, R. J. W.; BROWN, B. A.; GRIFFITH, D. E. Nosocomial outbreaks/pseudo
outbreaks caused by nontuberculous mycobacteria. Annual review of microbiology,
Annual Reviews 4139 El Camino Way, PO Box 10139, Palo Alto, CA 94303-0139, USA,
v. 52, n. 1, p. 453–490, 1998.
KAHANA, L. M. et al. Mycobacterium avium complex infection in an immunocompetent
young adult related to hot tub exposure. Chest, Elsevier, v. 111, n. 1, p. 242–245, 1997.
KROGH, A. et al. Predicting transmembrane protein topology with a hidden markov
model: application to complete genomes. Journal of molecular biology, Elsevier, v. 305,
n. 3, p. 567–580, 2001.
MANGIONE, E. J. et al. Nontuberculous mycobacterial disease following hot tub
exposure. Emerging infectious diseases, Centers for Disease Control and Prevention, v. 7,
n. 6, p. 1039, 2001.
MARGALIT, H.; ALTUVIA, Y. Insights from mhc-bound peptides. In: WILEY ONLINE
LIBRARY. Novartis Foundation symposium. [S.l.], 2003. p. 77–97.
MARRAS, T. K. et al. Risk of nontuberculous mycobacterial pulmonary disease with
obstructive lung disease. European Respiratory Journal, Eur Respiratory Soc, v. 48, n. 3,
p. 928–931, 2016.
MARRAS, T. K. et al. Hypersensitivity pneumonitis reaction to mycobacterium avium
in household water. Chest, Elsevier, v. 127, n. 2, p. 664–671, 2005.
MASIGNANI, V.; PIZZA, M.; MOXON, E. R. The development of a vaccine against
meningococcus b using reverse vaccinology. Frontiers in Immunology, Frontiers Media
SA, v. 10, 2019.
MCKINNEY, W. et al. Data structures for statistical computing in python. In: AUSTIN,
TX. Proceedings of the 9th Python in Science Conference. [S.l.], 2010. v. 445, p. 51–56.
MIJS, W. et al. Molecular evidence to support a proposal to reserve the designation
mycobacterium avium subsp. avium for bird-type isolates and’m. avium subsp.
hominissuis’ for the human/porcine type of m. avium. International journal of systematic
and evolutionary microbiology, Microbiology Society, v. 52, n. 5, p. 1505–1518, 2002.
MÖLLER, S.; CRONING, M. D.; APWEILER, R. Evaluation of methods for the
prediction of membrane spanning regions. Bioinformatics, Oxford University Press, v. 17,
n. 7, p. 646–653, 2001.
MOORE, J. S. et al. Mycobacterial contamination of metalworking fluids: involvement
of a possible new taxon of rapidly growing mycobacteria. AIHAJ-American Industrial
Hygiene Association, AIHAJ, v. 61, n. 2, p. 205–213, 2000.
MORA, M. et al. Microbial genomes and vaccine design: refinements to the classical
reverse vaccinology approach. Current opinion in microbiology, Elsevier, v. 9, n. 5, p.
532–536, 2006.
MOULIN, G. C. du et al. Concentration of mycobacterium avium by hospital hot water
systems. Jama, American Medical Association, v. 260, n. 11, p. 1599–1601, 1988.
61
MOXON, R.; RECHE, P. A.; RAPPUOLI, R. Reverse vaccinology. Frontiers in
Immunology, Frontiers Media SA, v. 10, 2019.
MUWONGE, A. et al. Molecular characterization of mycobacterium avium subspecies
hominissuis isolated from humans, cattle and pigs in the uganda cattle corridor using
vntr analysis. Infection, Genetics and Evolution, Elsevier, v. 21, p. 184–191, 2014.
NAMKOONG, H. et al. Epidemiology of pulmonary nontuberculous mycobacterial
disease, japan. 2016.
NIELSEN, M.; LUND, O. NN-align. An artificial neural network-based alignment
algorithm for MHC class II peptide binding prediction. BMC Bioinformatics, 2009.
NIELSEN, M. et al. Quantitative predictions of peptide binding to any HLA-DR
molecule of known sequence: NetMHCIIpan. PLoS Computational Biology, 2008.
NIELSEN, M.; LUNDEGAARD, C.; LUND, O. Prediction of MHC class II binding
affinity using SMM-align, a novel stabilization matrix alignment method. BMC
Bioinformatics, 2007.
NISHIUCHI, Y.; IWAMOTO, T.; MARUYAMA, F. Infection sources of a common
non-tuberculous mycobacterial pathogen, mycobacterium avium complex. Frontiers in
medicine, Frontiers, v. 4, p. 27, 2017.
NISHIUCHI, Y. et al. The recovery of mycobacterium avium-intracellulare complex
(mac) from the residential bathrooms of patients with pulmonary mac. Clinical Infectious
Diseases, The University of Chicago Press, v. 45, n. 3, p. 347–351, 2007.
O’BRIEN, D. P.; CURRIE, B. J.; KRAUSE, V. L. Nontuberculous mycobacterial disease
in northern australia: a case series and review of the literature. Clinical infectious
diseases, The University of Chicago Press, v. 31, n. 4, p. 958–967, 2000.
O’BRIEN, R. J.; GEITER, L. J.; JR, D. E. S. The epidemiology of nontuberculous
mycobacterial diseases in the united states: results from a national survey. American
Review of Respiratory Disease, American Lung Association, v. 135, n. 5, p. 1007–1014,
1987.
OLIPHANT, T. E. A guide to NumPy. [S.l.]: Trelgol Publishing USA, 2006.
PARKIN, J.; COHEN, B. An overview of the immune system. The Lancet, Elsevier,
v. 357, n. 9270, p. 1777–1789, 2001.
PATE, M. et al. Miru–vntr typing of mycobacterium avium in animals and humans:
Heterogeneity of mycobacterium avium subsp. hominissuis versus homogeneity of
mycobacterium avium subsp. avium strains. Research in veterinary science, Elsevier,
v. 91, n. 3, p. 376–381, 2011.
PEDRO, I. P. de; QUINTANA-BELTRÁN, P. de la; BERMÚDEZ-RUIZ, P. Linfadenitis
cervical por mycobacterium avium en adulto inmunocompetente. Enfermedades
Infecciosas y Microbiología Clínica, Elsevier, v. 25, n. 2, p. 159–161, 2007.
PRIMM, T. P.; III, J. O. F. Nontuberculous mycobacteria. Elsevier, 2017.
62
PRINCE, D. S. et al. Infection with mycobacterium avium complex in patients without
predisposing conditions. New England Journal of Medicine, Mass Medical Soc, v. 321,
n. 13, p. 863–868, 1989.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna,
Austria, 2013. Disponível em: <http://www.R-project.org/>.
RASTOGI, N. et al. Multiple drug resistance in mycobacterium avium: is the wall
architecture responsible for exclusion of antimicrobial agents? Antimicrobial Agents and
Chemotherapy, Am Soc Microbiol, v. 20, n. 5, p. 666–677, 1981.
REYN, C. F. V. et al. Isolation of mycobacterium avium complex from water in the
united states, finland, zaire, and kenya. Journal of clinical microbiology, Am Soc
Microbiol, v. 31, n. 12, p. 3227–3230, 1993.
RINDI, L.; GARZELLI, C. Genetic diversity and phylogeny of mycobacterium avium.
Infection, genetics and evolution, Elsevier, v. 21, p. 375–383, 2014.
RINGSHAUSEN, F. C. et al. Prevalence of nontuberculous mycobacterial pulmonary
disease, germany, 2009–2014. Emerging infectious diseases, Centers for Disease Control
and Prevention, v. 22, n. 6, p. 1102, 2016.
RIZWAN, M. et al. Vacsol: a high throughput in silico pipeline to predict potential
therapeutic targets in prokaryotic pathogens using subtractive reverse vaccinology. BMC
bioinformatics, BioMed Central, v. 18, n. 1, p. 106, 2017.
ROSS, B. C. et al. Identification of vaccine candidate antigens from a genomic analysis
of porphyromonas gingivalis. Vaccine, Elsevier, v. 19, n. 30, p. 4135–4142, 2001.
ROSSUM, G. V.; JR, F. L. D. Python tutorial. [S.l.]: Centrum voor Wiskunde en
Informatica Amsterdam, The Netherlands, 1995.
SADIKOT, R. T. Nontuberculous mycobacterial lung disease. In: Nontuberculous
Mycobacteria (NTM). [S.l.]: Elsevier, 2019. p. 121–132.
Secret Labs AB. Regular Expression Engine. 1998. Disponível em:
<https://github.com/python/cpython/blob/3.8/Lib/re.py>.
SERRUTO, D. et al. The new multicomponent vaccine against meningococcal serogroup
b, 4cmenb: immunological, functional and structural characterization of the antigens.
Vaccine, Elsevier, v. 30, p. B87–B97, 2012.
SES-SP. MICOBACTERIOSES: RECOMENDAÇÕES PARA O DIAGNÓSTICO E
TRATAMENTO. [S.l.: s.n.], 2005.
SETTE, A. et al. Structural requirements for the interaction between class ii mhc
molecules and peptide antigens. Immunologic research, Springer, v. 9, n. 1, p. 2–7, 1990.
SHAH, N. M. et al. Pulmonary mycobacterium avium-intracellulare is the main driver
of the rise in non-tuberculous mycobacteria incidence in england, wales and northern
ireland, 2007–2012. BMC infectious diseases, BioMed Central, v. 16, n. 1, p. 195, 2016.
63
SHELTON, B. G.; FLANDERS, W. D.; MORRIS, G. K. Mycobacterium sp. as a
possible cause of hypersensitivity pneumonitis in machine workers. Emerging infectious
diseases, Centers for Disease Control and Prevention, v. 5, n. 2, p. 270, 1999.
SOCIETY, A. T. et al. Diagnosis and treatment of disease caused by nontuberculous
mycobacteria. Am. J. Respir. Crit. Care Med., v. 156, p. S1–S25, 1997.
SOLIS, N.; CORDWELL, S. J. Current methodologies for proteomics of bacterial
surface-exposed and cell envelope proteins. Proteomics, Wiley Online Library, v. 11,
n. 15, p. 3169–3189, 2011.
SONNHAMMER, E. L. et al. A hidden markov model for predicting transmembrane
helices in protein sequences. In: Ismb. [S.l.: s.n.], 1998. v. 6, p. 175–182.
STURNIOLO, T. et al. Generation of tissue-specific and promiscuous hla ligand
databases using dna microarrays and virtual hla class ii matrices. Nature biotechnology,
Nature Publishing Group, v. 17, n. 6, p. 555–561, 1999.
THOMSON, R. M.; YEW, W.-W. When and how to treat pulmonary non-tuberculous
mycobacterial diseases. Respirology, Wiley Online Library, v. 14, n. 1, p. 12–26, 2009.
TORTOLI, E. Impact of genotypic studies on mycobacterial taxonomy: the new
mycobacteria of the 1990s. Clinical microbiology reviews, Am Soc Microbiol, v. 16, n. 2,
p. 319–354, 2003.
TORVINEN, E. et al. Mycobacteria in water and loose deposits of drinking water
distribution systems in finland. Appl. Environ. Microbiol., Am Soc Microbiol, v. 70, n. 4,
p. 1973–1981, 2004.
TSUKAMURA, M. Background factors for casual isolation of mycobacterium
intracellulare from sputum of patients with tuberculosis. American Review of Respiratory
Disease, American Lung Association, v. 108, n. 3, p. 679–683, 1973.
TSUKAMURA, M. Clinical significance of casual isolation of acid-fast organisms from
sputum of tuberculous patients. American Review of Respiratory Disease, American
Lung Association, v. 108, n. 6, p. 1429–1430, 1973.
TSUKAMURA, M. et al. Mycobacteriosis in japan1. 2. Am Rev Respir Dis, v. 137, p.
1280–1284, 1988.
TURENNE, C. Y. et al. Sequencing of hsp65 distinguishes among subsets of the
mycobacterium avium complex. Journal of clinical microbiology, Am Soc Microbiol,
v. 44, n. 2, p. 433–440, 2006.
UEKI, S. Y. M. et al. Micobactérias-tuberculosas: diversidade das espécies no
estado de São Paulo. Jornal Brasileiro de Patologia e Medicina Laboratorial,
scielo, v. 41, p. 1 – 8, 02 2005. ISSN 1676-2444. Disponível em:
<http://www.scielo.br/scielo.php?script=sciarttextpid = S1676 −
24442005000100003nrm = iso>.
VESTH, T. et al. Cmg-biotools, a free workbench for basic comparative microbial
genomics. PLOS ONE, Public Library of Science, v. 8, n. 4, p. 1–16, 04 2013. Disponível
em: <https://doi.org/10.1371/journal.pone.0060120>.
64
VITA, R. et al. The immune epitope database (iedb) 3.0. Nucleic acids research, Oxford
University Press, v. 43, n. D1, p. D405–D412, 2014.
VIVONA, S.; BERNANTE, F.; FILIPPINI, F. Nerve: new enhanced reverse vaccinology
environment. BMC biotechnology, BioMed Central, v. 6, n. 1, p. 35, 2006.
VLUGGEN, C. et al. Genotyping and strain distribution of mycobacterium avium
subspecies hominissuis isolated from humans and pigs in belgium, 2011-2013. Euro
Surveillance: Bulletin Européen sur les Maladies Transmissibles, European Centre for
Disease Prevention and Control, v. 21, n. 3, p. 18–25, 2016.
WANG, P. et al. A systematic assessment of MHC class II peptide binding predictions
and evaluation of a consensus approach. PLoS Computational Biology, 2008.
WANG, P. et al. Peptide binding predictions for hla dr, dp and dq molecules. BMC
bioinformatics, 2010.
WICKHAM, H. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York,
2016. ISBN 978-3-319-24277-4. Disponível em: <https://ggplot2.tidyverse.org>.
WICKHAM, H. stringr: Simple, Consistent Wrappers for Common String
Operations. [S.l.], 2019. R package version 1.4.0. Disponível em: <https://CRAN.R-
project.org/package=stringr>.
WICKHAM, H. et al. dplyr: A Grammar of Data Manipulation. [S.l.], 2019. R package
version 0.8.3. Disponível em: <https://CRAN.R-project.org/package=dplyr>.
WICKHAM, H.; HENRY, L. tidyr: Easily Tidy Data with ’spread()’ and ’gather()’
Functions. [S.l.], 2019. R package version 0.8.3. Disponível em: <https://CRAN.R-
project.org/package=tidyr>.
WILLIAMSON, Y. M. et al. Surfaceome analysis protocol for the identification of novel
bordetella pertussis antigens. In: The Surfaceome. [S.l.]: Springer, 2018. p. 3–20.
WINTHROP, K. L. Pulmonary disease due to nontuberculous mycobacteria: an
epidemiologist’s view. Future microbiology, Future Medicine, v. 5, n. 3, p. 343–345, 2010.
WIZEMANN, T. M. et al. Use of a whole genome approach to identify vaccine molecules
affording protection against streptococcus pneumoniae infection. Infection and immunity,
Am Soc Microbiol, v. 69, n. 3, p. 1593–1598, 2001.
WOLINSKY, E. Mycobacterial lymphadenitis in children: a prospective study of
105 nontuberculous cases with long-term follow-up. Clinical Infectious Diseases, The
University of Chicago Press, v. 20, n. 4, p. 954–963, 1995.
XIN, H. Chimeric Vaccine Against Fungal Infections. U.S. Patent US20170137476A1,
Jun. 2017.
YAN, B. et al. Discovery of surface target proteins linking drugs, molecular markers, gene
regulation, protein networks, and disease by using a web-based platform targets-search.
In: The Surfaceome. [S.l.]: Springer, 2018. p. 331–344.
65
YANO, H. et al. Population structure and local adaptation of mac lung disease agent
mycobacterium avium subsp. hominissuis. Genome biology and evolution, Oxford
University Press, v. 9, n. 9, p. 2403–2417, 2017.
66
APÊNDICE A -- get_proteome.py
 
1 import argparse
2 import os
3 import anyat
4
5 parser = argparse.ArgumentParser(description='Get proteome from intraspecies name.')
6 parser.add_argument('--intraspecies_file', action = 'store', dest = 'species_file', default = False, required =
↪→ True, help = 'The file with the intraspecies name.')
7 parser.add_argument('--assembly_summary', action = 'store', dest = 'assembly_summary', default = False,
↪→ required = True, help = 'NCBI most recent assembly summary file')
8 parser.add_argument('--output_file', action = 'store', dest = 'output_file', default = '../intermediateOutput/
↪→ species.csv', required = False, help = 'The csv output file name.')
9 parser.add_argument('--output_folder', action = 'store', dest = 'output_folder', default = '../
↪→ intermediateOutput/faa_files', required = False, help = 'The csv output folder name.')
10
11 args = parser.parse_args()
12
13 #------------------
14
15 species_file = args.species_file
16 assembly_summary = args.assembly_summary
17 output_csv = args.output_file
18 output_folder = args.output_folder
19
20 #get paths to download protein/nucleic acid info
21 sp_df = anyat.get_paths( species_file, assembly_summary )
22
23 #consider only those with complete genomes
24 sp_df = sp_df.loc[sp_df[2] == 'Complete Genome']
25
26 #save this info in a csv file
27 sp_df.to_csv(output_csv)
28
29 #download fna files from all links in sp_df
30 dir_path = output_folder
31 anyat.create_dir(output_folder)
32 sp_df.apply(lambda row: anyat.download_ftp(row[0]+'_'+row[1], row[3], '_protein.faa.gz', output_folder), axis=1)
33
34 #decompress files
35 for file_ in os.listdir(dir_path):
36 anyat.decompress(dir_path+'/'+file_) 
67
APÊNDICE B -- anyat.py
 
1
2 # -*- coding: utf-8 -*-
3 """
4 Created on Fri Jun 21 09:25:12 2019
5
6 @author: tayna
7 """
8
9 import pandas as pd
10 import numpy as np
11 import wget
12 import os
13 import gzip
14 import shutil
15 import progressbar
16
17 def create_dir(directory):
18 import os, errno
19
20 try:
21 os.makedirs(directory)
22 except OSError as e:
23 if e.errno != errno.EEXIST:
24 raise
25
26 def get_paths( species_file, assembly_summary ):
27 import re
28 import pandas as pd
29
30 with open ( species_file, 'r') as speciesfile:
31 species_list = []
32 for line in speciesfile:
33 species_list.append(line.strip())
34
35 for species in species_list:
36 print("Getting paths of proteins from "+species+" to download.")
37 print("")
38
39
40 with open ( assembly_summary, 'r') as genbankfile:
41 valid_entries = []
42 for line in genbankfile:
68
43 re.findall(r'|'.join(species_list), line, re.IGNORECASE)
44 if any(re.findall(r'|'.join(species_list), line, re.IGNORECASE)):
45 valid_e = line.split('\t')[7], line.split('\t')[8], line.split('\t')[11], line.split('\t')[19]
46 valid_entries.append(valid_e)
47
48 valid_entries = pd.DataFrame(valid_entries)
49 valid_entries.drop_duplicates
50 #print(valid_entries)
51 return valid_entries
52
53 def download_ftp( species, path, extension, dir_path ):
54 create_dir(dir_path)
55 output_file = species.replace(' ', '_')+'_'+path.split('/')[-1]+extension
56 file_path = os.path.join(dir_path, output_file)
57
58 url = path+'/'+path.split('/')[-1]+extension
59
60 if not os.path.isfile(file_path):
61 try:
62 print("Trying to download "+url)
63 print("")
64 wget.download(url, out=file_path)
65 print("")
66 print("Downloaded")
67 print("")
68 except:
69 print("")
70 print("Unexpected error with download "+url)
71 print("")
72
73 def decompress ( file_ ):
74 print('Decompressing '+file_)
75 print("")
76 with gzip.open(file_, 'rb') as f_in:
77 with open(file_.replace('.gz', ''), 'wb') as f_out:
78 shutil.copyfileobj(f_in, f_out)
79
80 def execute_tmhmm( file, output_path ):
81 import subprocess
82 pbar = progressbar.ProgressBar()
83
84 outpt = '.'.join(file.split("/")[-1].split('.')[:-1])
85
86 print(outpt)
87 with open(os.path.join(output_path, outpt),"w") as out:
88 p = subprocess.Popen(["perl", "tmhmm-2.0c/bin/tmhmm", "-short", file], stdout=out, stderr=out)
89
90 result = []
91
92 while p.stdout is not None:
93
94 # Update spinner on one step:
95 # It will update only when any line was printed to stdout!
96 pbar.update()
69
97 # Read each line:
98
99 line = p.stdout.readline()
100 # Add line in list and remove carriage return
101
102 result.append(line.decode('UTF-8').rstrip('\r'))
103
104 # When no lines appears:
105 if not line:
106 print("\n")
107 p.stdout.flush()
108 break
109
110 # Show finish message, it also useful because bar cannot start new line on console, why?
111 print("Finish:")
112 # Results as string:
113 print(''.join(result))
114
115 def remove_duplicates(infile):
116 s = set()
117 for line in open(infile):
118 s.add(line)
119 open(infile, 'w').writelines(s)
120
121 def linearize_fasta(infile):
122 l = []
123 print(infile)
124 with open (infile, 'r') as in_file:
125 for line in in_file:
126 if line.startswith('>'):
127 l.append(line.replace('>', '\n>'))
128 if not line.startswith('>'):
129 l.append(line.strip())
130
131 with open (infile, 'w') as out_file:
132 for item in l:
133 out_file.write(item) 