Navegando por Autor "Sakamoto, Tetsu"
Agora exibindo 1 - 18 de 18
- Resultados por página
- Opções de Ordenação
Dissertação Análise filogenética dos genes do Locus rfb do gênero Leptospira dos sorogrupos Sejroe, Mini e Hebdomadis(Universidade Federal do Rio Grande do Norte, 2023-09-29) Setúbal, Ruth Flávia Barros; Souza, Jorge Estefano de Santana; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; https://orcid.org/0000-0003-2347-042X; http://lattes.cnpq.br/8058577659019910; http://lattes.cnpq.br/7173797748516446; Cosate, Maria Raquel VenturimA leptospirose é uma zoonose de grande impacto na saúde pública, pois é considerada uma doença de notificação compulsória ocorrendo principalmente em regiões tropicais com saneamento básico precário e condição socioeconômica vulnerável. Ela é causada por bactérias do gênero Leptospira e filo Spirochaetes e a contaminação se dá através do contato direto ou indireto com o agente contaminante. Além da classificação taxonômica, que é realizada através do sequenciamento e a análise de alguns genes marcadores, como o 16S rRNA e o secY, elas são habitualmente classificadas com base nas suas características antigênicas em sorogrupos e sorovares. Este tipo de classificação é intensamente aplicado nos estudos epidemiológicos e de desenvolvimento de vacinas. Apesar da sua importância, poucos estudos foram realizados para entender a dinâmica evolutiva do surgimento ou a mudança de sorologia neste gênero. Diante disso, aplicamos neste estudo métodos de filogenia molecular no intuito de entender os processos evolutivos que envolvem a sorologia do gênero. Para isso, sequências de genes que fazem parte do locus rfb de amostras dos sorogrupos Sejroe, Mini e Hebdomadis (34 amostras) foram extraídas e submetidas ao pipeline filogenético, resultando na inferência de 75 árvores de máxima verossimilhança. Analisando as árvores, pode-se verificar que aqueles genes do locus rfb encontrados na maioria das espécies de Leptospira apresentaram uma topologia semelhante ao da árvore de espécies. Já aqueles genes que se encontram na região variável do locus apresentaram árvores com topologias que sugerem a ocorrência de transferência lateral entre as espécies L. borgpetersenii e L. kirschneri e L. interrogans e L. weilli. Nesta análise, não foram encontrados evidências sobre a ocorrência da transferência lateral entre amostras do sorovar Hardjo das espécies L. interrogans e L. borgpetersenii, sugerindo que seus genes já estavam presentes no ancestral comum e que eles passaram por herança vertical. Desta forma, sugere-se também que a ocorrência de transferência horizontal dos genes do locus rfb entre espécies distintas seja menos frequente do que se espera.Tese Aplicação do sequenciamento de leituras curtas no estudo da variabilidade genômica de organismos relevantes para a carcinicultura(Universidade Federal do Rio Grande do Norte, 2023-12-01) Soares, Paulo Eduardo Toscano; Lanza, Daniel Carlos Ferreira; https://orcid.org/0000-0002-1341-4814; http://lattes.cnpq.br/6851351991421755; https://orcid.org/0000-0002-4159-8569; http://lattes.cnpq.br/1232677110942724; Dalmolin, Rodrigo Juliani Siqueira; Sakamoto, Tetsu; Ortega, José Miguel; Farias, Sávio Torres deNas últimas duas décadas, o sequenciamento de leituras curtas se tornou uma ferramenta central nos estudos genômicos permitindo a rápida e precisa descoberta de sequências de DNA em alta quantidade. Isso viabilizou a aplicação do sequenciamento em atividades de interesse econômico como a carcinicultura permitindo, por exemplo, a identificação de patógenos e a genotipagem, tanto de centenas a milhares de camarões simultaneamente quanto a detecção de variantes genéticas desses patógenos. Esse sequenciamento pode também auxiliar na descoberta de marcadores genéticos, como os microsatélites e SNPs, que podem ser reunidos em um painel de genotipagem, tornando escalável e reduzindo o custo por amostra da sua aplicação. Especificamente na carcinicultura, esta tecnologia tem se mostrado extremamente valiosa, principalmente para o estudo do genoma de camarões. As análises dos genomas nuclear e mitocondrial fornecem informações cruciais sobre origem, adaptabilidade e outros aspectos evolutivos que são vitais para a otimização da criação de camarões. Devido à alta profundidade de cobertura dos desses sequenciamentos, é possível capturar a diversidade genética nas amostras, permitindo descobrir variações genéticas em populações mitocondriais (heteroplasmia) ocorrendo nos camarões e nos patógenos, como os vírus que os acometem. Surge assim, uma oportunidade única de se estudar os impactos dessa diversidade genética no uso de marcadores mitocondriais e na descoberta de variantes e quasispécies virais. Isso se traduz em práticas de manejo mais informadas, minimizando surtos e otimizando a saúde dos camarões. Já a implementação de painéis baseados em SNPs é um claro exemplo do impacto da genotipagem, demonstrando como a tecnologia pode ser usada para melhorar as práticas de seleção genética em carcinicultura. Neste trabalho, avaliou-se o impacto da diversidade genética mitocondrial, em um vírus que acomete a carcinicultura e no camarão por abordagens de bioinformática. Primeiro, foram avaliadas a ocorrência de heteroplasmia analisando-se dados do sequenciamento do músculo de um único camarão, detectando padrões de variabilidade e conservação nos mitogenomas desse indivíduo, além de comparar essa variabilidade interna com a observada entre outros mitogenomas e observar o impacto em marcadores na região de controle, muito utilizada em estudos populacionais. Segundo, avaliou-se a variabilidade genética do vírus da mionecrose infecciosa do camarão obtido em tanques em situação de surto viral, obtendo-se o genótipo da variante mais prevalente para análises filogenéticas, revelando sua possível origem e relação com demais linhagens existentes, e de variantes secundárias, avaliando a ocorrência de quasispécies virais. Por último, a partir de dados previamente existentes, foi desenvolvido um painel de 25 marcadores de SNPs (15 genômicos e 10 mitocondriais) objetivando a genotipagem a baixo custo do camarão Penaeus vannamei por amplificação por PCR multiplex seguido de análises de parentesco in silico. Atualmente este último projeto encontra-se em andamento e já teve os iniciadores avaliados, restando agora seguir com o sequenciamento e as análises de bioinformática. Em suma, este trabalho mostrou que o sequenciamento de leituras curtas é capaz de capturar a diversidade genética, trazendo novas percepções para a carcinicultura ao expor o impacto em marcadores, a variabilidade viral e, futuramente, o impacto dessa variabilidade em painéis de genotipagem.Dissertação Bases genéticas associadas à classificação sorológica em Leptospira: um estudo de caso do sorogrupo Sejroe(Universidade Federal do Rio Grande do Norte, 2021-11-30) Medeiros, Eliseu Jayro de Souza; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/8604580112217498; Souza, Jorge Estefano de Santana; Lima, Anna Monteiro Correia; Cosate, Maria Raquel VenturimA leptospirose é uma zoonose amplamente distribuída, causada por cepas de bactérias patogênicas do gênero Leptospira (Filo Spirochaetes). Seus agentes são comumente classificados com base em suas características antigênicas em sorogrupos e sorovares, que são relevantes para estudos epidemiológicos e desenvolvimento de vacinas. No entanto, os métodos utilizados para isso são considerados trabalhosos e requerem uma infraestrutura especializada. Alguns métodos moleculares foram propostos para acelerar esses procedimentos, mas ainda não podem substituir os testes imunológicos, exigindo assim um maior conhecimento da base genética subjacente à classificação sorológica. Neste trabalho, nos concentramos em elucidar os fatores genéticos determinantes do sorogrupo Sejroe, que é um dos sorogrupos mais prevalentes da pecuária. Para isso realizamos uma análise genômica comparativa utilizando mais de 700 amostras de leptospiras disponíveis no banco de dados públicos. A análise mostrou que os genes que compõem o locus rfb são os principais fatores genéticos associados à classificação sorológica. O locus rfb de amostras do sorogrupo Sejroe tem uma composição de gene conservada que difere da maioria dos outros sorogrupos. Hebdomadis e Mini foram os únicos sorogrupos cujas amostras apresentam locus rfb com composição gênica semelhante aos do sorogrupo Sejroe, corroborando com a similaridade antigênica compartilhada por eles. Finalmente, nós pudemos determinar uma pequena região no locus rfb em que cada um desses três sorogrupos pode ser distinguido por sua composição gênica. Este é o primeiro trabalho que utiliza um extenso repertório de dados genômicos de amostras de leptospira para elucidar as bases moleculares da classificação sorológica e abrir caminho para estratégias mais confiáveis baseadas em métodos moleculares de sorodiagnósticos.TCC Dados genéticos de plantas da caatinga: investigação de dados disponíveis com enfoque em marcadores moleculares para filogenia e em elementos transponíveis(Universidade Federal do Rio Grande do Norte, 2023-07-03) Costa, Jasse Beatriz Duarte da; Lúcio, Paulo Sérgio Marinho; http://lattes.cnpq.br/8301201882084757; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; Blaha, Carlos Alfredo Galindo; http://lattes.cnpq.br/2307806644081146A caatinga é um dos principais biomas brasileiros e ocupa a maior extensão do territorial da região Nordeste, com o clima semiárido. A caracterização desse bioma permitiu o surgimento de uma grande diversidade genética de espécies vegetais, plantas lenhosas e não lenhosas compreende grande parte da biodiversidade vegetal. No entanto, a irregularidade das chuvas e a escassez da água não são os únicos desafios enfrentados pela vegetação, o desmatamento é um dos principais problemas que afligem a flora da caatinga, levando a modificação da vegetação nativa e ameaça as espécies que hoje são consideradas vulneráveis ou em perigo de extinção. Diante desse cenário, as novas tecnologias para sequenciamento de DNA de plantas e programas computacionais de bioinformática se tornam uma ferramenta importante para atender a necessidade de pesquisas voltadas para a conservação e reprodução das espécies nativas. Com isso, neste trabalho buscamos nos bancos de dados públicos de sequências de nucleótido o que há de informação genética disponível em uma amostra de 20 espécies que apresentaram uma maior distribuição no domínio fitogeográfico da caatinga. Esta busca foi feita em duas abordagens, marcadores moleculares e elementos transponíveis. Os resultados obtidos mostram que para essas espécies não há genomas totalmente sequenciados, mas há dados para marcadores moleculares que são essenciais para estudos de inúmeras espécies, tanto em abordagens filogenéticas como filogeográficas. Quanto aos elementos transponíveis não há sequencias disponíveis para as plantas objeto do estudo. Há, no entanto, genomas completos de plantas das mesmas famílias de plantas da caatinga que podem, num estudo em genômica comparativa, servir de base para a obtenção de sequências próximas a serem utilizadas no desenho de oligonucelitodeos para PCR em pesquisas futuras com elementos transponíveis. Uma análise preliminar com marcadores moleculares do gene matK permitiu a obtenção de árvores filogenética na análise de uma possível correlação entre estes genomas de plantas da caatinga com a resposta aos estresses bióticos e abióticos aos quais são submetidas estas plantas.Dissertação Desenvolvimento de pipeline para análise de SNPs otimizados para identificação de espécies e seus híbridos: um estudo de caso em Sapajus (Primates)(Universidade Federal do Rio Grande do Norte, 2024-09-04) Lacerda, Lucas de Freitas; Sakamoto, Tetsu; Martins, Amely Branquinho; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/1677191888514673; Freitas, Patrícia Domingues de; Rego, Thais Gaudêncio doAs pressões antrópicas sofridas pelos remanescentes de Mata Atlântica no litoral brasileiro, se refletem em impactos no estado de conservação das espécies que compõem sua fauna, dentre estas, os primatas neotropicais. Visando a conservação dos primatas ameaçados do Nordeste, o Centro Nacional de Pesquisa e Conservação de Primatas Brasileiros, CPB/ICMBio, coordena o Plano de Ação Nacional para Conservação dos Primatas do Nordeste (PAN-PRINE). Uma das espécies alvo é o macaco-prego-galego (Sapajus flavius), categorizada como Em Perigo de extinção. Visando contribuir para a implementação de ações do PAN-PRINE, o presente trabalho objetivou analisar a estrutura genética de espécimes provenientes de vida livre e cativeiro, de indivíduos do gênero Sapajus, e propor um painel de SNPs diagnósticos para identificação de duas espécies parentais (S. flavius e S. libidinosus) e híbridos, utilizando técnicas de aprendizado de máquina. Foram realizadas duas análises de estrutura populacional, uma exploratória, com várias espécies do gênero e amostras de cativeiro (n=228) e uma análise específica, com amostras de cativeiro (n=52) e populações naturais (n=127) de S. flavius e S. libidinosus, incluindo híbridos naturais entre as espécies. Nossa análise exploratória retirou do conjunto de dados oito amostras de cativeiro que não possuíam um padrão de ancestralidade esperado para hibridação das espécies de interesse. Das amostras remanescentes, 30 foram classificadas como híbridas, 14 como S. libidinosus e 8 como S. flavius, baseado nos coeficientes de ancestralidade estabelecidos para identificar uma espécie (Q>90%). Essas amostras, juntamente com as de vida livre, foram particionadas em 20% para o conjunto de validação e 80% para o conjunto de treino e teste (70% e 30%, respectivamente). Foram utilizados 6 algoritmos de aprendizado supervisionado para o treinamento de modelos preditivos: k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NVB), Support Vector Machine (SVM), X Gradient Boosting (XGB) e Random Forest (RF) e posterior seleção de features (n=2484), que neste caso são SNPs. Todos os modelos foram treinados usando partições do dado com K-fold (K=5). Foram selecionadas 15, 30 e 45 features pelo forward feature selection. Os modelos RF, SVM e NVB foram os mais consistentemente bem colocados no ranqueamento ao longo do aumento do número de features, baseado no score de acurácia no conjunto de validação, com a RF rendendo os melhores resultados para maiores números de SNPs. Quando ranqueamos os conjuntos de SNPs selecionados pelos modelos de acordo com o melhor agrupamento gerado por uma metodologia não supervisionada, obtivemos XGB e KNN como modelos mais bem colocados baseados no Rand Score (RS). Nenhuma de nossas variantes com alta capacidade para a identificação dos grupos se localizam em regiões codificantes do genoma, a maioria estava presente em regiões intergênicas (n=20) e em regiões intrônicas, que podem pertencer a diferentes variações de splicing de genes (n_vars=24, n_genes=119). A partir do montante inicial de 2484 SNPs, conseguimos reduzir a dimensionalidade do nosso dado enquanto mantivemos variantes altamente informativas para diferenciação dos grupos. Além disso, conseguimos identificar que a maioria dessas variantes não possuem impacto em zonas codificantes, mas estão altamente associadas com a diferenciação das espécies. Esses resultados são importantes para desenvolver um produto que possa servir como ferramenta para Planos de Ação Nacionais para Conservação de espécies ameaçadas e decisões de manejo, que levem em conta o perfil genético das populações e espécies estudadas para medidas mais assertivas na conservação.Dissertação Estrutura e diversidade do locus rfb em bactérias do gênero Leptospira e sua associação com a classificação sorológica(Universidade Federal do Rio Grande do Norte, 2023-03-24) Ferreira, Leonardo Cabral Afonso; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/6252204812727213; Souza, Gustavo Antônio de; http://lattes.cnpq.br/1012629455821774; Cosate, Maria Raquel VenturimA Leptospirose é considerada uma zoonose de importância mundial devido à sua vasta distribuição e virulência, afetando tanto humanos quanto animais de interesse comercial. Causada por bactérias patogênicas do gênero Leptospira e filo Spirochaetes, a contaminação por ela se dá através do contato direto ou indireto com o agente contaminante presente no ambiente, como urina de animais infectados ou água e solos contaminados. O gênero possui 68 espécies que podem ser agrupadas em dois grandes grupos segundo o seu estilo de vida em patogênicas e saprófitas. Além da classificação taxonômica, amostras destes gêneros podem ser classificadas com base nas suas características antigênicas em sorogrupos e sorovares. A classificação sorológica possui uma grande relevância na área de epidemiologia e análises clínicas, porém, os métodos utilizados para realizar esta classificação são laboriosos, necessitam de infraestrutura e mão de obra especializada, e requerem dias para a obtenção de resultados. Neste estudo visamos encontrar padrões genéticos associados à classificação sorológica de bactérias do gênero Leptospira analisando a composição genética do locus rfb e propor métodos que permitam a classificação das amostras de Leptospira ao nível de sorogrupo. Para isso utilizamos dados genômicos de 67 espécies classificadas em 27 sorogrupos que estão distribuídas em 722 amostras disponíveis no banco de dados públicos. Identificamos os genes que fazem parte do locus rfb através dos grupos de ortólogos nas amostras que continham o locus rfb íntegro em um único contig. Utilizamos um método de agrupamento hierárquico para agrupar amostras que possuíssem perfis semelhantes na composição gênica do locus rfb. Nesta análise foi possível contemplar o panorama da diversidade do perfil da composição genética do locus rfb no gênero Leptospira e observar correspondência entre a classificação em sorogrupos e os grupos formados pelo agrupamento hierárquico. O agrupamento gerado sugere a classificação das amostras em seis grandes classes que, além de apresentarem afinidade sorológica, compartilham semelhanças quanto a composição gênica do locus rfb. Foi observado que amostras de mesmo sorogrupo compartilham semelhanças na composição gênica do locus rfb. Além disso, foi possível verificar a existência de diferentes blocos de genes que podem estar conservados em amostras pertencentes a diferentes espécies e sorogrupos. Presume-se que as diferentes combinações desses blocos gênicos resultem na síntese de diferentes estruturas do antígeno-O do lipopolissacarídeo e consequentemente em diferentes sorogrupos. O presente trabalho permite sugerir marcadores moleculares que permitam o uso de estratégias moleculares para a identificação sorológica de Leptospira.Dissertação Estudo sobre a dinâmica evolutiva entre amostras provenientes de infecções em humanos e em primatas não humanos de Treponema pallidum subsp. pertenue(Universidade Federal do Rio Grande do Norte, 2025-03-11) Lima, Sabrina Karolaine Araújo Sousa de; Sakamoto, Tetsu; Moioli, Renan Cipriano; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/7694551450338929; Aburjaile, Flávia Figueira; Lima, João Paulo Matos SantosO Treponema pallidum, uma bactéria do filo Spirochaetota, é responsável pelas treponematoses, doenças causadas por diferentes subespécies desta bactéria, cada qual associada a infecções específicas. Este estudo concentra-se no Treponema pallidum subsp. pertenue (TPE), que provoca a bouba em seres humanos, uma enfermidade transmitida principalmente pelo contato direto com lesões cutâneas, afetando majoritariamente crianças e pré-adolescentes. Se não tratada, pode evoluir para graves deformidades nos ossos e nas cartilagens. Durante o século XX, houve avanços notáveis na erradicação e controle dessa subespécie, contudo, nas últimas décadas, tem-se observado um aumento no número de casos registrados. Até pouco tempo, acreditava-se que essa subespécie afetava apenas humanos, mas estudos recentes identificaram que primatas não humanos (NHPs) também têm sido naturalmente infectados pelo TPE. Considerando o impacto crescente desta doença, tanto em humanos quanto em outras espécies, a TPE tornou-se um foco de vigilância e investigação científica. Esse estudo visa esclarecer a relação entre a infecção em humanos e em outras espécies de primatas, contribuindo para um melhor entendimento da dinâmica de transmissão e das possíveis estratégias de controle e prevenção. Para isso, utilizamos as sequências de genoma de 58 TPEs (24 de humanos e 19 de NHPs) disponíveis em repositórios públicos e aplicamos análises filogenéticas e de detecção de regiões recombinantes. As análises filogenéticas revelaram que as amostras de TPE se agrupam em nove linhagens geneticamente distintas, com completa separação entre isolados humanos e de primatas não humanos, indicando barreiras significativas na transmissão entre espécies. A detecção de apenas um evento potencial de recombinação entre uma amostra humana e de NHP sugere que o fluxo gênico horizontal é raro nesta subespécie. A datação molecular apontou para uma origem relativamente recente (1885). A reconstrução do hospedeiro ancestral indicou alta probabilidade (77%) de que o TPE tenha se originado em humanos antes de se disseminar para primatas. O padrão demográfico revelado pelo Skyline Plot mostra uma população estável seguida por declínio abrupto. Estes achados reforçam o papel predominante dos humanos na epidemiologia da bouba, enquanto destacam a necessidade de vigilância contínua para monitorar potenciais eventos de transmissão entre espécies.Dissertação Identificação de homólogos remotos utilizando ferramentas de alinhamento estrutural de proteínas e aprendizado de máquina(Universidade Federal do Rio Grande do Norte, 2022-12-15) Costa, Priscila Caroline de Sousa; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/3847957850720470; Bleicher, Lucas; Terrematte, Patrick César AlvesOs estudos da proteômica tem mostrado o grande número de proteínas descobertas e a sua importância para o estudo da vida. Porém, ainda existe uma alta porcentagem dessas proteínas que não foram anotadas funcionalmente e que para os avanços da saúde e biotecnológicos essa definição de proteínas desconhecidas é essencial. As funções das proteínas são definidas pela sua conformidade e estrutura tridimensional, por isso, dados da estrutura tridimensional dessas proteínas auxiliam na definição de suas funções. Atualmente, existe uma grande quantidade e diversidade de proteínas que possuem sua sequência caracterizada, porém ainda há um gargalo metodológico para a obtenção de seus dados estruturais. Com o recente desenvolvimento do programa AlphaFold, que prediz de forma acurada a estrutura tridimensional de proteínas a partir de sua sequência de aminoácidos, este gargalo pode ser superado. Assim, o objetivo desse projeto é avaliar o impacto do uso dessas ferramentas de predição estrutural nas anotações funcionais de proteínas. Neste trabalho, procuramos auxiliar na descrição funcional de domínios proteicos de função desconhecida (DUF). Para isso, dados preditos da sua estrutura tridimensional foram submetidos a ferramentas computacionais que realizam uma busca por outras estruturas que compartilhem similaridade estrutural. O presente estudo demonstra que muitos domínios podem ser beneficiados com esta análise. Além disso, geramos um modelo de classificação utilizando o método SVM que se mostrou eficaz apresentando um valor de ROC AUC de 0,9191 e desvio padrão de 0,0099, capaz de identificar se duas proteínas que compartilham uma similaridade estrutural são homólogas remotas, ou seja, se são derivadas de um ancestral em comum. Este classificador será utilizado para analisar os resultados de similaridade e sugerir funções a esses domínios. Dessa forma, seria possível identificar a similaridade estrutural entre proteínas que compartilham baixa similaridade de sequência.TCC Identificação de variantes de nucleotídeo único associadas à diferenciação sexual em Carica papaya (Caricaceae)(Universidade Federal do Rio Grande do Norte, 2022-02-16) Spelta, João Víctor Villas Bôas; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; https://orcid.org/ 0000-0002-1231-3886; http://lattes.cnpq.br/2465705279643305; Lúcio, Paulo Sérgio Marinho; Souza, Jorge Estefano de Santana; Cavalcante, Renata Lilian DantasO mamão (Carica papaya) produz um dos frutos mais consumidos ao redor do mundo. O comércio do mamão se utiliza de plantas gino-dióicas e que necessita, para que seu cultivo seja mais eficiente, onde necessita de uma maior proporção de plantas hermafroditas, tendo em vista que os frutos oriundos de mamoeiros fêmeas e machos são preteridos pelos mercados consumidores. As sementes disponíveis no mercado geram plantas dos três tipos, macho, fêmea e hermafroditas, e a ausência de estratégias além de marcadores moleculares ainda representa uma limitação na produção do mamão. Conhecer as bases moleculares que influenciam no mecanismo de determinação sexual em mamoeiros pode auxiliar na elaboração de estratégias que auxiliem na seleção de plantas hermafroditas. Neste trabalho, embasado em uma pesquisa bibliográfica que resultou na consulta de mais de 30 artigos que abordavam diversos aspectos acerca da predição e determinação sexual em mamoeiros, procurou-se usar uma estratégia em bioinformática para abordar o tema. Realizou-se então um estudo de associação entre genótipos e fenótipos para encontrar possíveis fatores genéticos envolvidos na determinação sexual utilizando dados de resequenciamento de 36 amostras de mamão (24 machos e 12 hermafroditas) obtidos em bancos de dados públicos. A chamada de variantes foi realizada utilizando o programa VarScan, já os estudos de associação foram conduzidos utilizando o programa PLINK. Nesta análise foram encontrados 125.034 SNVs, onde 406 deles apresentaram-se significativos. Os resultados até então obtidos constituem um ponto de partida para estudos mais aprofundados para progredir no entendimento dos mecanismos moleculares da determinação sexual em C. papaya.Dissertação Investigação exploratória dos fatores genéticos associados ao sistema de determinação sexual em Arapaima gigas (Pirarucu)(Universidade Federal do Rio Grande do Norte, 2020-03-30) Cavalcante, Renata Lilian Dantas; Sakamoto, Tetsu; Souza, Jorge Estefano Santana de; ; ; ; Souza, Gustavo Antonio de; ; Santos, Sidney Emanuel Batista dos;O Pirarucu, (Arapaima gigas) é o maior peixe ósseo de água doce do mundo, podendo pesar por volta de 200 quilogramas e medir cerca de 3 metros de comprimento quando adulto. Pertence à família Arapaimidae, ordem dos Osteoglossiformes e tem como habitat natural a Bacia amazônica. Devido ao seu grande porte, à sua carne conter baixo conteúdo de gordura e pequeno número de espinhas, Arapaima gigas tornou-se uma espécie de especial interesse na pesca. Um dos problemas relacionados à sua exploração pesqueira, principalmente relacionado ao cultivo em cativeiro, é que não se conhecem ao certo os mecanismos genéticos ligados a sua diferenciação sexual. A maturação sexual em Arapaima gigas ocorre tardiamente, por volta do terceiro ao quinto ano de vida, e o dimorfismo sexual não é uma característica presente nesta espécie. Para um manejo mais sustentável, é de suma importância buscar um método eficaz e pouco invasivo para diferenciar sexualmente os indivíduos juvenis de Arapaima gigas. Para isso, o estabelecimento de um marcador genético molecular relacionado com a diferenciação sexual seria uma vantajosa ferramenta. Análises anteriores do genoma de Arapaima gigas não obtiveram resultados significativos em determinar genes ou grandes regiões genômicas associadas ao sistema de determinação sexual destes indivíduos. Neste estudo, propusemos realizar diferentes abordagens em Bioinformática, que não são tão usuais para a identificação de diferenças genômicas entre indivíduos de sexo oposto, com o intuito de identificar regiões repetitivas em excesso ou em falta em um dos sexos ou pequenas regiões presentes em apenas um sexo. Para isso, utilizamos dados genômicos de seis representantes adultos de Arapaima gigas, sendo três machos e três fêmeas, além do genoma referência de Pirarucu ID: 12404 depositado no NCBI. Após realizados esses estudos exploratórios no genoma de Arapaima gigas, notou-se a existência de k-mers que estão representados de maneira distinta entre os indivíduos de sexo oposto. E não só a existência desses k-mers como também a identificação de 22 scaffold’s onde ocorrem existência de haploidias, que se fazem presentes em um sexo e com cenário antagônico no outro. Ademais, foi realizada a identificação do painel de microssatélites em Arapaima gigas, onde foi computado a existência de 95.485 microssatélites. O conhecimento dessas regiões de microssatélites é de suma importância para a continuação deste trabalho pois viabiliza sua utilização como marcadores moleculares de regiões genômicas, que aliado principalmente as porções de haploidia existentes em apenas um dos sexos de Arapaima gigas facilitaria técnicas experimentais de isolamento de sequências de interesse. As diferentes proporções na contagem de k-mers e sítios de heterozigose (haploidia) podem indicar a existência de fatores genéticos, que se comprovados através de experimentos na bancada, podem auxiliar na sexagem dos indivíduos de Arapaima gigas.Dissertação Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais(2019-12-04) Fiúza, Tayná da Silva; Souza, Gustavo Antonio de; ; ; Sakamoto, Tetsu; ; Brentani, Helena Paula;Micobactérias não tuberculosas são micobactérias ambientais responsáveis por um crescente número de infecções respiratórias e sistêmicas nas últimas décadas, especialmente entre crianças, idosos e indivíduos imunodeficientes. O complexo do Mycobacterium avium, composto por M. avium e M. intracellulare é responsável pela maior parte desses casos e esta primeira espécie possui quatro subespécies de diferentes capacidades infecciosas e hospedeiros. Uma dessas subespécies, Mycobacterium avium subsp. hominissuis, foi isolada de humanos e suínos, enquanto outras variedades infectam gado, aves e animais silvestres. Até o presente momento o tratamento das infecções causadas pelo complexo se dá pelo uso de múltiplos antibióticos em um regime longo, custoso e por vezes ineficiente. A identificação de alvos efetivos para o controle desses organismos é essencial e desafiadora uma vez que proteínas de superfície, moléculas alvo chave em diversas imunoterapias bem-sucedidas, são de difícil isolamento. Além disso, o desenho de imunoterapias e formulações vacinais dependem da identificação de peptídeos de maior interesse imunológico os quais decorrem de protocolos repetitivos e custosos. Nesse trabalho buscou-se integrar ferramentas computacionais de maneira a investigar proteínas de superfície com porções imunogênicas expostas e ubíquas a linhagens de Mycobacterium avium subsp. hominissuis. Para isto, 32648 proteínas de 7 diferentes linhagens de Mycobacterium avium subsp. hominissuis, obtidas do NCBI, foram submetidas à predição de seus domínios transmembranares pelo software TMHMM e as 3426 sequências contendo estes domínios foram agrupadas em 577 clusters com respeito a sua homologia de modo a classificar proteínas de membrana comuns a todas esses organismos utilizando ferramentas da plataforma CMG Biotools. Utilizando essas sequências, juntamente com os métodos disponíveis no IEDB foram empregados em predições de afinidade aos 27 alelos de MHC mais frequentes em diversas populações humanas e os peptídeos de maior imunogenicidade foram selecionados, restando 112 clusters. Dos peptídeos altamente imunogênicos presentes, apenas os pertencentes a 58 clusters cujas sequências os situavam mais de 50% na porção externa da membrana foram considerados possíveis candidatos a uma formulação vacinal. Foram ainda calculadas a conservação dos peptídeos (presença nas diferentes linhagens analisadas), em que 60% dos clusters são completamente formados por peptídeos ubíquos e a promiscuidade dos mesmos (número de diferentes MHCs aos quais se ligam), em que apenas um cluster possui um peptídeo com alta afinidade a quatro MHCs distintos. Com respeito aos candidatos para a formulação vacinal, um conjunto mínimo de 9 peptídeos com alta afinidade ao número maior de MHCs distintos foi selecionado com peptídeos interagindo com 15 moléculas. Nenhuma das sequências desses peptídeos candidatos mostrou potencial para geração de reatividade cruzada com proteínas humanas ou suínas. O trabalho computacional aqui desenvolvido poderá ser aplicado a outros conjuntos de organismos de maneira a identificar possíveis candidatos para aplicações vacinais.Dissertação Investigando a taxonomia de Enterococcus casseliflavus e espécies relacionadas(Universidade Federal do Rio Grande do Norte, 2024-09-27) Lima, Matheus Miguel Soares de Medeiros; Sakamoto, Tetsu; Prichula, Janira; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/0633141683260861; Lima, Lucymara Fassarella Agnez; Aburjaile, Flávia FigueiraEnterococcus casseliflavus, uma bactéria comumente móvel e de coloração amarela, e um membro comensal do trato gastrointestinal de vertebrados e invertebrados. Ela é ocasionalmente encontrada em casos de bacteremia e outras infecções humanas. Uma preocupação é que todas as cepas dessa espécie possuem o grupo de genes vanC em seu cromossomo, que confere resistência à vancomicina. A classificação de E. casseliflavus e bastante complexa, apresenta 99% de identidade na análise 16S com E. gallinarum e, principalmente, com E. flavescens, sendo frequentemente classificadas como uma única espécie. Tendo em vista essa problemática, esse estudo visou investigar a taxonomia de E. casseliflavus e outras espécies relacionadas realizando análises dos dados genômicos disponíveis em bancos de dados públicos. Para isso, 155 genomas de espécies relacionadas à E. casseliflavus (E. casseliflavus, E. flavescens, E. entomosocium e E. innesii) foram resgatados e submetidos a análise de Identidade Média de Nucleotídeos (ANI), análise de pangenoma e filogenômica. As abordagens mostraram três grupos bem definidos correspondentes a três espécies de Enterococcus (E. casseliflavus, E. flavescens e E. innesii). Com características de pangenoma aberto, o grupo mostrou grande conservação de genes centrais e alta diversidade de genoma acessório. Aqui sugerimos a remoção do estado de espécies sinônimas entre as espécies E. flavescens e E. casseliflavus e a adição do estado de espécies sinônimas entre E. entomosocium e E. casseliflavus.TCC Metanálise de dados proteicos para determinar proteínas comumente presentes em diferentes modelos experimentais relacionados ao transtorno de espectro autista(Universidade Federal do Rio Grande do Norte, 2022-07-21) Lemos, Juliana de Oliveira; Souza, Gustavo Antônio de; http://lattes.cnpq.br/1012629455821774; Lima, João Paulo Matos Santos; https://orcid.org/0000-0002-6113-8834; http://lattes.cnpq.br/3289758851760692; Sakamoto, Tetsu; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810O Transtorno de Espectro Autista (TEA) engloba um grupo de condições: autismo infantil, a Síndrome de Rett, a Síndrome de Asperger, o transtorno desintegrativo da infância, o transtorno com hipercinesia, entre outros, caracterizado por, déficits na reciprocidade sócio-emocional, comportamentos comunicativos não verbais, déficits para desenvolver, manter e compreender relacionamentos e possuem padrões restritivos de comportamento, interesses ou atividades. Ao longo dos anos, houve um aumento no número de indivíduos diagnosticados com TEA, entretanto em muitos casos, de maneira tardia, já que o diagnóstico ainda é apenas baseado na apresentação de sintomas clínicos do paciente e requer profissionais especializados para tal. Diversos estudos vêm tentado esclarecer as bases fisiopatológicas do autismo, procurando possíveis biomarcadores que possam ajudar tanto no diagnóstico quanto no tratamento dessa condição. O objetivo deste trabalho foi buscar perfis proteicos que possam estar envolvidos em processos biológicos participantes das vias neurais relacionadas ao transtorno, por meio da metanálise de dados de modelos experimentais do transtorno autista, utilizando abordagens de bioinformática para a obtenção e análise dos dados. Os resultados mostraram que, algumas das moléculas, como: Psd-95, Gria, Shank3, Sinapsina, Calmodulina, Quinases, Snap25, entre outras descritas, que são responsáveis por uma variedade de processos associados à transmissão sináptica (montagem, ativação, de receptores de glutamato, transporte através do citoesqueleto de microtúbulos, na regulação e liberação de neurotransmissores, assim como de toda a estrutura de sinalização, fosforilação e da densidade pós-sináptica) apresentaram um enriquecimento funcional das suas vias. Todos esses processos compõem as bases da formação da plasticidade sináptica, relacionada a aprendizagem, memória, comportamento e percepções sensoriais que podem estar envolvidos na fisiopatologia do transtorno, já que a sintomatologia apresentada pelos pacientes estão diretamente ligadas aos processos citados. No entanto, ainda é necessário a continuação da análise para validação e verificação dos resultados obtidos, além de novas análises para averiguar outros possíveis proteomas e processos biológicos relacionados ao Transtorno de Espectro Autista.Tese Uma nova assinatura de 13 genes via aprendizagem de máquina para predição de sobrevida de pacientes com carcinoma renal de células clara(Universidade Federal do Rio Grande do Norte, 2022-05-13) Terrematte, Patrick Cesar Alves; Doria Neto, Adrião Duarte; Ferreira, Beatriz Stransky; https://orcid.org/0000-0003-4506-393X; http://lattes.cnpq.br/3142264445097872; https://orcid.org/0000-0002-5445-7327; http://lattes.cnpq.br/1987295209521433; http://lattes.cnpq.br/4283045850342312; Leite, Cicilia Raquel Maia; Araújo, Daniel Sabino Amorim de; http://lattes.cnpq.br/4744754780165354; Assumpção, Paulo Pimentel de; Sakamoto, TetsuPacientes com câncer renal têm sobrevida de 12% em 5 anos em caso de metástase, segundo dados entre 2009 e 2015 da American Cancer Society. Neste sentido, é de suma importância identificar biomarcadores em dados genômicos para ajudar a prever o avanço do carcinoma renal de células claras (ccRCC), sendo este o subtipo mais frequente. Assim, realizamos um estudo com o objetivo de avaliar assinaturas gênicas e propor uma nova assinatura com maior poder preditivo. Usando coortes ccRCC do The Cancer Genome Atlas (TCGA-KIRC) e do International Cancer Genome Consortium (ICGC-RECA), avaliamos modelos de sobrevida usando regressão de Cox comparando 14 assinaturas da literatura e seis métodos de seleção de características, e também realizamos análise funcional e de expressão diferencial. Neste estudo, apresentamos uma assinatura de 13 genes (AR, AL353637.1, DPP6, FOXJ1, GNB3, HHLA2, IL4, LIMCH1, LINC01732, OTX1, SAA1, SEMA3G, ZIC2) cujos níveis de expressão são capazes de prever risco de pacientes com ccCRC. A assinatura genética de melhor desempenho foi alcançada usando o método de comitês de Mínima Redundância e Máxima Relevância (mRMR). Essa assinatura apresenta características únicas em relação às demais, como a generalização por diferentes coortes e o enriquecimento funcional em vias relacionadas à doenças: Doença Renal Crônica, Carcinoma de células de transição, e Nefrolitíase. Dos 13 genes em nossa assinatura, oito são conhecidos na literatura por estarem correlacionados com a sobrevida de pacientes com ccRCC. Nosso modelo mostrou um desempenho de 0,82 usando a métrica Receiver Operator Characteristic (ROC) Area Under Curve (AUC). Nossos resultados revelaram dois agrupamentos de genes com alta expressão (SAA1, OTX1, ZIC2, LINC01732, GNB3 e IL4) e baixa expressão (AL353637.1, AR, HHLA2, LIMCH1, SEMA3G, e DPP6), ambos correlacionados com prognóstico desfavoráveis. Esta assinatura pode potencialmente ser desenvolvida para auxiliar tratamentos na prática clínica.Dissertação Pareador de termos para pesquisa clínica: integrate paired toll - IPT(2018-12-18) Damasceno, Thaynã Nhaara Oliveira; Barbosa, Eusébio Guimarães; ; ; Araújo, Gilderlanio Santana de; ; Martins, Rand Randall; ; Sakamoto, Tetsu;Big Data é um termo utilizado para caracterizar o crescente volume de dados existentes sobre os mais diversos temas, sejam eles de cunho biomédico ou não. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. O algoritmo da ferramenta Integrate Paired Tool (IPT) foi escrito em linguagem de programação R e utiliza técnicas de Data Mining e Text Mining para análise de dados clínicos, não restringindo suas análises apenas à estes dados específicos. O IPT promove o pareamento de termos analisando a frequência existente entre pares de dados, a partir de um arquivo .csv fornecido pelo usuário. Além disso, a ferramenta WEB foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados dentro do próprio IPT. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados.Dissertação Predição de efeitos de variantes de nucleotídeo único relacionadas à determinação sexual em Carica papaya L. (Caricaceae)(Universidade Federal do Rio Grande do Norte, 2024-09-30) Spelta, João Victor Villas Bôas; Sakamoto, Tetsu; Lúcio, Paulo Sérgio Marinho; http://lattes.cnpq.br/8301201882084757; https://orcid.org/0000-0003-3023-0117; http://lattes.cnpq.br/1342530085695810; http://lattes.cnpq.br/2465705279643305; Pereira, Welison Andrade; Lima, João Paulo Matos SantosO mamão (Carica papaya L.) produz um dos frutos mais consumidos ao redor do mundo constituindo alta importância econômica, principalmente nas regiões tropicais. O comércio do mamão se utiliza majoritariamente de cultivares gino-dioicos com uma proporção de 1:1 ou 2:1 de hermafroditas e fêmeas. Por motivações comerciais e também inerentes ao cultivo, é desejável a maior quantidade de hermafroditas possível. De forma geral, ainda não é possível produzir apenas sementes hermafroditas, portanto, o sexo da planta é identificado, normalmente, por métodos convencionais após a primeira floração do mamoeiro. Essa ocorre cerca de 4-6 meses depois do plantio da muda, sendo costumeiro o descarte das fêmeas no final. Visando evitar desperdícios de recursos e um rendimento maior da colheita, os produtores também podem recorrer a métodos moleculares por meio de marcadores sexuais. Entretanto, essa alternativa também possui suas limitações, entre elas, o custo elevado. Tendo em vista as adversidades citadas, muitos pesquisadores empenharam-se a estudar o processo de determinação do fenótipo sexual em C. papaya, mas os fatores atuantes diretamente nesse processo permanecem desconhecidos. A elucidação desse mecanismo além de ser de grande interesse agronômico, também se caracteriza como uma grande oportunidade para C. papaya se consolidar como modelo de estudo para pesquisas acerca de cromossomos sexuais de origem recente na história evolutiva. Portanto, neste trabalho, procurou-se utilizar de ferramentas de bioinformática para aprofundar na questão da determinação sexual. Realizou-se um estudo de associação entre genótipos e fenótipos para encontrar possíveis fatores genéticos envolvidos na determinação sexual a partir de dados de resequenciamento de 36 indivíduos (24 mamoeiros machos e 12 hermafroditas) obtidos em bancos de dados públicos. O estudo de associação foi precedido por uma chamada de variantes realizada através do software BCFTOOLS, que encontrou 75.607 variantes, restando 37.027 após as filtragens. Foram então realizados estudos de associação utilizando o programa PLINK com as variantes já filtradas e dentre essas, 251 das mais significativas foram submetidas ao programa SnpEff para anotação das variantes, retornando 449 efeitos, entre eles, 402 com nível de impacto modificador, 22 com impacto leve e 25 de efeito moderado. Realizou-se também inferências e anotações dos genes a partir do software Augustus e buscas por similaridade através do BLASTP com as sequências dos genes que tiveram efeitos moderados preditos pelo SnpEff, assim como, montagens de novo do genoma de uma amostra macho e seu mapeamento com a região determinante do sexo hermafrodita. Seus resultados foram registrados e comparados com o que já foi realizado na literatura. Isso permitiu concluir que os resultados obtidos constituem um ponto de partida para estudos mais robustos na compreensão dos mecanismos moleculares da determinação sexual em C. papaya.Dissertação O uso de redes neurais artificiais na análise de dados de câncer de pulmão(Universidade Federal do Rio Grande do Norte, 2022-05-12) Lima, Débora Virgínia da Costa e; Doria Neto, Adrião Duarte; Ferreira, Beatriz Stransky; https://orcid.org/0000-0003-4506-393X; http://lattes.cnpq.br/3142264445097872; https://orcid.org/0000-0002-5445-7327; http://lattes.cnpq.br/1987295209521433; http://lattes.cnpq.br/4705169857699631; Torres, Taffarel Melo; Sakamoto, TetsuO câncer de pulmão representa a principal causa de morte com câncer no mundo, e possui altos níveis de incidência. Assim como outros tipos de câncer, pode ocorrer por diversas causas, de genéticas à ambientais, por isso estudos realizados a partir de diferentes tipos de dados podem ser relevantes para o controle dessa neoplasia, especialmente quando considerados fatores que têm impacto na sobrevivência dos pacientes. No contexto do câncer de pulmão, esse estudo foi desenvolvido para utilizar deep learning a fim de prever a sobrevivência de pacientes. Para tanto foram obtidos dados clínicos e moleculares presentes em bancos de dados do TCGA (The Cancer Genome Atlas) referentes às coortes LUSC (Carcinoma de Células Escamosas do Pulmão) e LUAD (Adenocarcinoma do pulmão), seguido da análise das alterações genômicas, e aplicação de redes neurais usando como entrada os genes frequentemente mutados para cada coorte, seleção de genes chave e validação com outro banco de dados. As coortes apresentaram diferenças na sobrevida entre si quando submetidas ao método de Kaplan-Meier e ao teste Log-Rank. Na análise genômica, foram selecionados todos os genes com frequência de mutação superior a 15%, sendo encontrados 34 genes para LUAD e 32 para LUSC. A utilização desses genes como entrada nas redes construídas possibilitou a geração das redes LUSC e LUAD com 100% de acurácia, identificando, de acordo com as mutações, o status vital do paciente. Além disso, foi obtida também uma rede LUSC usando como validação um outro banco de dados o LUSC-KR que alcançou 99% de acurácia. Desta forma, este trabalho mostrou que a utilização de genes com mutações frequentes associadas ao uso de deep learning é uma ferramenta robusta e permite predizer a sobrevida de pacientes com câncer de pulmão.Artigo Whole genome sequencing of the Pirarucu (Arapaima gigas) supports independent emergence of major teleost clades(2018-07-05) Vialle, Ricardo Assunção; Souza, Jorge Estefano Santana de; Lopes, Katia de Paiva; Teixeira, Diego Gomes; Alves Sobrinho, Pitágoras de Azevedo; Ribeiro-dos-Santos, André M.; Furtado, Carolina; Sakamoto, Tetsu; Silva, Fábio Augusto Oliveira; Oliveira, Edivaldo Herculano Corrêa de; Hamoy, Igor Guerreiro; Assumpção, Paulo Pimentel; Ribeiro-dos-Santos, Ândrea; Lima, João Paulo Matos Santos; Seuánez, Héctor N.; Souza, Sandro José de; Santos, SidneyThe Pirarucu (Arapaima gigas) is one of the world's largest freshwater fishes and member of the superorder Osteoglossomorpha (bonytongues), one of the oldest lineages of ray-finned fishes. This species is an obligate air-breather found in the basin of the Amazon River with an attractive potential for aquaculture. Its phylogenetic position among bony fishes makes the Pirarucu a relevant subject for evolutionary studies of early teleost diversification. Here, we present, for the first time, a draft genome version of the A. gigas genome, providing useful information for further functional and evolutionary studies. The A. gigas genome was assembled with 103 Gb raw reads sequenced in an Illumina platform. The final draft genome assembly was approximately 661 Mb, with a contig N50 equal to 51.23 kb and scaffold N50 of 668 kb. Repeat sequences accounted for 21.69% of the whole genome, and a total of 24,655 protein-coding genes were predicted from the genome assembly, with an average of 9 exons per gene. Phylogenomic analysis based on 24 fish species supported the postulation that Osteoglossomorpha and Elopomorpha (eels, tarpons and bonefishes) are sister groups, both forming a sister lineage with respect to Clupeocephala (remaining teleosts). Divergence time estimations suggested that Osteoglossomorpha and Elopomorpha lineages emerged independently in a period of approximately 30 million years in the Jurassic. The draft genome of A. gigas provides a valuable genetic resource for further investigations of evolutionary studies and may also offer a valuable data for economic applications.