Desenvolvimento de pipeline para análise de SNPs otimizados para identificação de espécies e seus híbridos: um estudo de caso em Sapajus (Primates)
dc.contributor.advisor | Sakamoto, Tetsu | |
dc.contributor.advisor-co1 | Martins, Amely Branquinho | |
dc.contributor.advisorID | https://orcid.org/0000-0003-3023-0117 | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/1342530085695810 | pt_BR |
dc.contributor.author | Lacerda, Lucas de Freitas | |
dc.contributor.authorLattes | http://lattes.cnpq.br/1677191888514673 | pt_BR |
dc.contributor.referees1 | Freitas, Patrícia Domingues de | |
dc.contributor.referees2 | Rego, Thais Gaudêncio do | |
dc.date.accessioned | 2024-11-08T23:13:50Z | |
dc.date.available | 2024-11-08T23:13:50Z | |
dc.date.issued | 2024-09-04 | |
dc.description.abstract | The anthropogenic pressures suffered by the remnants of the Atlantic Forest along the Brazilian coast are reflected in impacts on the conservation status of the species that make up its fauna, including Neotropical primates. Aiming at the conservation of the threatened primates in the Northeast, the National Center for Research and Conservation of Brazilian Primates, CPB/ICMBio, coordinates the National Action Plan for the Conservation of Northeastern Primates (PAN-PRINE). One of the target species is the blond capuchin (Sapajus flavius), categorized as Endangered. To contribute to the implementation of PAN-PRINE actions, the present study aimed to analyze the genetic structure of specimens from both wild and captive populations of Sapajus individuals and propose a panel of diagnostic SNPs for the identification of two parental species (S. flavius and S. libidinosus) and hybrids, using machine learning techniques.Two population structure analyses were performed: one exploratory, involving several species of the genus and captive samples (n=228), and one specific analysis, with captive samples (n=52) and natural populations (n=127) of S. flavius and S. libidinosus, including natural hybrids between the species. Our exploratory analysis removed eight captive samples from the dataset that did not show an expected ancestry pattern for hybridization of the species of interest. Of the remaining samples, 30 were classified as hybrids, 14 as S. libidinosus, and 8 as S. flavius, based on the ancestry coefficients established to identify a species (Q>90%). These samples, along with the wild samples, were partitioned into 20% for the validation set and 80% for the training and testing set (70% and 30%, respectively). Six supervised learning algorithms were used to train predictive models: k-Nearest Neighbors (kNN), Decision Tree (DT), Naive Bayes (NVB), Support Vector Machine (SVM), X Gradient Boosting (XGB), and Random Forest (RF), followed by feature selection (n=2484), which in this case are SNPs. All models were trained using K-fold cross-validation (K=5). 15, 30, and 45 features were selected through forward feature selection. The RF, SVM, and NVB models consistently ranked highest as the number of features increased, based on accuracy scores in the validation set, with RF yielding the best results for larger numbers of SNPs. When we ranked the SNP sets selected by the models according to the best clustering generated by an unsupervised methodology, XGB and KNN were the top-ranked models based on the Rand Score (RS). None of our variants with a high capacity for group identification were located in coding regions of the genome; most were found in intergenic regions (n=20) and intronic regions, which may belong to different splicing variants of genes (n_vars=24, n_genes=119). From the initial set of 2484 SNPs, we were able to reduce the dimensionality of our data while retaining highly informative variants for group differentiation. Additionally, we identified that most of these variants do not impact coding regions but are highly associated with species differentiation. These results are important for developing a product that can serve as a tool for National Action Plans for the Conservation of endangered species and management decisions that take into account the genetic profile of populations and species studied, enabling more assertive conservation measures. | pt_BR |
dc.description.resumo | As pressões antrópicas sofridas pelos remanescentes de Mata Atlântica no litoral brasileiro, se refletem em impactos no estado de conservação das espécies que compõem sua fauna, dentre estas, os primatas neotropicais. Visando a conservação dos primatas ameaçados do Nordeste, o Centro Nacional de Pesquisa e Conservação de Primatas Brasileiros, CPB/ICMBio, coordena o Plano de Ação Nacional para Conservação dos Primatas do Nordeste (PAN-PRINE). Uma das espécies alvo é o macaco-prego-galego (Sapajus flavius), categorizada como Em Perigo de extinção. Visando contribuir para a implementação de ações do PAN-PRINE, o presente trabalho objetivou analisar a estrutura genética de espécimes provenientes de vida livre e cativeiro, de indivíduos do gênero Sapajus, e propor um painel de SNPs diagnósticos para identificação de duas espécies parentais (S. flavius e S. libidinosus) e híbridos, utilizando técnicas de aprendizado de máquina. Foram realizadas duas análises de estrutura populacional, uma exploratória, com várias espécies do gênero e amostras de cativeiro (n=228) e uma análise específica, com amostras de cativeiro (n=52) e populações naturais (n=127) de S. flavius e S. libidinosus, incluindo híbridos naturais entre as espécies. Nossa análise exploratória retirou do conjunto de dados oito amostras de cativeiro que não possuíam um padrão de ancestralidade esperado para hibridação das espécies de interesse. Das amostras remanescentes, 30 foram classificadas como híbridas, 14 como S. libidinosus e 8 como S. flavius, baseado nos coeficientes de ancestralidade estabelecidos para identificar uma espécie (Q>90%). Essas amostras, juntamente com as de vida livre, foram particionadas em 20% para o conjunto de validação e 80% para o conjunto de treino e teste (70% e 30%, respectivamente). Foram utilizados 6 algoritmos de aprendizado supervisionado para o treinamento de modelos preditivos: k Nearest Neighborhood (kNN), Decision Tree (DT), Naive Bayes (NVB), Support Vector Machine (SVM), X Gradient Boosting (XGB) e Random Forest (RF) e posterior seleção de features (n=2484), que neste caso são SNPs. Todos os modelos foram treinados usando partições do dado com K-fold (K=5). Foram selecionadas 15, 30 e 45 features pelo forward feature selection. Os modelos RF, SVM e NVB foram os mais consistentemente bem colocados no ranqueamento ao longo do aumento do número de features, baseado no score de acurácia no conjunto de validação, com a RF rendendo os melhores resultados para maiores números de SNPs. Quando ranqueamos os conjuntos de SNPs selecionados pelos modelos de acordo com o melhor agrupamento gerado por uma metodologia não supervisionada, obtivemos XGB e KNN como modelos mais bem colocados baseados no Rand Score (RS). Nenhuma de nossas variantes com alta capacidade para a identificação dos grupos se localizam em regiões codificantes do genoma, a maioria estava presente em regiões intergênicas (n=20) e em regiões intrônicas, que podem pertencer a diferentes variações de splicing de genes (n_vars=24, n_genes=119). A partir do montante inicial de 2484 SNPs, conseguimos reduzir a dimensionalidade do nosso dado enquanto mantivemos variantes altamente informativas para diferenciação dos grupos. Além disso, conseguimos identificar que a maioria dessas variantes não possuem impacto em zonas codificantes, mas estão altamente associadas com a diferenciação das espécies. Esses resultados são importantes para desenvolver um produto que possa servir como ferramenta para Planos de Ação Nacionais para Conservação de espécies ameaçadas e decisões de manejo, que levem em conta o perfil genético das populações e espécies estudadas para medidas mais assertivas na conservação. | pt_BR |
dc.identifier.citation | LACERDA, Lucas de Freitas. Desenvolvimento de pipeline para análise de SNPs otimizados para identificação de espécies e seus híbridos: um estudo de caso em Sapajus (Primates). Orientadora: Dra. Tetsu Sakamoto. 2024. 62f. Dissertação (Mestrado em Bioinformática) - Universidade Federal Do Rio Grande Do Norte, Universidade Federal do Rio Grande do Norte, Natal, 2024. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/60594 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Hibridização | pt_BR |
dc.subject | Marcadores genéticos | pt_BR |
dc.subject | SNPs diagnósticos | pt_BR |
dc.subject | Machine Learning | pt_BR |
dc.subject | Conservação | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS BIOLOGICAS | pt_BR |
dc.title | Desenvolvimento de pipeline para análise de SNPs otimizados para identificação de espécies e seus híbridos: um estudo de caso em Sapajus (Primates) | pt_BR |
dc.type | masterThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Desenvolvimentopipelineanalise_Lacerda_2024.pdf
- Tamanho:
- 2.9 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível