Advanced convolutional neural network techniques for classification of SARS-CoV-2 variants and other viruses: a study using k-mers and chaos game representation

dc.contributor.advisorFernandes, Marcelo Augusto Costa
dc.contributor.advisorIDhttps://orcid.org/0000-0001-7536-2506pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3475337353676349pt_BR
dc.contributor.authorCâmara, Gabriel Bezerra Motta
dc.contributor.authorIDhttps://orcid.org/0000-0002-5736-0782pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/3849103334728892pt_BR
dc.contributor.referees1Silva, Ivanovitch Medeiros Dantas da
dc.contributor.referees2Terrematte, Patrick César Alves
dc.contributor.referees3Campos, Túlio de Lima
dc.contributor.referees4Barreto, Guilherme de Alencar
dc.date.accessioned2025-01-24T20:15:14Z
dc.date.available2025-01-24T20:15:14Z
dc.date.issued2024-09-05
dc.description.abstractSince December 2019, the global impact of the Covid-19 pandemic, caused by the SARS-CoV-2 virus, has been profound. Early identification of the virus’s taxonomic classification and genomic origin is critical for strategic planning, containment, and treatment. Deep learning techniques have proven successful in addressing various viral classification challenges, including diagnosis, metagenomics, phylogenetics, and genomic analysis. Motivated by these advances, this study introduces an effective viral genome classifier for SARS-CoV-2, utilizing a convolutional neural network (CNN) framework. This research employed image representations of complete genome sequences to train the CNN, leveraging two distinct datasets: one based on k-mers image representation and the other on Chaos Game Representation (CGR). The k-mers dataset was used for taxonomic classification experiments of the SARS-CoV-2 virus, while the CGR dataset focused on classifying variants of concern (VOCs) and variants of interest (VOIs) of SARS-CoV-2. The CNN achieved remarkable performance in taxonomic classification using k-mers, with accuracy rates about 92% on the validation set and equal to 100% on the test set containing SARS-CoV-2 samples. These results demonstrate the model’s adaptability for classifying other emerging viruses. For the classification of SARS-CoV-2 variants using CGR images, the CNN delivered even higher accuracy, reaching 99.9% on the validation set and 99.8% on the test set. The findings underscore the applicability of deep learning techniques in genome classification tasks, providing a robust tool for the early detection and classification of viral threats. The integration of CNNs with k-mer and CGR image representations presents a novel and effective method for viral genome analysis, supporting ongoing efforts in virology and public health.pt_BR
dc.description.resumoDesde Dezembro de 2019, o impacto global da pandemia da Covid-19, causada pelo vírus SARS-CoV-2, tem sido profundo. A identificação precoce da classificação taxonômica e da origem genômica do vírus é fundamental para o planeamento estratégico, contenção e tratamento. As técnicas de aprendizagem profunda provaram ser bem-sucedidas na abordagem de vários desafios de classificação viral, incluindo diagnóstico, metagenômica, filogenética e análise genômica. Motivado por esses avanços, este estudo apresenta um classificador de genoma viral eficaz para SARS-CoV-2, utilizando uma estrutura de rede neural convolucional (CNN). Esta pesquisa empregou representações de imagem de sequências genômicas completas para treinar a CNN, alavancando dois conjuntos de dados distintos: um baseado na representação de imagem k-mers e o outro na Representação do Jogo do Caos (CGR). O conjunto de dados k-mers foi usado para experimentos de classificação taxonômica do vírus SARS-CoV-2, enquanto o conjunto de dados CGR focou na classificação de variantes de preocupação (VOCs) e variantes de interesse (VOIs) do SARS-CoV-2. A CNN obteve desempenho notável na classificação taxonômica usando k-mers, com taxas de precisão de cerca de 92% no conjunto de validação e igual a 100% no conjunto de teste contendo amostras de SARS-CoV-2. Esses resultados demonstram a adaptabilidade do modelo para classificar outros vírus emergentes. Para a classificação de variantes do SARS-CoV-2 usando imagens CGR, a CNN apresentou precisão ainda maior, atingindo 99,9% no conjunto de validação e 99,8% no conjunto de teste. As descobertas sublinham a aplicabilidade de técnicas de aprendizagem profunda em tarefas de classificação de genomas, fornecendo uma ferramenta robusta para a detecção precoce e classificação de ameaças virais. A integração de CNNs com representações de imagens k-mers e CGR apresenta um método novo e eficaz para análise do genoma viral, apoiando esforços contínuos em virologia e saúde pública.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationCÂMARA, Gabriel Bezerra Motta. Advanced convolutional neural network techniques for classification of SARS-CoV-2 variants and other viruses: a study using k-mers and chaos game representation. Orientador: Dr Marcelo Augusto Costa Fernandes. 2024. 115f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/61974
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICApt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSARS-CoV-2pt_BR
dc.subjectCovid-19pt_BR
dc.subjectDeep learningpt_BR
dc.subjectConvolutional neural networkpt_BR
dc.subjectViral classificationpt_BR
dc.subject.cnpqCNPQ::CIENCIAS BIOLOGICASpt_BR
dc.titleAdvanced convolutional neural network techniques for classification of SARS-CoV-2 variants and other viruses: a study using k-mers and chaos game representationpt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Advancedconvolutionalneural_Camara_2024.pdf
Tamanho:
3.25 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar