Proposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithms

dc.contributor.advisorFernandes, Marcelo Augusto Costa
dc.contributor.advisorIDhttps://orcid.org/0000-0001-7536-2506pt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3475337353676349pt_BR
dc.contributor.authorOliveira, Fábio Fonseca de
dc.contributor.referees1Moioli, Renan Cipriano
dc.contributor.referees2Araújo, Daniel Sabino Amorim de
dc.contributor.referees3Sakuyama, Carlos Alberto Valderrama
dc.contributor.referees4Silva, Lucileide Medeiros Dantas da
dc.date.accessioned2024-07-17T20:14:13Z
dc.date.available2024-07-17T20:14:13Z
dc.date.issued2024-04-05
dc.description.abstractIn this work, we address the growing challenge of efficiently processing the vast and continuously expanding volume of data in biological databases. The need for fast and accurate sequence analysis techniques is more pressing than ever, given the importance of identifying similarities between biological sequences for applications in genomics, taxonomy, and beyond. Central to this effort is optimizing sequence alignment algorithms, particularly the Smith-Waterman (SW), a high-precision method based on dynamic programming, and K-Mers, a technique for counting subsequences fundamental in genomic analysis. We propose an innovative parallel hardware architecture for the SW algorithm, incorporating a systolic array structure that significantly accelerates the forward and backward phases of alignment. This architecture pre-organizes the alignment in the forward stage, reducing the complexity of the subsequent backtracking initiated from the maximum score position. Validated on Field-Programmable Gate Array (FPGA), the architecture achieved a rate of up to 79.5 Giga Cell Updates per Second (GCPUS), demonstrating a notable advancement in processing efficiency. Additionally, we developed a K-Mers based algorithm focused on the exact extraction of short subsequences, characterized by its low memory consumption, feasibility of execution time, high parallelization capability, and energy efficiency. Primarily intended for use in FPGA, the algorithm is also adaptable to other hardware platforms. These contributions not only set new standards in speed and efficiency for the processing of biological data but also pave the way for significant advances in genomic and taxonomic research, among other areas of bioinformatics.pt_BR
dc.description.resumoNeste trabalho, abordamos o desafio crescente de processar eficientemente o vasto e continuamente expansivo volume de dados em bases de dados biológicas. A necessidade de técnicas de análise de sequências rápidas e precisas é mais premente do que nunca, dada a importância de identificar semelhanças entre sequências biológicas para aplicações em genômica, taxonomia e além. Central para este esforço é a otimização de algoritmos de alinhamento de sequências, particularmente o Smith-Waterman (SW), um método de alto nível de precisão baseado em programação dinâmica, e o K-Mers, uma técnica para a contagem de subsequências que é fundamental na análise genômica. Propomos uma inovadora arquitetura de hardware paralelo para o algoritmo SW, incorporando uma estrutura de array sistólico que acelera significativamente as fases de avanço e retrocesso do alinhamento. Esta arquitetura pré-organiza o alinhamento na etapa de avanço, reduzindo a complexidade do subsequente retrocesso, que é iniciado a partir da posição de pontuação máxima. Validada em Field-Programmable Gate Array (FPGA), a arquitetura alcançou uma taxa de até 79,5 Giga Cell Updates por Segundo (GCPUS), demonstrando um avanço notável na eficiência de processamento. Adicionalmente, desenvolvemos um algoritmo baseado em K-Mers focado na extração exata de subsequências curtas, caracterizado por seu baixo consumo de memória, viabilidade de tempo de execução, alta capacidade de paralelização, e eficiência energética. Destinado primariamente para uso em FPGA, o algoritmo é também adaptável a outras plataformas de hardware. Estas contribuições não apenas estabelecem novos padrões em termos de velocidade e eficiência para o processamento de dados biológicos, mas também abrem caminho para avanços significativos em pesquisas genômicas e taxonômicas, entre outras áreas de bioinformática.pt_BR
dc.description.sponsorshipFundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationOLIVEIRA, Fábio Fonseca de. Proposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithms. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2024. 88f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2024.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/58813
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICApt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSmith-Watermanpt_BR
dc.subjectK-Merspt_BR
dc.subjectFPGApt_BR
dc.subjectArray sistólicopt_BR
dc.subjectAlta taxa de transferênciapt_BR
dc.subjectBaixo uso de memóriapt_BR
dc.subject.cnpqCNPQ::CIENCIAS BIOLOGICASpt_BR
dc.titleProposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithmspt_BR
dc.typedoctoralThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
ProposedFPGABased_Oliveira_2024.pdf
Tamanho:
5.98 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar