Proposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithms
dc.contributor.advisor | Fernandes, Marcelo Augusto Costa | |
dc.contributor.advisorID | https://orcid.org/0000-0001-7536-2506 | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/3475337353676349 | pt_BR |
dc.contributor.author | Oliveira, Fábio Fonseca de | |
dc.contributor.referees1 | Moioli, Renan Cipriano | |
dc.contributor.referees2 | Araújo, Daniel Sabino Amorim de | |
dc.contributor.referees3 | Sakuyama, Carlos Alberto Valderrama | |
dc.contributor.referees4 | Silva, Lucileide Medeiros Dantas da | |
dc.date.accessioned | 2024-07-17T20:14:13Z | |
dc.date.available | 2024-07-17T20:14:13Z | |
dc.date.issued | 2024-04-05 | |
dc.description.abstract | In this work, we address the growing challenge of efficiently processing the vast and continuously expanding volume of data in biological databases. The need for fast and accurate sequence analysis techniques is more pressing than ever, given the importance of identifying similarities between biological sequences for applications in genomics, taxonomy, and beyond. Central to this effort is optimizing sequence alignment algorithms, particularly the Smith-Waterman (SW), a high-precision method based on dynamic programming, and K-Mers, a technique for counting subsequences fundamental in genomic analysis. We propose an innovative parallel hardware architecture for the SW algorithm, incorporating a systolic array structure that significantly accelerates the forward and backward phases of alignment. This architecture pre-organizes the alignment in the forward stage, reducing the complexity of the subsequent backtracking initiated from the maximum score position. Validated on Field-Programmable Gate Array (FPGA), the architecture achieved a rate of up to 79.5 Giga Cell Updates per Second (GCPUS), demonstrating a notable advancement in processing efficiency. Additionally, we developed a K-Mers based algorithm focused on the exact extraction of short subsequences, characterized by its low memory consumption, feasibility of execution time, high parallelization capability, and energy efficiency. Primarily intended for use in FPGA, the algorithm is also adaptable to other hardware platforms. These contributions not only set new standards in speed and efficiency for the processing of biological data but also pave the way for significant advances in genomic and taxonomic research, among other areas of bioinformatics. | pt_BR |
dc.description.resumo | Neste trabalho, abordamos o desafio crescente de processar eficientemente o vasto e continuamente expansivo volume de dados em bases de dados biológicas. A necessidade de técnicas de análise de sequências rápidas e precisas é mais premente do que nunca, dada a importância de identificar semelhanças entre sequências biológicas para aplicações em genômica, taxonomia e além. Central para este esforço é a otimização de algoritmos de alinhamento de sequências, particularmente o Smith-Waterman (SW), um método de alto nível de precisão baseado em programação dinâmica, e o K-Mers, uma técnica para a contagem de subsequências que é fundamental na análise genômica. Propomos uma inovadora arquitetura de hardware paralelo para o algoritmo SW, incorporando uma estrutura de array sistólico que acelera significativamente as fases de avanço e retrocesso do alinhamento. Esta arquitetura pré-organiza o alinhamento na etapa de avanço, reduzindo a complexidade do subsequente retrocesso, que é iniciado a partir da posição de pontuação máxima. Validada em Field-Programmable Gate Array (FPGA), a arquitetura alcançou uma taxa de até 79,5 Giga Cell Updates por Segundo (GCPUS), demonstrando um avanço notável na eficiência de processamento. Adicionalmente, desenvolvemos um algoritmo baseado em K-Mers focado na extração exata de subsequências curtas, caracterizado por seu baixo consumo de memória, viabilidade de tempo de execução, alta capacidade de paralelização, e eficiência energética. Destinado primariamente para uso em FPGA, o algoritmo é também adaptável a outras plataformas de hardware. Estas contribuições não apenas estabelecem novos padrões em termos de velocidade e eficiência para o processamento de dados biológicos, mas também abrem caminho para avanços significativos em pesquisas genômicas e taxonômicas, entre outras áreas de bioinformática. | pt_BR |
dc.description.sponsorship | Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
dc.identifier.citation | OLIVEIRA, Fábio Fonseca de. Proposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithms. Orientador: Dr. Marcelo Augusto Costa Fernandes. 2024. 88f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2024. | pt_BR |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/58813 | |
dc.language | pt_BR | pt_BR |
dc.publisher | Universidade Federal do Rio Grande do Norte | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Smith-Waterman | pt_BR |
dc.subject | K-Mers | pt_BR |
dc.subject | FPGA | pt_BR |
dc.subject | Array sistólico | pt_BR |
dc.subject | Alta taxa de transferência | pt_BR |
dc.subject | Baixo uso de memória | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS BIOLOGICAS | pt_BR |
dc.title | Proposed FPGA-Based hardware architectures for acceleration of Smith-Waterman and K-Mers algorithms | pt_BR |
dc.type | doctoralThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- ProposedFPGABased_Oliveira_2024.pdf
- Tamanho:
- 5.98 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível