HARS1DE: arquitetura de hardware para processamento de CNNs1D na borda

dc.contributor.advisorKreutz, Márcio Eduardo
dc.contributor.advisorLatteshttp://lattes.cnpq.br/6374279398246756
dc.contributor.authorGuimarães, Mailson Rodrigues de Medeiros
dc.contributor.authorLatteshttp://lattes.cnpq.br/3132811781302622
dc.contributor.referees1Zeferino, César Albenes
dc.contributor.referees2Fernandes, Marcelo Augusto Costapt_BR
dc.contributor.referees3Pereira, Monica Magalhães
dc.date.accessioned2025-07-01T22:43:11Z
dc.date.available2025-07-01T22:43:11Z
dc.date.issued2025-01-31
dc.description.abstractThere is a trend toward using the cloud computing paradigm, where resources, storage, and information processing are carried out in so-called "clouds"managed by providers. This paradigm is leveraged, for instance, to apply machine learning algorithms to large volumes of data. Conversely, there is the edge computing paradigm, where this processing load is transferred to elements closer to where the data is generated (at the network edge). Investment by technology companies in this type of computing and its techniques has been growing, as it can offer advantages, such as reduced processing latency, energy consumption, and resource demands that may not always be available in the cloud. Similarly to cloud computing, it is possible to apply predictive machine learning models at the edge, where hardware architectures dedicated to accelerating these processes can be employed. Thus, this work’s main objective is to implement, test, and validate a hardware architecture capable of accelerating the computation of 1D-CNNs inference, including pooling, activation, and dense layers, where performance metrics, accuracy, and hardware resource utilization are analyzed. Two representations of the architecture were developed to obtain the results: one in VHDL, synthesized for FPGA to get results regarding hardware resource allocation and timing, and another in Python, a high-level abstraction language, to obtain quicker results on the architecture’s behavior during longer processes, such as the computation of an entire neural network. Tests were conducted on three different variations of the proposed architecture.The results were obtained by applying the architecture in remote sensing, specifically for pixel classification in hyperspectral images. The neural network used was a simplified version of previous works to facilitate porting to hardware. In addition to being reconfigurable in the context of FPGAs, the resulting architecture exhibits adaptable behavior depending on the type of neural network layer being processed. Theoretical results demonstrate a maximum performance of 14.4GOP/s for the best architecture variation, as well as a maximum acceleration of 4.52× compared to an AMD EPYC 7B12 processor, 8.36× compared to an NVIDIA T4 and 3.39× to an AMD Ryzen 7 7800X3D. These results were achieved classifying one of the hyperspectral images and the best architecture variation ended with a FPGA resource usage below 80%.
dc.description.resumoAtualmente há uma tendência ao uso do paradigma de cloud computing, onde os recursos, armazenamento e processamento de informação são realizados nas chamadas "nuvens", gerenciadas por provedores. Tal paradigma é aproveitado para o uso, por exemplo, de algoritmos de aprendizado de máquina sobre grandes volumes de dados. Em contrapartida, há o paradigma de computação na borda (edge computing), onde essa carga de processamento é transferida para elementos próximos de onde os dados são gerados (na borda da rede). O investimento de empresas de tecnologia sobre esse tipo de computação e suas técnicas tem crescido, pois essa pode promover ganhos, por exemplo, em termos de latência no processamento, consumo de energia e recursos que eventualmente não estejam disponíveis na nuvem. Analogamente à computação na nuvem, também é possível realizar a aplicação de modelos preditivos de aprendizado de máquina na borda, onde arquiteturas de hardware dedicadas à aceleração desses processos podem ser empregadas. Dessarte, esse trabalho tem como objetivo principal a implementação, teste e validação de uma arquitetura de hardware capaz de acelerar a computação da inferência em CNNs-1D, incluindo camadas de pooling, ativação e dense, onde são analisadas métricas de desempenho, acurácia e uso de recursos de hardware. Para a obtenção dos resultados, foram realizadas duas representações da arquitetura, sendo uma em VHDL e sintetizada para FPGA de forma a se obter resultados de alocação de recursos de hardware e de tempo. A outra representação foi realizada em Python, linguagem de alto nível de abstração, para a obtenção de resultados mais rápidos sobre o comportamento da arquitetura mediante a execução de processos mais longos, como o processamento de uma rede neural inteira. Foram realizados testes em três diferentes variações da arquitetura proposta. Os resultados foram obtidos através da aplicação da arquitetura no domínio de aplicação de sensoriamento remoto, especificamente na classificação de pixels em imagens hiperespectrais. A rede neural utilizada foi uma versão simplificada de trabalhos anteriores na área para ser portada ao hardware. A arquitetura obtida, além de ser reconfigurável no sentido da FPGA, também tem seu comportamento mutável dependendo do tipo de camada de rede neural a ser processada. Resultados teóricos mostram um desempenho máximo de 14, 4GOP/s para a melhor variação da arquitetura, além de uma aceleração máxima de 4, 52× em relação a um processador AMD EPYC 7B12 de 2, 25GHz, de 8, 36× em relação à NVIDIA T4 e 3, 39× em relação a um AMD Ryzen 7 7800X3D. Tais resultados foram obtidos a partir da classificação de uma das imagens hiperespectrais e a melhor variação da arquitetura terminou com uma ocupação abaixo de 80% para os recursos da FPGA utilizada.
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq
dc.identifier.citationGUIMARÃES, Mailson Rodrigues de Medeiros. HARS1DE: arquitetura de hardware para processamento de CNNs1D na borda. Orientador: Dr. Márcio Eduardo Kreutz. 2025. 105f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2025.
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/64088
dc.language.isopt_BR
dc.publisherUniversidade Federal do Rio Grande do Norte
dc.publisher.countryBRpt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectComputação na borda
dc.subjectArquitetura de hardware
dc.subjectAprendizado de máquina
dc.subjectRedes neurais convolucionais
dc.subjectSensoriamento remoto
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.titleHARS1DE: arquitetura de hardware para processamento de CNNs1D na borda
dc.title.alternativeHARS1DE: reconfigurable and scalable hardware accelerator for CNNs-1D in edge computing
dc.typemasterThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
HARS1DEarquiteturahardware_Guimaraes_2025.pdf
Tamanho:
5.15 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.53 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar