A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities
dc.contributor.advisor | Souza, Samuel Xavier de | |
dc.contributor.advisorID | https://orcid.org/0000-0001-8747-4580 | |
dc.contributor.advisorLattes | http://lattes.cnpq.br/9892239670106361 | |
dc.contributor.author | Santana, Carla dos Santos | |
dc.contributor.authorID | https://orcid.org/0000-0003-3328-0056 | |
dc.contributor.authorLattes | http://lattes.cnpq.br/4697610292983660 | |
dc.contributor.referees1 | Bianchini, Calebe de Paula | |
dc.contributor.referees2 | Tadonki, Claude | pt_BR |
dc.contributor.referees3 | Chauris, Herve | pt_BR |
dc.contributor.referees4 | Taufer, Michela | pt_BR |
dc.contributor.referees5 | Navaux, Philippe Olivier Alexandre | pt_BR |
dc.contributor.referees6 | Barros, Tiago Tavares Leite | pt_BR |
dc.date.accessioned | 2025-05-29T22:29:53Z | |
dc.date.available | 2025-05-29T22:29:53Z | |
dc.date.issued | 2024-10-04 | |
dc.description.abstract | High-performance computing, a dynamic field within computer science, provides the processing power necessary for algorithms across diverse domains. Large-scale supercomputers are indispensable for tackling complex problems; however, their size and complexity make them susceptible to failure. This underscores the criticality of employing fault tolerance techniques to mitigate the impact of interruptions or failures. These methods are instrumental in addressing hardware and software malfunctions and preemptive scenarios. Given the imperative for fault tolerance, we present new methodologies for improving fault tolerance in bulk synchronous programs. These new methodologies are presented as the Dependability Library for Iterative Applications. This library offers a versatile solution that combines data conservation at the application level, fault detection, and failover capabilities. The proposed library simplifies the integration of fault tolerance abilities into the applications, offering high configurability options. This thesis presents data conservation methodologies, including application-level checkpointing and process data replication, to ensure reliability by allowing a backup unit to take over in case of failure. This work also presents fault detection methods such as termination signal detection and heartbeat monitoring with inexpensive communication to trigger the data conservation only if there is a possibility of failure; this approach permits low overhead. The proposed library is compatible with user-level failure mitigation, which allows failover capabilities; in other words, the programs can continue operating after crashes, minimizing downtime and ensuring continuous operation. Our proposal was successfully applied to the geophysical problem of full-waveform inversion, a standard algorithm for oil and gas exploration geophysics processing. This application serves as a high-performance practical scenario for analysis, demonstrating the real-world applicability of the library. All methods were rigorously validated, and the overhead in this problem was thoroughly analyzed using more realistic examples. In our experiments, the application did not lose all data processed until the failure moment, and it could continue execution even in the presence of node failure, with minimal overhead. This work also shows other case studies in the initial stage of applying the library and discusses some fault tolerance concepts and related works. | |
dc.description.resumo | A computação de alto desempenho é um campo dinâmico da ciência da computação que permite o processamento necessário para problemas de diversos domínios. Supercomputadores são indispensáveis para resolução de problemas complexos; no entanto, seu tamanho e complexidade os tornam suscetíveis a falhas. Isso destaca a importância crítica de empregar técnicas de tolerância a falhas para mitigar o impacto de interrupções. Esses métodos são essenciais para lidar com falhas de hardware e software, bem como cenários preemptivos. Dada a necessidade de tolerância a falhas, apresentamos novas metodologias para melhorar a tolerância a falhas em programas síncronos em massa. Essas novas metodologias são apresentadas dentro da Biblioteca de Confiabilidade para Aplicações Iterativas. Esta biblioteca oferece uma solução versátil que combina conservação de dados no nível da aplicação, detecção de falhas e capacidades de failover. A biblioteca proposta simplifica a integração de habilidades de tolerância a falhas nas aplicações, oferecendo opções de alta configurabilidade. Esta tese apresenta técnicas de conservação de dados, incluindo checkpointing no nível da aplicação e replicação de dados de processo, para garantir confiabilidade, permitindo que uma unidade de backup assuma em caso de falha. Este trabalho também apresenta métodos de detecção de falhas, como detecção de sinal de término e monitoramento de batita de coração com comunicação de baixo custo, para acionar a conservação de dados apenas se houver uma possibilidade de falha; essa abordagem permite baixo overhead. A biblioteca proposta é compatível com a mitigação de falhas no nível do usuário, o que permite capacidades de failover; em outras palavras, os programas podem continuar operando após falhas, minimizando o tempo de inatividade e garantindo operação contínua. Nossa proposta foi aplicada com sucesso ao problema geofísico de inversão de forma de onda completa, um algoritmo padrão para o processamento geofísico de exploração de petróleo e gás. Esta aplicação serve como um cenário prático de alto desempenho para análise, demonstrando a aplicabilidade real da biblioteca. Todos os métodos foram rigorosamente validados, e o overhead neste problema foi analisado usando exemplos mais realistas. Em nossos experimentos, a aplicação não perdeu todos os dados processados até o momento da falha e pôde continuar a execução, mesmo na presença de falha de nó, com overhead mínimo. Este trabalho também apresenta outros estudos de caso na fase inicial de aplicação da biblioteca e discute alguns conceitos de tolerância a falhas e trabalhos relacionados. | |
dc.identifier.citation | SANTANA, Carla dos Santos. A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities. Orientador: Dr. Samuel Xavier de Souza. 2024. 90f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024. | |
dc.identifier.uri | https://repositorio.ufrn.br/handle/123456789/63748 | |
dc.language.iso | en | |
dc.publisher | Universidade Federal do Rio Grande do Norte | |
dc.publisher.country | BR | pt_BR |
dc.publisher.initials | UFRN | pt_BR |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Fault tolerance | |
dc.subject | Interruption detection | |
dc.subject | Data conservation | |
dc.subject | Failover | |
dc.subject | High performance computing | |
dc.subject.cnpq | ENGENHARIAS::ENGENHARIA ELETRICA | |
dc.title | A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities | |
dc.type | doctoralThesis | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Configurabledependabilitylibrary_Santana_2024pdf
- Tamanho:
- 3.85 MB
- Formato:
- Adobe Portable Document Format
Nenhuma Miniatura disponível
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.53 KB
- Formato:
- Item-specific license agreed upon to submission
Nenhuma Miniatura disponível