A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities

Santana, Carla dos Santos

A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities

Página do item simplificado Estatísticas

dc.contributor.advisor	Souza, Samuel Xavier de
dc.contributor.advisorID	https://orcid.org/0000-0001-8747-4580
dc.contributor.advisorLattes	http://lattes.cnpq.br/9892239670106361
dc.contributor.author	Santana, Carla dos Santos
dc.contributor.authorID	https://orcid.org/0000-0003-3328-0056
dc.contributor.authorLattes	http://lattes.cnpq.br/4697610292983660
dc.contributor.referees1	Bianchini, Calebe de Paula
dc.contributor.referees2	Tadonki, Claude	pt_BR
dc.contributor.referees3	Chauris, Herve	pt_BR
dc.contributor.referees4	Taufer, Michela	pt_BR
dc.contributor.referees5	Navaux, Philippe Olivier Alexandre	pt_BR
dc.contributor.referees6	Barros, Tiago Tavares Leite	pt_BR
dc.date.accessioned	2025-05-29T22:29:53Z
dc.date.available	2025-05-29T22:29:53Z
dc.date.issued	2024-10-04
dc.description.abstract	High-performance computing, a dynamic field within computer science, provides the processing power necessary for algorithms across diverse domains. Large-scale supercomputers are indispensable for tackling complex problems; however, their size and complexity make them susceptible to failure. This underscores the criticality of employing fault tolerance techniques to mitigate the impact of interruptions or failures. These methods are instrumental in addressing hardware and software malfunctions and preemptive scenarios. Given the imperative for fault tolerance, we present new methodologies for improving fault tolerance in bulk synchronous programs. These new methodologies are presented as the Dependability Library for Iterative Applications. This library offers a versatile solution that combines data conservation at the application level, fault detection, and failover capabilities. The proposed library simplifies the integration of fault tolerance abilities into the applications, offering high configurability options. This thesis presents data conservation methodologies, including application-level checkpointing and process data replication, to ensure reliability by allowing a backup unit to take over in case of failure. This work also presents fault detection methods such as termination signal detection and heartbeat monitoring with inexpensive communication to trigger the data conservation only if there is a possibility of failure; this approach permits low overhead. The proposed library is compatible with user-level failure mitigation, which allows failover capabilities; in other words, the programs can continue operating after crashes, minimizing downtime and ensuring continuous operation. Our proposal was successfully applied to the geophysical problem of full-waveform inversion, a standard algorithm for oil and gas exploration geophysics processing. This application serves as a high-performance practical scenario for analysis, demonstrating the real-world applicability of the library. All methods were rigorously validated, and the overhead in this problem was thoroughly analyzed using more realistic examples. In our experiments, the application did not lose all data processed until the failure moment, and it could continue execution even in the presence of node failure, with minimal overhead. This work also shows other case studies in the initial stage of applying the library and discusses some fault tolerance concepts and related works.
dc.description.resumo	A computação de alto desempenho é um campo dinâmico da ciência da computação que permite o processamento necessário para problemas de diversos domínios. Supercomputadores são indispensáveis para resolução de problemas complexos; no entanto, seu tamanho e complexidade os tornam suscetíveis a falhas. Isso destaca a importância crítica de empregar técnicas de tolerância a falhas para mitigar o impacto de interrupções. Esses métodos são essenciais para lidar com falhas de hardware e software, bem como cenários preemptivos. Dada a necessidade de tolerância a falhas, apresentamos novas metodologias para melhorar a tolerância a falhas em programas síncronos em massa. Essas novas metodologias são apresentadas dentro da Biblioteca de Confiabilidade para Aplicações Iterativas. Esta biblioteca oferece uma solução versátil que combina conservação de dados no nível da aplicação, detecção de falhas e capacidades de failover. A biblioteca proposta simplifica a integração de habilidades de tolerância a falhas nas aplicações, oferecendo opções de alta configurabilidade. Esta tese apresenta técnicas de conservação de dados, incluindo checkpointing no nível da aplicação e replicação de dados de processo, para garantir confiabilidade, permitindo que uma unidade de backup assuma em caso de falha. Este trabalho também apresenta métodos de detecção de falhas, como detecção de sinal de término e monitoramento de batita de coração com comunicação de baixo custo, para acionar a conservação de dados apenas se houver uma possibilidade de falha; essa abordagem permite baixo overhead. A biblioteca proposta é compatível com a mitigação de falhas no nível do usuário, o que permite capacidades de failover; em outras palavras, os programas podem continuar operando após falhas, minimizando o tempo de inatividade e garantindo operação contínua. Nossa proposta foi aplicada com sucesso ao problema geofísico de inversão de forma de onda completa, um algoritmo padrão para o processamento geofísico de exploração de petróleo e gás. Esta aplicação serve como um cenário prático de alto desempenho para análise, demonstrando a aplicabilidade real da biblioteca. Todos os métodos foram rigorosamente validados, e o overhead neste problema foi analisado usando exemplos mais realistas. Em nossos experimentos, a aplicação não perdeu todos os dados processados até o momento da falha e pôde continuar a execução, mesmo na presença de falha de nó, com overhead mínimo. Este trabalho também apresenta outros estudos de caso na fase inicial de aplicação da biblioteca e discute alguns conceitos de tolerância a falhas e trabalhos relacionados.
dc.identifier.citation	SANTANA, Carla dos Santos. A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities. Orientador: Dr. Samuel Xavier de Souza. 2024. 90f. Tese (Doutorado em Engenharia Elétrica e de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2024.
dc.identifier.uri	https://repositorio.ufrn.br/handle/123456789/63748
dc.language.iso	en
dc.publisher	Universidade Federal do Rio Grande do Norte
dc.publisher.country	BR	pt_BR
dc.publisher.initials	UFRN	pt_BR
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Fault tolerance
dc.subject	Interruption detection
dc.subject	Data conservation
dc.subject	Failover
dc.subject	High performance computing
dc.subject.cnpq	ENGENHARIAS::ENGENHARIA ELETRICA
dc.title	A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities
dc.type	doctoralThesis	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Configurabledependabilitylibrary_Santana_2024pdf
Tamanho:: 3.85 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.53 KB
Formato:: Item-specific license agreed upon to submission

Baixar

Coleções

PPGEE - Doutorado em Engenharia Elétrica e de Computação

SIGAA

A configurable dependability library for high-performance computing iterative applications with interruption detection, data preservation and failover capabilities

Arquivos

Pacote Original

Licença do Pacote

Coleções