Apache Kafka: implementação da técnica de replicação de banco de dados baseada em Middleware para o contexto de raspagem de dados

dc.contributor.advisorViegas, Carlos Manuel Dias
dc.contributor.authorBenedito Neto, Manoel
dc.contributor.referees1Oliveira, Luiz Affonso Henderson Guedes de
dc.contributor.referees2Silva, Ivanovitch Medeiros Dantas da
dc.date.accessioned2022-07-29T12:53:52Z
dc.date.available2022-07-29T12:53:52Z
dc.date.issued2022-07-26
dc.description.abstractThe demand for stability and availability of databases in the age of information and distributed computing is increasingly urgent. The recent Covid-19 'Data Blackout' case, which occurred in December 2021 in DataSUS systems, can be mentioned as an alarming occasion that could have been mitigated with the implementation of database replication techniques. Database replication techniques seek to increase consistency, performance and availability characteristics through a service architecture capable of fully copying the data present in a database. This paper has the general objective of implement the Middleware-based database replication technique using Apache Kafka tool to mediate the exchange of information between a database and its replica in a data scraping application context. The data are stored in a PostgreSQL database, stored by a Python application that, in turn, perform the data scraping of meteorological data referring to fire outbreaks, publicly provided by the National Institute for Space Research (INPE) through an Application Programming Interface (API). The concepts of service virtualization were used to instantiate the data scraping application, the database service and a Database Management System (DBMS), the Apache Kafka service architecture and a control panel for visualization of its performance. Thus, concluded that the methodology applied had resulted in a consistent database replica for the data scraping system developed.pt_BR
dc.description.resumoA demanda pela estabilidade e disponibilidade de bancos de dados na era da informação e computação distribuída é cada vez mais urgente. O recente caso de 'Apagão de Dados' de Covid-19, ocorrido em Dezembro de 2021 nos sistemas do DataSUS, pode ser mencionado como uma alarmante ocasião que poderia ter sido amenizada com a implementação de técnicas para replicação de banco de dados. As técnicas de replicação de banco de dados buscam incrementar características de consistência, desempenho e disponibilidade por meio de uma arquitetura de solução capaz de copiar integralmente os dados presentes em um banco. Este trabalho de conclusão de curso tem como objetivo geral implementar a técnica de replicação de banco de dados baseada em middleware com a utilização da ferramenta Apache Kafka para intermediar as trocas de informações entre um banco e sua réplica que, por sua vez, são alimentados por uma aplicação para raspagem de dados. Os dados são armazenados em um banco de dados PostgreSQL através de uma aplicação Python, a qual realiza a raspagem de dados meteorológicos referentes a focos de queimadas, cedidos publicamente pelo Instituto Nacional de Pesquisas Espaciais (INPE) por meio de uma Application Programming Interface (API). Foram utilizados os conceitos de virtualização de serviços para instanciar a aplicação de raspagem de dados, o serviço de banco de dados e um Sistema de Gerenciamento de Banco de Dados (SGBD), a arquitetura de serviços Apache Kafka e um painel de controle para visualização de seu desempenho. Com isso, constatou-se que a metodologia utilizada teve como resultado uma réplica de banco de dados consistente para o sistema de raspagem de dados desenvolvido.pt_BR
dc.identifier.citationBENEDITO NETO, Manoel. Apache Kafka: implementação da técnica de replicação de banco de dados baseada em Middleware para o contexto de raspagem de dados. 2022. 55f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.pt_BR
dc.identifier.urihttps://repositorio.ufrn.br/handle/123456789/48850
dc.languagept_BRpt_BR
dc.publisherUniversidade Federal do Rio Grande do Nortept_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentEngenharia de Computação e Automaçãopt_BR
dc.publisher.initialsUFRNpt_BR
dc.publisher.programEngenharia de Computaçãopt_BR
dc.rightsAttribution-NonCommercial 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/br/*
dc.subjectApache Kafkapt_BR
dc.subjectSistemas distribuídospt_BR
dc.subjectReplicação de banco de dadospt_BR
dc.subjectRaspagem de dadospt_BR
dc.subjectVirtualização de serviçospt_BR
dc.subjectDistributed systemspt_BR
dc.subjectDatabase replicationpt_BR
dc.subjectData scrappingpt_BR
dc.subjectService virtualizationpt_BR
dc.titleApache Kafka: implementação da técnica de replicação de banco de dados baseada em Middleware para o contexto de raspagem de dadospt_BR
dc.title.alternativeApache Kafka: Implementation of Middleware-Based Database Replication Technique for Data Scraping Contextpt_BR
dc.typebachelorThesispt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
TCC_Manoel_Benedito_Neto_Final.pdf
Tamanho:
1.59 MB
Formato:
Adobe Portable Document Format
Nenhuma Miniatura disponível
Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.45 KB
Formato:
Item-specific license agreed upon to submission
Nenhuma Miniatura disponível
Baixar