Navegando por Autor "Lima, Thales Aguiar de"
Agora exibindo 1 - 2 de 2
- Resultados por página
- Opções de Ordenação
Dissertação Investigating fuzzy methods for multilingual speaker identification(Universidade Federal do Rio Grande do Norte, 2020-08-27) Lima, Thales Aguiar de; Abreu, Marjory Cristiany da Costa; ; ; Santin, Altair Olivo; ; Pereira, Mônica Magalhães;Speech is a crucial ability for humans to interact and communicate. Speech-based technologies are becoming more popular with speech interfaces, real-time translation, and budget healthcare diagnosis. Besides, the use of voice for system identification is an important and relevant topic. There are several ways of doing it, but most are dependent on the language the user speaks. However, if the idea is to create an all inclusive and reliable system that uses speech as its input, we must take into account that people can and will speak different languages and accents. This research evaluates closed-set text-independent speaker identification systems on a multilingual setup, including both fuzzy and crisp models. Our experiments are performed using three widely spoken languages which are Portuguese, English, and Chinese. Then, we extracted 13-MFCCs, along with log-Energy and its respective delta and delta-delta from signals to use as our feature vector. We adopted four classifiers: Fuzzy C-Means, Fuzzy k-Nearest Neighbours, k-Nearest Neighbours, and Support Vector Machines. Initial tests indicated the systems have certain robustness on multiple languages. Where results with more languages decreases our accuracy; however our investigation suggests these impacts are from number of classes.Tese Uma metodologia para criação de grandes bases de voz para linguagens com recursos escassos, e inclusão social por conversão de sotaques para PT-BRal(Universidade Federal do Rio Grande do Norte, 2022-12-16) Lima, Thales Aguiar de; Abreu, Marjory Cristiany da Costa; https://orcid.org/0000-0001-7461-7570; http://lattes.cnpq.br/2234040548103596; http://lattes.cnpq.br/1282015882147803; Carvalho, Bruno Motta de; http://lattes.cnpq.br/0330924133337698; Maia, Silvia Maria Diniz Monteiro; Santin, Altair Olivo; Simplício Júnior, Marcos AntônioA voz é parte crucial na nossa forma de comunicação como uma espécie e combinada com a constante evolução das mensagens instantâneas no formato de voz, assim como os chatbots, sua importância se torna ainda maior. Enquanto a maioria das tecnologias de voz alcançaram altos valores de acurácia, eles falham quando testados em sotaques que desviam do “padrão” de uma linguagem. Isso se torna ainda mais preocupante para linguagens que possuem poucos dados e uma pesquisa escassa, como o Português Brasileiro. Em paralelo, o desenvolvimento de ferramentas baseadas em Inteligência Artificial são cada vez mais aceitos e estão mais presentes nas nossas vidas, mesmo que nem sempre sejam notados. O uso de um sotaque “padrão” combinado com o avanço da Inteligência Artificial para sistemas baseados em voz, além da insuficiência de dados para o Português Brasileiro inspiraram os três objetivos desse trabalho. Portanto, propomos explorar novas formas de Conversão de Sotaques para o Português Brasileiro ao adaptar modelos para converter do sotaque paulistano para o nordestino. O segundo é realizar uma análise acústica dos sotaques, de forma abrangente cobrindo o território nacional, encontrando e formalizando possíveis diferenças entre eles. Finalmente, propomos coletar e disponibilizar uma base de dados em voz para o Português Brasileiro. A partir de um método que explora a disponibilidade de dados e informações em plataformas de vídeo, a base faz o download automático de vídeos do TEDx Talks. Essas pequenas apresentações são uma fonte confiável e limpa de dados as quais possuem transcrições automaticamente geradas e humanas