Use este identificador para citar ou linkar para este item: https://repositorio.ufrn.br/jspui/handle/123456789/15124
Título: Reconhecimento de voz através de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hierárquica de decisão
Autor(es): Bresolin, Adriano de Andrade
Palavras-chave: Reconhecimento de Voz;Wavelet Packet e Máquinas de Vetor de Suporte;Speech Recognition;Wavelet Packet and Support Vector Machine
Data do documento: 2-Dez-2008
Editor: Universidade Federal do Rio Grande do Norte
Citação: BRESOLIN, Adriano de Andrade. Reconhecimento de voz através de unidades menores do que a palavra, utilizando Wavelet Packet e SVM, em uma nova estrutura hierárquica de decisão. 2008. 100 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2008.
Resumo: The automatic speech recognition by machine has been the target of researchers in the past five decades. In this period have been numerous advances, such as in the field of recognition of isolated words (commands), which has very high rates of recognition, currently. However, we are still far from developing a system that could have a performance similar to the human being (automatic continuous speech recognition). One of the great challenges of searches for continuous speech recognition is the large amount of pattern. The modern languages such as English, French, Spanish and Portuguese have approximately 500,000 words or patterns to be identified. The purpose of this study is to use smaller units than the word such as phonemes, syllables and difones units as the basis for the speech recognition, aiming to recognize any words without necessarily using them. The main goal is to reduce the restriction imposed by the excessive amount of patterns. In order to validate this proposal, the system was tested in the isolated word recognition in dependent-case. The phonemes characteristics of the Brazil s Portuguese language were used to developed the hierarchy decision system. These decisions are made through the use of neural networks SVM (Support Vector Machines). The main speech features used were obtained from the Wavelet Packet Transform. The descriptors MFCC (Mel-Frequency Cepstral Coefficient) are also used in this work. It was concluded that the method proposed in this work, showed good results in the steps of recognition of vowels, consonants (syllables) and words when compared with other existing methods in literature
metadata.dc.description.resumo: O reconhecimento automático da voz por máquinas inteligentes tem sido a meta de muitos pesquisadores nas últimas cinco décadas. Neste período, inúmeros avanços foram alcançados, como por exemplo no campo de reconhecimento de palavras isoladas (comandos), o qual atualmente apresenta taxas de reconhecimento muito altas. No entanto, ainda se está longe de desenvolver um sistema que possa ter um desempenho parecido com o ser humano, ou seja, reconhecimento automático de voz em modo contínuo. Um dos grandes desafios das pesquisas de reconhecimento de voz contínuo é a grande quantidade de padrões existentes, pois as linguagens modernas tais como: Inglês, Francês, Espanhol e Português possuem aproximadamente 500.000 palavras ou padrões a serem identificados. A proposta deste trabalho é utilizar unidades menores do que a palavra tais como: fonemas, difones e sílabas como unidades base para o reconhecimento da voz, visando o reconhecimento quaisquer palavras sem necessariamente utilizá-las. O objetivo principal deste trabalho é reduzir a restrição imposta pela quantidade excessiva de padrões existentes, ou seja, a quantidade excessiva de palavras. Com o objetivo de validar esta proposta, o sistema foi desenvolvido e testado para o reconhecimento de palavras isoladas no modo dependente do locutor. O sistema apresentado neste trabalho foi desenvolvido com uma lógica de reconhecimento hierárquica baseada nas características de produção dos fonemas da língua Portuguesa do Brasil. Estas decisões são feitas através da utilização de redes neurais do tipo Máquinas de Vetor de Suporte agrupadas na forma de Máquinas de Cômite. Os principais descritores do sinal de voz utilizados, foram obtidos através da Transformada Wavelet Packet. Os descritores MFCC (Mel-Frequency Cepstral Coefficient) também são utilizados neste trabalho. Pode-se concluir que o método proposto apresentou bons resultados nas etapas de reconhecimento de vogais, consoantes (sílabas) e palavras se comparado com outros métodos existentes na literatura
URI: http://repositorio.ufrn.br:8080/jspui/handle/123456789/15124
Aparece nas coleções:PPGEE - Doutorado em Engenharia Elétrica e de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
AdrianoAB.pdf2,19 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.