Aplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínas

dc.contributor.advisorCosta, José Alfredo Ferreirapt_BR
dc.contributor.advisor-co1Souto, Marcílio Carlos Pereira dept_BR
dc.contributor.advisor-co1IDpor
dc.contributor.advisor-co1Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1por
dc.contributor.advisorIDpor
dc.contributor.advisorLatteshttp://lattes.cnpq.br/9745845064013172por
dc.contributor.authorBittencourt, Valnaide Gomespt_BR
dc.contributor.authorIDpor
dc.contributor.authorLatteshttp://lattes.cnpq.br/1654377738680241por
dc.contributor.referees1Ludermir, Teresa Bernardapt_BR
dc.contributor.referees1IDpor
dc.contributor.referees1Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4781122D6por
dc.contributor.referees2Dória Neto, Adrião Duartept_BR
dc.contributor.referees2IDpor
dc.contributor.referees2Latteshttp://lattes.cnpq.br/1987295209521433por
dc.date.accessioned2014-12-17T14:56:03Z
dc.date.available2006-12-20pt_BR
dc.date.available2014-12-17T14:56:03Z
dc.date.issued2005-11-25pt_BR
dc.description.abstractNowadays, classifying proteins in structural classes, which concerns the inference of patterns in their 3D conformation, is one of the most important open problems in Molecular Biology. The main reason for this is that the function of a protein is intrinsically related to its spatial conformation. However, such conformations are very difficult to be obtained experimentally in laboratory. Thus, this problem has drawn the attention of many researchers in Bioinformatics. Considering the great difference between the number of protein sequences already known and the number of three-dimensional structures determined experimentally, the demand of automated techniques for structural classification of proteins is very high. In this context, computational tools, especially Machine Learning (ML) techniques, have become essential to deal with this problem. In this work, ML techniques are used in the recognition of protein structural classes: Decision Trees, k-Nearest Neighbor, Naive Bayes, Support Vector Machine and Neural Networks. These methods have been chosen because they represent different paradigms of learning and have been widely used in the Bioinfornmatics literature. Aiming to obtain an improvment in the performance of these techniques (individual classifiers), homogeneous (Bagging and Boosting) and heterogeneous (Voting, Stacking and StackingC) multiclassification systems are used. Moreover, since the protein database used in this work presents the problem of imbalanced classes, artificial techniques for class balance (Undersampling Random, Tomek Links, CNN, NCL and OSS) are used to minimize such a problem. In order to evaluate the ML methods, a cross-validation procedure is applied, where the accuracy of the classifiers is measured using the mean of classification error rate, on independent test sets. These means are compared, two by two, by the hypothesis test aiming to evaluate if there is, statistically, a significant difference between them. With respect to the results obtained with the individual classifiers, Support Vector Machine presented the best accuracy. In terms of the multi-classification systems (homogeneous and heterogeneous), they showed, in general, a superior or similar performance when compared to the one achieved by the individual classifiers used - especially Boosting with Decision Tree and the StackingC with Linear Regression as meta classifier. The Voting method, despite of its simplicity, has shown to be adequate for solving the problem presented in this work. The techniques for class balance, on the other hand, have not produced a significant improvement in the global classification error. Nevertheless, the use of such techniques did improve the classification error for the minority class. In this context, the NCL technique has shown to be more appropriatedeng
dc.description.resumoAtualmente, a classificação estrutural de proteínas, que diz respeito à inferência de padrões em sua conformação 3D, é um dos principais problemas em aberto da Biologia Molecular. Esse problema vem recebendo a atenção de muitos pesquisadores na área de Bioinformática pelo fato de as funções das proteínas estarem intrinsecamente relacionadas às suas diferentes conformações espaciais, que são de difícil obtenção experimental em laboratório. Considerando a grande diferença entre o número de seqüências de proteínas conhecidas e o número de estruturas tridimensionais determinadas experimentalmente, é alta a demanda por técnicas automatizadas de classificação estrutural de proteínas. Nesse contexto, as ferramentas computacionais, principalmente as técnicas de Aprendizado de Máquina (AM), tornaram-se alternativas essenciais para tratar esse problema. Neste trabalho, técnicas de AM são empregadas no reconhecimento de classes estruturais de proteínas: Árvore de Decisão, k-Vizinhos Mais Próximos, Naïve Bayes, Máquinas de Vetores Suporte e Redes Neurais Artificiais. Esses métodos foram escolhidos por representarem diferentes paradigmas de aprendizado e serem bastante citados na literatura. Visando conseguir uma melhoria de desempenho na solução do problema abordado, sistemas de multiclassificação homogênea (Bagging e Boosting) e heterogênea (Voting, Stacking e StackingC) são aplicados nesta pesquisa, usando como base as técnicas de AM anteriormente mencionadas. Além disso, pelo fato de a base de dados de proteínas considerada neste trabalho apresentar o problema de classes desbalanceadas, técnicas artificiais de balanceamento de classes (Under-sampling Aleatório, Tomek Links, CNN, NCL e OSS) são utilizadas a fim de minimizar esse problema e melhorar o desempenho dos classificadores. Para a avaliação dos métodos de AM, um procedimento de validação cruzada é empregado, em que a acurácia dos classificadores é medida através das médias da taxa de classificação incorreta nos conjuntos de testes independentes. Essas médias são comparadas duas a duas pelo teste de hipótese a fim de avaliar se há diferença estatisticamente significativa entre elas. Com os resultados obtidos, pode-se observar, entre os classificadores base, o desempenho superior do método Máquinas de Vetores Suporte. Os sistemas de multiclassificação (homogênea e heterogênea), por sua vez, apresentaram, em geral, uma acurácia superior ou similar a dos classificadores usados como base, destacando-se o Boosting que usou Árvore de Decisão em sua formação e o StackingC tendo como meta classificador a Regressão Linear. O método Voting, apesar de sua simplicidade, também mostrou-se adequado para a solução do problema considerado nesta dissertação. Em relação às técnicas de balanceamento de classes, não foram alcançados melhores resultados de classificação global com as bases de dados obtidas com a aplicação de tais técnicas. No entanto, foi possível uma melhor classificação específica da classe minoritária, de difícil aprendizado. A técnica NCL foi a que se mostrou mais apropriada ao balanceamento de classes da base de dados de proteínaspor
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.formatapplication/pdfpor
dc.identifier.citationBITTENCOURT, Valnaide Gomes. Aplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínas. 2005. 116 f. Dissertação (Mestrado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2005.por
dc.identifier.urihttps://repositorio.ufrn.br/jspui/handle/123456789/15423
dc.languageporpor
dc.publisherUniversidade Federal do Rio Grande do Nortepor
dc.publisher.countryBRpor
dc.publisher.departmentAutomação e Sistemas; Engenharia de Computação; Telecomunicaçõespor
dc.publisher.initialsUFRNpor
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétricapor
dc.rightsAcesso Abertopor
dc.subjectBioinformáticapor
dc.subjectClasses estruturais de proteínaspor
dc.subjectSistemas de multiclassificaçãopor
dc.subjectBalanceamento de classespor
dc.subjectBioinformaticeng
dc.subjectProtein structural classeseng
dc.subjectMulti-classification systemseng
dc.subjectClass balanceeng
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA ELETRICApor
dc.titleAplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínaspor
dc.typemasterThesispor

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
ValnaideGB.pdf
Tamanho:
1.31 MB
Formato:
Adobe Portable Document Format
Carregando...
Imagem de Miniatura
Baixar