Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

dc.contributor.advisorSouto, Marcílio Carlos Pereira dept_BR
dc.contributor.advisor-co1Costa Filho, Ivan Gesteirapt_BR
dc.contributor.advisor-co1IDpor
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/6173255299874918por
dc.contributor.advisorIDpor
dc.contributor.advisorLatteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1por
dc.contributor.authorAraújo, Daniel Sabino Amorim dept_BR
dc.contributor.authorIDpor
dc.contributor.authorLatteshttp://lattes.cnpq.br/4744754780165354por
dc.contributor.referees1Canuto, Anne Magaly de Paulapt_BR
dc.contributor.referees1IDpor
dc.contributor.referees1Latteshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8por
dc.contributor.referees2Prudêncio, Ricardo Bastos Cavalcantept_BR
dc.contributor.referees2IDpor
dc.contributor.referees2Latteshttp://lattes.cnpq.br/2984888073123287por
dc.date.accessioned2014-12-17T15:47:48Z
dc.date.available2009-03-10pt_BR
dc.date.available2014-12-17T15:47:48Z
dc.date.issued2008-11-11pt_BR
dc.description.abstractThe use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the first large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the finite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methodseng
dc.description.resumoO uso de técnicas de agrupamento na descoberta de subtipos de câncer tem atraído grande atenção da comunidade científica. Enquanto bioinformatas propõem novas técnicas de agrupamento que levam em consideração características dos dados de expressão gênica, a comunidade médica prefere utilizar as técnicas clássicas de agrupamento. De fato, não existem trabalhos na literatura que realizam uma avaliação em grande escala de técnicas de agrupamento nesse contexto. Diante disso, este trabalho apresenta o primeiro estudo em grande escala de sete técnicas de agrupamento e quatro medidas de proximidade para a análise de 35 conjuntos de dados de expressão gênica. Mais especificamente, os resultados mostram que a técnica mistura finita de gaussianas, seguida pelo k-means, apresentam os melhores resultados em termos de recuperação da estrutura natural dos dados. Esses métodos também apresentam a menor diferença entre o número real de classes e o número de grupos presente na melhor partição. Além disso, os métodos de agrupamento hierárquico, que vêm sendo bastante utilizados pela comunidade médica, apresentaram os piores resultados quando comparados com os outros métodos investigados. Este trabalho também apresenta, como uma referência estável para a avaliação e comparação de diferentes algoritmos de agrupamento para dados de expressão gênica de câncer, um conjunto de bases de dados (benchmark data sets) que pode ser compartilhado entre pesquisadores e usado na comparação de novos métodospor
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.formatapplication/pdfpor
dc.identifier.citationARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.por
dc.identifier.urihttps://repositorio.ufrn.br/jspui/handle/123456789/17988
dc.languageporpor
dc.publisherUniversidade Federal do Rio Grande do Nortepor
dc.publisher.countryBRpor
dc.publisher.departmentCiência da Computaçãopor
dc.publisher.initialsUFRNpor
dc.publisher.programPrograma de Pós-Graduação em Sistemas e Computaçãopor
dc.rightsAcesso Abertopor
dc.subjectInteligência artificialpor
dc.subjectBioinformáticapor
dc.subjectAprendizado de máquinapor
dc.subjectAnálise de agrupamentospor
dc.subjectExpressão gênicapor
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpor
dc.titleAlgoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativopor
dc.typemasterThesispor

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
DanielSAA.pdf
Tamanho:
675.56 KB
Formato:
Adobe Portable Document Format
Carregando...
Imagem de Miniatura
Baixar