Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Araújo, Daniel Sabino Amorim de

Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Página do item simplificado Estatísticas

dc.contributor.advisor	Souto, Marcílio Carlos Pereira de	pt_BR
dc.contributor.advisor-co1	Costa Filho, Ivan Gesteira	pt_BR
dc.contributor.advisor-co1ID		por
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/6173255299874918	por
dc.contributor.advisorID		por
dc.contributor.advisorLattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790032E1	por
dc.contributor.author	Araújo, Daniel Sabino Amorim de	pt_BR
dc.contributor.authorID		por
dc.contributor.authorLattes	http://lattes.cnpq.br/4744754780165354	por
dc.contributor.referees1	Canuto, Anne Magaly de Paula	pt_BR
dc.contributor.referees1ID		por
dc.contributor.referees1Lattes	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8	por
dc.contributor.referees2	Prudêncio, Ricardo Bastos Cavalcante	pt_BR
dc.contributor.referees2ID		por
dc.contributor.referees2Lattes	http://lattes.cnpq.br/2984888073123287	por
dc.date.accessioned	2014-12-17T15:47:48Z
dc.date.available	2009-03-10	pt_BR
dc.date.available	2014-12-17T15:47:48Z
dc.date.issued	2008-11-11	pt_BR
dc.description.abstract	The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientiﬁc community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using classic clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. This work presents the ﬁrst large-scale analysis of seven different clustering methods and four proximity measures for the analysis of 35 cancer gene expression data sets. Results reveal that the ﬁnite mixture of Gaussians, followed closely by k-means, exhibited the best performance in terms of recovering the true structure of the data sets. These methods also exhibited, on average, the smallest difference between the actual number of classes in the data sets and the best number of clusters as indicated by our validation criteria. Furthermore, hierarchical methods, which have been widely used by the medical community, exhibited a poorer recovery performance than that of the other methods evaluated. Moreover, as a stable basis for the assessment and comparison of different clustering methods for cancer gene expression data, this study provides a common group of data sets (benchmark data sets) to be shared among researchers and used for comparisons with new methods	eng
dc.description.resumo	O uso de técnicas de agrupamento na descoberta de subtipos de câncer tem atraído grande atenção da comunidade cientíﬁca. Enquanto bioinformatas propõem novas técnicas de agrupamento que levam em consideração características dos dados de expressão gênica, a comunidade médica prefere utilizar as técnicas clássicas de agrupamento. De fato, não existem trabalhos na literatura que realizam uma avaliação em grande escala de técnicas de agrupamento nesse contexto. Diante disso, este trabalho apresenta o primeiro estudo em grande escala de sete técnicas de agrupamento e quatro medidas de proximidade para a análise de 35 conjuntos de dados de expressão gênica. Mais especiﬁcamente, os resultados mostram que a técnica mistura ﬁnita de gaussianas, seguida pelo k-means, apresentam os melhores resultados em termos de recuperação da estrutura natural dos dados. Esses métodos também apresentam a menor diferença entre o número real de classes e o número de grupos presente na melhor partição. Além disso, os métodos de agrupamento hierárquico, que vêm sendo bastante utilizados pela comunidade médica, apresentaram os piores resultados quando comparados com os outros métodos investigados. Este trabalho também apresenta, como uma referência estável para a avaliação e comparação de diferentes algoritmos de agrupamento para dados de expressão gênica de câncer, um conjunto de bases de dados (benchmark data sets) que pode ser compartilhado entre pesquisadores e usado na comparação de novos métodos	por
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.format	application/pdf	por
dc.identifier.citation	ARAÚJO, Daniel Sabino Amorim de. Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo. 2008. 104 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Rio Grande do Norte, Natal, 2008.	por
dc.identifier.uri	https://repositorio.ufrn.br/jspui/handle/123456789/17988
dc.language	por	por
dc.publisher	Universidade Federal do Rio Grande do Norte	por
dc.publisher.country	BR	por
dc.publisher.department	Ciência da Computação	por
dc.publisher.initials	UFRN	por
dc.publisher.program	Programa de Pós-Graduação em Sistemas e Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Inteligência artificial	por
dc.subject	Bioinformática	por
dc.subject	Aprendizado de máquina	por
dc.subject	Análise de agrupamentos	por
dc.subject	Expressão gênica	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.title	Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo	por
dc.type	masterThesis	por

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: DanielSAA.pdf
Tamanho:: 675.56 KB
Formato:: Adobe Portable Document Format

Baixar

Coleções

PPGSC - Mestrado em Sistemas e Computação

SIGAA

Algoritmos de agrupamento aplicados a dados de expressão gênica de câncer: um estudo comparativo

Arquivos

Pacote Original

Coleções