Eina per a la construcció de classificacions jeràrquiques AUTOR: Justo Montiel Borrull DIRECTOR: Sergio Gomez Albert Fernandez. Adreça electrònica: [email protected] Resum: Es desenvolupa una solució multiplataforma i de codi obert, per al càlcul i representació gràfica de multidendrogrames, mitjançant la implementació de mètodes innovadors en el procés i representació del clustering jeràrquic aglomeratiu. El present projecte pretén complir dos objectius clars. ● Per una banda omplir el buit existent en quant a programari lliure especialitzat en la representació de processos de clustering. ● Donar una solució al problema de la no unicitat en els processos de clustering. L'objectiu dels algoritmes de clustering és, donat un conjunt d'elements, fer agrupacions o subconjunts amb elements de característiques similars. Per poder classificar aquestes agrupacions, anomenades clústers, és necessària una unitat de mesura o llindar que ens permeti determinar el criteri de classificació. Així doncs, el resultat final del clúster depèn exclusivament de: ● La unitat de mesura utilitzada (proximitat). ● Mètode d'agrupament. En la majoria de tècniques de clustering aglomeratiu, apareix el problema de la no­ unicitat (empats en proximitats), que es dona quan dos o més clústers coincideixen en el criteri d'agrupació. Generalment, la solució passa per desfer els empats de forma arbitrària, fent agrupacions de dos en dos. Aquesta solució, obté diferents resultats segons el criteri escollit, generant així classificacions jeràrquiques diferents. L'eina que aquí desenvolupem, implementa una solució diferent al problema de la no­ unicitat, resolent els empats agrupant­los en un únic superclúster, de manera que al evitar l'arbitrarietat, aconseguim una única solució per a cada conjunt de dades. Per facilitar l'estudi de les dades, el programa mostrarà el resultat en forma d'arbre avaluat i unívocament determinat, representat gràficament en el que anomenarem multidendograma. L'eina ofereix una intuïtiva interfície gràfica, que permet parametritzar tots els aspectes que influeixen tant en els càlculs de les nostres dades, com en la representació final dels resultats. Resumen: Se desarrolla una solución multiplataforma y de código abierto, para el calculo y re­ presentación gráfica de multidendrogramas, mediante la implementación de innova­ dores métodos en el proceso y representación del clustering jerárquico aglomerativo. Con este proyecto pretendemos cumplir dos objetivos muy definidos. ● Llenar el vacío existente en cuanto a la existencia de programas libre espe­ cializados en la representación de procesos de clustering. ● Dar una solución al problema de la no unicidad en los procesos de clustering. El objetivo de los algoritmos de clustering es, dado un conjunto de elementos, hacer agrupaciones o subconjuntos con elementos de características similares. Para poder clasificar estas agrupaciones, llamadas clúster, es necesario una unidad de medida o umbral que nos permita determinar el criterio de clasificación. De esta ma­ nera, el resultado final del clustering depende exclusivamente de: ● La unidad de medida utilizada (proximidad). ● Método de agrupación. En la mayoría de las técnicas de clustering aglomerativo, aparece el problema de la no­unicidad (empates en proximidades), que se da cuando dos o más clústers coinci­ den en el criterio de agrupación. Generalmente, la solución pasa por deshacer los empates de forma arbitraria, hacien­ do agrupaciones de dos en dos. Esta solución, obtiene diferentes resultados según el criterio elegido, generando así clasificaciones jerárquicas diferentes y por lo tanto multiples soluciones. El programa que aquí proponemos, implementa una solución diferente al problema de la nounicidad, resolviendo los empates agrupándolos en un único superclúster, de ma­ nera que al evitar la arbitrariedad, conseguimos una única solución para cada conjunto de datos. Para facilitar el estudio de los datos, el programa mostrará el resultado en forma de ár­ bol evaluado y unívocamente determinado, representándolo gráficamente con lo que llamaremos multidendrogrma. El programa ofrece una intuitiva interfície gráfica, que permite parametrizar todos los aspectos que influyen tanto en los cálculos de los datos como en la representación fi­ nal de los resultados. Abstract: A multiplatform open source solution is developed to compute and plot agglomerative hierarchical clustering trees, using a novel method known as multidendrograms. The present project tries to accomplish two objectives: ● Fulfill the absence of open source programs for hierarchical clustering. ● Solve the non­uniqueness problem of standard hierarchical clustering. The main objective of clustering algorithms is the gathering of nearby or similar elements in groups of elements (clusters), forming a partition of the original dataset. The way these clusters are merged to form a hierarchy depends on: ● The distances measure function; ● The grouping method. Most of the hierarchical clustering techniques suffer from a non­uniqueness problem which appears when two or more clusters are separated by the same minimal distance. The usual approach has been the arbitrary selection of one of the tied pairs, which yields different hierarchical classifications depending on the way this choice is made. The tool we have developed implements a different approach to the non­uniqueness problem gathering all tied clusters at once. In this way, we avoid arbitrariness and we obtain more meaningful solutions. The graphical representation of these results is given in the form of a valued­tree, the multidendrogram. The program offers an intuitive graphic interface, which allows the setting of all the parameters involved in the calculation and the representation of the results. Titulació: ETIG Data Presentació: juny 2008.