Vogel, FriedrichFriedrichVogelGardill, RudolfRudolfGardill2019-09-192010-12-102010978-3-923507-80-1https://fis.uni-bamberg.de/handle/uniba/235Numerische Klassifikation (oder Cluster Analyse) ist die Zuordnung einer Menge von Beobachtungen (Objekten) zu Teilmengen (Klassen oder Cluster), derart dass die Beobachtungen (Objekte), die einer Klasse angehören, in einem bestimmten Sinne einander ähnlich sind. Diese Arbeit besteht aus zwei Teilen: Teil I „Theorie” und Teil II „Praxis”. Der erste Teil behandelt die theoretischen Grundlagen unseres neuen Klassifikationsprogramms ORMIX. Zunächst werden zwei Verfahren zur Bildung disjunkter Klassen erörtert: ein Austauschverfahren und ein hierarchisch-agglomeratives Verfahren. Dann werden Maße zur Messung der Güte eines Klassifikationsergebnisses im Detail diskutiert, insbesondere im Hinblick auf die Merkmalstypen: nominal, ordinal und metrisch. Die Gütefunktion für nominale und ordinale Merkmale basiert auf einem speziellen Streuungsmaß: der Entropie. Die Gütefunktion für metrische Merkmale basiert auf der Varianz. Das grundlegende Prinzip ist der Versuch der Minimierung der Streuung innerhalb der Klassen, so dass die Beobachtungen (Objekte) in derselben Klasse einander ähnlicher sind als die Beobachtungen (Objekte) verschiedener Klassen. Im Zusammenhang mit Problemen der Numerischen Klassifikation gibt es bei praktischen Anwendungen häufig gemischte Merkmale. Das heißt, die Objekte sind charakterisiert durch nominale und ordinale und metrische Merkmale. Um eine Gütefunktion für gemischte Merkmale zu konstruieren, ist zu beachten, dass die Gütefunktion für nominale und ordinale Merkmale auf der Entropie beruht, die Gütefunktion für metrische Merkmale aber auf der Varianz. Es ist nicht zulässig, diese Gütefunktionen zu addieren. Es kommt hinzu, dass die Varianz abhängt von den Skalen, auf denen die Merkmale gemessen werden. Es ist nicht möglich, metrische Merkmale derart zu skalieren, dass alle metrischen Merkmale im Prozess der Klassenbildung ein gleiches numerisches Gewicht haben; Standardisierung ist nur eine von vielen Möglichkeiten, sie liefert aber keine Gleichgewichtung. Aber es ist zulässig, metrische Merkmale in ordinale Merkmale zu transformieren. Die Ordinalisierung metrischer Merkmale wird detailliert erklärt. Es wird gezeigt, dass - nach der Ordinalisierung der metrischen Merkmale - alle Merkmale im Prozess der Klassenbildung ein gleiches maximales numerisches Gewicht haben. Der zweite Teil beschäftigt sich mit der Anwendung unseres Programms ORMIX, das nominale, ordinale, metrische Merkmale (nach Ordinalisierung) und gemischte Merkmale verarbeiten kann. Zuerst wird erklärt, wie das Programm von der CD installiert werden kann. Im Kapitel „Dateneingabe” werden die Konstruktion und das Einlesen der Datenmatrix im Detail erläutert. Dann wird gezeigt, wie Datentransformationen (beispielsweise metrische in ordinale Merkmale) durchgeführt werden können. Nach diesen Transformationen kann eine hierarchisch-agglomerative Klassifikation oder eine iterative Klassifikation durch einen linken Mausklick gestartet werden. Einige Beispieldateien finden sich auf der CD. Die Bedienung des Programms ist einfach und meist selbsterklärend. Mit der (linken) Maustaste werden Berechnungen angestoßen und aus einer knappen Auflistung der Resultate ausführliche Detaildarstellungen ausgewählt. Ein Mausklick auf den Wert einer Gütefunktion öffnet ein Fenster mit dem Klassifikationsergebnis für die gewünschte Anzahl von Klassen und mit einer detaillierten Klassendiagnose. Die Klassifikationsergebnisse werden anschaulich in Tabellen zusammengefasst und als HTML-Seiten übersichtlich formatiert. Für die hierarchisch-agglomerative Klassifikation stehen zusätzlich Dendrogramme und ein Struktogramm zur Auswahl. Die rechte Maustaste führt zu Hilfeinformationen und ergänzenden auf den Kontext bezogenen Funktionen. Über die Zwischenablage von Windows können Daten mit anderen Programmen ausgetauscht werden.Cluster analysis (or clustering) is the assignment of a set of observations (objects) into subsets (clusters) so that observations in the same cluster are similar in some sense. This paper has two parts: part I „theory” and part II „practice”. The first part focusses on the theoretical foundations of our new cluster-analysis program called ORMIX. First two methods to construct disjoint clusters are discussed: a hill climbing (iterative partitioning) method and a agglomerative hierarchical clustering method. Then clustering criterions to measure the goodness of the resulting clusters are discussed in detail, in particular with respect to the type of variables: nominal, ordinal and metric. The criterion for nominal and ordinal variables is based on a special measure of dispersion: the entropy. The criterion for metric variables is based on the variance. As a basic principle it is tried to minimize the dispersion within the clusters, so that observations (objects) in the same cluster are similar in some sense. In the context with cluster problems there are in practice often mixed variables. That is the objects are characterized by nominal and ordinal and metric variables. To construct a clustering criterion for mixed variables ist must be noticed that the criterion for nominal and ordinal variables is based on the entropy, the criterion for metric variables is based on the variance. It is not admissible to summarise these criterions. Moreover the variance depends on the scales on which the variables are measured. It is not possible to scale metric variables in such a way that all metric variables have an equal numerical weight in the process of cluster building, standardisation is only one of many possibilities, it generates none equal weights for all variables. But it is allowed to transform metric variables in ordinal variables. The ordinalisation of metric variables is explained in detail. Therewith the procedure of cluster building with mixed variables and an admissible clustering criterion is explained in detail. It is shown that - after ordinalisation of the metric variables - all variables in the process of cluster building have an equal maximum weight. The second part focusses on the use of our program ORMIX which can work up with nominal, ordinal, metric variables (after ordinalisation) and mixed variables. First of all it is explained how to install the program from the CD. In chapter „data entry” the construction and the input of a data matrix, that is the basis of the clustering algorithm, into the program is treated in detail. Then it is shown how data transformations (for example metric in ordinal variables) can be realized. After these transformations a hill climbing (iterative partitioning) procedure and/or a agglomerative hierarchical clustering procedure can be performed with a left mouse click. Some examples are on the CD. The handling of the program is straightforward. It is steered with a left mouse click. A right mouse click provides many useful additional informations. The results of the analyses are clear illustrated. For the agglomerative hierarchical clustering procedure dendrograms and a struktogram can be displayed. A left mouse click on the value of an clustering criterion shows the cluster solution in the wished number of clusters and a detailed cluster diagnosis.deuAustauschverfahren, Hierarchisch-Agglomerative Verfahren, Ordinalskaliertes-, Metrischskaliertes Merkmal, Gemischtskalierte Merkmale, OrdinalisierungAustauschverfahrenHierarchisch-Agglomerative VerfahrenOrdinalskaliertes MerkmalMetrischskaliertes MerkmalGemischtskalierte MerkmaleOrdinalisierung310Numerische Klassifikation (Cluster Analyse) anhand nominaler, ordinaler oder gemischter MerkmaleCluster Analysis with nominal, ordinal or mixed variablesbookurn:nbn:de:bvb:473-opus-2761