Clusteranalyse

Die Clusteranalyse wird die Klassifizierung oder Gruppierung in “ Cluster “ oder „Klassen“ von Objekten auf der Grundlage ihrer Attribute . Das Ziel der Clusteranalyse ist Subsets zu bilden, die jeweils ihre eigenen gemeinsamen Merkmale enthält. Um das Ergebnis einer Dose zu visualisieren Dendrogramm verwendet werden.

Die wichtigsten 

Viele große Klassifikationssysteme sind hierarchisch strukturiert. Das Ergebnis ist die Bildung eines Dendrogramm . Je höher eine Gruppe in einer Hierarchie angeordnet wird, wird der allgemeinere Beschreibung davon sein. Gruppen werden hiermit in Untergruppen unterteilt , die auch in Gruppen unterteilt sind, die wiederum (trennend und hierarchische). Bei spaltenden Verfahren wird ein Datensatz in Untergruppen aufgeteilt (Teilmengen, Cluster). Zusätzlich zu spaltenden Methoden existieren auch Agglomerationsverfahren, bei denen die Objekte in zunehmend größeren Clustern zusammengeführt werden.

In nicht-hierarchischen Methoden der verteilten Daten auf einmal in einer vorgegebenen Anzahl von Untergruppen. Diese Untergruppen sind nicht überlappende: Jedes Objekt gehört in nur einer Untergruppe.

Es gibt auch Methoden, die sich überlappenden Gruppen oder führen Fuzzy – Sets , von denen einige Elemente Grad der Mitgliedschaft.

Klassifikationsverfahren 

Es gibt eine große Vielzahl von Methoden. Klassifikationsverfahren können unter anderem auf der Grundlage von unterteilen:

  • Anzahl der Funktionen verwendet:
    • die Klassifizierung „monothetisch ‚aufgerufen, wenn eine Funktion nur zum Zeichnen verwendet,
    • wenn verwendet, um viele Funktionen ist die Klassifizierung „polythetisch genannt.
  • Vorbereitung der Daten:
    • auf „indirekte“ Verfahren ist es notwendig , zunächst Unterschiede ( Entfernungen ) oder die Verträge oder Verhältnisse ( Ähnlichkeiten zwischen Objekten zu berechnen),
    • In den „direkten“ Methoden, die nicht notwendig für Schritt. Dies ist die Minderheit der Methoden.
  • Gruppe Verschmelzung oder Spaltung:
    • wenn die Objekte in größere und größere Gruppen zusammengeführt werden, bezieht sich auf eine „Agglomerationsverfahren.
    • Das Verfahren wird als „spalt ‚genannt, da die gesamte Sammlung von Objekten in einer Zeit in kleinere Untergruppen unterteilt ist. Es sollte im Voraus festgelegt werden, wie viele Cluster sollte das Ergebnis ergeben.
    • Das Verfahren wird als „gleichzeitige“ genannt, wie die Anzahl von Gruppen im Voraus zu bilden, angegeben, und sie werden zu einer Zeit berechnet.
  • Die Trennung zwischen den Gruppen:
    • Mitglieder einer Gruppe in einer Gruppe nur kommen.
    • Gruppen überlappen; Mitglieder einer Gruppe können in mehr als einer Gruppe erscheinen.

Wenn das Ergebnis der Clusteranalyse ist ein Dendrogramm ist (ein Diagramm eines Baumes ), die so genannte Klassifizierung “ hierarchischen „. Ein gutes Beispiel ist ein Baum oder ein Stammbaum.

Schritte in der Cluster – Analyse

In Clusteranalyse haben einige subjektive Entscheidungen. Die Klassifizierung erfolgt in folgenden Schritten:

  1. Die Wahl der Klassifizierung von Objekten ( Entitäten , Einzelpersonen , operativen Einheiten, Proben , Abbildungen, Grafen, Probeneinheiten , relevées ), unter denen eine Klassifizierung vorgenommen werden.
  2. Die Auswahl der Merkmale (Attribute, Eigenschaften , Variablen , Zeichen , Merkmale , Eigenschaften , Fälle ) , die verwendet wird. Manchmal ist es eine Klassifizierung nach dem Grad der Grundlage , auf die eine bestimmte Eigenschaft in einem Objekt auftritt. So kann beispielsweise Steine auf ihrer angeordnet Härte .
  3. Der Bereich der Werte , die die Attribute ( Merkmalszustände , Beobachtungen , Werte , Eigenschaften ) können und übernehmen Skalen , die verwendet werden , um zu messen , die Wahrnehmungen ( Beobachtungen, Messungen ).
  4. Die Bestimmung der Gewichtungsfaktoren der Merkmale (zB a priori alle gleich gewichtet). In cladistics werden plesiomorfieën (primitive Merkmale) Licht, sondern die Synapomorphien ( „abgeleitet“ Traits) , die stark in der untersuchten Gruppe von Objekten gewichtet.
  5. Die Mess oder Erfassungs und Aufzeichnung der Werte der Eigenschaften der Objekte.
  6. Die Wahl des Klassifizierungsverfahrens . Oft auch eine Auswahl von dem Maß der Beziehung (Ähnlichkeit) oder gegebenenfalls auf die Differenz (Abstand) zwischen den Objekten. Es sollte auch beispielsweise aus einem spalt (top-down) Verfahren wird eine agglomerative (bottom-up) -Verfahren (beide ausgewählt werden hierarchisches ) oder einem nicht-hierarchischen Methode.
  7. Die Verarbeitung der gesammelten Daten, wodurch die Klassifizierung von Objekten oder ein Dendrogramm .

Wenn diese Entscheidungen den weiteren Prozess gemacht werden, ist automatisch. Es ist auch möglich, nicht die Objekte, aber die Attribute zu klassifizieren. Bei den direkten Verfahren erfolgt automatisch.

Eigenschaften, Merkmale

Eigenschaften können voneinander abhängig sein. Wenn Merkmale der Strukturen beschrieben sind, die Größe, die Farbe und die Form kann wieder auf das Vorhandensein oder Fehlen dieser Struktur abhängen. Die folgenden Arten von Eigenschaften oder Merkmale sind in der Regel in Klassifikationen gefunden werden:

  • Zeit (Chronologie, Geschichte)
  • Raum (Geografie)
  • Materie (Substanz)
    • Größe
    • Form (zB Verhältnis von Länge und Breite)
    • Farbe
    • Struktur
  • Prozess (Aktivität)
  • Informationen (wie zum Beispiel Buchinhalt, genetische Information)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.