Was ist das Ziel der Clusteranalyse?

Ziel einer Clusteranalyse ist es, eine heterogene Gruppe von Objekten in homogene Untergruppen aufzuteilen. Die so gefundenen Gruppen wären durch konventionelle Gruppenbildung zum Beispiel nach Altersklassen, Geschlecht, Einkommen etc. nicht zu identifizieren.

Wie führe ich eine Clusteranalyse durch?

Clusteranalyse Schritt für Schritt

  1. Bestimmung des Unterschieds. Zunächst unterscheidet man zwei Arten, Abstände zu beschreiben: als Distanz oder als Ähnlichkeit.
  2. Zusammenfassung der Gruppen (Fusionierung)
  3. Festlegung der Clusterzahl.
  4. Interpretation und Überprüfung der Güte.

Was ist die Clusteranalyse?

Die Clusteranalyse ist ein Verfahren aus dem Data Mining und zählt zu den Methoden der künstlichen Intelligenz (KI Methode). Mit Hilfe von Algorithmen wird versucht, in Hinblick auf die Kriterien der Segmentierung werden homogene Gruppen gebildet. Die Anzahl der Gruppen ist dabei zu Beginn der Analyse offen.

Was ist eine Segmentierung?

Segmentierung) wird die gesamte Datenmenge in mehrere Teilmengen bzw. Segmente unterteilt. Die Zielsetzung des K-Means-Verfahrens besteht darin, die vorliegende Datenmenge in möglichst homogene Teilmengen zu unterteilen. Dabei werden die Informationsobjekte (z.B. Kunden) in die unterschiedlichen Gruppen (Klassen, Cluster und Segmente) eingeordnet.

LESEN:   Wer hat Anspruch auf Stillzeit?

Welche Algorithmen unterstützen die Clusteranalyse?

MATLAB ® unterstützt viele gängige Algorithmen zur Clusteranalyse: Hierarchisches Clustering erzeugt eine mehrstufige Hierarchie von Clustern, indem es einen Clusterbaum erstellt. k-Means-Clustering teilt Daten in unterschiedliche k -Cluster basierend auf dem Abstand zum Schwerpunkt eines Clusters auf.

Wie werden Clustering-Techniken verwendet?

Clustering-Techniken werden auch verwendet, um die Ähnlichkeit zwischen gelabelten und ungelabelten Daten beim teilüberwachten Lernen (Semi-Supervised Learning) herzustellen, bei dem die ersten Modelle mit einem Minimum an gelabelten Daten erstellt werden und dazu verwendet werden, den ursprünglich ungelabelten Daten ein Label zuzuweisen.