Hierarchische Clusteranalyse

Mithilfe einer Clusteranalyse lassen sich Fälle entsprechend ihrer Ähnlichkeit zu Gruppen zusammenfassen. Grundlage für die Berechnung ist eine Distanzmatrix, die für jeweils zwei Dokumente angibt, wie ähnlich (genauer gesagt: wie unähnlich) sich diese bezüglich ihrer Variablenzuordnungen und ggf. Codezuordnungen sind.

Clusteranalyse für Intervall-Daten

Eine Clusteranalyse für Intervall-Daten bietet sich an, wenn die Berechnung des arithmetischen Mittels für die analysierten Variablen Sinn ergibt, z.B. beim Alter oder bei einer Skala von „0 = nie“ bis „10 = sehr häufig“.

Bei einer Clusteranalyse für Intervall-Daten stehen alle Variablen des Typs Ganzzahl und Kommazahl zur Verfügung (unabhängig vom Skalenniveau, das für die Variablen in der Variablenliste definiert wurde). Wenn Codes aus einem MAXQDA-Projekt in die Analyse einbezogen werden, dann werden die Codehäufigkeiten pro Fall analysiert, also wie häufig ein Code einem Dokument zugewiesen wurde.

So führen Sie eine Clusteranalyse für Intervall-Daten durch

  1. Rufen Sie Funktion Gruppenvergleiche > Hierarchische Clusteranalyse (Intervall-Daten)auf.
  2. Im Dialog wählen Sie die gewünschten Variablen und ggf. Codes aus.
  3. Unten im Dialog stehen folgende Optionen zur Verfügung:
    Werte z-standardisieren– Führt eine z-Standardisierung der ausgewählten Variablen und Codes durch. Die Option sollte immer gesetzt werden, wenn die ausgewählten Variablen unterschiedlichen Skalenbereiche aufweisen oder wenn Variablen und Codes gemischt werden, da ansonsten die Berechnungen keinen Sinn haben.
    Alle Codes binarisieren – Alle Codehäufigkeiten größer als 1 werden auf 1 gesetzt, das heißt, es wird nicht die Codehäufigkeit pro Dokument ausgewertet, sondern nur, ob ein Code in einem Dokument vorkommt oder nicht. 
    Häufigkeiten der Subcodes aufsummieren – Bei Obercodes werden zu dessen Codehäufigkeit auch die Häufigkeiten aller im Stats-Dialog verfügbaren Subcodes addiert. Wenn zusätzlich auch die Option Subcodes binarisieren gewählt ist, wird bei der Aufsummierung nur berücksichtigt, ob der Code bei einem Dokument vergeben wurde (der Subcode erhält den Wert „1“) oder nicht (der Subcode erhält den Wert „0“). Die Summe der Subcodes gibt dann an, wie viele Subcodes bei einem Dokument codiert wurden.
  4. Starten Sie die Berechnung mit OK.

Ergebnis: Fusionierungstabelle

MAXQDA zeigt als Ergebnis eine Tabelle an, die darüber informiert, welche Cluster in jedem Schritt der Analyse zusammengeführt werden:

Fusionierungstabelle

Die Spalten der Tabelle haben folgende Bedeutung:

  • Schritt– aktueller Vereinigungsschritt
  • Min. Distanz– Distanz zwischen den beiden Clustern, die im aktuellen Schritt zusammengeführt werden. Bei Average-, Complete- und Single-Linkage werden die Rohwerte ausgegeben, bei Ward die gewichtete Intra-Cluster-Varianz.
  • Änderung min. Distanz– Unterschied in der Spalte „Min. Distanz“ zum vorherigen Schritt, dieser Wert ist hilfreich für die Entscheidung über die Anzahl der Cluster
  • Clusteranzahl – Anzahl an Clustern nach dem Vereinigungsschritt

Mithilfe des ersten Aufklappmenüs am oberen Rand können verschiedene Distanzmaße eingestellt werden:

  • Euklidische Distanz
  • Quadrierte euklidische Distanz
  • Blockdistanz

Mithilfe des zweiten Aufklappmenüs am oberen Rand können verschiedene Fusionskriterien gewählt werden:

Option

Bedeutung

SPSS-Bezeichnung

Average-Linkage

Durchschnittlicher Abstand aller Fallpaare aus beiden Clustern

between groups

Average-Linkage (gewichtet)

Durchschnittlicher Abstand aller Fallpaare aus der Vereinigung beider Cluster

nicht vorhanden

Complete-Linkage

Maximaler Abstand aller Fallpaare aus beiden Clustern

furthest neighbour

Single-Linkage

Minimaler Abstand aller Fallpaare aus beiden Clustern

nearest neighbour

Ward

Erhöhung der Varianz beim Vereinigen von zwei Clustern

Ward

Details zu den Fusionierungskriterien finden sich hier: https://en.wikipedia.org/wiki/Hierarchical_clustering

Um die Unterschiede zwischen den Clustern zu analysieren, kann oben links in die Diagrammansicht umgeschaltet werden. Für alle analysierten Variablen und Codes wird jeweils Boxplots pro Cluster erzeugt:

Diagrammansicht mit Boxplots pro Cluster

Ergebnis: Typologietabelle

Zusätzlich zum Ergebnisfenster öffnet MAXQDA automatisch die folgende Typologietabelle, die sich auch jederzeit über das entsprechend Icon in der Symbolleiste öffnen lässt. Die Tabelle erlaubt es, den Mittelwert und die Standardabweichung pro Cluster für alle ausgewählten Variablen und Codes zu vergleichen.

Typologietabelle mit Informationen zu den einzelnen Clustern

Als Interpretationshilfe werden die höchsten Mittelwerte pro Zeile grün und die niedrigsten Werte rot dargestellt. Die Hervorhebung lässt sich über die Icons oben links ein- und ausschalten.

In der Symbolleiste oben links lässt sich auch die Anzahl der Cluster einstellen, sodass auf einfache Weise verschiedene Lösungen miteinander verglichen werden können.

Mithilfe des Icons  wird die Clusterzugehörigkeit als Dokumentvariable gespeichert, sodass die Clusterzugehörigkeit für andere Berechnungen und qualitative Analysen zur Verfügung steht.

Ergebnis: Liniendiagramm der minimalen Clusterdistanzen

Als Entscheidungshilfe zur geeigneten Anzahl an Clustern kann mithilfe des Icons  in der Fusionierungstabelle ein Liniendiagramm der minimalen Distanzen aufgerufen werden.

Liniendiagramm der minimalen Clusterdistanzen in jedem
Fusionierungsschritt

Ergebnisse speichern und exportieren

Alle erstellten Tabellen und Diagramme lassen sich mit den Symbolen oben rechts speichern, beispielsweise

Die Tabellen und Diagramme lassen sich ebenso in die Zwischenablage exportieren, als Datei speichern oder ausdrucken.

Clusteranalyse für dichotome Daten

Bei einer Clusteranalyse für dichotome Daten können alle Variablen unabhängig von ihrem Typ einbezogen werden. Wenn Codes aus einem MAXQDA-Projekt in die Analyse einbezogen werden, dann wird geschaut, ob ein Code einem Fall zugeordnet wurde oder nicht – die Häufigkeit der Zuordnung pro Fall spielt keine Rolle.

Um eine Clusteranalyse für dichotome Daten durchzuführen, rufen Sie im Menü Gruppenvergleich > Hierarchische Clusteranalyse (dichotome Daten) auf.

Das Vorgehen und das Ergebnis sind identisch zur oben beschriebenen Clusteranalyse für Intervall-Daten mit folgenden Ausnahmen:

  • Im Optionsdialog muss für jede Variable und jeden Code der zu zählende Wert angegeben werden. Es wird keine z-Standardisierung durchgeführt.
  • Die Diagrammansicht zeigt Balkendiagramme mit den Häufigkeiten des gezählten Werts pro Cluster anstelle von Boxplots.
  • Die Typologietabelle enthält absolute und prozentuale Häufigkeiten des gezählten Werts pro Cluster anstelle von Mittelwerten und Standardabweichungen.
  • Es stehen folgende Ähnlichkeitsmaße zur Verfügung anstelle von Distanzmaßen: Einfache Übereinstimmung, Jaccard, Kuckartz & Rädikers zeta, Russel & Rao. Weitere Informationen zu den Koeffizienten finden sich hier: https://www.maxqda.com/de/hilfe-mx22/mixed-methods/aehnlichkeitsanalyse-fuer-dokumente
  • Zur Bestimmung der Distanzen von zwei Dokumenten wird 1 – errechnete Ähnlichkeitverwendet.

War diese Seite hilfreich?