Statistik mit Excel - Rangkorrelationen

Schulnoten sind Ordinaldaten - Dr. Klaus-Uwe Gerhardt/pixelio.de
Schulnoten sind Ordinaldaten - Dr. Klaus-Uwe Gerhardt/pixelio.de
Bei Ordinaldaten kann der Rangkorrelationskoeffizient von Spearman angewandt werden. Excel bietet dafür leider keine Funktion an.

Eine Korrelation ist in der Statistik dasselbe wie der Zusammenhang von Datensätzen. Zum Beispiel interessiert man sich dafür, ob die Leistungen von Schülern im Fach Deutsch mit denen im Fach Mathematik zusammenhängen. Man hegt die Vermutung, dass diese Leistungen negativ korreliert sind. Mit anderen Worten: Je besser die Noten in Deutsch sind, desto schlechter sind sie in Mathematik. Damit wird natürlich nicht gesagt, dass in jedem individuellen Fall ein solcher Zusammenhang besteht, sondern nur, dass diese Korrelation der Tendenz nach existiert. Aber eben dieser Ausdruck "der Tendenz nach" muss präzisiert werden, damit man mit ihm arbeiten kann. Der Korrelationskoeffizient ist eine solche Präzisierung.

Die Schulnoten sind Ordinaldaten

Im Fall der Schulnoten kommt eine besondere Schwierigkeit hinzu. Bei ihnen handelt es sich nämlich um sogenannte Ordinaldaten. Diese habe zwar eine natürliche Rangordnung, aber es sind keine Zahlen, mit denen man rechnen kann. Zum Beispiel steht die 4 für die Note Ausreichend und die 3 für die Note Befriedigend. Angenommen man möchte jetzt die Differenz bilden. Dann lautet die Rechnung: 4-3=1. Übersetzt heißt das: Ausreichend-Befriedigend=Sehr Gut. Diese Gleichung ist offensichtlich unsinnig. Sie beweist eindrücklich, dass die Noten keine Zahlen sind, sondern Symbole. Allerdings Symbole, denen ein "Rang" zugeordnet werden kann. Die 1 steht an erster Stelle, die 2 an zweiter Stelle und so weiter. Eine unmittelbare Konsequenz dieses Sachverhaltes ist, dass der Korrelationskoeffizient von Bravais/Pearson auf Schulnoten direkt nicht angewandt werden kann. Denn bei der Bestimmung dieses Koeffizienten wird eine Formel angewandt, in der mit den Merkmalswerten gerechnet wird. Aber genau das ist nicht erlaubt.

Man rechnet nicht mit den Schulnoten, sondern mit deren Rang

Im Gegensatz zu der Schulnote ist der Rang dieser Schulnote eine Zahl. Man kann also zum Beispiel die Differenz von zwei Rängen bilden. Es ist den Statistikern gelungen, eine Formel für einen Korrelationskoeffizienten auf der Basis der Ränge zu entwickeln. Das Ergebnis dieser Formel ist der "Rangkorrelationskoeffizient von Spearman". Er kann immer dann benutzt werden, wenn man es mit Ordinaldaten zu tun hat. Leider bietet Excel keine Funktion zur Berechnung dieses Rangkorrelationskoeffizienten an. Man muss sich diese Maßzahl vielmehr selbst schrittweise erarbeiten.

Mit Excel 2007 kann der Rang eines Merkmals bestimmt werden

Voraussetzung für die folgenden Erläuterungen ist Excel 2007. Die Daten entstammen dem Buch "Statistik am PC". Sie finden diese Daten vorbereitet unter dem Link Rangkorrelationen. Es handelt sich um 8 Noten in den Fächern Deutsch und Mathematik. In Spalte D erkennen Sie unter der Bezeichnung "Rx" die Ränge für die Noten im Fach Deutsch und in Spalte E die entsprechenden Ränge für das Fach Mathematik unter der Bezeichnung "Ry". Diese Ränge sind automatisch mit Excel bestimmt worden. Die automatische Bestimmung ist wichtig, falls man es mit einer großen Menge von Daten zu tun hat. Man geht dazu folgendermaßen vor. Markieren Sie die Zelle "D3". Klicken Sie auf "Formeln/Funktion einfügen/Statistik/Rang". In dem geöffneten Fenster tragen Sie Folgendes ein:"In Zahl: B3; in Bezug: $B$3:$B$10; in Reihenfolge: 0". Zur Erläuterung: Die Zahl "0" in Reihenfolge bedeutet eine absteigende Rangordnung. Die schlechteste Note liegt also auf Platz 1. In Zelle D3 müsste dann der Rang für die erste Deutschnote erscheinen. Gehen Sie nun mit der Maus in die rechte untere Ecke und ziehen Sie die gedrückte Maus nach unten. Nun müssten in den entsprechenden Zellen die anderen Ränge auftauchen. Dasselbe Verfahren können Sie für die Mathematiknoten in der Spalte E durchführen. Die Ränge der Noten sind damit bestimmt.

Excel 2007 behandelt Bindungen in spezieller Weise

Wenn man sich die Deutschnoten ansieht, dass fällt auf, dass die Note "3" zwei Mal vorkommt. Dasselbe gilt für die Note "4". Das nennt man in der Statistik eine Bindung. Der englische Fachausdruck ist "Tie". Eigentlich kommt der Note "3" der Rang "3" und der Note "4" der Rang "2" zu. Wenn allerdings - wie in diesem Fall - die Note "4" zwei Mal vorkommt, gibt es ein Problem mit der Rangvergabe. Excel 2007 löst dieses Problem so, dass es beiden Noten "4" den Rang "2" erteilt und dafür den Rang "3" übergeht. Ebenso wird beiden Noten "3" der Rang "4" zugeteilt und dafür der Rang "5" übergangen. Dieses Verfahren ist eine Spezialität von Excel 2007. Ein alternatives Verfahren besteht darin, den Bindungen einen Mittelwert der Ränge zu erteilen. Bezogen auf die Note "4" bedeutet das den Rang "2,5". Aber Excel 2007 wählt - wie gesagt - ein anderes Verfahren.

Der Rangkorrelationskoeffizient von Spearman

Zuerst wird die Differenz der Ränge Rx und Ry berechnet. Das Symbol für diese Differenz ist "Di." Sie finden diese in Spalte F. Sie schreiben dazu in F3 die folgende Formel: "=B3-C3" und ziehen dann die gedrückte Maus in besprochener Weise nach unten. In Spalte G wird das Quadrat dieser Differenz bestimmt, indem man in G3 die Formel "=F3*F3" einträgt. Dann wird die Summe aller Quadrate gebildet und in G11 eingetragen. Der entsprechende Wert ist 150. In einer freien Zelle wird nun die Formel für den Rangkorrelationskoeffizienten eingetragen: "=1-6*G11/(8^3-8)". Dabei steht die Zahl "8" für die Anzahl der Noten. Das Ergebnis ist ungefähr gleich -0,79. Die Vermutung, dass die Noten in Deutsch und Mathematik negativ korreliert sind, wird hier also bestätigt. Die Noten sind sogar relativ stark negativ korreliert.

Bemerkung: Diese Darstellung richtet sich nach dem Buch "Statistik am PC". In anderen Darstellungen - zum Beispiel "Taschenbuch der Statistik - wird gesagt, dass die oben benutzte Formel für den Rangkorrelationskoeffizienten nur für den Fall angewandt wird, dass keine Bindungen vorliegen.

Quellen:

  • Monka, Schöneck, Voss, Statistik am PC, Hanser, 2008
  • Taschenbuch der Statistik, Verlag Harri Deutsch, 2008
  • Ordinaldaten
  • Korrelation