Statistik mit Excel - Korrelationen

Sind Störche und Geburten korreliert? - siepmannH/pixelio.de
Sind Störche und Geburten korreliert? - siepmannH/pixelio.de
Der Korrelationskoeffizient macht einen Vergleich zwischen verschiedenen Statistiken möglich. Excel hilft bei der Berechnung dieser Maßzahl.

Prognosen sind schwierig, besonders wenn sie sich auf die Zukunft beziehen, lautet ein inzwischen auch schon abgedroschenes Bonmot. Das müssen auch Profis anerkennen, deren Arbeit darin besteht, solche Prognosen zu erstellen. Zum Beispiel der Sachverständigenrat, der jährlich das Wirtschaftswachstum vorhersagen muss und anschließend das Vergnügen hat, seine Prophezeiungen mit der Realität vergleichen zu dürfen. Für die Öffentlichkeit ist interessant, in der Rückschau Erfolg oder Misserfolg des Sachverständigenrates bewerten zu können. Waren die Prognosen gut oder schlecht?

Die Leistung des Sachverständigenrates lässt sich nur auf der Basis einer Statistik bewerten

Die Antwort auf diese Frage ist allerdings nicht einfach. Für das Jahr 1975 sagte der Rat ein Wachstum von 2,0% voraus, tatsächlich mussten die Deutschen aber -3,6% hinnehmen. 1978 lag die Prognose bei 3,5% und die Realität bei 3,4%. Die Übereinstimmung war in diesem Jahr also ausgezeichnet. Offensichtlich muss man für eine angemessene Bewertung der Leistung des Sachverständigenrates eine Statistik der Vorhersagen über mehrere Jahre erstellen und diese dann bewerten. Das soll in diesem Artikel geschehen. Voraussetzung für die folgenden Erläuterungen ist das Programm Excel 2007.

Der bivariate Datensatz kann in Excel 2007 als Streudiagramm dargestellt werden

Zuerst müssen die Daten in Excel 2007 eingetragen werden. Sie finden unter Korrelationen die entsprechenden Daten für die Jahre 1975 bis 1994 in Tabelle1. Die Variable X steht für die Prognosen des Sachverständigenrates, die Variable Y für die tatsächlichen Wachstumsraten. Die Excel-Datei ist schreibgeschützt und kann deswegen nicht bearbeitet werden. Sie können die Daten aber kopieren und dann bearbeiten. Als nächstes wird ein Streudiagramm dieses bivariaten Datensatzes hergestellt. Markieren Sie dazu den Bereich "B2:C21" und klicken Sie auf: "Einfügen/Diagramme/Punkt/Punkte nur mit Datenpunkten". Es müsste dann ein Fenster mit dem Streudiagramm in demselben Tabellenblatt erscheinen.

Das Streudiagramm kann interpretiert werden

Man erkennt ein relativ breit gestreutes, aber dennoch eindeutig gleichsinnig korreliertes Streudiagramm. Der Tendenz nach ist festzustellen: je größer der Wert der Prognose, desto größer ist auch das tatsächliche Wachstum. Hieran ist zu erkennen, dass der Sachverständigenrat statistisch gesehen korrekte Prognosen abgeliefert hat. Weiterhin sieht man, dass die Variation der Prognosen kleiner ist als die der Realität. Die Sachverständigen neigen also dazu, die Variabilität der Realwirtschaft zu unterschätzen.

Mit Hilfe des Korrelationskoeffizienten lassen sich verschiedene Statistiken vergleichen

Die Aussage "Die Prognosen waren der Tendenz nach korrekt" ist noch zu allgemein. Zum Beispiel möchte man zwei verschiedene Prognosereihen, die von verschiedenen Institutionen hergestellt wurden, vergleichen können. Wenn man nun zu beiden sagen würde, dass sie "der Tendenz nach korrekt" waren, dann hilft das nicht weiter. Hier kommt der Korrelationskoeffizient ins Spiel. Das ist eine Zahl zwischen -1 und +1. Die Bedeutung dieser Zahl macht man sich am besten an Hand der Extreme klar.

Der Korrelationskoeffizient ist ein Maß für den Zusammenhang der Datensätze

Vorweg eine Bemerkung zur Bezeichnung. Die nachfolgende Erläuterung bezieht sich auf den Korrelationskoeffizienten von Bravais/Pearson. Dieser Hinweis ist wichtig, weil es verschiedene Korrelationskoeffizienten gibt. Wenn der Korrelationskoeffizient gleich 1 ist, dann liegen alle Punkte des Streudiagramms exakt auf einer steigenden Geraden. Die Merkmale sind dann gleichsinnig korreliert. Wenn der Korrelationskoeffizient gleich -1 ist, dann liegen alle Punkte exakt auf einer fallenden Gerade. Die Merkmale sind dann gegensinnig korreliert. Hat der Korrelationskoeffizient den Wert 0, dann gibt es keine lineare Korrelation. Das kann bedeuten, dass entweder überhaupt keine Korrelation zwischen den Daten vorliegt oder dass es sich um eine andere Art der Korrelation handelt, aber eben nicht um eine lineare. Die Zahlenwerte dazwischen stehen für Mischzustände zwischen korreliert und nicht korreliert. Je näher die Zahl bei 1 liegt ( oder bei -1), desto stärker ist die Korrelation. Bilder zu Korrelationskoeffizienten verschiedener Streudiagramme finden Sie unter Korrelationen in Tabelle3.

Der Korrelationskoeffizient kann mit Excel 2007 schnell bestimmt werden

In Zelle D1 der bereits hergestellten Kopie schreiben Sie bitte: "Korrelationskoeffizient". Markieren Sie dann die Zelle D2. Klicken Sie auf "Formeln/Funktion einfügen/Statistik/Korrel". In dem geöffneten Fenster tragen Sie ein: " In Matrix1: B2:B21; in Matrix2: C2:C21". Bestätigen Sie mit OK.

In D2 müsste jetzt der Wert des Korrelationskoeffizienten auftauchen. Er beträgt ungefähr 0,64. Wie ist das zu interpretieren? Wenn der Absolut-Betrag des Korrelationskoeffizienten kleiner als 0,5 ist, spricht man von einer "schwachen Korrelation". Liegt der Absolut-Betrag zwischen 0,5 und 0,8, sagt man, es handelt sich um eine "mittlere Korrelation". Ist der Absolut-Betrag größer als 0,8, dann liegt eine starke Korrelation vor. Man kann also feststellen, dass der Zusammenhang zwischen den Prognosen und den realen Wachstumsraten als "mittlere Korrelation" zu bezeichnen ist. Es wäre jetzt möglich, die Prognosen des Sachverständigenrates mit denen einer anderen Instiution hinsichtlich der Qualität zu vergleichen, indem man die jeweiligen Korrelationskoeffizienten in Beziehung setzt.

Bei der Interpretation der Korrelationen muss man vorsichtig sein

Die Interpretation der jeweiligen Korrelation bedarf einer separaten und sachverständigen Untersuchung, bevor irgendwelche Folgerungen gezogen werden können. Ein möglicher Fehlschluss ist die Deutung einer Korrelation als Kausalitätsbeziehung. Berühmt ist die folgende Geschichte: Man hat die Geburtenrate verschiedener Länder mit der Anzahl der Störche pro Flächeneinheit in diesen Ländern verglichen. Die Daten waren eindeutig gleichsinnig linear korreliert. Je größer die Anzahl der Störche, desto höher war die Geburtenrate. Es wäre jetzt falsch, daraus zu folgern, die hohe Anzahl der Störche wäre die Ursache für die hohe Geburtenrate. Vielmehr ist wahrscheinlich ein drittes Merkmal beteiligt, wie der Lebensstandard in diesen Ländern. Es ist anzunehmen, dass mit hohem Lebensstandard sowohl die Anzahl der Störche sinkt als auch die Geburtenrate. Auf diese Weise entpuppt sich der Zusammenhang zwischen der Anzahl der Störche und der Geburtenrate in dem genannten Sinne als eine Scheinkorrelation.

Quellen: