
- Regressionsgerade - Alfred Dandyk
Zu den häufigen und wichtigen Aufgaben der Statistiker gehört die Ermittlung von Zusammenhängen zwischen verschiedenen Merkmalen. Wenn es sich dabei um zwei Merkmale handelt, dann spricht man von einer bivariaten Betrachtung. Zum Beispiel kann man vermuten, dass eine statistische Korrelation zwischen dem Körpergewicht der Menschen und ihrer Körpergröße besteht. Um diese Vermutung zu bestätigen, wird eine Untersuchung durchgeführt, in der die Menschen nach ihrer Körpergröße in cm und nach ihrem Gewicht in kg befragt werden. Die Daten werden dann in einem Streudiagramm dargestellt, die Körpergröße auf der X-Achse und das Gewicht auf der Y-Achse. Es entsteht eine Punktwolke, die eine eindeutig steigende Tendenz aufweist.
Die Darstellung dieser Punktwolke ist die erste Bestätigung der Vermutung über den Zusammenhang von Körpergröße und Gewicht. Die Korrelation kann weiter präzisiert werden, indem man eine Gerade einzeichnet, die sich der Punktwolke möglichst gut anpasst. Eine solche Gerade heißt Regressionsgerade. Es soll hier grundsätzlich vorausgesetzt werden, dass sich der Datensatz mit einer Geraden approximieren lässt. In diesem Artikel wird gezeigt, wie man ein Streudiagramm und die dazugehörige Regressionsgerade mit Excel 2007 schnell herstellen kann. Die Erläuterungen richten sich nach dem Buch "Statistik am PC". Auch die Daten sind diesem Buch entnommen.
Die Daten sind vorbereitet und können kopiert werden
Der Einfachheit wegen sind die Daten für neun Personen unter Regressionsgerade in Excel 2007 bereits eingetragen. Öffnen Sie die Datei mit Hilfe des Links. In Tabelle1 sehen Sie den bivariaten Datensatz mit den Merkmalen Körpergröße und Gewicht. In Tabelle2 erkennen Sie das dazugehörige Streudiagramm und in Tabelle 3 dasselbe Streudiagramm mit der Regressionsgeraden und der entsprechenden Geradengleichung. Diese Datei ist schreibgeschützt und kann deswegen nicht bearbeitet werden. Sie können die Daten aber mittels "Kopieren/Einfügen" in eine neue Datei transportieren. Diese können Sie dann bearbeiten.
Mit Excel 2007 können ein Streudiagramm und die Regressionsgerade leicht erstellt werden
Markieren Sie in der neuen Datei den Bereich der kopierten Daten "A2:B10". Klicken Sie auf: "Einfügen/Diagramme/Punkt/Punkte nur Datenpunkte". Es erscheint ein Fenster mit dem Streudiagramm. Sie können deutlich erkennen, dass die Punktwolke eine steigende Tendenz hat. Die Vermutung, dass das Gewicht statistisch mit der Körpergröße zunimmt, wird also bestätigt. Klicken Sie dann mit der rechten Maustaste auf einen der Punkte in der Wolke. In dem nun geöffneten Fenster klicken Sie auf "Trendlinie hinzufügen". Es erscheint ein neues Fenster. Markieren Sie dort "linear" und setzen Sie ein Häkchen vor "Formel im Diagramm anzeigen." In der Punktwolke erscheint nun die Regressionsgerade mit der Angabe der Geradengleichung. Die Geradengleichung lautet: y = 0,8765*x - 78,436. Es ist sinnvoll, die Genauigkeit der Zahlen zu begrenzen. Also: y = 0,88*x - 78,44. Damit ist der positive Zusammenhang zwischen der Körpergröße und dem Gewicht mathematisch präzisiert worden.
Die Regressionsgerade ist ein komprimiertes und präzisiertes Abbild der Punktwolke
Welchen Vorteil hat die Regressionsgerade gegenüber der Punktwolke? Während die Punktwolke ein relativ diffuses Gebilde ist, ist die Regressionsgerade ein scharf definiertes mathematisches Objekt, mit dem man gut arbeiten kann. Wenn man zum Beispiel zwei verschiedene Punktwolken hat, dann ist ein Vergleich schwierig. Es fehlen einem sozusagen die Begriffe. Nimmt man aber die entsprechenden Regressionsgeraden, dann ist ein Vergleich einfach. Selbstverständlich hat die Regressionsgerade gegenüber der Punktwolke auch Nachteile. Denn die Komprimierung der Daten bedeutet einen Informationsverlust. Dieser wird aber aufgewogen durch einen Gewinn an mathematischer Präzision.
Die Regressionsgerade hat also für einen bivariaten Datensatz dieselbe Bedeutung wie der Mittelwert für einen univariaten Datensatz. Eine relativ diffuse Datenmenge wird durch ein genau definiertes mathematisches Objekt ersetzt. Beim univariaten Datensatz ist eine eine Zahl, beim bivariaten Datensatz eine Gerade.
Mit Hilfe der Regressionsgeraden kann eine Prognose erstellt werden
Der Bereich des Datensatzes reicht in diesem Fall von 165 cm bis 190 cm. Mit Hilfe der Funktionsvorschrift für die Regressionsgerade können Sie nun ausrechnen, welches Gewicht bei einer Größe von 200 cm zu erwarten wäre, wenn das Gewicht dieser Person dem statistischen Trend folgen würde. Man kann also mit Hilfe der Geradengleichung eine Art von Norm-Tabelle für den Zusammenhang von Körpergröße und Gewicht herstellen. Selbstverständlich kann der Zusammenhang nicht beliebig extrapoliert werden. Es gibt zum Beispiel keinen Sinn auszurechnen, wie groß das Gewicht bei 400 cm Körpergröße sein würde.
Die Regressionsgerade hat die Form y = a*x + b. Von besonderer Wichtigkeit ist der Parameter a, die sogenannte Steigung der Geraden. In dem Beispiel gilt: a = 0,88. Diese Zahl hat folgende Bedeutung: Wenn der x-Wert um die Zahl 1 steigt, dann steigt der y-Wert um 0,88. Wenn also die Körpergröße um 1 cm steigt, dann vergrößert sich das Gewicht statistisch um 0,88 kg.
Probleme bei der Interpretation des statistischen Zusammenhanges
Vorsicht ist geboten, wenn es darum geht, einen festgestellten statistischen Zusammenhang zu interpretieren. Berühmt ist folgendes Beispiel. Man hat die Geburtenrate in verschiedenen Ländern mit der Anzahl der Störche pro Flächeneinheit in diesen Ländern verglichen. Es ergibt sich eine eindeutige positive statistische Korrelation zwischen diesen beiden Merkmalen. Das heißt je größer die Anzahl der Störche, desto größer ist der Tendenz nach die Geburtenrate. Es wäre jetzt selbstverständlich falsch, daraus zu folgern, die große Anzahl der Störche sei die Ursache für die hohe Geburtenrate. Was man sagen kann ist, dass die beiden Merkmale statistisch positiv korreliert sind. Die Ursache dieser Korrelation muss aber immer separat erforscht werden. In dem Beispiel ist sehr wahrscheinlich, dass ein drittes Merkmal, zum Beispiel der Entwicklungsstand der Länder, involviert ist. Wenn der Entwicklungsstand hoch ist, sinkt sowohl die Anzahl der Störche als auch die Geburtenrate. Auf diese Weise findet die positive Korrelation zwischen der Anzahl der Störche und der Geburtenrate eine plausible Erklärung, ohne dass man ein absurdes Kausalitätsverhältnis annehmen müsste.
Wie man mit Wolfram|Alpha eine Regressionsgerade erstellen kann, erfahren Sie hier.
Quelle: Monka, Schöneck, Voss: Statistik am PC, Hanser 2008
