
- Verändert das Rauchverbot den Zigarettenkonsum? - low500/pixelio.de
In dem Artikel Hypothesentest wird der folgende Fall beschrieben: Der Verband der Zigarettenindustrie "Schwarze Lunge" möchte überprüfen lassen, ob der durchschnittliche tägliche Verbrauch an Zigaretten nach wie vor bei 8 Glimmstängeln liegt. Dazu führt das Marktforschungsinstitut "Klare Sicht" eine Stichprobe des Umfangs 100 durch. Der Mittelwert dieser Stichprobe ergibt 7 Zigaretten pro Tag bei einer Standardabweichung von 4 Zigaretten. Die Analyse dieses Ergebnisses führt zu der Erkenntnis, dass sich das Raucherverhalten wahrscheinlich im Laufe der Zeit verändert hat.
Der Umfang der Stichprobe ist wichtig
Diese Rahmenbedingungen des Hypothesentests sollen in dem jetzigen Artikel verändert werden. Statt der Profis vom Marktforschungsinstitut führt die Umfrage nun der Soziologiestudent "Adelphos Epimetheus" durch. Um seine Diplomarbeit schneller beenden zu können, reduziert er den Stichprobenumfang von 100 auf 21. Er erhält wieder einen Mittelwert von 7 Zigaretten bei einer Standardabweichung von 3,6 Zigaretten. Im übrigen übernimmt er unverändert die Argumentation aus der obigen Analyse. Nach kurzer Zeit erhält er seine Diplomarbeit zurück mit der Bemerkung, die statistische Argumentation sei nicht korrekt. Was hat er falsch gemacht?
Man muss zwischen "großen und kleinen Stichproben" unterscheiden
Die Argumentation in dem Artikel "Hypothesentest" beruht auf der Annahme einer normalverteilten Stichprobenverteilung. Diese Annahme ist aber nur gerechtfertigt, wenn der Umfang der Stichprobe groß genug ist. Die Faustregel lautet, dass der Stichprobenumfang größer als 30 sein sollte. Das ist bei der Umfrage des Marktforschungsinstituts der Fall, aber nicht bei der Diplomarbeit des Studenten. Die Arbeit ist also mit Recht zurückgewiesen worden. Dabei hätte Adelphos Epimetheus seine Umfrage durchaus verwerten können, wenn er nur anstelle der Normalverteilung von einer Student-t-Verteilung ausgegangen wäre.
Bei kleinen Stichprobenumfängen muss eine andere Verteilung angenommen werden
Man kann für die Stichprobenverteilung guten Gewissens eine Normalverteilung annehmen, wenn der Stichprobenumfang größer als 30 ist. Man spricht dann von einer "großen Stichprobe". Bei einer kleinen Stichprobe, das heißt bei einem Umfang kleiner als 30, kann eine Normalverteilung nicht vorausgesetzt werden. Stattdessen ist von der Student-t-Verteilung auszugehen. Unter dem Link "Student-t-Verteilung" sehen Sie einen Vergleich der Standardnormalverteilung N(0,1) mit der Student-t-Verteilung verschiedener Freiheitsgrade. Man kann deutlich erkennen, dass die Verteilungen umso besser übereinstimmen, je größer die Anzahl der Freiheitsgrade ist. Bei der Anzahl der Freiheitsgrade 100 ist eine Differenz zwischen den beiden Verteilungen nicht mehr zu erkennen, bei der Anzahl 3 ist der Unterschied deutlich.
Die Student-t-Verteilung verlangt einen Parameter namens "Anzahl der Freiheitsgrade"
Die Normalverteilung enthält zwei Parameter, den Mittelwert und die Standardabweichung. Bei der Standardnormalverteilung hat der Mittelwert den Wert 0, die Standardabweichung den Wert 1. Demgegenüber verlangt die Student-t-Verteilung die Angabe des Parameters "Anzahl der Freiheitsgrade". Unter der Anzahl der Freiheitsgrade versteht man die Anzahl n der unabhängigen Beobachtungen in der Stichprobe minus der Anzahl k der Parameter der Grundgesamtheit, die aus den Stichprobenbeobachtungen geschätzt werden müssen.
Bei der vorliegenden Analyse wird ein Parameter der Grundgesamtheit geschätzt
Die Nullhypothese des gegenwärtigen Hypothesentests lautet, dass der Mittelwert des täglichen Zigarettenverbrauchs bei 8 Zigaretten liegt. Der Mittelwert der Grundgesamtheit beträgt also gemäß der Voraussetzung 8 Zigaretten. Man kann beweisen, dass der Mittelwert der Stichprobenverteilung gleich dem Mittelwert der Grundgesamtheit ist. Für die Standardabweichung der Stichprobenverteilung gilt, dass sie gleich der Standardabweichung der Grundgesamtheit geteilt durch die Wurzel aus dem Stichprobenumfang ist. Diese Standardabweichung der Stichprobenverteilung wird auch "Standardfehler" genannt. Wenn man den Standardfehler berechnen will, muss man die Standardabweichung der Grundgesamtheit kennen. Genau diese ist hier aber unbekannt. Sie muss deswegen geschätzt werden.
Die Schätzung der Standardabweichung der Grundgesamtheit ist die Schwachstelle
Die Schätzung der Standardabweichung der Grundgesamtheit auf der Basis der Standardabweichung der Stichprobe ist umso besser, je größer der Umfang der Stichprobe ist. Man geht davon aus, dass ab einem Stichprobenumfang von 30 der Schätzung vertraut werden kann. Ist der Stichprobenumfang kleiner als 30, dann wird der Unterschied zwischen den beiden Standardabweichungen eventuell so groß, dass deutliche Verzerrungen befürchtet werden müssen. Das liegt vor allem daran, dass bei kleinen Stichproben große Abweichungen vom Mittelwert eine größere Bedeutung haben als bei großen Stichproben. Man macht also einen unakzeptablen Fehler, wenn man bei kleinen Stichproben die beiden Standardabweichungen gleichsetzt. Um diesen Fehler zu kompensieren, benutzt man anstelle der Normalverteilung die Student-t-Verteilung, da diese für große Abweichungen vom Mittelwert eine höhere Wahrscheinlichkeit ansetzt.
Excel 2007 stellt die Funktion "TVERT" zur Verfügung
Sie erreichen die Funktion "TVERT" in Excel 2007 folgendermaßen: "Formeln/Funktion einfügen/Statistik/TVERT". Sie sehen, dass drei Eingaben zu machen sind, die mit "X", "Freiheitsgrade" und "Seiten" betitelt sind. Bei "X" ist der t-Wert der Verteilung einzusetzen. Der t-Wert berechnet sich nach folgender Formel: (Mittelwert der Stichprobe-Mittelwert der Grundgesamtheit) geteilt durch (Standardabweichung der Stichprobe)/(Wurzel aus Stichprobenumfang). Mit Zahlen: (7-8)/(3,6/(Wurzel aus 21)). Das Ergebnis ist -1,272. Einzusetzen ist allerdings der Absolutbetrag, also 1,272. Die Anzahl der Freiheitsgrade ist gleich 21-1, weil die Anzahl der unabhängigen Beobachtungen 21 ist und die Anzahl der geschätzten Parameter 1. Für die Anzahl der Freiheitsgrade ist also der Wert 20 einzutragen. Bei "Seiten" kann man entweder die Zahl 1 oder die Zahl 2 eintragen, abhängig davon, ob man einen einseitigen oder einen zweiseitigen Test machen möchte. Die Entscheidung fällt hier für den zweiseitigen Test. Also wird die Zahl 2 eingetragen. Bevor der entsprechende Wert von TVERT ausgerechnet wird, muss vorher das Signifikanzniveau festgelegt werden. Hier sollen 10% angenommen werden. Excel 2007 liefert nun einen Wert von ungefähr 0,218, also etwa 22%.
Interpretation des Ergebnisses
Die Wahrscheinlichkeit dafür, dass bei einem Mittelwert der Grundgesamtheit von 8 Zigaretten täglich und einer Stadardabweichung von 3,6 Zigaretten bei einer Stichprobe vom Umfang 21 ein Mittelwert erzielt wird, der 7 oder kleiner ist, beziehungsweise ein Mittelwert der 9 oder größer ist, beträgt etwa 22%. Bei einem Signifikanzniveau von 10% ist die Hypothese also anzunehmen. Der Mittelwert der Grundgesamtheit liegt tatsächlich bei 8 Zigaretten täglich im Durchschnitt. Der Sachverhalt wird graphisch unter dem Link Student-t-Verteilung in Tabelle2 dargestellt. Man erkennt den Annahme- und den Ablehnungsbereich. Man sieht, dass der t-Wert -1,272 im Annahmebereich liegt. Die Rückweisungsgrenzen liegen bei -1,73 beziehungsweise bei +1,73.
Quelle: Monka, Schöneck, Voss: Statistik am PC. Hanser, 2008
