Statistik mit Excel - Das Konfidenzintervall

Das Vertrauensniveau ist wichtig - nimkenja/pixelio.de
Das Vertrauensniveau ist wichtig - nimkenja/pixelio.de
Die Bestimmung eines Konfidenzintervalls gehört zu den wichtigen Aufgaben in der Statistik. Excel 2007 bietet die Funktion "Konfidenz" an.

Eine wichtige Aufgabe des Statistikers besteht darin, von den Ergebnissen einer Stichprobe auf die Verhältnisse in der Grundgesamtheit zu schließen. Man unterscheidet dabei grundsätzlich zwischen zwei möglichen Verfahren. Erstens gibt es den Hypothesentest und zweitens das Schätzverfahren. Beim Hypothesentest wird eine Hypothese über die Grundgesamtheit formuliert und diese wird dann auf der Basis der Ergebnisse der Stichprobe angenommen oder abgelehnt. Eine wichtige Aufgabe besteht hier in der Abschätzung der möglichen Fehler bei der Annahme oder Ablehnung der Hypothese.

Beim Schätzverfahren wird keine Hypothese über die Grundgesamtheit formuliert

Von den Ergebnissen der Stichprobe ausgehend versucht man beim Schätzverfahren, die Verhältnisse der Grundgesamtheit zu schätzen und diese Schätzung mit einem Vertrauensniveau zu versehen. Das Konfidenzintervall ist ein Beispiel dafür. Angenommen, es geht um die Erforschung des Rauchverhaltens der erwachsenen Männer in Deutschland. Zum Beispiel möchte man herausfinden, wie viele Zigaretten die deutschen Männern pro Tag im Durchschnitt rauchen Es wird eine Zufallsstichprobe vom Umfang n=100 durchgeführt. Diese Stichprobe ergebe einen Mittelwert von 7,5 Zigaretten pro Tag. Die Standardabweichung betrage 4 Zigaretten. Die Frage ist nun, in welchem Sinne man von diesem Ergebnis der Stichprobe auf den entsprechenden Mittelwert der Grundgesamtheit schließen kann.

Grundlage ist die Theorie der Stichprobenverteilung

Die Stichprobe ergab einen Mittelwert von 7,5 Zigaretten pro Tag. Eine andere Stichprobe würde wahrscheinlich einen anderen Mittelwert zu Tage fördern. Viele verschiedene Stichproben würden viele verschiedene Mittelwerte produzieren. Irgendeiner dieser Mittelwerte ist der gesuchte Mittelwert der Grundgesamtheit. Welcher das ist, weiß man nicht, aber man kann dennoch Aussagen über die Lage der verschiedenen Mittelwerte zueinander und damit auch über die Lage des gesuchten Mittelwertes der Grundgesamtheit machen. Grundlage der Argumentation ist die Annahme, dass die Stichproben-Mittelwerte normalverteilt um den Grundgesamtheits-Mittelwert liegen. Die entsprechende Begründung dafür findet man in der Theorie der Stichprobenverteilung. Besonders wichtig ist hier, zwischen der Standardabweichung der einzelnen Stichprobe und der Standardabweichung der Stichprobenverteilung, dem sogenannten Standardfehler, zu unterscheiden. Näheres dazu finden Sie unter dem Link Stichprobe.

Man kann das Argument umkehren

Man weiß also, dass die Stichprobenmittelwerte normalverteilt um den unbekannten Mittelwert der Grundgesamtheit ( hier mit GM bezeichnet ) liegen. Daraus folgt, dass 68,27% aller möglichen Mittelwerte in dem Intervall "GM - Standardabweichung bis GM + Standardabweichung" liegen. Unter Standardabweichung ist hier die Standardabweichung der Stichprobenverteilung zu verstehen, das heißt der Standardfehler. Wenn man nun ein Intervall derselben Größe um den Stichprobenmittelwert 7,5 konstruiert, dann kann man erwarten, dass in 68,27% der Fälle der gesuchte Mittelwert GM in diesem Intervall liegen wird. Man spricht auch von einem Vertrauensintervall von 68,27%. Statt Vertrauensintervall ist auch das Wort "Konfidenzintervall" gebräuchlich. Die Zahl "68,27%" wird Konfidenzniveau genannt.

Vom Konfidenzniveau zum Sicherheitskoeffizienten und zurück

Man kann das Konfidenzniveau erhöhen, indem man das Intervall vergrößert. Zum Beispiel auf "GM - 2*Standardabweichung bis GM + 2*Standardabweichung". Das Konfidenzniveau beträgt dann 99,45%. Es ist aber auch möglich, sich das Konfidenzniveau vorzugeben und die dazugehörige Intervallgröße zu berechnen. Ein Konfidenzniveau von 90% zum Beispiel verlangt das Intervall "GM - 1,645*Standardabweichung bis GM + 1,645*Standardabweichung". Die Zahl "1,645" wird "Sicherheitskoeffizient" oder auch "kritischer Wert" genannt. Zu jedem Konfidenzniveau existiert ein Sicherheitskoeffizient und umgekehrt.

Excel 2007 bietet die Funktion "Konfidenz" zur Bestimmung des Konfidenzintervalls an

Es soll nun ein Konfidenzintervall mit Hilfe von Excel 2007 berechnet werden. Zuerst muss man sich ein bestimmtes Konfidenzniveau vorgeben. Dieses sei hier 90%. Excel 2007 ist in der Lage, daraus das passende Vertrauensintervall zu berechnen. Klicken Sie dazu auf "Formeln/Funktion einfügen/Statistik/Konfidenz". Es öffnet sich ein Fenster mit drei Eingabefeldern. Bei "Alpha" muss die Zahl "1-Vertrauensniveau" eingegeben werden. Hier also: 1-0,9=0,1. Bei "STANDABWN" muss die Standardabweichung der Stichprobe - also nicht der Standardfehler - eingegeben werden, hier demnach die Zahl "4". Bei "Umfang_S" ist der Stichprobenumfang einzutragen, also die Zahl "100". Bestätigen Sie mit OK. Das Ergebnis ist die gerundete Zahl "0,658". Die Zahl entspricht dem Produkt "Sicherheitskoeffizient*Standardabweichung", nämlich 1,645*0,4. Dabei ist zu bedenken, dass in diesem Fall unter "Standardabweichung" der Standardfehler zu verstehen ist.

Die genaue Interpretation des Ergebnisses ist wichtig

Die Stichprobe ergab einen Mittelwert von 7,5 Zigaretten am Tag. Die Standardabweichung betrug 4 Zigaretten. Bei Vorgabe eines Vertrauensniveaus von 90% kann man folgern, dass der Mittelwert der Grundgesamtheit in dem Intervall 7,5 - 0,658 und 7,5 + 0,658 liegen wird, also in dem Intervall von 6,842 bis 8,158. Man sieht, dass die Schlussfolgerung auf den Mittelwert der Grundgesamtheit hier in der Angabe eines Intervalls und des dazugehörigen Vertrauensniveaus besteht. Deswegen spricht man in diesem Fall auch von einer "Intervallschätzung". Wenn der Mittelwert selbst geschätzt wird, also eine Zahl angegeben wird, dann handelt es sich um eine "Punktschätzung".

Quellen:

  • Monka, Schöneck, Voss: Statistik am PC, 2008
  • Schaum's Outline, Statistik, McGraw-Hill Book Company GmbH 1976