Meine Notizen zu dieser Seite:

Gerechtigkeit für gelbe Gummibärchen: Der Hypothesentest.

29 Gerechtigkeit für gelbe Gummibärchen: Der Hypothesentest.

 

Folie 0

Hallo und herzlich willkommen zu dieser neuen Folge. Wir reden heute über Hypothesen und wie man sie testet. Und das geht mit Gummibärchen – egal welcher Farbe – problemlos und überzeugend.

Lassen Sie uns beginnen.

Folie 1

Beschreibende und beurteilende Statistik: Worum geht es? Wir betrachten ein Beispiel, nämlich die PISA-Studie. PISA – das Program for International Student Assessment – untersucht im Abstand von jeweils drei Jahren die Schulleistungen von 15-Jährigen in vielen Ländern der Welt. Sie wird von der OECD geleitet, der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung, die derzeit 38 Mitgliedsstaaten umfasst.

An der Studie nahmen 2018 in Deutschland 5451 zufällig ausgewählte Jugendliche teil. Im Ergebnis erreichten sie in der Mathematik durchschnittlich 500 Leistungspunkte (SD = 95), im Durchschnitt der OECD waren es etwas weniger, nämlich nur 489 Punkte (SD = 91). Sind die Mathematikleistungen von Jugendlichen in Deutschland also besser als die ihrer Altersgenossen im Durchschnitt der OECD-Länder? Und ist dieser eher gering erscheinende Unterschied von elf Punkten tatsächlich in irgendeiner Weise bedeutsam?

Mit Fragen wie diesen beschäftigt sich die Statistik und hat zu ihrer Beantwortung sinnvolle Verfahren entwickelt.

Folie 2

Ein wichtiges Ziel ist es zu prüfen, mit welcher Sicherheit eine bestimmte Behauptung – die Hypothese- aus beobachteten Daten abgeleitet werden kann. So können etwa die Behauptungen

  • „Die Mathematikleistungen von Jugendlichen in Deutschland sind besser als die ihrer Altersgenossinnen und Altersgenossen im Schnitt der OECD-Länder.“
  • „Es gibt im Vergleich der OECD-Länder in Deutschland wenig leistungsstarke und viele leistungsschwache Schülerinnen und Schüler.“

anhand der Ergebnisse der PISA-Studie 2018 überprüft werden.

Es soll gleich betont werden, dass wir dabei kaum zu einem klaren „stimmt“ oder „stimmt nicht“ kommen. Vielmehr geht es darum, ob man mit einer ausreichenden Wahrscheinlichkeit eine Aussage treffen kann. Die meisten Dinge des täglichen Lebens erfordern Entscheidungen, die mit einer gewissen Unsicherheit verbunden sind. Genau damit beschäftigen wir uns heute.

Folie 3

Im Fall der PISA-Studie kann man übrigens die Antworten und die Fragen in verschiedenen Publikationen nachlesen. Wir kommen ganz zum Schluss dieser Folge noch einmal darauf zurück.

Aber wir wollen natürlich auch verstehen, wie die Einschätzungen der Experten und Expertinnen zustande kommen. Wie nachvollziehbar und wie zuverlässig sind sie? In PISA werden die Kompetenzen Jugendlicher erhoben und damit wird letztendlich dann dieses Zufallsexperiment beurteilt.

Darum geht es also im Kern:

Ein Zufallsexperiment wird mehrfach durchgeführt. Man betrachtet die Ergebnisse und möchte damit auf die dem Zufallsexperiment zugrunde liegende Wahrscheinlichkeitsverteilung schließen.

Wie ist das möglich? Und – ganz wichtig zu bedenken – welche Fehler riskiert man?

Folie 4

Um den prinzipiellen Ansatz zu verstehen, sind die umfangreichen Daten einer internationalen Leistungserhebung eher weniger geeignet.

Lassen Sie uns daher mit einem einfachen und fiktiven Bernoulli-Experiment beginnen.

Die Hauptperson dabei ist Lisa. Sie liebt gelbe Gummibärchen, denkt aber, dass sie in den Tüten weit seltener vorkommen als alle anderen Farben. Sie packt eine Tüte mit 30 Gummibärchen aus und findet vier gelbe Gummibärchen.

„Zu wenig“, meint sie. „Es gibt sechs Farben, vier sind weniger als ein Sechstel von 30.“ Lisa sieht ihre Vermutung bestätigt.

„So ein Unfug,“ sagt ihre Freundin Anna. „Du musst mindestens fünf Tüten kontrollieren. Erst wenn sie zusammen weniger als 20 gelbe Gummibärchen enthalten, kann man einigermaßen sicher sein, dass die Mischung generell ungerecht ist.“

Klingen die Argumente überzeugend? Wir schauen uns das genauer an.

Folie 5

Sie erinnern sich, es geht auch hier wieder um die Binomialverteilung. Hier ist noch einmal die bekannte Formel.

Bei einer Bernoulli-Kette der Länge n und der Trefferwahrscheinlichkeit p ist die Wahrscheinlichkeit von genau k Treffern (mit 0 ≤ k ≤ n):

Betrachten wir die Situation zunächst aus der Sicht von Lisa. Dann geht es um die Tatsache, dass höchstens vier Gummibärchen in einer Tüte mit 30 Stück sind, also um P(X<5).

Sie sehen hier die Komponenten für k = 0, 1, 2, 3 und 4 und die Wahrscheinlichkeit p = 1/6 ≈ 0,16 und damit 1-p = 5/6 ≈ 0,84. Zur Erinnerung: Es ist p = 1/6, weil es Gummibärchen in sechs Farben gibt.

In der letzten Spalte sind die verschiedenen Ergebnisse abzulesen, ihre Summe ist ungefähr 0,463.

Es gibt also eine Wahrscheinlichkeit von etwa 46%, dass vier oder weniger gelbe Gummibärchen in einer Tüte mit 30 Stück sind.

Das ist nun eine relativ hohe Wahrscheinlichkeit von immerhin fast 1/2. Lisa sollte offensichtlich ins Nachdenken kommen, ob ihre Aussage so haltbar ist. Die Wahrscheinlichkeit für weniger als fünf Gummibärchen ihrer Lieblingsfarbe in einer Tüte und damit die Wahrscheinlichkeit für einen Irrtum auf ihrer Seite ist allzu groß.

Folie 6

Meines Erachtens ist es sinnvoll, ab und zu einmal „von Hand“ zu rechnen, um die Zusammenhänge besser zu verstehen.

Aber wir hätten natürlich auch rechnen lassen können, beispielsweise von einem Statistikprogramm oder entsprechenden Anwendungen im Internet. Man kommt so – und das sehen Sie rechts unten – zum gleichen Ergebnis: 4,63^(-1) ist ja nicht anderes als 0,463. Die vielen Kommastellen danach lassen wir hier einmal unberücksichtigt.

Folie 7

Nehmen wir nun die Sicht von Anna ein, die 5 • 30 = 150 Gummibärchen testen möchte und als Grenze 5 • 4 = 20 Stück gesetzt hat. Das ist natürlich willkürlich. Anna denkt aber, dass eine Zahl unter 20 klein genug ist, um zu zeigen, dass es weniger gelbe Gummibärchen als andere gibt.

Die Komponenten sind also ein k zwischen 0 und 19 und n = 150. Natürlich bleiben p und 1-p mit 0,16 bzw. 0,84 unverändert.

Dieses Mal benutzen wir gleich den Rechner im Internet und bekommen gerundet P(X ≤ 19) = 0,1579.

Dieser Wert ist zwar deutlich kleiner als 0,463, aber immer noch recht groß. In ungefähr einem Sechstel der Fünferpacks von Tüten sollte es relativ wenig gelbe Gummibärchen geben.

Reicht die Grundlage, um sich beim Hersteller zu beschweren?

Ganz klar, das ist Ansichtssache. Die Statistik hat sich allerdings darauf geeinigt, diesen Wert nicht zu akzeptieren. Es ist einfach noch zu viel Zufall. Die Grenze wird bei 0,05 oder lieber noch bei 0,01 gezogen und man spricht vom 5%-Niveau bzw. vom 1%-Niveau.

Locker gesprochen: Ein Beschwerdebrief von Lisa auf Grundlage ihrer Daten oder des Vorschlags von Anna dürfte nicht erfolgreich sein. Eine Irrtumswahrscheinlichkeit von 1/6 oder gar 1/2 gilt als nicht akzeptabel.

Folie 8

Und noch eines: Wenn man tatsächlich nur in 1% der Fälle einen Irrtum akzeptieren möchte, dann klappt es erst bei 13 Gummibärchen und weniger. Rechnen Sie mit einer geeigneten Anwendung selbst nach.

Folie 9

Betrachten wir ein weiteres Beispiel, aber bleiben wir in der Welt der Gummibärchen. Dieses Mal geht es um eine weitere Eigenschaft, nämlich ihr Gewicht.

Gummibärchen kommen zumeist aus einer Fabrik und werden maschinell hergestellt. Bei einer sehr feinen Sorte kommen 20 Gummibärchen in eine 50 g-Tüte, jedes wiegt also etwa 2,5 g. Mehr als 0,2 g nach oben oder unten sollte es in der Regel nicht abweichen. Allenfalls 3% noch größerer Abweichungen werden toleriert. Mit diesen Werten wird die Zuverlässigkeit der Maschine geprüft. Bei einem schlechten Ergebnis muss die Maschine in die Wartung.

Nehmen wir an, die Prüfung geschieht von Hand und es wird eine Stichprobe von 100 Gummibärchen gezogen. Die Maschine wird als wartungsbedürftig angesehen, wenn mindestens vier Gummibärchen ein Gewicht von weniger als 2,3 g bzw. mehr als 2,7 g zeigen. Ist das eine sinnvolle Grenze?

Folie 10

Das ist also die Situation:

Wir haben es mit einem Bernoulli-Experiment zu tun, denn es gibt nur zwei Möglichkeiten. Ein Gummibärchen liegt in der gesetzten Gewichtsnorm oder nicht.

Es wird eine Stichprobe von 100 Gummibärchen gezogen.

Wir nehmen nun an, dass es in der Stichprobe mindestens vier Gummibärchen gibt, die außerhalb der Norm liegen

Muss die Maschine gewartet werden? Oder könnte sie trotzdem ordnungsgemäß arbeiten?

Wie kann man das prüfen?

Folie 11

Und ganz klar: Es muss immer mit einer gewissen Unsicherheit entschieden werden. Die Frage ist, wie groß das Risiko ist, ohne Grund die hohen Kosten für eine Wartung in Kauf zu nehmen.

Wie groß ist also die Wahrscheinlichkeit, dass man in einer Zufallsstichprobe von 100 Gummibärchen mehr als drei mit dem falschen Gewicht findet? Dabei bedeutet „falsch“, dass das Gewicht zu stark nach oben oder unten von der gesetzten Norm abweicht.

Gesucht ist P (X ≥ 4) bei 100 Versuchen und einer Toleranz von 3%.

Wir nutzen den Rechner und stellen fest, dass die gesuchte Wahrscheinlichkeit bei etwa 35% liegt.

Das ist hoch und es scheint ganz schön riskant zu sein, bei diesem kleinen Fehler die Maschine abzustellen und warten zu lassen.

Folie 12

Noch einmal andersherum gefragt:

Wie viele abweichende Gummibärchen muss man tolerieren, wenn das Risiko des unnötigen Abstellens der Maschine höchstens 5% betragen soll?

Die Rechnung zeigt, dass dann bis zu sechs Gummibärchen mit falschem Gewicht auftreten dürfen.

Oder aber, man zieht gleich 1000 Gummibärchen, dann ist 40 tatsächlich eine gute Grenze, um nur in 5% der Fälle eine falsche Entscheidung zu treffen. Probieren Sie es selbst aus.

Folie 13

Wir hatten schon einmal mit ganz realen Gummibärchen gearbeitet. Sie erinnern sich?

Damals wurde behauptet, dass es viel weniger rote und grüne als gelbe, weiße und orange Gummibärchen gibt.

Wir zählen, was hier abgebildet ist: Es sind 47 von 102 entweder dunkelrot oder hellrot oder grün und 55 von 102 gelb, weiß oder orange. Bisher meinten wir gefühlsmäßig, das wäre doch ungefähr gleich. Nun können wir das statistisch begründet und verlässlich prüfen und genau das wollen wir jetzt machen.

Folie 14

Die Hypothese H0 ist also: Es gibt gleiche Anzahlen von Gummibärchen in den Farben Rot und Grün wie in den Farben Weiß, Gelb und Orange.

Zum Prüfen der Hypothese nutzen wir P(X < 48).

Folie 15

Und wieder lassen wir uns das Rechnen abnehmen. Sie sehen auf der linken Seite, dass wir auf eine Wahrscheinlichkeit von knapp einem Viertel kommen, dass bei 102 Gummibärchen weniger als 48 rot oder grün sind. Die Hypothese ist damit nicht zu halten.

Aber lassen Sie uns auch hier wieder mit den Zahlen spielen. Auf der rechten Seite sieht man die Rechnung mit k ≤ 42 und erst mit dieser Zahl senkt man das Risiko unter 5%, dass die Hypothese zu Unrecht abgelehnt wird.

Folie 16

Man kann die Rechnung auch für jede Farbe einzeln anstellen. Dann ist das Bernoulli-Experiment ganz einfach eine bestimmte Farbe gegen alle anderen. Sie sehen rechts von der Tabelle die entsprechenden Wahrscheinlichkeiten, in keinem der Fälle ist davon auszugehen, dass es sich um eine ungerechte Verteilung handelt.

Folie 17

Darum ging es also:

Beim Hypothesentest ist es das Ziel, eine begründete, statistisch abgesicherte Aussage darüber zu machen, ob eine Hypothese in Bezug auf die Grundgesamtheit abgelehnt wird oder nicht.

Man nennt die Vermutung – den Ausgangszustand – auch die Nullhypothese und schreibt zumeist H0. Die Gegenhypothese – also schlicht die gegenteilige Aussage zur Nullhypothese – wird mit zumeist H1 bezeichnet.

Folie 18

Erinnern Sie sich noch an die beiden Fragen zu Beginn im Zusammenhang mit der PISA-Studie?

Wir fragten, ob die folgenden Behauptungen zu belegen sind.

Nummer 1: „Die Mathematikleistungen von Jugendlichen in Deutschland sind besser als die ihrer Altersgenossen im Schnitt der OECD-Länder.“

Nummer 2: „Es gibt im Vergleich der OECD-Länder in Deutschland wenig leistungsstarke und viele leistungsschwache Schülerinnen und Schüler.“

Folie 19

Das sind Antworten, die man mit Hilfe der Daten von PISA 2018 bekommen hat.

Deutschland liegt im Vergleich der OECD-Staaten mit 500 Punkten signifikant über dem OECD-Durchschnitt von 489 Punkten. Bei einer sehr großen Stichprobe können eben auch kleinere Unterschiede statistisch signifikant werden.

Die Spitzengruppe in der OECD bilden Japan (527), Korea (526), Estland (523) und Niederlande (519).

In Deutschland zeigen 21.1% der Fünfzehnjährigen ein Kompetenzniveau auf Stufe 1 oder darunter. Der Wert liegt nicht signifikant unter dem OECD-Durchschnitt von 24.0%.

In Deutschland zeigen 13.3% der Fünfzehnjährigen ein Kompetenzniveau auf Stufe 5 oder 6. Dieser Wert liegt signifikant über dem OECD-Durchschnitt von 10.9%.

Und auch hier spielt natürlich die Größe der Stichprobe hinein.

Folie 20

Das war es für heute. Schön, dass Sie dabei waren. Bis zum nächsten Mal.

Tipp: Anmelden und Bearbeitungsstand speichern

Wenn Sie sich anmelden, wird Ihr Bearbeitungsstand automatisch gespeichert und Sie können den Kurs später dort fortsetzen, wo Sie ihn unterbrochen haben. Nach Abschluss des Kurses erhalten Sie eine persönliche Teilnahmebescheinigung.

Mehr zu den Vorteilen