Zur Auswertung einer Grundschulstudie - Die Theorie hinter der Statistik: Ein bisschen schlechter heißt nicht unbedingt stabil

BLICK 360

In den letzten Jahren waren sie allgegenwärtig: Studien, vor allem medizinische Studien zu Corona, aber auch Studien zur Bildung. Eines von vielen Beispielen ist die von der Kultusministerkonferenz in Auftrag gegebene und vom Institut zur Qualitätsentwicklung im Bildungswesen durchgeführte Studie „IQB-Bildungstrend 2021“ zur Leistung von Kindern am Ende der vierten Klasse der Grundschule. Fachleute und Laien stürzten sich darauf, zitierten und werteten aus. Aber nicht alles, was auf den ersten Blick logisch erscheint, ist es auch. Wir schauen uns an, warum die Sektkorken auch im rheinland-pfälzischen Bildungsministerium schnell wieder auf die Flaschen draufgestöpselt werden sollten.

Verbesserung bei der Rangfolge trotz Verschlechterung bei absoluten Werten

Kurz nach dem Erscheinen der länderspezifischen Ergebnisse schickte das rheinland-pfälzische Bildungsministerium eine Jubelmeldung an die Presse. Und in der Tat: In der Rangfolge der Länder hatte man sich verbessert. Allerdings lag das nicht daran, dass man die eigenen Leistungen gesteigert hätte, sondern hatte seine Ursache leider darin, dass andere Länder sehr viel deutlicher abgesackt waren als Rheinland-Pfalz. Als Philologenverband Rheinland-Pfalz haben wir dies in unserer Pressemitteilung vom 24.10.2022 erläutert und der Presse gleichzeitig die entsprechenden Zahlen aus den vielen Tabellen der Studie zusammenstellt – mit Erfolg: Die Allgemeine Zeitung Mainz kontrastierte die unterschiedlichen Auslegungen von Bildungsministerium und Philologenverband in einem ausführlichen Artikel.

Ergebnisse der IQB-Studie von 2021: Leistungen von Kindern am Ende der vierten Klasse

 

Entwicklung zwischen 2016 und 2021

Entwicklung zwischen 2011 und 2021

Zuhören

2021 signifikant schlechter

2021 signifikant schlechter

Lesen

2021 schlechter, aber nicht signifikant schlechter

2021 signifikant schlechter

Orthographie

2021 schlechter, aber nicht signifikant schlechter

Vergleich mit 2011 nicht möglich, da die orthographischen Kompetenzen erstmals 2016 getestet wurden

Mathematik

2021 schlechter, aber nicht signifikant schlechter

2021 signifikant schlechter

„Nicht signifikant verschlechtert“ heißt nicht „stabil“

Im Prinzip müsste man ja denken, dass das Ergebnis „Die Leistungen haben sich nicht signifikant verschlechtert“ letztlich bedeutet: „Die Studie hat gezeigt, dass die Leistungen relativ stabil geblieben sind“. So feierte folglich auch das rheinland-pfälzische Bildungsministerium den vermeintlichen Erfolg. Tatsächlich allerdings kann man die Studie so nicht lesen. Warum nicht?

Dazu muss man verstehen, wie solche Testungen prinzipiell konzipiert sind: Man geht von einem bestimmten Wert aus, hier: vom Ergebnis der letzten Testung, also zum Beispiel vom Wert 485. Auf dieses Ergebnis bezogen möchte man herausfinden, ob sich an den Kompetenzen etwas verändert hat. Dabei muss man berücksichtigen, dass die gemessene Leistung (bzw. der Mittelwert bei den Leistungen einer Gruppe) auch bei gleichgebliebener Kompetenz bei der nächsten Testung variieren kann – sehr wahrscheinlich aber eben nur innerhalb einer gewissen Bandbreite.

Hypothesentests und signifikante Veränderungen

Zunächst stellt man folgende Hypothese auf: „Die Kompetenz ist stabil geblieben.“ Anschließend berechnet man ein Intervall um die Punktzahl 485 herum, aus dem mit hoher Wahrscheinlichkeit auch das nächste Ergebnis stammt. Liegt das Ergebnis bei der erneuten Testung dann trotzdem außerhalb dieses Bereichs, dann, und nur dann, wird man an der Hypothese („Die Kompetenz ist stabil geblieben.“) nicht länger festhalten können und muss sie verwerfen. Man spricht in einem solchen Fall von einer signifikanten Veränderung.

Achtung: Zirkelschluss

Bleibt das beobachtete Ergebnis aber im erwarteten Rahmen um die Punktzahl 485 herum, dann lässt sich daraus nicht folgern, dass die Kompetenz tatsächlich stabil geblieben ist. Wie gesagt: Die zugrundeliegende Hypothese ist, dass die Kompetenz stabil geblieben ist – das ist also die Voraussetzung bzw. Vorannahme für sämtliche Berechnungen und kann daher nicht gleichzeitig Schlussfolgerung sein. Logisch gesehen wäre das nämlich ein typischer Zirkelschluss.

Keine Entwarnung für Rheinland-Pfalz

Auf der Basis der IQB-Ergebnisse für Rheinland-Pfalz kann also keine Entwarnung gegeben werden. Das IQB, von welchem die Studie stammt, hat uns in einem kurzen Schriftwechsel die obige kritische Analyse bestätigt. Dass bereits ergriffene Maßnahmen wirken, wie es das Ministerium auch in einer zweiten Pressemitteilung sehr nachdrücklich verkündete, lässt sich also aus dieser Testung ganz und gar nicht ableiten. Man tut daher gut daran, weiterhin nach Ideen für echte Verbesserungen zu suchen. Unsere Anregungen als Philologenverband lesen Sie in unserer Pressemitteilung.