Daten und Statistik: Wann ist eine Umfrage repräsentativ? - Wissen

Daten und Statistik Wann ist eine Umfrage repräsentativ?

Mona Rouhandeh 23.11.2022 - 11:29 Uhr

Donald Trump darf wieder twittern, 15 Millionen Twitternutzer haben darüber abgestimmt. Repräsentativ ist die Umfrage trotzdem nicht.

Am Wochenende teilte Elon Musk eine Umfrage auf Twitter. Eine knappe Mehrheit stimmte dafür, den Twitter-Account des ehemaligen US-Präsidenten Donald Trump nach der Sperrung vom Januar 2021 wieder zu aktivieren. Neben dem Ergebnis wurde die Umfrage selbst diskutiert. Sie ist nicht repräsentativ – obwohl mehr als 15 Millionen Nutzer daran teilgenommen haben.

Wann aber sind Umfragen repräsentativ? Das liegt nicht an der Zahl der Teilnehmenden oder dem Umstand, dass sich sechs Prozent der 230 Millionen täglichen Twitternutzer daran beteiligt haben – was absolut und relativ deutlich mehr sind als die typischen Umfragen mit 1000 Befragten. Diese werden dagegen häufig als repräsentativ bezeichnet. Was steckt dahinter?

Vom Einzelnen aufs Ganze

Der Unterschied zwischen einer repräsentativen und nicht-repräsentativen Umfrage ist die Auswahl der Befragten. Umfragen sind repräsentativ, wenn von der Stichprobe (also den Umfrageteilnehmern) Rückschlüsse auf die Grundgesamtheit möglich sind – bei der Trump-Umfrage wären das alle Twitter-Nutzer. Dafür müssen „alle Merkmalsträger der Grundgesamtheit die gleiche Chance besessen haben, Teil dieser Stichprobe zu werden“, schreibt das Portal Statista auf seiner Website.

Bei Elon Musks Trump-Umfrage war das nicht der Fall. Nicht alle Twitternutzer haben die Umfrage gesehen. Manche ignorieren den neuen Twittereigentümer bewusst. Vermutlich haben viele mitgemacht, denen die Rückkehr Trumps zum Microbloggingdienst wichtig ist oder die das unbedingt vermeiden wollen, darunter vermutlich auch einige Bots. Statistiker sprechen in einem solchen Fall von Selbstselektion: die Stichprobe ist verzerrt.

Auf die Stichprobe kommt es an

Für eine repräsentative Umfrage darf die Stichprobe nicht verzerrt sein. Die Umfrageteilnehmer müssen in einigen Merkmalen der Grundgesamtheit entsprechen. Als Goldstandard gelten sogenannte Zufallsstichproben, bei denen mögliche Teilnehmer zufällig aus dem Einwohnermelderegister ausgewählt und angeschrieben werden. Das sei „das derzeitig qualitativ hochwertigste Design für bundesweite Bevölkerungsumfragen“, schreibt Sabine Häder vom Leibniz-Institut für Sozialwissenschaften.

Ein weniger hochwertiger Weg ist es, zufällig Telefonnummern zu wählen und so die möglichen Teilnehmer zu kontaktieren. Einige Umfrageinstitute greifen zudem auf sogenannte Onlinepanels zurück, also eine feste Gruppe von möglichen Umfrageteilnehmern. Zudem müssen die Statistiker Merkmale wie Geschlecht, Alter oder Einkommen ihrer Stichprobe kennen. Sie prüfen, ob die Verteilung jener in der Grundgesamtheit entspricht.

Weicht die Verteilung ab, gleichen die Forscher das mit einer sogenannten Gewichtung aus. Ein Beispiel: Die Grundgesamtheit besteht zur einen Hälfte aus Frauen und zur anderen Hälfte aus Männern. Wenn sich in der Stichprobe 45 Prozent Frauen und 55 Prozent Männer befinden, werden die Antworten der Frauen entsprechend stärker und die der Männer schwächer gewichtet.

Und das Konfidenzintervall?

Natürlich kann eine stichprobenbasierte Umfrage nie so perfekt sein wie eine Befragung aller Menschen. Egal wie repräsentativ die Stichprobe ausgewählt wurde: die Ergebnisse werden von denen der Grundgesamtheit fast zwingend abweichen. Doch je besser die Stichprobe, desto unwahrscheinlicher ist eine Abweichung.

Erst an dieser Stelle wird die Zahl der Befragten relevant: Eine repräsentative Stichprobe mit 10 000 Befragten ist besser als eine mit 1000 Befragten – weil die mögliche Abweichung von der Einstellung der Gesamtbevölkerung geringer ist. Bei seriösen Umfragen wird daher nicht nur das Ergebnis angegeben, sondern auch der Bereich, in dem die Antworten der Gesamtbevölkerung mit hoher Wahrscheinlichkeit liegen – das sogenannte Konfidenzintervall.

Bei Elon Musks Trump-Umfrage ist die Stichprobe weder zufällig ausgewählt noch repräsentativ und auch von einem Konfidenzintervall liest man nichts. Wenn der Twittereigentümer schreibt, das Volk habe gesprochen („The people have spoken“), ist also reichlich unklar, welches Volk er meint. Im besten Fall kann eine Twitterumfrage die Meinung aller Twitternutzer abbilden. Für die Trump-Umfrage gilt das aber sicher nicht.