FAQ zur Statistik

01.01.2022

Um den Aussagegehalt einer Studie zu beurteilen, ist es wichtig zu wissen, auf welche Weise die zugrundeliegende Untersuchung gestaltet wurde. Die häufigsten Fragen hierzu haben wir im Folgenden für die von uns durchgeführten Studien beantwortet. Wir beziehen uns dabei beispielhaft auf unsere Arbeiten zu den führenden Managementberatern. Die beschriebenen Aspekte lassen sich jedoch auch auf unsere Studien zu den großen Wirtschaftsprüfern übertragen.

Sind die Studien der WGMB repräsentativ?

Nein. Die Studien der WGMB sind nicht repräsentativ. Um eine repräsentative Studie durchzuführen, müssen zwei Bedingungen erfüllt sein: (a) die Befragten müssen zufällig ausgewählt werden – man spricht auch von einer Zufallsstichprobe – und (b) die Grundgesamtheit muss bekannt sein.

Zu (a): Unsere Studien basieren nicht auf einer Zufallsstichprobe. Eine Zufallsstichprobe würde voraussetzen, dass jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit besitzt, für die Stichprobe ausgewählt zu werden. Bildlich gesprochen würde dies bedeuten, dass die Namen aller Vorstände, Budgetverantwortlichen und Projektleiter, die ein Interesse haben könnten, mit den betrachteten Beratungsunternehmen zusammenzuarbeiten, in eine große Lostrommel gelegt werden müssten, um daraus zufällig eine Stichprobe zu ziehen. Und die gezogenen Führungskräfte, auch das wäre eine Voraussetzung, müsste man dazu verpflichten können, tatsächlich an der Befragung teilzunehmen. Dass dies in der Praxis nicht zu gewährleisten ist, ist offensichtlich. Manchmal behilft man sich damit, die Grundgesamtheit nach bestimmten Merkmalen vorzusortieren – etwa, wenn man weiß, welcher Anteil der Grundgesamtheit in einer bestimmten Branche tätig ist, ein bestimmtes Alter hat, eine bestimmte Ausbildung oder ein bestimmtes Geschlecht. In diesen Fällen bildet man anteilige Untergruppen, für die man dann jeweils eine Zufallsstichprobe zieht – wiederum mit den oben genannten Voraussetzungen, die im Fall der von uns befragten Führungskräfte kaum zu erfüllen sind.

Umgangssprachlich spricht man auch dann bisweilen von einer repräsentativen Studie, wenn die Stichprobe nicht zufällig gezogen, sondern bewusst so gestaltet wird, dass sie die Verteilung bekannter Merkmale in der Grundgesamtheit gut nachbildet. Wenn man also beispielsweise versucht, prozentual den gleichen Anteil von DAX-Vorständen in der Stichprobe abzubilden wie man ihn in der Grundgesamtheit vermutet. Ganz praktisch bedeutet das, dass man in einzelnen Untergruppen so lange weiter nach zusätzlichen Kandidaten Ausschau hält, bis der betreffende Anteil erreicht ist. Im strengen statistischen Sinne würde man dies nicht als repräsentativ bezeichnen.

Zu (b): Alle genannten Varianten – egal ob streng statistisch oder umgangssprachlich – scheitern in unserem Fall allerdings ohnehin daran, dass man die Elemente einer Grundgesamtheit nur dann zufällig auswählen oder nach bestimmten Merkmalen sortieren kann, wenn die Grundgesamtheit in Gänze bekannt ist. Das ist zum Beispiel dann gegeben, wenn die Schüler in einer bestimmten Schulklasse betrachtet werden, die registrierten Teilnehmer einer Veranstaltung oder die in einem bestimmten Stadtbezirk gemeldeten Personen. Eine vollständige und akkurate Liste aller Führungskräfte, die prinzipiell für eine Zusammenarbeit mit den von uns betrachteten Beratungsunternehmen in Frage kämen, ließe sich hingegen kaum zusammenstellen. Man behilft sich in solchen Fällen oft damit, dass man die Verteilung bestimmter Merkmale in der Grundgesamtheit möglichst gut zu schätzen versucht.

Wie gut bilden die Stichproben der WGMB die Grundgesamtheit ab?

Ist eine Studie nicht repräsentativ, wird als Maßstab für ihre Aussagekraft häufig die Struktur der Stichprobe mit der (vermuteten) Struktur der Grundgesamtheit verglichen. Je stärker sich beide gleichen, desto größer ist tendenziell der Gehalt der Studie.

Im Falle unserer Studien erweist sich ein entsprechender Strukturvergleich als schwierig, da es – wie in unseren Ausführungen zur Repräsentativität dargelegt – kaum möglich ist, bestimmte Merkmalsverteilungen innerhalb der Grundgesamtheit akkurat zu ermitteln. Nichtsdestotrotz wird immer wieder der Versuch unternommen, zumindest eine gute Schätzung entsprechender Strukturen aufzustellen. Insbesondere gilt dies für die Verteilung des Geschäfts von Unternehmensberatern mit Kunden aus verschiedenen Branchen. Sowohl die WGMB als auch der Bundesverband Deutscher Unternehmensberater (BDU) stellen entsprechende Relationen auf. Auch wenn sich diese auf den Beratungsmarkt insgesamt beziehen und deshalb nicht deckungsgleich sein müssen mit dem Geschäft der führenden Managementberater, sind sie aus unserer Sicht aktuell der beste verfügbare Maßstab, den man näherungsweise für einen Strukturvergleich heranziehen kann. Die folgenden Tabellen stellen den Anteil der Befragten aus unterschiedlichen Branchen in unserer Studie aus dem Jahr 2021 dem Umsatzanteil gegenüber, den Unternehmensberater in den betreffenden Branchen erwirtschaften – einmal nach Schätzung der WGMB (aus dem Jahr 2020) und einmal nach Schätzung des BDU (hierzu haben wir die letzte öffentlich zugängliche Version aus dem Jahr 2018 herangezogen):

Spiegelt die Struktur unserer Stichprobe die Struktur der Grundgesamtheit also gut wider? Ein Urteil hierzu kann sich nur jeder Betrachter selbst bilden.

Lassen die Studien der WGMB einen statistischen Schluss auf die Grundgesamtheit zu?

Nein. Aufgrund der eingeschränkten Repräsentativität ist es nicht möglich, von den Ergebnissen unserer Studien mithilfe statistischer Verfahren auf die Grundgesamtheit zu schließen. An dieser Stelle möchten wir kurz in Erinnerung rufen, dass man in der Statistik zwei große Teilgebiete unterscheidet: die deskriptive Statistik und die Inferenzstatistik. Unsere Studien sind der deskriptiven Statistik zuzuordnen. Das heißt, wir fokussieren uns auf die Beschreibung der von uns erhobenen Daten anhand verschiedener Kennzahlen – etwa dem Mittelwert oder der Standardabweichung. Die Inferenzstatistik hingegen, die auch als schließende Statistik bezeichnet wird, befasst sich mit der Frage, inwieweit solche Kennzahlen, die in einer Stichprobe beobachtet wurden, verallgemeinert und auf die Grundgesamtheit übertragen werden können. Im Fall der von uns erhobenen Daten ist dies, wie gesagt, aufgrund der eingeschränkten Repräsentativität nicht möglich. Das bedeutet zum Beispiel, dass in unserer Studie aus dem Jahr 2021 die Aussage „McKinsey, Bain und BCG sind Deutschlands beste Unternehmensberater“ immer mit einem Hinweis versehen werden muss, wessen Sichtweise diesem Werturteil zugrunde liegt. Im vorliegenden Fall also die Sicht der von uns befragten 1.063 Führungskräfte.

Sind die Aussagen unserer Studien aufgrund des fehlenden statistischen Rückbezugs auf die Grundgesamtheit also wertlos? Nein. Zum einen spiegeln sie die Meinung von über 1.000 hoch relevanten Entscheidern wider. Entscheider, die allesamt in den drei zurückliegenden Jahren mindestens einmal mit mindestens einem der betrachteten Beratungsunternehmen zusammengearbeitet haben. Im Durchschnitt haben die Befragten in diesem Zeitraum mit 3,5 der betrachteten Beratungsunternehmen Projekte gemacht, viele von ihnen mehrfach. Ihre Erfahrungen und ihre Einschätzungen sind ein Wert an sich. Zudem sind viele Erkenntnisse zwar nicht im strengen statistischen Sinne auf die Grundgesamtheit übertragbar, sie können jedoch wichtige Trends und Tendenzen aufzeigen.

Sind die Abstände in den Rankings der WGMB signifikant?

Eine Aussage zur Signifikanz lässt sich aufgrund der eingeschränkten Repräsentativität unserer Studien strenggenommen nicht treffen. Signifikanz bedeutet nichts anderes, als dass ein Ergebnis, das in einer Stichprobe beobachtet wird, mit einer bestimmten Irrtumswahrscheinlichkeit – meist werden fünf Prozent angesetzt – auf die Grundgesamtheit übertragen werden kann. Solch ein statistischer Schluss von der Stichprobe auf die Grundgesamtheit ist mit unseren Daten eigentlich nicht möglich. Obwohl wir sehr deutlich auf diesen Umstand hinweisen, werden wir häufig darum gebeten, die Abstände zwischen den Beratungsunternehmen in einem Ranking trotzdem auf Signifikanz zu prüfen. Auch wenn es uns grundsätzlich widerstrebt, wollen wir dieser Bitte nachkommen und einige Ergebnisse der entsprechenden Tests kurz anführen.

In unserem Zufriedenheitsranking aus dem Jahr 2021 liegt McKinsey mit 402 Punkten auf Rang 1. Es folgen Bain mit 388 Punkten und BCG mit 386 Punkten. Ein t-Test kommt zu dem Ergebnis, dass der Abstand von McKinsey zu den beiden anderen Firmen signifikant ist, der Abstand zwischen Bain und BCG hingegen nicht. Dieses Ergebnis ist allerdings nicht nur aufgrund der fehlenden Repräsentativität der Stichprobe in Frage zu stellen, sondern auch deshalb, weil ein t-Test eine Normalverteilung der Daten voraussetzt. Zumindest im Fall von Bain ist diese Voraussetzung nicht gegeben. Läge eine repräsentative Stichprobe vor, könnte man in solchen Fällen auf sogenannte parameterfreie Testverfahren zurückgreifen. Ein solcher Test ist beispielsweise der Wilcoxon-Test. Auch dieser käme in unserem Beispiel zu dem gleichen Ergebnis wie der t-Test.

Werden die Angaben der Befragten auf Richtigkeit überprüft?

Nein. Die Angaben der teilnehmenden Führungskräfte werden auf der Grundlage ihrer Erfahrungen und Einschätzungen in vollständig anonymisierter Form abgegeben; sie spiegeln die persönliche Meinung der Befragten wider. Handelt es sich dabei um Werturteile, so können diese nicht als falsch oder wahr klassifiziert werden, sie können nur dem eigenen subjektiven Standpunkt entsprechen oder diesem widersprechen.

Angaben dazu, ob die Befragten in der Vergangenheit mit bestimmten Beratungsunternehmen zusammengearbeitet haben, können aufgrund der anonymisierten Teilnahme nicht überprüft werden. Wir beziehen jedoch alle unsere Daten aus Quellen, die wir als vertrauenswürdig erachten. Eine Garantie hinsichtlich des Wahrheitsgehaltes kann allerdings nicht gegeben werden.