100% fanden dieses Dokument nützlich (1 Abstimmung)
1K Ansichten334 Seiten

Basiswissen Medizinische Statistik

Hochgeladen von

tanja.marker
Copyright
© © All Rights Reserved
Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.
Verfügbare Formate
Als PDF, TXT herunterladen oder online auf Scribd lesen
100% fanden dieses Dokument nützlich (1 Abstimmung)
1K Ansichten334 Seiten

Basiswissen Medizinische Statistik

Hochgeladen von

tanja.marker
Copyright
© © All Rights Reserved
Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.
Verfügbare Formate
Als PDF, TXT herunterladen oder online auf Scribd lesen
Sie sind auf Seite 1/ 334

Christel Weiß

Basiswissen Medizinische Statistik


Christel Weiß

Basiswissen
Medizinische
Statistik
4., überarbeitete Auflage

Mit 40 Abbildungen, 15 Tabellen


und 9 Übersichten

13
Dr. Christel Weiß, Dipl.-Math. Prof. Dr. Berthold Rzany, M. Sc.
Universitätsklinikum Mannheim Division of Evidence Based Medicine (dEBM)
Medizinische Fakultät der Universität Klinik für Dermatologie, Venerologie und Allergologie
Heidelberg Charité – Universitätsmedizin Berlin
Medizinische Statistik Campus Charité Mitte
Ludolf-Krehl-Str. 7–11 Charitéplatz 1
68135 Mannheim 10117 Berlin

Bibliografische Information der Deutschen Bibliothek


Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;
detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

ISBN-13 978-3-540-71460-6

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere
die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und
Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen
Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugs-
weiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses
Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Ur-
heberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils
geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen
unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.

Springer Medizin Verlag


springer.de
© Springer Medizin Verlag Heidelberg 1999, 2002, 2005, 2008

Produkthaftung: Für Angaben über Dosierungsanweisungen und Applikationsformen kann


vom Verlag keine Gewähr übernommen werden. Derartige Angaben müssen vom jeweiligen
Anwender im Einzelfall anhand anderer Literaturstellen auf ihre Richtigkeit überprüft werden.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem


Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche
Namen im Sinne der Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von
jedermann benutzt werden dürften.

Planung: Kathrin Nühse, Heidelberg


Projektmanagement: Axel Treiber, Heidelberg
Umschlaggestaltung & Design: deblik Berlin
Satz: Reproduktionsfertige Autorenvorlage
Druck- und Bindearbeiten: Stürtz, Würzburg

SPIN 12037018
Gedruckt auf säurefreiem Papier 15/2117 – 5 4 3 2 1 0
V
Vorwort

Vorwort zur vierten Auflage

Es gibt keine gute Medizin ohne Biostatistik. Dieser Satz wird möglicher-
weise bei einigen Medizinstudenten auf Unverständnis stoßen. Warum sollte
sich ein Mediziner mit Biostatistik befassen, und warum ist dieses Fach Teil
der ärztlichen Ausbildung? – Ärztliches Handeln muss auf Wissen basieren.
Ansonsten verfallen wir Zufällen und Halbwahrheiten, die auch dadurch nicht
besser werden, dass sie mantrahaft wiederholt werden. Dies wäre unter ethi-
schen, medizinischen und ökonomischen Aspekten nicht vertretbar. Medizi-
nische Forschung ohne Statistik ist nicht möglich.

Ist Biostatistik unattraktiv? Keineswegs! Es gibt sogar Mediziner, die dieses


Fach faszinierend finden. Erst eine statistische Analyse ermöglicht es, Daten
zu strukturieren, Zusammenhänge aufzudecken, Ergebnisse zu interpretieren
und in der Praxis anzuwenden. Jeder Arzt, der wissenschaftliche Publikatio-
nen gelesen oder selbst erstellt hat, weiß dies. Den meisten Studenten wird dies
spätestens beim Schreiben ihrer Doktorarbeit bewusst. Der schlechte Ruf, der
diesem Fach vorauseilt, ist dadurch begründet, dass statistische Methoden auf
mathematischen Formeln basieren, die für manche ein Gräuel sind. Als An-
wender der Statistik muss man diese Formeln jedoch nicht herleiten können
oder gar auswendig lernen (zumal die Rechnungen üblicherweise von einer
geeigneten Software durchgeführt werden). Man sollte vielmehr verstehen,
wie statistische Methoden sinnvoll in der Medizin angewandt werden. Jedem,
der diesem Fachgebiet unbefangen begegnet, erschließen sich äußerst interes-
sante Anwendungsmöglichkeiten.

Ziel dieses Buches ist es, Studenten und interessierten Ärzten einen kom-
petenten Überblick über die wichtigsten statistischen Anwendungen in der
Medizin zu geben. Darüber hinaus gewährt dieses Buch einen umfassenden
Überblick über epidemiologische Studien. Es ist nicht nur Studenten bei de-
ren Klausur- und Examensvorbereitungen nützlich, sondern auch als Nach-
schlagekompendium geeignet. – Für die vierte Auflage wurde der gesamte
Text überarbeitet, aktualisiert und an einigen Stellen ergänzt. Das bewährte
didaktische Konzept wurde beibehalten. Alle Methoden werden verständlich
dargestellt und anhand von einfachen Beispielen erläutert. Die mathemati-
schen Formeln werden nicht nur aufgelistet, sondern auch – soweit dies mit
schulmathematischen Kenntnissen möglich ist – hergeleitet. Diese Abhand-
lungen sind jedoch nicht in den laufenden Text eingebettet. Der Leser kann bei
VI Vorwort

Interesse die Formeln nachvollziehen; für das grundsätzliche Verständnis des


Stoffes ist dies jedoch nicht erforderlich. Des Weiteren wurden die Multiple-
Choice-Aufgaben ergänzt. Man findet man sie – separat für jedes Buchkapitel
– mit kommentierten Lösungen auf den Internet-Seiten des Springer-Verlages
unter www.lehrbuch-medizin/medstatistik.

Viele haben zum Gelingen dieses Buches beigetragen. Ich danke sehr herz-
lich meinem Coautoren, Herrn Prof. Dr. med. Berthold Rzany, Sc. M. (Master
of Science in Clinical Epidemiology), für seine wertvolle Hilfe und zahlreiche
medizinisch-fachliche Ratschläge. Er war als Mediziner und Epidemiologe be-
reits Coautor der ersten drei Auflagen und auch bei der vierten Auflage (ins-
besondere bei den Kapiteln 13 bis 16) maßgeblich beteiligt. Ferner bedanke
ich mich bei meinen Mitarbeitern Herrn Joachim Brade, Frau Sylvia Büttner
und Frau Rosemarie Černý. Herr Brade hat den gesamten Text der Kapitel 1
bis 12 durchgearbeitet, kritisch kommentiert und zahlreiche eigene Ideen ein-
fließen lassen. Frau Büttner und Frau Černý haben mich ebenfalls mit sehr
viel Engagement und didaktischen Anregungen unterstützt. Sie zeichnen sich
verantwortlich für die graphischen Darstellungen und das gesamte Layout.
Danken möchte ich auch Frau Kathrin Nühse und Herrn Axel Treiber vom
Springer-Verlag für die hervorragende Zusammenarbeit. Zahlreiche Leser
haben mir Änderungsvorschläge zukommen lassen; auch ihnen sei herzlich
gedankt. Nicht zuletzt danke ich meinen beiden Töchtern Judith und Miriam
für ihr Verständnis und ihre emotionale Unterstützung.

Wie sieht die Zukunft der Biostatistik aus? Unser Wissen und unser Han-
deln werden sich – im Sinne der Evidenzbasierten Medizin – immer mehr auf
das kollektive Gesamtwissen stützen. Deshalb wird dieses Fach für die klini-
sche und die forschende Medizin immmer wichtiger werden.

Weitere Informationen, Zusammenfassungen, Multiple-Choice-Aufgaben und


ein Statistik-Lexikon findet man im Internet unter www.lehrbuch-medizin/
medstatistik und www.ma.uni-heidelberg/inst/biom. Selbstverständlich freue
ich mich über Anregungen und konstruktive Kritik an [email protected]
heidelberg.de.

Christel Weiß Mannheim, im Oktober 2007


VII

1976 Abitur
1976 – 1983 Studium der Mathematik und Physik an der
Johannes-Gutenberg-Universität Mainz
1986 – 1992 Wissenschaftliche Mitarbeiterin an der Abteilung
für Experimentelle Chirurgie an der Universität
Heidelberg
1991 Promotion zum Doctor scientiarum humanarum
1991 Anerkennung als Medizinischer Informatiker
durch die GMDS
1992 – heute Mathematikerin am Universitätsklinikum Mannheim
seit November 1999 Leiterin der Abteilung für Medizinische Statistik
Schlüsselbegriffe:
Basiswissen Medizinische Statistik sind fett und kursiv
hervorgehoben
Inhaltliche Struktur:
klare Gliederung durch
alle Kapitel

38 Kapitel 3 · Häufigkeiten

3.1 Häufigkeiten bei diskreten Merkmalen

Leitsystem: schnelle
3.1.1 Absolute und relative Häufigkeiten
Orientierung über alle
Kapitel Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines
Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung.
3 Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsaus-
prägungen in der Stichprobe zu finden sind.
k

¦n i =n (3.1)
Info: zusätzliche i =1

Informationen zum i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen


z
jeweiligen Thema Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise
k
dargestellt. Der Ausdruck ¦n i entspricht der Summe n1 + n2 + ... + nk .
i =1

Verweise auf Kapitel,


In der Praxis gewinnt man die Häufigkeiten am einfachsten durch
Tabellen, Herleitun- das Erstellen einer Strichliste oder – weniger mühsam – mittels einer
gen und Beispiele: geeigneten Software (z z› Beispiel 3.1).
deutlich herausgestellt
Beispiel 3.1
und leicht zu finden Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in
Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es er-
geben sich folgende Häufigkeiten:
Beispiele: zum Ausprägung absolute Häufigkeiten relative Häufigkeiten
A1 =Blutgruppe 0 n1 = 28 h1 = 39 %
besseren Verständnis
des Stoffes A2 =Blutgruppe A n2 = 31 h2 = 44 %
A3 =Blutgruppe B n3 = 9 h3 = 13 %
A4 =Blutgruppe AB n4 = 3 h4 = 4 %

Tabellen: klar Summe n = 71 100%

und übersichtlich ! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der
z
gegliedert Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei
einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei
kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Pro-
zente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirk-
lichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozent-
angaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häu-
figkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23.

Cave:
Vorsicht Fallstricke!
Navigation: Seitenzahl
und Kapitelnummer für
die schnelle Orientierung

39 3
3.1 Häufigkeiten bei diskreten Merkmalen

Abb. 3.1 Zahlreiche Abbildun-


Kreisdiagramm;
Darstellung der gen: veranschaulichen
Häufigkeiten des komplizierte und kom-
Merkmals „Blutgruppe“
(Beispiel 3.1) plexe Sachverhalte

Mathematische Herleitung des Korrelationskoeffizineten nach Pearson


Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn
der Zusammenhang funktional ist und durch eine lineare Gleichung
y = a + bx exakt beschrieben werden kann. Dann erhält man nach den
Definitionen der Kovarianz und der Varianz in (5.1) und (4.6):
n n n

¦x y i i − nxy ¦ x (a + bx ) − nx (a + bx )
i i b( ¦ xi2 − nx 2 )
s xy = i =1
= i =1
= i =1
= bsx 2
n −1 n −1 n −1 Herleitungen:
Für die Varianz s y 2 ergibt sich:
n n
Logisches Nachvollzie-
¦( y i − y )2 b2 ¦ ( xi − x )2 hen einer Formel zum
s y 2 = i =1 = i =1 = b2 sx 2
n −1 n −1 besseren Verständnis
Für positives b ist s y = bsx und s xy = bs x 2 = sx ⋅ s y . Für negatives b folgt ana-
log: s y = − bsx und sxy = − sx ⋅ s y . Da es sich hierbei um die beiden Extremfälle
handelt, folgt für die Kovarianz: − sx ⋅ s y ≤ sxy ≤ sx ⋅ s y . Daraus ergibt sich für
sxy
den Korrelationskoeffizienten r = : −1 ≤ r ≤ 1 .
sx ⋅ s y

Merke
Anhand eines Diagramms lassen sich bei quantitativen Merkmalen fol-
gende Eigenschaften ablesen:
ŷ Lage: In welchem Bereich konzentrieren sich die Werte?
Welches ist der größte, welches der kleinste Wert? Merke:
Welche Ausprägungen sind häufig, welche selten oder das Wichtigste auf den
gar nicht vertreten?
ŷ Streuung: Streuen die Werte weit um den Mittelwert? Punkt gebracht
Gibt es Ausreißer?
ŷ Form: Hat die Verteilung eine besondere Form?
Ist sie symmetrisch oder schief?
Wie viele Gipfel sind erkennbar?

Aufzählungen: Lerninhalte Sagen Sie uns Ihre Meinung!


übersichtlich präsentiert
Ÿwww.lehrbuch-medizin.de
www.lehrbuch-medizin/medstatistik
Die Website zum Buch

Lexikon
xVerstehen: nicht nur
Formeln, auch die
Begriffe machen
Statistik kompliziert.
Im Lexikon finden Sie
über 290 Begriffe
erklärt
Lerncenter

xÜberblicken: die wichtigsten Punkte der einzelnen Kapitel kurz


zusammengefasst

xAnwenden: stapelweise Examensfragen der Statistik mit


Lösungskommentaren

xAbhaken: angegebene Lernziele verdeutlichen Lernerfolg in Bezug


auf Gegenstandskatalog

Anmerkungen? Fragen?
7 [email protected]
Wir freuen uns!
Sagen Sie uns
die Meinung!

Liebe Leserin und lieber Leser,


Sie wollen gute Lehrbücher lesen,
wir wollen gute Lehrbücher machen:
dabei können Sie uns helfen!

Lob und Kritik, Verbesserungsvorschläge und neue Ideen


können Sie auf unserem Feedback-Fragebogen unter
www.lehrbuch-medizin.de gleich online loswerden.

Als Dankeschön verlosen wir jedes Jahr Buchgutscheine


für unsere Lehrbücher im Gesamtwert von 500 Euro.

Wir sind gespannt auf Ihre Antworten!

Ihr Lektorat Lehrbuch Medizin


XIII
Inhaltsverzeichnis

Inhaltsverzeichnis

Teil I: Deskriptive Statistik

1 Einleitung
1.1 Die Bedeutung der Statistik für die Medizin 3
1.2 Zur Geschichte der medizinischen Statistik 4
1.3 Der Status der medizinischen Statistik 11
1.4 Die Phasen einer medizinischen Studie 13
1.5 Anwendungen in Beruf und Studium 15

2 Theoretische Grundlagen
2.1 Grundgesamtheit und Stichprobe 19
2.2 Die Aufgaben der deskriptiven Statistik 20
2.3 Merkmale 21
2.4 Besondere Problematiken 29
2.5 Listen und Tabellen 32

3 Häufigkeiten
3.1 Häufigkeiten bei diskreten Merkmalen 39
3.2 Häufigkeiten bei stetigen Merkmalen 42
3.3 Die empirische Verteilungsfunktion 46
3.4 2-dimensionale Häufigkeiten 49

4 Die Beschreibung eines Merkmals


4.1 Die Methoden der univariaten Statistik 55
4.2 Lagemaße 55
4.3 Streuungsmaße 64
4.4 Formmaße 69
4.5 Der Vergleich mehrerer Stichproben 73

5 Die Beschreibung eines Zusammenhangs


5.1 Die Methoden der bivariaten Statistik 79
5.2 Die Korrelationsanalyse 80
5.3 Die Regressionsanalyse 88
5.4 Weitere Techniken 94
XIV

Teil II: Wahrscheinlichkeitsrechung

6 Wahrscheinlichkeiten in der Medizin


6.1 Die Aufgaben der Wahrscheinlichkeitsrechnung 101
6.2 Das Rechnen mit Wahrscheinlichkeiten 102
6.3 Wahrscheinlichkeiten in der Epidemiologie 111
6.4 Bevölkerungsstatistiken 114
6.5 Diagnostische Tests 118

7 Diskrete Verteilungen
7.1 Diskrete Zufallsvariable 125
7.2 Die Binomialverteilung 129
7.3 Andere diskrete Verteilungen 136

8 Stetige Verteilungen
8.1 Stetige Zufallsvariable 145
8.2 Die Normalverteilung 148
8.3 Sätze der Wahrscheinlichkeitsrechnung 155
8.4 Die Verteilung von Überlebenszeiten 162
8.5 Prüfverteilungen 166

Teil III: Induktive Statistik

9 Schätzverfahren
9.1 Grundlagen 173
9.2 Punktschätzungen 173
9.3 Intervallschätzungen 177
9.4 Abschließende Bemerkungen 184

10 Das Prinzip eines statistischen Tests


10.1 Die Durchführung eines Tests 189
10.2 Testentscheidung und Konsequenzen 195
10.3 Klassifikation der Testmethoden 202
XV
Inhaltsverzeichnis

11 Lagetests
11.1 t-Tests 207
11.2 Rangsummentests 215
11.3 Vorzeichentests 222
11.4 Ausblick auf komplexere Methoden 224

12 Tests zum Vergleich von Häufigkeiten


12.1 Der Binomialtest für eine Stichprobe 229
12.2 Chi2-Tests 231
12.3 Der exakte Test nach Fisher 243
12.4 Ausblick auf die logistische Regression 245

Teil IV: Epidemiologie


(Coautor: Prof. Dr. Berthold Rzany, Sc. M.,
Master of Science in Clinical Epidemiology)

13 Epidemiologische Studien
13.1 Aufgaben und Ziele der Epidemiologie 249
13.2 Der Inhalt epidemiologischer Studien 250
13.3 Klassifikation nach formalen Aspekten 251
13.4 Fehlerquellen 255
13.5 Die Studienplanung 258

14 Risikostudien
14.1 Einleitung 263
14.2 Deskriptive Studien 264
14.3 Fall-Kontroll-Studien 267
14.4 Kohortenstudien 272
14.5 Der Nachweis einer Kausalität 277

15 Studien zu Diagnostik und Prävention


15.1 Diagnosestudien 281
15.2 Präventionsstudien 288

16 Studien zu Therapie und Prognose


16.1 Therapiestudien 295
16.2 Prognosestudien 306
16.3 Evidenzbasierte Medizin 310
XVI
Anhang
Tabellen 317
Glossar Englisch-Deutsch 324
Abkürzungen – Abbreviations 327
Weiterführende Literatur 328

Sach- und Personenregister 329

Übersicht 1: Die Skalenniveaus 26


Übersicht 2: Univariate Datenbeschreibung – geeignete
Maßzahlen und graphische Darstellungen 73
Übersicht 3: Rechenregeln für Wahrscheinlichkeiten 111
Übersicht 4: Kenngrößen diagnostischer Tests 122
Übersicht 5: Analoge Begriffe aus der deskriptiven Statistik
und der Wahrscheinlichkeitsrechnung 128
Übersicht 6: Diskrete Verteilungen 142
Übersicht 7: Stetige Verteilungen 170
Übersicht 8: Statistische Tests 204
Übersicht 9: Studientypen 250
1

Einleitung
1.1 Die Bedeutung der Statistik für die Medizin 3

1.2 Zur Geschichte der medizinischen Statistik 4


1.2.1 Die historische Entwicklung der Statistik 5
1.2.2 Die Methodik in der medizinischen Wissenschaft 6
1.2.3 Anwendungen der Statistik in der Medizin 8

1.3 Der Status der medizinischen Statistik 11

1.4 Die Phasen einer medizinischen Studie 13

1.5 Anwendungen in Beruf und Studium 15


3 1
1.1 Die Bedeutung der Statistik für die Medizin

1.1 Die Bedeutung der Statistik für die Medizin

Jeder medizinische Wissenschaftler und jeder praktisch tätige Arzt


weiß aus Erfahrung, dass alle Erkenntnisse und Entscheidungen in
der Medizin mit einer gewissen Unsicherheit verbunden sind. In
diesem Punkt unterscheiden sich die Biowissenschaften grundlegend
von den exakten Naturwissenschaften: Während die Zusammen-
hänge in der Mathematik oder der theoretischen Physik determi-
niert und damit berechenbar sind (etwa aufgrund einer mathemati-
schen Gleichung oder eines physikalischen Gesetzes), unterliegen
die Zustände und Vorgänge bei biologischen Systemen nicht nur
naturwissenschaftlichen Gesetzen, sondern auch dem Zufall. Aus
diesem Grund lassen sich die Eigenschaften eines Individuums oder
medizinisch-biologische Abläufe allenfalls abschätzen, aber niemals
exakt berechnen oder vorhersagen.
Im Allgemeinen sind zwar zahlreiche Faktoren bekannt, die ein
bestimmtes Merkmal beeinflussen. So ist etwa das Körpergewicht
eines Menschen abhängig von dessen Alter und Geschlecht; außer-
dem sind genetische Einflüsse, die Körpergröße, pathologische und
psychische Besonderheiten sowie eine Reihe weiterer Einflussgrö-
ßen maßgebend. Es wird jedoch niemals möglich sein, alle das Kör-
pergewicht bestimmenden Faktoren zu benennen und deren Einfluss
im Einzelnen zu quantifizieren. Dazu sind die Vorgänge und Zusam-
menhänge im menschlichen Organismus viel zu komplex und von
unserem Verstand nicht mehr nachvollziehbar. Man geht deshalb
davon aus, dass das Körpergewicht – wie alle anderen physiologi-
schen Parameter – letztlich auch dem Zufall unterliegt.
Ebenso kennt man bei fast allen Krankheiten diverse Faktoren,
die deren Entstehen möglicherweise verursachen oder deren Auf-
treten begünstigen. So weiß man beispielsweise, dass bei Menschen,
die in permanenter Anspannung leben, stark rauchen sowie unter
erhöhtem Blutdruck und starkem Übergewicht leiden, die Gefahr
eines Herzinfarkts besonders hoch ist, und jeder verantwortungsbe-
wusste Arzt wird einen Risikopatienten darauf hinweisen. Dessen
ungeachtet gibt es Personen, die mit all diesen Risikofaktoren stein-
alt werden, ohne jemals einen Herzinfarkt zu erleiden – wie zum
Beispiel Winston Churchill, der an seinem 90. Geburtstag auf die
Frage, wie er so alt geworden sei, geantwortet haben soll: „Smoking,
drinking and – first of all – no sports“. Andererseits bietet eine ver-
meintlich gesunde Lebensweise, die alle bekannten Risikofaktoren
ausschließt, keinen zuverlässigen Schutz vor dieser Krankheit.
4 Kapitel 1 · Einleitung

Schließlich ist auch hier der Zufall mitentscheidend. Aus diesem


1 Grund kann bei keinem Menschen präzise vorhergesagt werden, ob
eine bestimmte Krankheit im Laufe seines Lebens eintreten wird
oder nicht.
In Einzelfällen kann der Zufall zu extremen Werten oder zu un-
erwarteten Ereignissen führen. Deshalb erlebt jeder Mediziner hin
und wieder Überraschungen – angenehmer oder unangenehmer Art.
Dies gilt für den Wissenschaftler, dessen Forschungsergebnisse stets
eine gewisse Irrtumswahrscheinlichkeit beinhalten, ebenso wie für
den behandelnden Arzt, der den Verlauf einer Krankheit nicht vor-
hersehen kann und niemals mit absoluter Sicherheit weiß, ob eine
therapeutische Maßnahme den gewünschten Erfolg erzielen wird.
Die Statistik als die Wissenschaft des Zufalls stellt nun Metho-
den zur Verfügung, die es ermöglichen, trotz der Unberechenbarkeit
der Einzelfälle allgemein gültige Aussagen herzuleiten. Diese bilden
die Basis für jede neue wissenschaftliche Erkenntnis und jedes daraus
abgeleitete ärztliche Handeln. Wann immer ein Arzt eine Entschei-
dung zu treffen hat, wird er sich an seiner eigenen Erfahrung sowie
an diesen allgemeinen Grundsätzen orientieren. Dieses Vorgehen ga-
rantiert zwar nicht, dass eine Entscheidung in jedem Fall richtig ist
und zum erhofften Ergebnis führt. Sie ist aber nachvollziehbar, und
das Risiko einer Fehlentscheidung ist minimiert. Der Zufall wird bei
dieser Vorgehensweise nicht eliminiert, aber quantifiziert und damit
kontrollierbar gemacht.
Neues Wissen in der Medizin kann nur unter Anwendung statis-
tischer Methoden gewonnen werden. Auch wenn persönliche Erfah-
rungen nach wie vor eine wichtige Säule des ärztlichen Entschei-
dungsprozesses darstellen, sind die Kenntnis biometrischer Metho-
den und die Fähigkeit, deren Resultate sinnvoll zu interpretieren,
unabdingbar. Insofern ist Statistik für die Medizin unentbehrlich,
sowohl um Forschung zu betreiben als auch, um deren Ergebnisse
praktisch anzuwenden.

1.2 Zur Geschichte der medizinischen Statistik

Die Medizin ist eine Jahrtausende alte Wissenschaft. Dennoch ist es


erst in den vergangenen Jahrzehnten üblich geworden, neue Er-
kenntnisse in der medizinischen Forschung mit statistischen Metho-
den abzusichern. Um diesen erstaunlich langen Prozess nachvollzie-
hen zu können, ist es notwendig, sich mit der historischen Ent-
5 1
1.2 Zur Geschichte der medizinischen Statistik

wicklung der Statistik zu befassen und außerdem einige Aspekte der


Medizingeschichte zu beleuchten.

1.2.1 Die historische Entwicklung der Statistik


„• Anfänge. Das primäre Anwendungsgebiet der Statistik bestand ur-
sprünglich in der Staatsbeschreibung. Bereits im 4. Buch Mose
„Numeri“ wird eine Volkszählung erwähnt; ferner sind aus dem
Altertum Volkszählungen aus Ägypten und Griechenland bekannt.
Dabei ging es vorwiegend um die Beschreibung geographischer, po-
litischer und wirtschaftlicher Besonderheiten, wie sie heute noch im
Statistischen Jahrbuch der Bundesrepublik Deutschland veröffent-
licht werden. Aus den Methoden der Staatsbeschreibung entwickelte
sich die beschreibende oder deskriptive Statistik, deren Aufgabe darin
besteht, Zustände und Vorgänge übersichtlich darzustellen. Bis
heute werden Methoden der deskriptiven Statistik in vielen Berei-
chen der Wirtschaft, der Verwaltung, des Versicherungswesens und
bei der Volkszählung angewandt, wo statistische Erhebungen als
Grundlage für Planungen dienen.
Sehr lange Zeit – bis ins 18. Jahrhundert hinein – wurde Statistik
fast ausschließlich für staatliche Zwecke benutzt. Dies erklärt die-
selbe etymologische Wurzel der Wörter „Statistik“ und „Staat“ (vom
lateinischen Wort „status“ = Zustand, Beschaffenheit).
„• 16. - 19. Jahrhundert. In England begann man zu Beginn des 16.
Jahrhunderts auf Veranlassung des Lordkanzlers Thomas Cromwell
(1485-1540), alle Geburts- und Todesfälle systematisch in Kirchen-
büchern aufzuzeichnen. Dies veranlasste John Graunt (1620-1674)
dazu, basierend auf Londoner Geburts- und Sterberegistern, Gesetz-
mäßigkeiten bezüglich der Bevölkerungsbewegung herzuleiten.
Graunt gilt als der Begründer der Demographie; sein Werk bildete
später die Grundlage für die Berechnung von Lebensversicherungen.
Kurze Zeit danach widerlegte der englische Arzt und Schriftsteller
John Arbuthnot (1667-1735) die These, dass Mädchen- und Knaben-
geburten gleich häufig seien, indem er Daten aus Kirchenbüchern
auswertete. Auch in Deutschland wurden seit dem Ende des 17.
Jahrhunderts Kirchenbücher geführt. Das bahnbrechende Werk der
deutschen Bevölkerungsstatistik mit dem Titel „Die göttliche Ord-
nung in den Veränderungen des menschlichen Geschlechts“ wurde
von dem preußischen Feldprediger Johann Peter Süßmilch (1707-
1767) erstellt. Die Gesetzmäßigkeiten, die er dabei entdeckte, führte
er auf das Wirken Gottes zurück. Diese Art von Statistik, die dazu
6 Kapitel 1 · Einleitung

diente, Bevölkerungsentwicklungen quantitativ zu beschreiben, be-


1 zeichnete man als politische Arithmetik.
Daneben gab es eine Anwendergruppe mit gänzlich anderen
Interessen: Ihnen ging es darum, die Gewinnchancen bei Glücks-
spielen zu berechnen. Dadurch wurden Mathematiker wie Galileo
Galilei (1564-1642), Blaise Pascal (1623-1662), Christiaan Huygens
(1629-1695) und Pierre Simon Marquis de Laplace (1749-1827) zur
Berechnung von bestimmten Wahrscheinlichkeiten und zu theore-
tischen Abhandlungen angeregt. Sie haben damit die Wahr-
scheinlichkeitsrechnung wesentlich bereichert. In diesem Zusam-
menhang ist auch der deutsche Mathematiker Carl Friedrich Gauß
(1777-1855) zu nennen, der u. a. die Normalverteilung und deren
Bedeutung für die angewandte Statistik beschrieben hat.
„• Moderne Statistik. Die Wahrscheinlichkeitsrechnung ist die
Grundlage der induktiven Statistik, die es ermöglicht, aufgrund einer
relativ kleinen Stichprobe Aussagen bezüglich einer weitaus größe-
ren Grundgesamtheit herzuleiten. Diese Methoden wurden erst im
20. Jahrhundert entwickelt. Besonders hervorzuheben sind dabei
William Sealy Gosset (1876-1937), der die t-Verteilung herleitete,
Karl Pearson (1857-1936), der die Korrelations- und Regressionsana-
lysen vorantrieb, und Sir Ronald Aylmer Fisher (1890-1962), auf den
u. a. die Varianzanalyse zurückgeht. Diese und andere Verfahren ha-
ben entscheidend dazu beigetragen, dass die Statistik in den Bio- und
Sozialwissenschaften mittlerweile breite Anwendung findet.

1.2.2 Die Methodik in der medizinischen Wissenschaft


Die Medizin als eine Wissenschaft, deren Zweck darin besteht,
kranken Menschen zu helfen, ist so alt wie die Menschheit selbst.
Als eine moderne Wissenschaft im heutigen Sinne kann sie jedoch
erst seit dem 19. Jahrhundert aufgefasst werden.
„• Antike. Über eine sehr lange Zeit – von der Antike bis ins 19.
Jahrhundert hinein – konnten Beobachtungen am kranken Men-
schen fast ausschließlich durch unmittelbare Sinneseindrücke des
behandelnden Arztes erfasst werden. Diese Beobachtungen waren
naturgemäß subjektiv und die daraus gezogenen Schlussfolgerungen
häufig spekulativ. Generell gab es zwei unterschiedliche Ansätze be-
züglich der Wahl einer geeigneten Therapie: den theoretischen und
den empirischen. Der Theoretiker suchte nach den Krankheitsursa-
chen und leitete dann durch logisch-konsequente Schlussfolgerun-
gen eine seiner Meinung nach nützliche therapeutische Maßnahme
her. Diese dogmatische Methode basierte auf unverrückbaren, nie
7 1
1.2 Zur Geschichte der medizinischen Statistik

zuvor überprüften Grundannahmen, die generell nicht in Frage ge-


stellt wurden. Der Empiriker gründete seine Entscheidungen auf
persönliche Erfahrungen und überprüfte sie in jedem Einzelfall.
Allerdings waren die dadurch gewonnenen Erkenntnisse ungeregelt,
da sie lediglich auf einzelnen, zufälligen Beobachtungen beruhten.
Die Autoritäten der beiden griechischen Ärzte Hippokrates von Kos
(ca. 460-370 v. Chr.) und Galen aus Pergamon (130-201) führten
dazu, dass die dogmatische Methode (also der theoretische Ansatz)
bis ins 16. Jahrhundert allgemein anerkannt war. Wegen der Auto-
ritätsgläubigkeit jener Zeit wagte es niemand, sich kritisch mit ihr
auseinander zu setzen. Eine moderne Wissenschaft im heutigen
Sinne konnte auf diese Weise freilich nicht entstehen.
„• Renaissance. Der Ursprung für die Wissenschaftlichkeit der
Medizin lag in der Renaissance. Ein herausragender Wissenschaftler
jener Epoche war Galileo Galilei, der weniger durch seine Einzel-
leistungen auf den Gebieten der Mathematik, Physik und Astrono-
mie Bedeutung erlangte als vielmehr dadurch, dass er die moderne
Naturwissenschaft auf objektiven Beobachtungen und nachvollzieh-
baren Experimenten aufbaute. Naturvorgänge wurden fortan nicht
mehr theologisch oder philosophisch erklärt, sondern aus Naturge-
setzen hergeleitet. Diese neue Methode begründete eine rasante
Entwicklung der Physik und der Chemie, was später auch die Medi-
zin nachhaltig beeinflussen sollte.
Nach der Einführung naturwissenschaftlicher Methoden in die
Medizin wurden subjektive Sinneseindrücke durch objektive Mess-
werte ersetzt, die sich mathematisch analysieren lassen. Erkennt-
nisse, die man auf diese Weise erhält, sind nachvollziehbar und bil-
den wiederum die Grundlage für weitere Forschungen.
Die Fortschritte in den Naturwissenschaften haben sich in
vielfacher Hinsicht segensreich auf die Medizin ausgewirkt. Sie
führten zu einem umfangreichen Wissen bezüglich der Vorgänge im
menschlichen Körper und damit zu einem besseren Verständnis der
Körperfunktionen beim gesunden und beim kranken Menschen. Ba-
sierend auf naturwissenschaftlichen Erkenntnissen wurden techni-
sche Apparate entwickelt, die eine exakte Messung von physiologi-
schen Parametern erlaubten und im Laufe der Zeit ungeahnte Mög-
lichkeiten in Diagnostik und Therapie eröffneten.
„• Aufklärung. Man erkannte allmählich, dass sich alle medizini-
schen Phänomene theoretisch auf naturwissenschaftliche Gesetze
zurückführen lassen. Im 17. Jahrhundert dachten deshalb einige
Ärzte euphorisch, dass man bald in der Lage sein werde, die Ursa-
chen aller Krankheiten zu ergründen und wirksame Therapien zu
8 Kapitel 1 · Einleitung

entwickeln. Es setzte sich dann jedoch – beginnend im 18. Jahrhun-


1 dert zur Zeit der Aufklärung – die Erkenntnis durch, dass physikali-
sches und chemisches Grundwissen dafür bei weitem nicht aus-
reicht. So besann man sich auf eine Methode zur Erkenntnisgewin-
nung, die bereits ein Jahrhundert zuvor von dem englischen Philo-
sophen Francis Bacon (1561-1626) propagiert worden war. Sie bein-
haltete die Beobachtung zahlreicher Einzelfälle, die lückenlose Auf-
zeichnung der erhobenen Daten und deren rechnerische Auswer-
tung. Dieser Ansatz vermittelte objektive Erkenntnisse, die jedoch
vom Zufall beeinflusst waren. Er bedeutete einen Wechsel von
einem ehemals theoretisch-dogmatischen hin zu einem empirischen
Ansatz. So begann allmählich die Statistik, Einzug in die Medizin zu
halten. Statistische Methoden ermöglichen es, Erfahrungen abzusi-
chern – auch dann, wenn diese (noch) nicht auf molekularer oder
zellulärer Ebene erklärt werden können.
„• 20. Jahrhundert. Es sollte allerdings noch bis weit ins 20. Jahr-
hundert dauern, ehe statistische Methoden in den Biowissenschaften
akzeptiert wurden. Dies lag nicht zuletzt daran, dass allgemein aner-
kannte Richtlinien bezüglich der medizinischen Forschung am Men-
schen fehlten. Diese wurden erst im Jahre 1964 auf der 18. General-
versammlung des Weltärztebundes in Helsinki erarbeitet. Heute
herrscht weitgehend Konsens darüber, dass – außer der Anwendung
naturwissenschaftlicher Erkenntnisse – die Beobachtung von Indivi-
duen und die damit verbundene Datenanalyse für die medizinische
Forschung unverzichtbar sind.

1.2.3 Anwendungen der Statistik in der Medizin


„• Wurzeln in England. Der Forderung Bacons, zahlreiche Einzel-
fälle zu beobachten und auszuwerten, stand zunächst entgegen, dass
sich die Medizin bis ins 18. Jahrhundert hinein traditionellerweise
nur mit einzelnen Patienten befasste. Bacons neuer Erfahrungsbe-
griff war grundlegend dafür, dass fortan klinische Studien durchge-
führt und die daraus erhobenen Daten analysiert wurden. Er kam
zunächst in England, wenn auch zögerlich, zur Anwendung. Auf-
grund dieser Entwicklungen ist es nicht erstaunlich, dass die ersten
medizinischen Publikationen mit statistischen Analysen in England
erschienen. Edward Jenner (1749-1823) verifizierte statistisch die
prophylaktische Wirkung der Kuhpockenimpfung. Der Rechtsan-
walt Edwin Chadwick (1800-1890) beschrieb die Gesundheit der ar-
beitenden Klassen in England und gab damit der Hygienebewegung
wichtige Impulse. Seine Daten gründeten sich auf statistische Ana-
9 1
1.2 Zur Geschichte der medizinischen Statistik

lysen von William Farr (1807-1883), der Berichte über Todesursa-


chen in England publiziert hatte. John Snow (1813-1858) entdeckte,
dass das Cholera-Risiko in London mit der Qualität des Trinkwassers
zusammenhing. Seine Forschungsarbeiten zählen zu den ersten und
spektakulärsten Leistungen auf dem Gebiet der Epidemiologie.
Freilich waren die damals verwendeten statistischen Verfahren
nicht zu vergleichen mit den heute gebräuchlichen. Es handelte sich
überwiegend um einfache arithmetische Operationen. Dennoch war
diese Vorgehensweise geeignet, die theoretisch-dogmatische Medi-
zin grundlegend zu reformieren und in ihrer Methodik den Natur-
wissenschaften anzupassen. Pionierarbeit auf diesem Gebiet leistete
der bereits erwähnte Sir Ronald Aylmer Fisher, der sich u. a. intensiv
mit den Themen „Versuchsplanung und -auswertung“ befasste.
„• Auswirkungen auf Europa. Im 18. Jahrhundert entstanden in
einigen europäischen Städten wie z. B. in Paris oder Wien Kranken-
häuser, die die Beobachtung größerer Kollektive ermöglichten. Als
der Begründer der klinischen Statistik gilt Pierre Charles Alexandre
Louis (1787-1872), der eine naturwissenschaftlich orientierte Medi-
zin vertrat. Er überprüfte die Wirkung des Aderlasses und wies –
nachdem diese Methode Jahrhunderte lang angewandt worden war –
mittels statistischer Analysen nach, dass dieses Mittel nutzlos oder
gar schädlich war. Ignaz Philipp Semmelweis (1818-1865) war der
erste bekannte Mediziner im deutschsprachigen Raum, der den Nut-
zen einer neuen Therapie mit statistischen Methoden belegte. Sem-
melweis war seit 1846 Assistent in der Geburtsklinik des Wiener
Allgemeinen Krankenhauses, die aus zwei Abteilungen bestand. Die
Mortalitätsraten der Wöchnerinnen differierten sehr stark: Zwi-
schen 1841 und 1846 starben in der einen Abteilung durchschnitt-
lich 9,9%, in der anderen dagegen nur 3,4% der Frauen. In der Ab-
teilung mit der geringeren Mortalitätsrate arbeiteten nur Hebam-
men. In der anderen Abteilung waren Ärzte und Studenten, die auch
Leichen sezierten, als Geburtshelfer tätig. Die Mortalitätsrate in der
Abteilung der Ärzte war großen Schwankungen unterworfen. Sem-
melweis beobachtete, dass sie immer dann besonders hoch war,
wenn viele pathologische Studien durchgeführt wurden. In Zeiten
allerdings, in denen keine Leichen seziert wurden, waren die Morta-
litätsraten in beiden Abteilungen etwa gleich. Dieser Zusammen-
hang war für Semmelweis zunächst nicht erklärbar. Das ausschlagge-
bende Moment für seine Entdeckung war der Tod seines Freundes
und Kollegen Jakob Kolletschka, der sich beim Sezieren versehent-
lich mit dem Messer verletzt hatte. Semmelweis erkannte beim Stu-
dium des Sektionsprotokolls die Parallelität der beiden Krankheits-
10 Kapitel 1 · Einleitung

bilder des Kindbettfiebers und des Wundfiebers. Er vermutete, dass


1 die Ursachen in beiden Fällen dieselben waren: Die Ärzte und Stu-
denten aus der pathologischen Abteilung übertrugen den gebären-
den Frauen „Leichenteilchen“, die das Kindbettfieber verursachten.
Dies war in der damaligen Zeit, als bakteriologische Erreger noch
unbekannt waren, eine sehr gewagte Hypothese. Semmelweis setzte
gegen den Widerstand seiner Kollegen hygienische Maßnahmen
durch; die Sterblichkeit sank daraufhin drastisch auf unter 2% in
beiden Abteilungen. Im Jahr 1861 veröffentlichte er seine Entde-
ckung in einer ausführlichen Arbeit, die auch eine statistische Ana-
lyse beinhaltete.
Obwohl Semmelweis seine Hypothese eindrucksvoll bestätigen
konnte, wurden seine aus heutiger Sicht bahnbrechenden Erkennt-
nisse zu seinen Lebzeiten nicht anerkannt. Etwas später, im Jahre
1865, stellte der Augustinermönch Gregor Johann Mendel (1822-
1884) seine Vererbungsgesetze vor, die er nach einer langen und
mühsamen Forschungsarbeit ebenfalls mit statistischen Methoden
verifiziert hatte. Auch diese Erkenntnisse fanden zunächst keine
große Beachtung.
„• Entwicklung in Deutschland. Die in England, Paris oder Wien
durchgeführten Studien nahmen deutsche Ärzte kaum zur Kenntnis.
Es gab Kommunikationsprobleme, die nicht nur sprachlicher Art
waren. Dies lag u. a. am damals herrschenden Zeitgeist. Deutschland
stand unter dem Einfluss der romantischen Naturphilosophie, bei der
das Individuum im Vordergrund stand. Ein Vertreter dieser Denk-
richtung war beispielsweise der Begründer der Homöopathie Chris-
tian Friedrich Samuel Hahnemann (1755-1843). Eine bevölkerungs-
bezogene und naturwissenschaftlich orientierte Medizin sowie die
Anwendung statistischer Methoden konnten sich bei dieser Grund-
einstellung kaum durchsetzen. Außerdem war man bis zur Mitte des
19. Jahrhunderts gewohnt, dass Wissenschaftler den deterministi-
schen Verlauf eines Geschehens angeben konnten. Man forderte
Gewissheit und nicht Unsicherheit. Semmelweis konnte jedoch im
Einzelfall nicht vorhersagen, ob eine Frau die Geburt überleben
würde; er konnte nur gewisse Wahrscheinlichkeiten angeben. Diese
fundamentale Eigenschaft der Statistik – sie erlaubt keine gesicher-
ten Aussagen bezüglich eines Einzelfalls, sondern nur für eine große
Menge von Personen oder Objekten – wird auch heute noch von
vielen Anwendern emotional als Nachteil anstatt als nüchterne
Tatsache angesehen. Im Übrigen lässt sich das Phänomen, wonach
neue Methoden zunächst sehr skeptisch beurteilt werden, bis in die
heutige Zeit hinein beobachten.
11 1
1.3 Der Status der medizinischen Statistik

„• 20. Jahrhundert. Aus all diesen Gründen hat sich die Anwendung
der Statistik in der Medizin lange verzögert. Ein weiterer Grund für
die mangelnde Akzeptanz lag in der Statistik selbst. Erst im 20. Jahr-
hundert wurden Methoden entwickelt, mit denen sich anhand einer
relativ kleinen Stichprobe allgemein gültige Zusammenhänge nach-
weisen lassen. Diese Methoden haben der medizinischen Wissen-
schaft enorme Impulse verliehen.
Dem Internisten Paul Martini (1889-1964) sowie den Biostatisti-
kern Arthur Linder (1904-1993) und Erna Weber (1897-1988), deren
Bücher lange Zeit als Standardwerke galten, ist es zu verdanken, dass
die von England ausgehenden Ideen auch im deutschen Sprachgebiet
bekannt und praktisch umgesetzt wurden.
Nicht zuletzt hat das Aufkommen leistungsfähiger Computer
und benutzerfreundlicher Software seit Beginn der 1980er Jahre zu
einer enormen Vereinfachung und Beschleunigung statistischer Be-
rechnungen geführt. Auch diese neuere Entwicklung hat entschei-
dend zur Akzeptanz der Statistik in der Medizin beigetragen. Seit
den 1990er Jahren werden zunehmend multiple Methoden entwi-
ckelt, bei denen mehrere Einflussgrößen simultan untersucht wer-
den, und die eine sehr effiziente Datenanalyse ermöglichen. Diese
werden in einer Biomathematik-Vorlesung für Mediziner norma-
lerweise nicht detailliert behandelt. Interessierte Leser seien auf
weiterführende Literatur verwiesen [1, 2, 4, 10].

1.3 Der Status der medizinischen Statistik

„• Medizinische Statistik oder Biostatistik. Sie hat sich mittlerweile


als ein eigenständiges, interdisziplinäres Fachgebiet etabliert, das
statistische Probleme behandelt, die sich aus medizinischen Frage-
stellungen ergeben. Im weiteren Sinne zählen dazu die Planung und
Durchführung von medizinisch-wissenschaftlichen Studien sowie
die Datenanalyse mit statistischen Methoden. Sie ist einerseits Teil-
gebiet der Biomathematik, andererseits gehört sie zur Stochastik. In
engem Zusammenhang dazu steht die Biometrie. Dieser Wissen-
schaftszweig befasst sich mit der mathematischen Modellierung von
zufallsabhängigen Phänomenen in der Medizin, Pharmazie, Biologie
und Landwirtschaft.
12 Kapitel 1 · Einleitung

! Für den Begriff „Biometrie“ existieren unterschiedliche Definitionen.


z
1 Während er einerseits als Synonym für Biostatistik verstanden wird, be-
zieht er sich in der Informatik auf die Verarbeitung individueller körper-
licher Merkmale wie etwa dem Fingerabdruck zum Identitätsnachweis
von Personen. Auf diese spezielle Bedeutung wird in diesem Buch nicht
eingegangen.

• Biomathematik. Dieses Fach behandelt die Theorie und Anwen-


„
dung mathematischer Methoden im Bereich der Biowissenschaften.
Sie beinhaltet außer der Statistik noch weitere mathematische Dis-
ziplinen.
„• Stochastik. Dieser Begriff umfasst den gesamten Wissenschaftsbe-
reich, der sich mit der mathematischen Behandlung von Zufallser-
scheinungen befasst. Teilgebiete der Stochastik sind:
ŷ die Statistik,
ŷ die Wahrscheinlichkeitsrechnung sowie
ŷ fachspezifische Anwendungsgebiete.
„• Statistik. Im allgemeinen Sinne versteht man darunter eine Me-
thode, mit der Daten analysiert werden, um so zu neuen Erkennt-
nissen zu gelangen. Man unterscheidet generell zwischen deskripti-
ver und induktiver Statistik. Während in der deskriptiven Statistik
Daten strukturiert, zusammengefasst und übersichtlich dargestellt
werden, ermöglicht die induktive Statistik den Schluss über den Be-
obachtungsbereich hinaus auf die darüber liegende Grundgesamt-
heit. Mit den Methoden der induktiven Statistik lassen sich Hypo-
thesen, die vor Studienbeginn aufgestellt werden, überprüfen und
statistisch absichern. In den letzten zwanzig Jahren hat sich eine
weitere Form der Datenanalyse herauskristallisiert – nämlich die
explorative Statistik. Deren Ziel besteht darin, bei einer großen Da-
tenmenge Auffälligkeiten und Hinweise auf mögliche Zusammen-
hänge zu entdecken und darauf basierend neue Hypothesen zu gene-
rieren.
„• Wahrscheinlichkeitsrechnung. Sie befasst sich mit den mathema-
tisch-theoretischen Gesetzmäßigkeiten, auf denen die Verfahren der
induktiven Statistik basieren. Zu den fachspezifischen Anwendungs-
gebieten zählen u. a. die medizinische Statistik, die Qualitätssiche-
rung und die Entscheidungstheorie in der Unternehmensforschung.
13 1
1.4 Die Phasen einer medizinischen Studie

1.4 Die Phasen einer medizinischen Studie

Die Medizin ist eine empirische Wissenschaft, deren Erkenntnisse


auf Erfahrungen basieren. Ein Forschungsprozess beginnt in der
Regel damit, dass ein Wissenschaftler, nachdem er hinreichend viele
Erfahrungen gesammelt hat, nach längerem Nachdenken oder auf-
grund einer genialen Idee einen Zusammenhang entdeckt, der bis
dahin noch unbekannt gewesen ist. Diese neue Erkenntnis ist aller-
dings zunächst nicht mehr als eine vage Vermutung. Um sie zu veri-
fizieren, muss eine wissenschaftliche Studie durchgeführt werden.
„• Beginn einer Studie. Zunächst sollte sich der Forscher in der so
genannten Erkundungsphase anhand von relevanter Literatur über
den aktuellen Wissensstand kundig machen und eventuell mit kom-
petenten Fachleuten darüber diskutieren, ob die geplante Studie
sinnvoll und notwendig ist.
Danach wird er in der theoretischen Phase seine Vermutung als
Hypothese formulieren und versuchen, diese in eine logisch konsis-
tente Theorie einzubetten. Damit ist die Hypothese theoretisch ab-
gesichert und herleitbar. Diese Art wissenschaftlicher Methodik –
das Herleiten einer neuen Hypothese aus einer bekannten Theorie –
nennt man deduktiv.
„• Statistische Analyse. Streng deduktiv arbeitet man fast nur in der
reinen Mathematik. Neue mathematische Sätze werden aus bekann-
ten Theorien hergeleitet; weitergehende Studien oder Experimente
sind dazu nicht notwendig.

Erkundungsphase
- Literaturstudium, Diskussion mit Fachleuten etc. -
|
Theoretische Phase
- Formulierung einer Hypothese, Einbetten in eine Theorie -
|
Analytisch-statistische Phase
- Planung, Datenerhebung, -beschreibung und -analyse -
|
Interpretation der Ergebnisse
- Entscheidung für oder gegen die Hypothese -
Abb. 1.1 Die Phasen einer medizinischen Studie
14 Kapitel 1 · Einleitung

Da jedoch eine Theorie in der Medizin niemals vollständig sein kann


1 und deshalb die Realität nicht in allen Details genau beschreibt,
muss die zu verifizierende Hypothese empirisch bestätigt werden.
Dazu ist die analytisch-statistische Phase erforderlich. Diese bein-
haltet eine detaillierte Planung sowie die Datenerhebung und Daten-
auswertung mit statistischen Methoden. Bei retrospektiven Studien
sind die Daten in der Regel bereits dokumentiert und müssen nur
noch in passender Weise aufbereitet werden; bei prospektiven Beob-
achtungsstudien oder experimentellen Studien sind die Daten zu-
nächst zu erheben, ehe sie statistisch analysiert werden können.
„• Interpretation der Ergebnisse. Wenn die Ergebnisse der statisti-
schen Analyse die Theorie bestätigen, wird man sich für die Richtig-
keit der daraus hergeleiteten Hypothese entscheiden. Diese ist damit
zwar nicht bewiesen im mathematischen Sinne, aber doch wesent-
lich besser abgesichert als vor der statistischen Analyse. Eine falsche
Entscheidung ist hierbei nicht ausgeschlossen – dieses Risiko ist je-
doch kalkulierbar. Falls das Ergebnis der Datenanalyse mit der Theo-
rie nicht in Einklang zu bringen ist, muss überprüft werden, ob die
Theorie einen Fehler enthält, oder ob die analytisch-statistische
Phase nicht optimal verlaufen ist. Eventuell kann eine Wiederho-
lung der Studie in modifizierter Form in Erwägung gezogen werden.
Die Methode, wonach vom Besonderen (nämlich der Stichprobe) auf
das Allgemeine (die Grundgesamtheit) geschlossen wird, nennt man
induktiv. Dieses Verfahren wurde aus den Naturwissenschaften über-
nommen. Auch bei naturwissenschaftlichen Experimenten werden –
ähnlich wie bei medizinischen Studien – Daten erhoben und ausge-
wertet, um funktionale Zusammenhänge zu erkennen und diese
dann zu allgemein gültigen Naturgesetzen zu erklären.
Allerdings unterscheiden sich naturwissenschaftliche Experi-
mente in einem wichtigen Punkt von medizinischen Untersuchun-
gen. In den Naturwissenschaften arbeitet man unter kontrollierten
Bedingungen im Labor; der Zufall spielt dabei keine oder allenfalls
eine untergeordnete Rolle.
Dagegen hat man es in der Medizin mit Individuen zu tun, bei
denen die potentiellen Einflussgrößen wegen ihrer Vielzahl und
Komplexität kaum kontrollierbar sind. Aus diesem Grund müssen
sich alle Wissenschaftler, die menschliche Eigenschaften untersu-
chen – seien es Mediziner, Psychologen, Soziologen oder Politologen
–, mit dem Zufall und mit Statistik auseinander setzen.
15 1
1.5 Anwendungen in Beruf und Studium

1.5 Anwendungen in Beruf und Studium

Die meisten medizinischen Publikationen (Artikel in Fachzeit-


schriften, Dissertationen und Habilitationen) beinhalten statistische
Analysen. Ausnahmen bilden allenfalls Publikationen in Fächern
wie Geschichte oder Ethik der Medizin sowie Einzelfalldarstellun-
gen, bei denen nur ein einziger oder einige wenige, besonders inte-
ressante Fälle untersucht und beschrieben werden. Diese liefern
möglicherweise Hinweise auf andere, ähnlich gelagerte Fälle. Sie
lassen jedoch im Gegensatz zu einer Stichprobenuntersuchung keine
Verallgemeinerungen zu.
Alle Mediziner, die forschen und publizieren, benötigen statisti-
sche Methoden, um Untersuchungen durchzuführen, deren Ergeb-
nisse darzustellen und zu verallgemeinern. Die Statistik ist dabei eine
unentbehrliche Hilfswissenschaft – ähnlich wie die Mathematik in
der Physik.
Auch ein praktisch tätiger Arzt betreibt Statistik – wenn auch
nicht in formalisierter Form, sondern eher auf intuitive Art und
Weise. Wenn er etwa einen Laborwert danach bewertet, ob er in-
nerhalb oder außerhalb des Normbereichs liegt, wenn er aufgrund
eines diagnostischen Tests zu beurteilen versucht, ob eine bestimmte
Krankheit vorliegt oder nicht, wenn er aufgrund vorhandener Sym-
ptome eine Diagnose stellt, wenn er den zu erwartenden Nutzen und
die Risiken einer Therapie gegeneinander abwägt und sich dann für
oder gegen eine bestimmte Maßnahme entscheidet – dann liegen all
diesen Entscheidungen, oft unbewusst, statistische Analysen zu-
grunde.
Theoretische Kenntnisse auf diesem Gebiet lassen erkennen, dass
man bei spontanen, intuitiven Entscheidungen oft einem großen
Irrtum unterliegt. Sie tragen deshalb wesentlich dazu bei, vorsichtig
zu entscheiden und verantwortungsbewusst zu handeln.
Im Übrigen ist jeder Arzt – unabhängig von seinem Arbeitsge-
biet – angehalten, sich permanent weiterzubilden, da sich das medi-
zinische Wissen rasant vermehrt. Dabei benötigt er statistische
Kenntnisse, um gute von schlechten Studien zu unterscheiden und
um die Relevanz der dargestellten Ergebnisse für seine Patienten
oder sein Labor beurteilen zu können. Nicht zuletzt schult die Bio-
mathematik einen Anwender im problemorientierten, logisch-ana-
lytischen Denken. Auch diese Fähigkeiten sind für einen Arzt un-
entbehrlich.
16 Kapitel 1 · Einleitung

Insofern ist die Beschäftigung mit der Biostatistik als Vorbereitung


1 für den künftigen Beruf nützlich und sinnvoll. Im Allgemeinen ist
ein Student spätestens beim Erstellen seiner Dissertation gezwungen,
sich mit Statistik auseinander zu setzen. Zum einen ist dies notwen-
dig, um relevante Fachartikel und Vorträge zu verstehen und zu be-
werten; zum anderen liegt fast jeder Dissertation eine statistische
Datenanalyse zugrunde. Es ist für einen Doktoranden der Medizin
oder für einen in der Forschung tätigen Arzt durchaus empfehlens-
wert, sich dabei von einem Statistiker beraten zu lassen. Dies ist aber
nur dann hilfreich, wenn er selbst zumindest über elementare, sta-
tistische Kenntnisse verfügt – so wie dieses Buch sie zu vermitteln
sucht.
2

Theoretische Grundlagen
2.1 Grundgesamtheit und Stichprobe 19

2.2 Die Aufgaben der deskriptiven Statistik 20

2.3 Merkmale 21
2.3.1 Grundbegriffe 21
2.3.2 Ziel- und Einflussgrößen 22
2.3.3 Klassifikation nach Skalenniveau 23
2.3.4 Diskrete und stetige Merkmale 25
2.3.5 Skalentransformationen 25
2.3.6 Merkmalsausprägungen 28

2.4 Besondere Problematiken 29

2.5 Listen und Tabellen 32


19 2
2.1 Grundgesamtheit und Stichprobe

2.1 Grundgesamtheit und Stichprobe

Die Hypothesen, die in den Bio- und Sozialwissenschaften aufgestellt


werden, beziehen sich meist auf eine sehr große Anzahl von Indivi-
duen oder Objekten. Es wäre aus organisatorischen und zeitlichen
Gründen viel zu aufwendig oder sogar vollkommen unmöglich, die
gesamte Population zu untersuchen, auf die eine Hypothese zutref-
fen könnte. Dies ist im Allgemeinen auch gar nicht notwendig. Die
moderne Statistik stellt nämlich Methoden zur Verfügung, die es er-
möglichen, basierend auf einer relativ kleinen Stichprobe allgemein
gültige Aussagen bezüglich einer weitaus größeren Grundgesamtheit
herzuleiten.
Eine Total- oder Vollerhebung wird daher nur in Ausnahmefällen
durchgeführt. Beispielsweise beruhen die Todesursachenstatistiken,
die im jährlich erscheinenden Statistischen Jahrbuch der Bundesre-
publik Deutschland veröffentlicht werden, medizinische Register
oder die Ergebnisse einer politischen Wahl auf einer Vollerhebung.
Im Allgemeinen beschränkt man sich jedoch – insbesondere in der
medizinischen Forschung – auf die Untersuchung einer relativ klei-
nen Teilmenge, nämlich der Stichprobe, und überträgt die daraus ge-
wonnenen Erkenntnisse auf die Grundgesamtheit. Dies ist allerdings
nur unter der Voraussetzung sinnvoll, dass die charakteristischen
Eigenschaften der Stichprobe – abgesehen von zufällig bedingten
Abweichungen – mit denen der Grundgesamtheit übereinstimmen.
Eine solche Stichprobe heißt repräsentativ.
Bei vielen Untersuchungen ist man vor das Problem gestellt, aus
einer konkret vorgegebenen Grundgesamtheit eine repräsentative
Stichprobe zu wählen. Ein Beispiel hierfür stellt eine Umfrage vor
einer politischen Wahl dar. Die Grundgesamtheit besteht in diesem
Fall aus allen wahlberechtigten Bürgern. Um eine Prognose zu
erstellen, beschränkt man sich auf eine Stichprobe von einigen tau-
send Personen. Diese Stichprobe muss repräsentativ und hinreichend
groß sein, damit sie das endgültige Wahlergebnis in brauchbarer
Weise widerspiegelt.
Bei Untersuchungen in der Medizin ist die Problemstellung häu-
fig umgekehrt: Gegeben sind eine oder mehrere konkrete Stichpro-
ben (beispielsweise Patienten, die im Rahmen einer klinischen Stu-
die beobachtet werden). Dann ist zu klären, wie die dazugehörende
Grundgesamtheit beschaffen ist und ob die Stichprobenergebnisse
auf diese übertragbar sind. Eine Antwort auf diese Frage beruht
mehr auf sachlogischen als auf wahrscheinlichkeitstheoretischen
20 Kapitel 2 · Theoretische Grundlagen

Überlegungen und ist eng mit dem jeweiligen Forschungsvorhaben


verknüpft. Oft lässt sich die entsprechende Grundgesamtheit gar
nicht konkret angeben. Man sollte sich in jedem Fall davor hüten,
allzu weit reichende Schlussfolgerungen zu ziehen, die sich hinter-
2 her als falsch herausstellen könnten.
Dieses Problem kann man zwar umgehen, indem man eine Un-
tersuchung nur für einen speziellen, eng begrenzten Personenkreis
durchführt und diesen als Grundgesamtheit auffasst. Allerdings gel-
ten die dadurch gewonnenen Ergebnisse nur eingeschränkt auf die
Menge der untersuchten Personen und lassen sich nicht verallge-
meinern.

2.2 Die Aufgaben der deskriptiven Statistik

Aus dem obigen Abschnitt geht hervor, dass bei einer Stichproben-
untersuchung die statistische Analyse aus zwei Teilen besteht. Zu-
nächst werden die Daten der Stichprobe ausgewertet mit dem Ziel,
deren charakteristische Eigenschaften zu beschreiben. Dies ist das
Aufgabengebiet der deskriptiven Statistik. Dazu zählen im Einzelnen:
ŷ das Zusammenfassen und Ordnen der Daten in Tabellen,
ŷ das Erstellen von Diagrammen und
ŷ das Berechnen charakteristischer Kenngrößen oder Maßzahlen
› Kapitel 4).
(z. B. Mittelwert und Standardabweichung, z

Abb. 2.1
Grundgesamtheit
und Stichprobe
Grundgesamtheit

Stichprobe

deskriptive Statistik induktive Statistik


21 2
2.3 Merkmale

Wenn zwei oder mehrere Stichproben miteinander zu vergleichen


sind (beispielsweise zwei Therapiegruppen bei einer klinischen Stu-
die), sollte man zunächst für jede einzelne Stichprobe graphische
Darstellungen erstellen und geeignete Kenngrößen berechnen. Da-
mit lässt sich bereits überblicken, ob und wie sich die Stichproben
unterscheiden.
In einem zweiten Schritt versucht man dann, mit geeigneten
Methoden der induktiven Statistik die Ergebnisse, die aus den Stich-
proben gewonnen wurden, zu verallgemeinern und statistisch
abzusichern. So gesehen, ist die deskriptive Statistik die Vorstufe zur
induktiven Statistik. Beide Teilbereiche sind zur Datenanalyse not-
wendig und ergänzen sich.

2.3 Merkmale

2.3.1 Grundbegriffe
• Untersuchungseinheiten. Die Personen oder Objekte einer Stich-
„
probe werden als Untersuchungseinheiten (oder Merkmalsträger)
bezeichnet. In der medizinischen Forschung handelt es sich dabei
meist um Patienten, Probanden, Versuchstiere oder Laborproben.
„• Beobachtungseinheiten. Das sind die kleinsten Einheiten, an de-
nen die einzelnen Beobachtungen registriert werden. Häufig sind die
Beobachtungseinheiten mit den Untersuchungseinheiten identisch.
Oft ist es jedoch angebracht, die Untersuchungseinheiten näher zu
spezifizieren. Wenn etwa bei Patienten beide Augen untersucht
werden, versteht man unter den Untersuchungseinheiten die Pati-
enten und unter den Beobachtungseinheiten die einzelnen Augen.
Wenn Patienten im Rahmen einer Studie mehrmals untersucht wer-
den, dann ist eine Beobachtungseinheit identisch mit einem Patien-
ten bezogen auf eine einzelne Untersuchung.
„• Merkmale. Die Beobachtungseinheiten sind durch bestimmte
Merkmale charakterisiert – das sind Eigenschaften, die für die zu
untersuchende Fragestellung relevant sind und statistisch ausgewer-
tet werden. Andere Eigenschaften der Beobachtungseinheiten sind –
zumindest im Rahmen der jeweiligen Studie – uninteressant. An-
stelle von Merkmalen spricht man auch von Variablen oder Zufalls-
variablen, insbesondere dann, wenn damit Rechnungen durchge-
führt oder mathematische Gleichungen erstellt werden.
22 Kapitel 2 · Theoretische Grundlagen

• Merkmalsausprägungen. Darunter versteht man die Werte oder


„
Ausprägungen, die ein bestimmtes Merkmal annehmen kann.
Die Art der Merkmale ist entscheidend für die Planung und Durch-
2 führung einer Studie, insbesondere für den erforderlichen Stichpro-
benumfang und die geeigneten Analysemethoden. Deshalb sind zu
Beginn der Planungsphase die zu erfassenden Merkmale genau fest-
zulegen und deren Eigenschaften zu spezifizieren. Merkmale lassen
sich nach verschiedenen Aspekten klassifizieren:
ŷ nach ihrer Funktion bei der statistischen Analyse (z› Abschnitt
2.3.2),
ŷ nach ihrem Skalenniveau (z› Abschnitt 2.3.3)
ŷ und danach, ob sie diskret oder stetig sind (z› Abschnitt 2.3.4).

2.3.2 Ziel- und Einflussgrößen


Merkmale lassen sich grob einteilen in Ziel- und Einflussgrößen. Der
eigentliche Zweck einer Studie besteht darin, Erkenntnisse über eine
oder mehrere Zielgrößen zu gewinnen.
Die Merkmale, die in einem funktionalen Zusammenhang zu
den Zielgrößen stehen und diese möglicherweise beeinflussen, hei-
ßen Einflussgrößen. Diese lassen sich wiederum unterteilen in:
ŷ Faktoren, die erfasst und ausgewertet werden (im engeren Sinne
versteht man unter den Einflussgrößen nur die Faktoren),
ŷ Störgrößen, die im Versuchsplan nicht berücksichtigt sind oder
nicht erfasst werden, und
ŷ Begleitmerkmale, die zwar erfasst, aber im Rahmen der aktuel-
len Studie nicht ausgewertet werden (z. B. Nebenwirkungen bei
einer klinisch-kontrollierten Studie).

Abb. 2.2 Störgrößen


Einflussgrößen Faktor(en)
und Zielgrößen

Begleit-
merkmal(e)

Zielgröße(n)
23 2
2.3 Merkmale

Beispiel 2.1
Die Hypothese „Zigarettenrauchen beeinflusst das Entstehen eines Lungen-
karzinoms“ impliziert, dass „das Entstehen eines Lungenkarzinoms“ die Ziel-
größe ist, während „Zigarettenrauchen“ der zu untersuchende Faktor ist. Üb-
licherweise werden noch weitere Faktoren wie etwa Alter und Geschlecht der
Untersuchungseinheiten analysiert. Individuelle Besonderheiten – die erfasst,
aber nicht explizit ausgewertet werden – sind mögliche Begleitmerkmale. Zu
den Störgrößen zählen genetische Veranlagungen, Umweltbelastungen etc. –
also Merkmale, die ebenfalls das Entstehen eines Lungenkarzinoms beeinflus-
sen, aber nicht explizit erfasst werden.

! Störgrößen können nicht-verzerrend (wie in Beispiel 2.1) oder verzerrend


z
sein. Die nicht-verzerrenden sind verantwortlich für die zufallsbedingte
Streuung der Versuchsergebnisse. Die verzerrenden (Confounder) sind
gefährlicher: Sie werden mitunter fälschlicherweise in einen kausalen
Zusammenhang mit der Zielgröße gebracht und können dadurch zu
Fehlinterpretationen verleiten. Sie sind jedoch bei einer sorgfältigen Ver-
suchsplanung vermeidbar (z › Abschnitt 13.4.2).

Es geht bei einer statistischen Analyse letztlich darum, herauszufin-


den, von welchen Faktoren eine bestimmte Zielgröße abhängt und
diese Zusammenhänge in geeigneter Weise zu beschreiben.

2.3.3 Klassifikation nach Skalenniveau


Jedes Merkmal lässt sich einem bestimmten Skalenniveau zuordnen.
Dieses gibt Auskunft über das Messniveau und darüber, wie die
entsprechenden Daten weiterverarbeitet werden können.
„• Nominalskala. Sie hat das niedrigste Niveau; die Ausprägungen
unterscheiden sich nur begrifflich voneinander. Beispiele stellen die
Augenfarbe oder die Blutgruppe dar. Eine spezielle Form bilden die
Alternativmerkmale (die auch als dichotome oder binäre Merkmale
bezeichnet werden) mit nur zwei Ausprägungen. So ist etwa das Ge-
schlecht mit den Ausprägungen „männlich“ und „weiblich“ ein
Alternativmerkmal, ebenso der Rhesusfaktor mit den Ausprägungen
„positiv“ und „negativ“. Auch ein Zustand, bei dem nach „patholo-
gisch“ und „nicht pathologisch“ unterschieden wird oder Fragen, die
sich mit „ja“ oder „nein“ beantworten lassen, sind als Alternativ-
merkmale anzusehen.
• Ordinalskala (oder Rangskala). Sie besitzt ein höheres Niveau als
„
die Nominalskala; die Ausprägungen dieser Merkmale lassen sich in
einer natürlichen Rangfolge anordnen. Ein bekanntes Beispiel bilden
24 Kapitel 2 · Theoretische Grundlagen

Zensuren mit den Ausprägungen 1 bis 6. Auch klinische Scores sind


ordinal skaliert, ebenso das Merkmal „Therapieerfolg“ mit den mög-
lichen Abstufungen „vollständig geheilt“ bis hin zu „Patient verstor-
ben“ oder ein Krebsstadium mit den Ausprägungen I bis IV.
2 Nominal und ordinal skalierte Merkmale werden zusammenfas-
send als qualitative (oder kategoriale) Merkmale bezeichnet. Es ist
allgemein üblich, diese Merkmale zahlenmäßig zu codieren. So kann
das Geschlecht einer Person durch die Zahlen 0 (männlich) und 1
(weiblich) angegeben werden; der Therapieerfolg lässt sich mit na-
türlichen Zahlen 0, 1, 2, ... beschreiben. Diese Zahlen haben jedoch
keine rechnerische Bedeutung. Man kann zwar zwei Ausprägungen
A und B eines nominalen Merkmals durch A = B oder A  B
miteinander in Beziehung setzen; bei einem ordinalen Merkmal lässt
sich eine der Relationen A = B, A < B oder A > B angeben.
Mathematische Operationen wie beispielsweise die Bildung einer
Differenz oder eines Quotienten sind jedoch sinnlos. Es leuchtet ein,
dass bei qualitativen Merkmalen weder der Abstand zwischen zwei
Ausprägungen noch deren Verhältnis definiert ist.
„• Intervallskala (oder Abstandsskala). Sie hat einen höheren Infor-
mationsgehalt als die Ordinalskala. Die Ausprägungen unterscheiden
sich zahlenmäßig. Bei diesen Merkmalen ist ein Nullpunkt festgelegt
(z. B. bei der Temperatur in Celsius-Graden); daher gibt es auch ne-
gative Messwerte. Es ist möglich und sinnvoll, die Differenz zwi-
schen zwei Ausprägungen A í B anzugeben.
• Verhältnisskala (oder Ratioskala). Sie hat einen absoluten Null-
„
punkt; ansonsten können nur positive Messwerte auftreten. Außer
der Differenz kann auch das Verhältnis A : B zwischen zwei Ausprä-
gungen bestimmt werden (falls B  0).
Beispiel 2.2
Das Merkmal „Temperatur in Celsiusgraden“ hat einen festgelegten Nullpunkt
(Gefrierpunkt des Wassers) und ist deshalb intervallskaliert. Beim Vergleich
der beiden Ausprägungen 20°C und 40°C lässt sich zwar der Abstand berech-
nen; es wäre aber unsinnig, die Werte in ein Verhältnis zu setzen und zu sa-
gen, 40°C seien doppelt so warm wie 20°C.
Viele Merkmale in der Medizin sind verhältnisskaliert: etwa das Körperge-
wicht, der Cholesteringehalt oder die Leukozytenanzahl pro µl Blut. Verglei-
che der Art „10.000 Leukozyten pro µl Blut sind doppelt so viel wie 5.000“
sind bei diesen Merkmalen durchaus sinnvoll. Auch die Temperaturangabe in
Kelvin-Graden kann als verhältnisskaliert aufgefasst werden.
25 2
2.3 Merkmale

Intervall- oder verhältnisskalierte Merkmale werden als quantitativ


oder metrisch skaliert bezeichnet. Diese Strukturen findet man vor
allem im physikalisch-naturwissenschaftlichen Umfeld und damit
auch in der Medizin.

2.3.4 Diskrete und stetige Merkmale


• Diskret. Ein Merkmal heißt diskret, wenn es nur abzählbar viele
„
Werte annehmen kann. Alle qualitativen Merkmale sind trivialer
Weise diskret. Quantitative Merkmale sind dann diskret, wenn die
Merkmalsausprägungen durch einen Zählvorgang ermittelt werden.
Beispiele sind die Anzahl der Schwangerschaften einer Frau oder die
Anzahl richtig gelöster Klausuraufgaben in Tabelle 2.1.
„• Stetig. Ein stetiges Merkmal kann dagegen alle Werte innerhalb
eines bestimmten Intervalls annehmen; die Ausprägungen werden in
der Regel durch einen Messvorgang ermittelt. Beispiele sind die Kör-
pergröße oder der Blutdruck. Allerdings lässt die begrenzte Messge-
nauigkeit bei der Bestimmung eines stetigen Merkmals nur abzähl-
bar viele Ausprägungen zu. So wird die Körpergröße meist in der
Einheit cm in ganzen Zahlen angegeben, wobei im Einzelfall auf-
oder abgerundet wird. Deshalb ist bei praktischen Untersuchungen
letzten Endes jedes Merkmal diskret.
Andererseits sind stetige Merkmale bei Anwendern der Statistik
recht beliebt, da sie sich im Hinblick auf die Informationsgewinnung
effizienter und häufig einfacher analysieren lassen als diskrete
Merkmale. Statistische Analysemethoden, die ein stetiges Merkmal
voraussetzen, können dann angewandt werden, wenn das relevante
Merkmal innerhalb eines bestimmten Bereichs zahlreiche, fein abge-
stufte Ausprägungen hat (wie z. B. die Leukozytenanzahl pro µl
Blut). Insofern ist eine Unterscheidung zwischen diskreten und ste-
tigen Merkmalen nicht nur theoretisch, sondern auch für praktische
Anwendungen sinnvoll.

2.3.5 Skalentransformationen
Es ist generell möglich, ein höheres Skalenniveau auf ein niedrigeres
zu transformieren. Jede Verhältnisskala ist automatisch eine Inter-
vallskala; diese wiederum kann als eine Ordinalskala aufgefasst wer-
den. Die Nominalskala kann grundsätzlich jedem Merkmal zugeord-
net werden.
26 Kapitel 2 · Theoretische Grundlagen

Übersicht 1: Die Skalenniveaus

Merk- Vergleich 2er


Skalenniveau Beispiele Hinweise
malsart Ausprägungen
2 qualitativ Nominalskala Blutgruppe, niedrigstes ŷ A = B oder
Rhesusfaktor Niveau A≠ B
qualitativ Ordinal- Zensuren, Rangfolge ŷ A = B oder
skala med. Scores ist definiert A≠ B
(Rangskala) ŷ A=B,
A > B oder
A< B
quantitativ Intervall- Temperatur Skala mit ŷ A = B oder
skala in Celsius- festgelegtem A≠ B
(Abstands- Graden Nullpunkt, ŷ A=B,
skala) Abstand ist A > B oder
definiert A< B
ŷ d = A− B

quantitativ Ratioskala Leukozyten- höchstes Niveau, ŷA = B oder


(Verhältnis- anzahl pro Skala mit A≠ B
skala) µl Blut, absolutem Null- ŷA=B,
Körpergröße punkt, A > B oder
Verhältnis A< B
ist definiert ŷ d = A− B
ŷ c = A: B

Beispiel 2.3
Wir betrachten das Merkmal „Zigarettenkonsum eines Patienten“. Die Merk-
malsart und das Skalenniveau sind abhängig von der Art, wie man dieses
Merkmal erfasst:
Ausprägungen Merkmalsart Skala
Menge des pro Tag quantitativ;
konsumierten Tabaks in Gramm stetig Verhältnisskala
Anzahl der pro Tag quantitativ;
gerauchten Zigaretten diskret Verhältnisskala
Nichtraucher – schwacher
Raucher – mäßiger Raucher – qualitativ Ordinalskala
starker Raucher
qualitativ;
Nichtraucher – Raucher Nominalskala
binär
27 2
2.3 Merkmale

Das Beispiel 2.3 macht deutlich, dass eine Reduktion des Skalenni-
veaus einerseits mit einer einfacheren Messtechnik einhergeht, an-
dererseits einen Informationsverlust beinhaltet. Dennoch ist eine
Skalentransformation bei praktischen Anwendungen zuweilen sinn-
voll. Um beispielsweise bei Routineuntersuchungen den Glukosege-
halt im Blut zu bestimmen, ist es nicht notwendig, diesen exakt in
mg zu erfassen. Stattdessen verwendet man Teststreifen mit den Er-
gebnissen „negativ“ und „positiv“. Im Einzelfall ist stets abzuwägen,
ob es sinnvoll ist, das Skalenniveau zugunsten eines einfachen Mess-
verfahrens zu reduzieren.
In den folgenden Kapiteln wird gezeigt, dass statistische Analy-
semethoden für quantitative (und insbesondere für stetige) Merk-
male differenziertere Auswertungen ermöglichen als Methoden für
qualitative Merkmale. Eine Skalentransformation sollte man deshalb
nur dann durchführen, wenn praktische Gründe dies erfordern, und
ansonsten versuchen, ein möglichst hohes Niveau beizubehalten.
Wenn jedoch Zweifel bestehen, ob ein höheres Skalenniveau über-
haupt angenommen werden kann, sollte man sicherheitshalber das
nächst niedrigere zugrunde legen.

Beispiel 2.4
Die Wahl des adäquaten Skalenniveaus ist nicht immer einfach oder unum-
stritten. So werden in der Regel Zensuren als quantitativ-diskrete Merkmale
angesehen, und es entspricht gängiger Praxis, Durchschnittsnoten (also Mittel-
werte) zu berechnen. Dies ist aber nicht korrekt. Die Differenz zwischen zwei
Noten ist nämlich nicht sinnvoll definiert. So ist etwa der Unterschied zwi-
schen den Noten 4 (ausreichend) und 6 (ungenügend) keinesfalls gleichzuset-
zen mit dem Unterschied zwischen den Noten 2 (gut) und 4. Auch das Be-
rechnen von Verhältnissen (etwa: Die Note 2 ist doppelt so gut wie die 4) ist
nicht angebracht. Lediglich die Rangfolge der Ausprägungen 1 bis 6 ist sinn-
voll. Demnach handelt es sich nur um ein ordinal skaliertes (also ein qualitati-
ves) Merkmal.

! Eine Schwierigkeit ergibt sich bei begrifflich unscharfen Bezeichnungen,


z
die hin und wieder bei ordinal skalierten Merkmalen auftreten. Während
sich die Ausprägungen eines nominal skalierten Merkmals in der Regel
eindeutig bestimmen lassen und die Werte eines quantitativen Merkmals
hinreichend exakt gezählt oder gemessen werden, sind die Grenzen zwi-
schen den Ausprägungen eines ordinalskalierten Merkmals oft unscharf.
Dies kann zu ungenauen Ergebnissen und zu fehlerhaften Schlussfolge-
rungen führen. Bei ordinal skalierten Daten sollte man deshalb darauf
achten, dass die Abgrenzungen zwischen den einzelnen Ausprägungen
möglichst genau definiert und nachvollziehbar sind.
28 Kapitel 2 · Theoretische Grundlagen

Merke
Um geeignete Analysemethoden wählen zu können, sind vor der Daten-
erfassung unbedingt folgende Punkte zu klären:
2 1. Fragestellung (Hypothese) der Studie formulieren
2. Geeignete Ziel- und Einflussgrößen auswählen
3. Spezifische Eigenschaften für jedes Merkmal bestimmen

2.3.6 Merkmalsausprägungen
Nachdem zu Beginn einer Studie festgelegt worden ist, welche
Merkmale erhoben und welche Skalenniveaus zugrunde gelegt wer-
den, ist für jedes Merkmal eine Ausprägungsliste zu erstellen. Bei
quantitativen Merkmalen handelt es sich dabei um die Mess- oder
Zählwerte. Die Ausprägungen qualitativer Merkmale werden häufig
numerisch codiert. Dabei ist auf zwei Dinge zu achten:
ŷ Die Liste muss vollständig sein, damit jeder Beobachtung eine
Ausprägung zugeordnet werden kann. Dies bedeutet, dass auch
sehr seltene Ausprägungen repräsentiert sind.
ŷ Sie muss disjunkt sein. Das heißt: Je zwei Ausprägungen bzw.
deren Codierungen sind unterscheidbar und schließen sich ge-
genseitig aus. Die Zuordnung Codierung ļ Ausprägung muss
also für beide Richtungen eindeutig sein.
Der Vollständigkeit wegen fügt man bei qualitativen Merkmalen
häufig eine Ausprägung der Art „Sonstiges“ oder „nicht feststellbar“
hinzu. Bei quantitativen Merkmalen (z. B. bei der Körpergröße)
werden hin und wieder Ausprägungen wie etwa „ < 150 cm “ oder
„ ≥ 200 cm “ angegeben. Dabei ist allerdings zu bedenken, dass das
Skalenniveau sinkt. Wenn man bei einem ordinalen Merkmal wie
dem Therapieerfolg in die Ausprägungsliste „nicht feststellbar“ auf-
nimmt, reduziert sich das Niveau auf das einer Nominalskala.
Eine sinnvolle Ausprägungsliste ist nicht zuletzt abhängig von
der konkreten Fragestellung. So ist beispielsweise für das Merkmal
„Geschlecht“ eine Liste mit den Ausprägungen „männlich“ und
„weiblich“ in der Regel vollständig und disjunkt. Es sind jedoch auch
Situationen denkbar, in denen eine zusätzliche Ausprägung wie „in-
tersexuell“ oder „nicht feststellbar“ erforderlich ist. Bei quantitativen
Merkmalen sind das Messverfahren und die Messgenauigkeit zu be-
rücksichtigen. Während man das Körpergewicht von Erwachsenen
in der Regel in ganzzahligen kg-Werten erfasst, erscheint dies be-
zogen auf das Körpergewicht von Neugeborenen nicht sinnvoll.
29 2
2.4 Besondere Problematiken

Beispiel 2.5
Die Ausprägungsliste für das Merkmal „Augenfarbe“ mit den Codierungen:
1 = blau 2 = grün 3 = braun 4 = grau
Summe aus diesen Zahlen = Farbkombination
ist weder vollständig (es fehlt eine Ausprägung für die Augenfarbe von Albi-
nos) noch disjunkt (die Codierungen für die Farbe „braun“ und die Kombina-
tion „blaugrün“ sind nicht unterscheidbar). Die folgende Liste erfüllt dagegen
die Bedingungen bezüglich Vollständigkeit und Disjunktheit:
1 = blau 2 = grün 4 = braun 8 = grau 16 = Sonstiges
Summe aus diesen Zahlen = Farbkombination
Es ist auch möglich, für jede der vier Farben eine eigene Variable einzuführen,
die die Werte 0 (nein) und 1 (ja) annehmen kann. Wenn alle vier Variablen
den Wert 0 haben, bedeutet dies „Sonstiges“; bei Farbkombinationen nehmen
mehrere Variable den Wert 1 an. Diese Variablen enthalten alle Informatio-
nen des Merkmals „Augenfarbe“ in codierter Form. Man bezeichnet sie als
„Dummyvariablen“.

! Bezüglich der Anzahl der Ausprägungen bei qualitativen Merkmalen


z
sollte man darauf achten, dass sie in einem sinnvollen Verhältnis zur An-
zahl der Beobachtungseinheiten steht. Es ist wenig hilfreich bei der Da-
tenanalyse, wenn viele Ausprägungen nur vereinzelt vorkommen, weil
sich dann ein Zusammenhang mit einem anderen Merkmal nicht mehr
nachweisen lässt.

2.4 Besondere Problematiken

Bei der Durchführung medizinischer Studien gibt es eine Reihe von


Besonderheiten bezüglich der Analyse der Daten:
„• Klinische Scores und Skalen. Quantitative Merkmale lassen sich
effizienter auswerten als qualitative. Daraus resultierte die Tendenz,
Sachverhalte, die eigentlich nur qualitativ beschreibbar sind, quan-
titativ messbar zu machen. Dies führte dazu, dass in den letzten
Jahren eine Vielzahl von klinischen Scores und Skalen eingeführt
wurde, mit denen komplexe Merkmale – wie etwa der Allgemein-
zustand eines Patienten – erfasst werden. Man spricht dabei etwas
abfällig auch von „weichen Daten“ im Gegensatz zu „harten Daten“,
die sich exakt messen lassen.
Ein Beispiel stellt der Apgar-Score dar, der zur Beurteilung des
Zustands Neugeborener herangezogen wird. Diesem Score liegen
Einschätzungen für mehrere Merkmale (Herzfrequenz, Atmung,
Muskeltonus, Reflexe und Hautfarbe) zugrunde, die jeweils mit 0, 1
30 Kapitel 2 · Theoretische Grundlagen

oder 2 Punkten bewertet werden. Die Summe ergibt dann einen


Scorewert zwischen 0 und 10.
Ein anderes Beispiel ist die Karnofsky-Skala, die verwendet wird,
um den Allgemeinzustand eines Patienten zu beschreiben. Sie kann
2 Werte zwischen 0 und 100 annehmen. Zur Beschreibung der
Schmerzintensität dient die visuelle Analog-Skala, auf der ein Pa-
tient auf einer 10 cm langen Linie sein Schmerzempfinden markie-
ren soll. Es liegt nahe, solche Merkmale als quantitativ anzusehen
und entsprechend zu analysieren. Folgendes ist dazu anzumerken:
ŷ Es handelt sich bei den Score- oder Skalenwerten keineswegs um
Mess- oder Zählwerte, sondern um Einschätzungen, die in ge-
wisser Weise subjektiv sind.
ŷ Zwei benachbarte Ausprägungen sind nicht unbedingt äquidis-
tant. So ist etwa beim Merkmal „Herzfrequenz“ des Apgar-Scores
der Unterschied zwischen 0 (kein Herzschlag) und 1 (Frequenz
unter 100) nicht gleichzusetzen mit dem Unterschied zwischen 1
und 2 (Frequenz über 100).
ŷ Es erscheint sogar problematisch, zwei gleiche Ausprägungen
miteinander in Beziehung zu setzen. So besagt ein Apgar-Wert
von 7 lediglich, dass zwei oder drei Merkmale nicht optimal aus-
geprägt sind. Das bedeutet jedoch nicht unbedingt, dass der Zu-
stand zweier Neugeborener mit dem Apgar-Wert 7 identisch ist.
Demnach handelt es sich bei diesen Scores und Skalen bestenfalls um
ordinal skalierte, aber nicht um quantitative Merkmale. Dies sollte
man bei der Datenanalyse und der Präsentation der Ergebnisse be-
achten.
„• Ausreißer. Dies sind extrem hohe oder extrem niedrige Werte,
bei denen fraglich ist, ob sie unter denselben Bedingungen wie die
anderen Werte der Datenreihe entstanden sind. Die Einstufung eines
Wertes als Ausreißer muss in erster Linie inhaltlich motiviert sein.
Man erkennt Ausreißer am ehesten anhand einer graphischen Dar-
stellung. Wie soll man dann verfahren? Zunächst sollte man nach-
forschen, wie diese Werte entstanden sind. Möglicherweise handelt
es sich um Mess- oder Dokumentationsfehler oder pathologische
Besonderheiten. Wenn sich herausstellt, dass es sich um fehlerhafte
Werte handelt, muss man sie von der Analyse ausschließen. An-
sonsten ist es sinnvoll, die Analysen zweimal durchzuführen: mit
und ohne Ausreißer. Wenn sich die Ergebnisse ähneln, spielen die
Ausreißer keine große Rolle. Wenn sie sich jedoch unterscheiden,
sollte man auf statistische Verfahren zurückgreifen, die unempfind-
lich gegen Ausreißer sind.
31 2
2.4 Besondere Problematiken

• Surrogatmerkmale. Manche Krankheiten können nicht direkt


„
oder nur mit einem hohen Aufwand diagnostiziert werden. Dann
behilft man sich gerne mit so genannten Surrogatmerkmalen, die
eine Funktionsstörung anzeigen und die einfach zu bestimmen sind.
So wird beispielsweise der Kreatinin-Wert herangezogen, um ein
Nierenversagen nachzuweisen. Gegen Surrogatvariable ist nichts
einzuwenden, sofern sie in engem und validiertem Zusammenhang
mit der zu evaluierenden Krankheit stehen. Dies sollte man kritisch
hinterfragen und beim Ziehen von Schlussfolgerungen eine gewisse
Vorsicht walten lassen!
„• Ungenaue Definitionen. Vorsicht ist geboten, wenn Zielgrößen
untersucht und beschrieben werden, die nicht klar definiert sind.
Ein Beispiel ist das Merkmal „Therapieerfolg“. Im Allgemeinen ver-
bindet man damit etwas Positives – dennoch ist dieser Begriff per se
keineswegs exakt definiert: Nicht nur eine vollständige Heilung,
sondern auch eine Besserung der Symptome oder des Allgemeinzu-
stands kann als Erfolg gewertet werden. Eine exakte Definition sol-
cher Merkmale ist erforderlich, damit der Leser einer Publikation
praxisrelevante Schlussfolgerungen ziehen und Vergleiche anstellen
kann.
„• Falsche oder unvollständige Informationen. Häufig ist man beim
Einholen von Informationen auf die Mithilfe von Patienten oder de-
ren Angehörigen angewiesen. Dabei kann es vorkommen, dass die
befragten Personen falsche oder unvollständige Angaben machen –
sei es unbewusst, weil sie sich nicht richtig erinnern, oder absicht-
lich, weil sie aus Scham oder anderen Gründen gewisse Dinge ver-
schweigen. Nicht jeder Patient wird uneingeschränkt die Wahrheit
sagen, wenn er nach seinem Nikotin- oder Alkoholkonsum gefragt
wird. Bei manchen Studien muss man auf die mitunter mangelhafte
Dokumentation in Patientenakten zurückgreifen. Es ist schwierig,
derlei Datenmaterial auszuwerten. Entsprechende Vorsicht ist bei
der Interpretation der Ergebnisse geboten!
„• Zensierte Daten. Bei Überlebenszeitstudien wird die Zeit unter-
sucht, die bis zum Eintreten eines bestimmten Ereignisses (etwa bis
zum Tod eines Patienten) vergeht. Mehrere Gründe können dazu
führen, dass sich im Einzelfall die Überlebenszeit nicht exakt fest-
stellen lässt: Sei es, dass der Patient während der Studie ausscheidet
(etwa wegen mangelnder Bereitschaft zur weiteren Teilnahme oder
weil der Kontakt zum Studienleiter abreißt), oder dass er am Ende
der Studie noch lebt (jede Studie ist zeitlich limitiert). Dann kennt
man nur die Zeitspanne, die überlebt wurde – was danach geschieht,
32 Kapitel 2 · Theoretische Grundlagen

bleibt unbekannt. Solche Zeiten nennt man zensiert. Es würde zu


verzerrten Ergebnissen führen, wenn man alle zensierten Daten bei
der Analyse eliminieren würde. Mit speziellen Verfahren (z. B.
Kaplan-Meier-Methode oder Logrank-Test, z › Abschnitt 16.2) ist es
2 möglich, zensierte Daten bei der Analyse zu berücksichtigen.
Freilich sollte man eine Studie so anlegen, dass zensierte Daten so
weit wie möglich vermieden werden.

2.5 Listen und Tabellen

• Listen. Bei einer Studie ist darauf zu achten, dass für jede einzelne
„
Beobachtungseinheit alle relevanten Informationen (Ort und Zeit
der Untersuchungen, die untersuchenden Personen, die erhobenen
Daten, Besonderheiten etc.) sorgfältig in einer Liste dokumentiert
werden. Falls ein Datum nicht erhoben werden kann, ist dies mit
Angabe von Gründen zu vermerken.
Zu einem späteren Zeitpunkt ist kaum noch nachvollziehbar,
warum eine Information fehlt – ob beispielsweise nur die Doku-
mentation vergessen wurde (das sollte freilich nicht passieren), oder
ob und warum ein Wert nicht gemessen wurde. Für die statistische
Analyse sind diese Informationen mitunter sehr wichtig.
„• Tabellen. Die für die statistische Analyse relevanten Daten wer-
den in einer Tabelle übersichtlich zusammengefasst. Diese stellt die
Basis für alle nachfolgenden Analysemethoden und für die daraus re-
sultierenden Erkenntnisse dar. Eine Tabelle wird üblicherweise mit
einer Software (z. B. dem Tabellenkalkulationsprogramm Excel) er-
stellt. Sie enthält folgende Elemente:
ŷ Tabellenzeilen. Für jede Beobachtungseinheit ist eine eigene
Zeile mit einer eindeutigen Identifikationsnummer in der ersten
Spalte reserviert. Namen oder Initialen sind – nicht zuletzt aus
Datenschutzgründen – zur Identifikation ungeeignet.
ŷ Tabellenspalten. Jede Spalte enthält die Daten eines bestimmten
Merkmals. Angaben dazu findet man in der ersten Tabellenzeile,
dem so genannten Tabellenkopf.
ŷ Legende. Wenn die Tabelle Teil einer Publikation oder einer
Dissertation ist, sollten weitere Informationen, die zum Ver-
ständnis notwendig sind (Abkürzungen, Maßeinheiten etc.), in
der Legende oder Überschrift enthalten sein.
33 2
2.5 Listen und Tabellen

! Fehlende Daten müssen gekennzeichnet werden (etwa durch einen


z
Punkt). Sie sollten nach Möglichkeit vermieden werden, da sich dadurch
der Stichprobenumfang reduziert und die Ergebnisse ungenauer werden.

Oft enthält eine Tabelle in der letzten Zeile oder in der letzten
Spalte Randsummen (die so genannten Spalten- bzw. Zeilensum-
men), Mittelwerte oder Häufigkeiten. Falls es zweckmäßig erscheint,
kann sie nach einem oder mehreren Merkmalen sortiert sein.
Die Tabelle auf der folgenden Doppelseite enthält die Daten von
sieben Merkmalen, die bei 71 Studenten im ersten klinischen Semes-
ter erfasst wurden. Sie dient als Grundlage für diverse statistische
Analysen, die in den folgenden Kapiteln erläutert werden. Alle Er-
gebnisse lassen sich anhand dieser Tabelle explizit nachvollziehen.
Charakteristische Eigenschaften der erhobenen Merkmale und
deren Zusammenhänge treten jedoch – zumindest auf den ersten
Blick – anhand einer Tabelle nicht in Erscheinung. Deshalb ist es er-
forderlich, die Daten anschaulich graphisch darzustellen und die
Merkmale quantitativ zu beschreiben. Dabei empfiehlt sich folgen-
des Vorgehen:
ŷ Zunächst wird jedes Merkmal einzeln – also unabhängig von den
anderen und separat für jede Stichprobe – mittels deskriptiver
Statistik untersucht. Geeignete Methoden werden in den Kapi-
teln 3 und 4 vorgestellt.
ŷ Danach lassen sich einfache Zusammenhänge beschreiben. Hin-
weise dazu findet man in Kapitel 5.
ŷ Mit Methoden der induktiven Statistik lässt sich nachweisen, ob
und mit welcher Irrtumswahrscheinlichkeit die Stichprobener-
gebnisse verallgemeinerbar sind. Dieses Thema ist Gegenstand
der Kapitel 9 bis 12.

! Üblicherweise wird eine Tabelle mit dem Tabellenkalkulationsprogramm


z
Excel, das im Office-Paket der Firma Microsoft enthalten ist, angelegt.
Diese Software ist für die Datenerfassung geeignet; auch einfache statis-
tische Berechnungen lassen sich damit durchführen. Für Analysen der
induktiven Statistik empfiehlt sich jedoch ein leistungsstarkes Statistik-
programmpaket wie beispielsweise SAS oder SPSS.
34 Kapitel 2 · Theoretische Grundlagen

Tabelle 2.1. Geschlecht (M = männlich, W = weiblich), Blutgruppe, Rhe-


susfaktor, Raucher, Körpergröße in cm, Körpergewicht in kg und die Anzahl
richtig gelöster Klausuraufgaben
2 Ge- Blut- Rhesus-
ID Raucher Größe Gewicht Klausur
schlecht gruppe faktor

1 M A + ja 172 82 6
2 M 0 + ja 193 106 10
3 M B – nein 193 75 8
4 M A + nein 180 75 11
5 M 0 + nein 180 90 2
6 M 0 + nein 180 90 10
7 M A + ja 182 70 8
8 M A + ja 179 72 12
9 M 0 + nein 186 80 3
10 M B + nein 180 80 9
11 M 0 – nein 190 80 10
12 M 0 + nein 196 84 4
13 M A + nein 178 69 8
14 M 0 + nein 177 71 9
15 M A + nein 176 65 11
16 M A + nein 175 65 4
17 M A + nein 186 85 10
18 M 0 – nein 178 79 7
19 M A + nein 185 85 9
20 M 0 + nein 180 85 5
21 M AB + nein 165 61 8
22 M A – nein 178 60 11
23 M 0 + nein 179 74 8
24 W 0 + nein 164 52 1
25 W A + nein 167 55 7
26 W 0 + nein 170 56 7
27 W A – nein 179 75 9
28 W B + nein 156 46 8
29 W 0 + nein 156 50 12
30 W A + ja 168 63 9
31 W 0 + nein 172 60 6
32 W 0 + nein 168 60 4
33 W A + nein 170 57 10
34 W A + nein 175 52 3
35 W 0 – nein 169 65 9
36 W A – nein 168 58 6
37 W 0 + nein 176 69 9
38 W B + nein 173 56 11
39 W A + nein 163 60 11
40 W 0 + ja 157 50 8
41 W A + ja 169 60 10
42 W A + ja 172 65 6
43 W 0 – nein 168 62 7
44 W B + nein 170 53 12
35 2
2.5 Listen und Tabellen

Tabelle 2.1 (Fortsetzung). Geschlecht (M = männlich, W = weiblich), Blut-


gruppe, Rhesusfaktor, Raucher, Körpergröße in cm, Körpergewicht in kg
und die Anzahl richtig gelöster Klausuraufgaben

Ge- Blut- Rhesus-


ID Raucher Größe Gewicht Klausur
schlecht gruppe faktor

45 W 0 + nein 163 57 7
46 W A + nein 168 79 8
47 W A + nein 165 60 6
48 W 0 + nein 174 . 9
49 W 0 + nein 156 48 9
50 W A + nein 172 55 11
51 W A + nein 173 74 10
52 W 0 + nein 176 80 3
53 W B – nein 173 63 10
54 W A + ja 178 70 2
55 W 0 + ja 174 63 9
56 W A + nein 174 60 12
57 W AB + nein 180 65 7
58 W 0 + nein 166 54 8
59 W A – nein 157 49 4
60 W A + nein 160 50 9
61 W B + ja 170 75 12
62 W 0 + ja 162 56 5
63 W A + ja 180 72 11
64 W B + nein 180 79 9
65 W A + nein 172 60 4
66 W 0 + nein 178 55 8
67 W A + nein 172 54 10
68 W B + nein 165 54 7
69 W 0 – nein 168 70 10
70 W A + nein 165 77 9
71 W AB + nein 164 50 5
3

Häufigkeiten
3.1 Häufigkeiten bei diskreten Merkmalen 39
3.1.1 Absolute und relative Häufigkeiten 39
3.1.2 Graphische Darstellungen 40

3.2 Häufigkeiten bei stetigen Merkmalen 42


3.2.1 Das Prinzip der Klassenbildung 42
3.2.2 Graphische Darstellungen 44

3.3 Die empirische Verteilungsfunktion 46

3.4 2-dimensionale Häufigkeiten 49


3.4.1 Die Kontingenztafel 49
3.4.2 Die Beschreibung einer Assoziation 50
3.4.3 Ausblick auf die induktive Statistik 52
39 3
3.1 Häufigkeiten bei diskreten Merkmalen

3.1 Häufigkeiten bei diskreten Merkmalen

3.1.1 Absolute und relative Häufigkeiten


Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines
Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung.
Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsaus-
prägungen in der Stichprobe zu finden sind.
Häufigkeiten lassen sich für jedes Merkmal und jedes Skalenni-
veau ermitteln. In den Abschnitten 3.1 und 3.2 werden – getrennt
für diskrete und stetige Merkmale – Häufigkeitsbegriffe erörtert und
graphische Darstellungen vorgestellt.
Zu den diskreten Merkmalen zählen alle qualitativen sowie die
quantitativ-diskreten Merkmale. Die Anzahl der Ausprägungen ist in
der Regel wesentlich kleiner als der Stichprobenumfang und damit
überschaubar. So gehören beispielsweise zum qualitativen Merkmal
„Blutgruppe“ die vier Ausprägungen 0, A, B und AB. Durch einfa-
ches Abzählen lässt sich ermitteln, wie häufig die einzelnen Ausprä-
gungen in der Stichprobe vertreten sind.
Allgemein formuliert man diesen Sachverhalt folgendermaßen:
Ein diskretes Merkmal A habe k verschiedene Ausprägungen
A1 ,..., Ak . Die absolute Häufigkeit einer Ausprägung Ai wird mit ni
bezeichnet. Der Buchstabe i ist der so genannte Laufindex, der zwi-
schen 1 und k variiert. Die Summe aller absoluten Häufigkeiten ni
entspricht der Anzahl der Beobachtungseinheiten in der Stichprobe
– das ist der Stichprobenumfang n:
k

¦n i =n (3.1)
i =1

i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen


z
Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise
k
dargestellt. Der Ausdruck ¦n i entspricht der Summe n1 + n2 + ... + nk .
i =1

Unter der relativen Häufigkeit hi einer Ausprägung Ai versteht man


den Quotienten
´

ni
hi = (3.2)
n
40 Kapitel 3 · Häufigkeiten

Aus dieser Definition folgt, dass 0 ≤ hi ≤ 1, und dass sich die relativen
Häufigkeiten aller Ausprägungen zu 1 aufaddieren:
k

k ¦n i
n
¦h i = i =1
= =1 (3.3)
i =1 n n
3
In der Praxis gewinnt man die Häufigkeiten am einfachsten durch
das Erstellen einer Strichliste oder – weniger mühsam – mittels einer
geeigneten Software (z › Beispiel 3.1).

Beispiel 3.1
Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in
Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es er-
geben sich folgende Häufigkeiten:
Ausprägung absolute Häufigkeiten relative Häufigkeiten
A1 =Blutgruppe 0 n1 = 28 h1 = 39 %
A2 =Blutgruppe A n2 = 31 h2 = 44 %
A3 =Blutgruppe B n3 = 9 h3 = 13 %
A4 =Blutgruppe AB n4 = 3 h4 = 4 %
Summe n = 71 100%

! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der


z
Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei
einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei
kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Pro-
zente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirk-
lichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozent-
angaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häu-
figkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23.

3.1.2 Graphische Darstellungen


Graphische Darstellungen bringen die oben beschriebenen Sachver-
halte prägnant zum Ausdruck.
„• Kreisdiagramm. Bei dieser Darstellung geben die einzelnen
Kreissektoren die Häufigkeiten ni wieder. Anstelle der absoluten
Häufigkeiten ni lassen sich auch die relativen Häufigkeiten hi dar-
stellen; dabei ändert sich nur der Maßstab des Diagramms, nicht je-
doch dessen Aussehen. Bei einem Kreisdiagramm kommt allerdings
41 3
3.1 Häufigkeiten bei diskreten Merkmalen

nicht (zumindest nicht auf den ersten Blick) zur Geltung, welches
die kleinste oder die größte Ausprägung ist – deshalb eignet sich
diese Art der Darstellung nur für nominal skalierte Merkmale (z ›
Abbildung 3.1).
„• Rechteckdiagramm (oder Blockdiagramm). Hier ist ein Rechteck
entsprechend der einzelnen Häufigkeiten unterteilt. Diese Darstel-
lung eignet sich auch für ordinal skalierte Merkmale, da die kleinste
und die größte Ausprägung zu erkennen sind.
• Balkendiagramm. Diese Art von Diagrammen eignet sich für alle
„
diskreten Merkmale. Die Längen der einzelnen Balken entsprechen
den Häufigkeiten ni oder hi (z › Abbildung 3.2). Dabei sind zahlrei-
che Varianten denkbar. Die 2-dimensionalen Balken lassen sich
durch 1-dimensionale Striche oder 3-dimensionale Säulen ersetzen.
Bei senkrechter Anordnung spricht man auch von einem Säulendia-
gramm; wenn anstelle der Säulen 1-dimensionale Striche verwendet
werden, bezeichnet man dies als Stabdiagramm. Darüber hinaus
können die Balken horizontal anstatt vertikal angeordnet werden;
bezüglich Farben, Mustern und Hintergründen sind – nicht zuletzt
dank geeigneter Software- und Hardwareprodukte – der Phantasie
keine Grenzen gesetzt. Man sollte jedoch bei solchen Darstellungen
vor allem darauf achten, dass die wesentlichen Eigenschaften der
Häufigkeitsverteilung optimal zur Geltung kommen und nicht zu-
gunsten optischer Effekte in den Hintergrund treten.

Abb. 3.1
Kreisdiagramm;
Darstellung der
Häufigkeiten des
Merkmals „Blutgruppe“
(Beispiel 3.1)

Abb. 3.2
Balkendiagramm;
Darstellung der
Häufigkeiten des Merk-
mals „Anzahl richtig
gelöster Klausurauf-
gaben“
42 Kapitel 3 · Häufigkeiten

„• Punktediagramm. Dies ist eine Darstellung einfachster Art für


quantitative Merkmale. Die Stichprobenwerte werden entlang einer
Achse (die waagrecht oder senkrecht angeordnet sein kann) als ein-
zelne Punkte eingetragen. Diese Art der Darstellung eignet sich we-
niger zu Präsentationszwecken als vielmehr dazu, schnell und ein-
fach einen Überblick über die Häufigkeitsverteilung zu gewinnen.
3
3.2 Häufigkeiten bei stetigen Merkmalen

3.2.1 Das Prinzip der Klassenbildung


Bei der Erfassung eines stetigen Merkmals (z. B. der Körpergröße)
werden – bedingt durch die begrenzte Messgenauigkeit – die gemes-
senen Werte im Einzelfall auf- oder abgerundet. Im Vergleich zum
Stichprobenumfang ergeben sich zahlreiche Ausprägungen, deren
Häufigkeiten meist gering und daher wenig informativ sind. So
schwankt beispielsweise die Körpergröße der Studenten in Tabelle
2.1 zwischen 156 cm und 196 cm – dies sind 41 verschiedene Werte
für 71 Beobachtungseinheiten. Davon haben 14 Ausprägungen die
Häufigkeit 0, neun sind nur einmal vertreten.
Es erweist sich in solchen Fällen als sinnvoll, mehrere nebenein-
ander liegende Ausprägungen zusammenzufassen und Klassen zu
bilden. Dies ist auch bei einem quantitativ-diskreten Merkmal mit
extrem vielen, fein abgestuften Ausprägungen gerechtfertigt (z. B.
die Leukozytenanzahl). Ein solches Merkmal kann für praktische
Analysen wie ein stetiges Merkmal behandelt werden.
Damit verbindet sich die Frage, wie die Anzahl der Klassen und
deren Breiten festzulegen sind. Bei sehr vielen, schmalen Klassen ist
die Darstellung unübersichtlich und der Verteilungstyp schwer er-
kennbar. Dagegen ist eine geringe Anzahl von breiten Klassen mit
einem hohen Informationsverlust verbunden; charakteristische
Eigenschaften der Verteilung werden eventuell verdeckt.
Es gibt bezüglich der Klassenbildung zwar keine strengen Vor-
schriften, jedoch einige Faustregeln, die einen Kompromiss zwischen
einer übersichtlichen Darstellung einerseits und einem geringen In-
formationsverlust andererseits beinhalten:
ŷ Die Klassenanzahl k richtet sich nach dem Stichprobenumfang n.
Als Anhaltspunkt gilt: k ≈ n . Für größere Stichprobenumfänge
n ≥ 1000 verwendet man k ≈ 10 ⋅ lg n (wobei lg der Zehnerloga-
rithmus bedeutet), damit die Klassenanzahl nicht zu groß wird.
43 3
3.2 Häufigkeiten bei stetigen Merkmalen

ŷ Weniger als drei Klassen sind generell nicht sinnvoll.


ŷ Am übersichtlichsten ist die Darstellung, wenn die Klassenbrei-
ten gleich sind. Wenn jedoch Ausreißer vorhanden sind, ist es
eventuell sinnvoll, am jeweiligen Rand eine breite Klasse zu bil-
den. Klassen mit den Grenzen -∞ oder +∞ sind zu vermeiden.
ŷ Es muss eindeutig geklärt sein, welcher Klasse ein Datum zuge-
ordnet wird, das auf eine Klassengrenze fällt. Man umgeht dieses
Problem, indem man die Grenzen so definiert, dass sie nicht mit
Werten der Stichprobe zusammenfallen. Ansonsten muss man
die Klassen als halboffene Intervalle festlegen (meist benutzt
man Intervalle, die links offen und rechts abgeschlossen sind).
Bei klassierten Daten ermittelt man die absolute Häufigkeit oder die
Besetzungszahl einer Klasse und bezeichnet diese als ni . Der Laufin-
dex i kennzeichnet die Klassen in aufsteigender Reihenfolge ( i = 1
bezeichnet also die erste Klasse mit den kleinsten Messwerten, i = k
die letzte Klasse mit den größten Werten). Basierend auf den abso-
luten Häufigkeiten ni berechnet man die relativen Klassenhäufig-
keiten hi ebenso wie bei diskreten Merkmalen.
Beispiel 3.2
Die Messwerte für die Körpergröße der 71 Studenten in Tabelle 2.1 variieren
zwischen 156 und 196 cm. Das Intervall (152,5 cm; 197,5 cm) wird in 9 Klassen
der Klassenbreite 5 cm eingeteilt. Dadurch ist gewährleistet, dass kein Messwert
auf eine Klassengrenze fällt.
absolute relative absolute relative
Laufindex Klassengrenzen
Häufigkeit Häufigkeit Summenh. Summenh.
i in cm
ni hi Ni Hi
1 (152,5 ; 157,5) 5 0,07 5 0,07
2 (157,5 ; 162,5) 2 0,03 7 0,10
3 (162,5 ; 167,5) 10 0,14 17 0,24
4 (167,5 ; 172,5) 18 0,25 35 0,49
5 (172,5 ; 177,5) 12 0,17 47 0,66
6 (177,5 ; 182,5) 17 0,24 64 0,90
7 (182,5 ; 187,5) 3 0,04 67 0,94
8 (187,5 ; 192,5) 1 0,01 68 0,96
9 (192,5 ; 197,5) 3 0,04 71 1
Um die Häufigkeitsbegriffe zu verdeutlichen, betrachten wir die 4. Klasse. Die
absolute und die relative Häufigkeit n4 bzw. h4 bedeuten: 18 Studenten (das ent-
spricht 25 %) haben eine Körpergröße zwischen 167,5 cm und 172,5 cm. Die ab-
solute und die relative Summenhäufigkeit (z › Abschnitt 3.3) N 4 bzw. H 4 besa-
gen, dass 35 insgesamt Studenten bzw. 49 % kleiner als 172,5 cm sind.
44 Kapitel 3 · Häufigkeiten

i Wenn eine Intervallgrenze durch eine runde Klammer angegeben wird,


z
bedeutet dies, dass der Grenzwert nicht im Intervall enthalten ist. Eine
eckige Klammer ([ oder ]) zeigt an, dass der Grenzwert zum Intervall ge-
hört.
! In früheren Zeiten – als man einen Mittelwert noch per Hand oder mit
z
einem Taschenrechner ermittelte – erleichterte man sich bei umfangrei-
3 chem Datenmaterial die Arbeit, indem man die Daten in eine überschau-
bare Anzahl von Klassen zusammenfasste und den Mittelwert und andere
Kenngrößen aus den Klassenmitten ermittelte. Deshalb legte man Wert
darauf, dass die Klassenmitten rechentechnisch günstige Werte waren.
Heute – im Zeitalter benutzerfreundlicher Statistiksoftware – ist dieses
Argument obsolet. Die Einteilung in Klassen wird hauptsächlich vorge-
nommen, um die Daten übersichtlich graphisch darzustellen.

3.2.2 Graphische Darstellungen


„• Histogramm. Bei dieser Darstellung wird jede Klasse durch ein
Rechteck repräsentiert, dessen Flächen proportional zu den jeweili-
gen Klassenhäufigkeiten sind. Am übersichtlichsten ist ein
Histogramm mit gleichen Klassenbreiten (z › Abbildung 3.3); dann
sind auch die Höhen der Rechtecke proportional zu den Häufigkei-
ten. Falls Daten auf eine Klassengrenze fallen, muss gekennzeichnet
werden, welcher Klasse diese Daten zugerechnet werden (üblicher-
weise wählt man die untere Klasse). Die mathematische Funktion,
die ein Histogramm beschreibt, bezeichnet man als empirische
Dichte. Sie ist definiert als:

­0 für x ≤ a0
°
° hi
f ( x) = ® für ai −1 < x ≤ ai (i = 1,..., k ) (3.4)
° ai − ai −1
°¯0 für x > ak

Dabei sind a i −1 und a i die untere bzw. die obere Grenze der i.
Klasse, k ist die Klassenanzahl. Dieses Histogramm besteht aus k
Rechtecken der Fläche hi . Die Gesamtfläche hat den Wert 1.
„• Häufigkeitspolygon. Diese Darstellung erhält man, indem man
senkrecht auf die Klassenmitten Strecken in Höhe der entsprechen-
den Häufigkeiten aufträgt und deren Endpunkte miteinander ver-
› Abbildung 3.4).
bindet (z
45 3
3.2 Häufigkeiten bei stetigen Merkmalen

• Stamm-und-Blatt-Diagramm. Hier werden die Daten zunächst


„
nach ihrer Größe geordnet und dann von unten nach oben aufgetra-
gen. Der Stamm besteht aus den ersten Stellen der Stichproben-
werte, die Blätter stellen die folgenden Ziffern dar (z› Abbildung
3.5). Diese Darstellung benutzt man, um sich einen schnellen Über-
blick über die Häufigkeitsverteilung zu verschaffen. Für Präsentati-
onszwecke ist sie weniger geeignet.
Eine graphische Darstellung liefert zwar auf einen Blick wesentliche
Informationen; sie allein ist jedoch für eine statistische Datenanalyse
unzureichend. Kenngrößen, die die oben genannten Eigenschaften
quantitativ beschreiben, sind Gegenstand des Kapitels 4.

Abb. 3.3
Histogramm für das
Merkmal „Körper-
größe“ (Beispiel
3.2), Einteilung in 9
Klassen

Abb. 3.4
Häufigkeitspolygon
für das Merkmal
„Körpergröße“
(Beispiel 3.2)

Abb. 3.5
Stamm- und
Blattdiagramm;
Darstellung der
Körpergewichte der
männlichen Studenten
46 Kapitel 3 · Häufigkeiten

Merke
Anhand eines Diagramms lassen sich bei quantitativen Merkmalen fol-
gende Eigenschaften ablesen:
ŷ Lage: In welchem Bereich konzentrieren sich die Werte?
Welches ist der größte, welches der kleinste Wert?
Welche Ausprägungen sind häufig, welche selten oder
3 gar nicht vertreten?
ŷ Streuung: Streuen die Werte weit um den Mittelwert?
Gibt es Ausreißer?
ŷ Form: Hat die Verteilung eine besondere Form?
Ist sie symmetrisch oder schief?
Wie viele Gipfel sind erkennbar?

3.3 Die empirische Verteilungsfunktion

Bei quantitativen oder ordinal skalierten Merkmalen mag es sinnvoll


sein, die Häufigkeiten beginnend bei der kleinsten Ausprägung in
aufsteigender Reihenfolge aufzuaddieren. Dadurch erhält man die
Anzahl der Daten, die eine bestimmte obere Grenze nicht über-
schreiten. Diese Häufigkeiten nennt man kumulative oder Summen-
häufigkeiten. Unter der Annahme, dass die Ausprägungen sortiert
sind mit A1 < A2 < ...< Ak , gilt für die absoluten Summenhäufigkeiten:
i
N i = ¦ n j (für i = 1,..., k ) (3.5)
j =1

Die relativen Summenhäufigkeiten sind entsprechend definiert als:


i
H i = ¦ h j (für i = 1,..., k ) (3.6)
j =1

Die zu den einzelnen Ausprägungen gehörenden relativen Summen-


häufigkeiten H i werden durch die empirische Verteilungsfunktion
F (x ) mathematisch beschrieben:

­0 für x < A1
°
F ( x ) = ® H i für Ai ≤ x < Ai +1 (i = 1,..., k − 1) (3.7)
°1 für x ≥ A
¯ k
47 3
3.3 Die empirische Verteilungsfunktion

Beispiel 3.3
Für die Körpergrößen der Studenten ergeben sich mit den Daten aus Tabelle 2.1
folgende Summenhäufigkeiten, auf denen die empirische Verteilungsfunktion
› Abbildung 3.6). Angegeben sind die absoluten und relativen Häufig-
basiert (z
keiten ni und hi sowie die Summenhäufigkeiten N i und Hi .
Ausprägung Körpergröße ni hi Ni Hi
A1 156 3 0,04 3 0,04
A2 157 2 0,03 5 0,07
A3 160 1 0,01 6 0,08
A4 162 1 0,01 7 0,10
A5 163 2 0,03 9 0,13
A6 164 2 0,03 11 0,15
A7 165 4 0,06 15 0,21
A8 166 1 0,01 16 0,23
A9 167 1 0,01 17 0,24
A10 168 6 0,08 23 0,32
A11 169 2 0,03 25 0,35
A12 170 4 0,06 29 0,41
A13 172 6 0,08 35 0,49
A14 173 3 0,04 38 0,54
A15 174 3 0,04 41 0,58
A16 175 2 0,03 43 0,61
A17 176 3 0,04 46 0,65
A18 177 1 0,01 47 0,66
A19 178 5 0,07 52 0,73
A20 179 3 0,04 55 0,77
A21 180 8 0,11 63 0,89
A22 182 1 0,01 64 0,90
A23 185 1 0,01 65 0,92
A24 186 2 0,03 67 0,94
A25 190 1 0,01 68 0,96
A26 193 2 0,03 70 0,99
A27 196 1 0,01 71 1

F (x ) gibt die relativen Häufigkeiten an, mit der in der Stichprobe


Werte vorhanden sind, die gleich x oder kleiner als x sind. Für das
obige Beispiel 3.3 gilt etwa: F (172) = 0,49 . Das bedeutet: Knapp die
Hälfte der Studenten ist 172 cm groß oder kleiner; 51 % sind größer
als 172 cm.
48 Kapitel 3 · Häufigkeiten

Abb. 3.6
empirische Vertei-
lungsfunktion F ( x )
3 für das Merkmal
„Körpergröße“
(Beispiel 3.3)

Die Abbildung 3.6 verdeutlicht wesentliche Eigenschaften der Ver-


teilungsfunktion F (x) :
ŷ F (x) ist eine Treppenfunktion;
ŷ F ( x) = 0 für alle x, die kleiner als der kleinste Stichprobenwert
x min sind;
ŷ F (x) wächst ab x min monoton von 0 bis 1;
ŷ F ( x) = 1 ab dem größten Wert x max .
i Eine Funktion heißt monoton wachsend, wenn für zwei x-Werte mit
z
x1 < x2 gilt: F ( x1 ) ≤ F ( x2 ) . Falls sogar gilt: F ( x1 ) < F ( x2 ) für x1 < x2 ,
heißt die Funktion streng monoton wachsend. Die empirische Vertei-
lungsfunktion F ( x ) ist demnach monoton, aber nicht streng monoton
wachsend.

Bei fein abgestuften Ausprägungen ist die Anzahl der Treppen zahl-
reich und die Stufen sind entsprechend niedrig; die Treppenfunktion
nähert sich einer glatten Kurve.
In der Pharmakologie werden Verteilungsfunktionen zur Ana-
lyse der dosisabhängigen Wirksamkeit eines Pharmakons verwendet.
Dabei beschreibt die empirische Funktion F (x) den relativen Anteil
der Untersuchungseinheiten, bei denen ein Effekt der Dosis x er-
kennbar ist. Die graphische Darstellung von F (x) bezeichnet man
als Dosiswirkungskurve. Auch in der Labormedizin arbeitet man
häufig mit der Verteilungsfunktion. Wenn etwa für einen Choleste-
rinwert x gilt F ( x) = 0,98 , informiert diese Angabe darüber, dass
dieser Wert im oberen 2%-Bereich liegt.
49 3
3.4 2-dimensionale Häufigkeiten

3.4 2-dimensionale Häufigkeiten

3.4.1 Die Kontingenztafel


Bisher wurde lediglich die Häufigkeitsverteilung eines einzelnen
Merkmals betrachtet. Bisweilen ist es interessant, den Zusammen-
hang zwischen zwei Merkmalen, die an den Beobachtungseinheiten
erhoben wurden, näher zu beleuchten. Wenn es sich dabei um zwei
qualitative Merkmale handelt, spricht man von Assoziation oder
Kontingenz.
Wir betrachten im Folgenden zwei diskrete Merkmale mit den
Ausprägungen Ai ( i = 1,..., k ) und B j ( j = 1,..., A) . Dann beträgt die
Anzahl aller denkbaren Kombinationen k ⋅ A . Die absoluten Häufig-
keiten nij bezeichnen die Anzahl der Beobachtungseinheiten, bei
denen die Ausprägungen Ai und B j gemeinsam auftreten. Für die
relativen Häufigkeiten ergibt sich dann:
nij
hij = mit i = 1,..., k und j = 1,..., A (3.8)
n
Die hij erstrecken sich zwischen 0 und 1. Wenn man alle Häufigkei-
ten aufaddiert, erhält man:
k A

¦¦ n ij =n (3.9)
i =1 j =1

k A

¦¦ h ij =1 (3.10)
i =1 j =1

Die Häufigkeiten, die sich nur auf die Ausprägungen Ai oder B j be-
ziehen, sind die so genannten Randhäufigkeiten oder Randsummen.
All diese Häufigkeiten lassen sich übersichtlich in einer Tabelle
– der so genannten Kontingenztafel – darstellen. Im Kopf und in der
Vorspalte sind die Ausprägungen der beiden Merkmale aufgelistet.
Im Innern enthält die Tabelle Felder mit den jeweiligen Häufigkei-
ten. In der letzten Tabellenspalte oder der letzten Zeile können
Randsummen eingetragen werden.
In Beispiel 3.4 werden zwei Alternativmerkmale betrachtet; da-
her enthält die Tabelle im Innern nur vier Felder. Diese einfachste
Form der Kontingenztafel nennt man auch Vierfeldertafel. Die dazu
gehörenden absoluten Häufigkeiten werden üblicherweise mit a, b, c
und d bezeichnet. Außer den absoluten Häufigkeiten lassen sich bei
50 Kapitel 3 · Häufigkeiten

Bedarf zusätzlich die relativen Häufigkeiten (die sich auf den ge-
samten Stichprobenumfang beziehen) sowie die relativen Reihen-
oder Spaltenhäufigkeiten (die sich auf die Reihen- bzw. Spaltensum-
men beziehen) angeben.

Beispiel 3.4
3 Für die Merkmale „Rauchen und Geschlecht“ ergeben sich aus den Daten der
Tabelle 2.1 folgende Zusammenhänge. Angegeben sind jeweils
- die absoluten Häufigkeiten nij,
- die relativen Häufigkeiten hij,
- die relativen Reihenhäufigkeiten,
- die relativen Spaltenhäufigkeiten.
Raucher Nichtraucher
a=4 b = 19
(0,06) (0,27) 23
männlich
(0,17) (0,83) (0,32)
(0,31) (0,33)
c=9 d = 39
(0,13) (0,55) 48
weiblich
(0,19) (0,81) (0,68)
(0,69) (0,67)
13 58 71
(0,18) (0,82)
Daraus geht hervor, dass sich die Menge der 71 Studenten aus 13 Rauchern
(das sind 18 %) und 58 Nichtrauchern (82 %) bzw. aus 23 Männern (32 %)
und 48 Frauen (68 %) zusammensetzt. Die 19 nicht rauchenden Männer stel-
len 27 % des Gesamtkollektivs dar. 17 % der Männer und 19 % der Frauen
rauchen. Die Raucher sind zu 31 % männlich; die Nichtraucher zu 33 %. Für
› Abschnitt 3.4.2) ergibt sich OR = (4 ⋅39) /(19 ⋅ 9) = 0,912 .
die Odds Ratio (z

3.4.2 Die Beschreibung einer Assoziation


Die Kontingenztafeln enthalten zwar genaue Informationen bezüg-
lich der Häufigkeiten; sie sind jedoch wenig geeignet, um den Grad
eines Zusammenhangs zu erfassen. Zu diesem Zweck bedient man
sich graphischer Darstellungen und geeigneter Assoziationsmaße.
• Balkendiagramm. Die Zusammenhänge zweier qualitativer
„
Merkmale lassen sich mittels eines Balkendiagramms darstellen. Die
Längen der Balken repräsentieren die Häufigkeiten der Ausprägun-
gen des ersten Merkmals. Außerdem ist jeder Balken entsprechend
51 3
3.4 2-dimensionale Häufigkeiten

der Häufigkeiten der Ausprägungen des zweiten Merkmals unterteilt


(z› Abbildung 3.7). Eine andere Möglichkeit besteht darin, für jede
Merkmalskombination einen 3-dimensionalen Balken zu erstellen,
der die jeweilige Häufigkeit nij repräsentiert, und die k ⋅ A Balken in
räumlicher Perspektive anzuordnen (z › Abbildung 3.8).

„• Odds Ratio. Dies ist ein Assoziationsmaß, das den Grad eines Zu-
sammenhangs zwischen zwei Alternativmerkmalen quantifiziert. Es
wird gebildet, indem man aus den Häufigkeiten im Innern der
Vierfeldertafel das Kreuzprodukt bildet:

ad
OR = (3.11)
bc
Diese Maßzahl ist der Quotient aus den beiden „Odds“ a / c und
b / d . Ein Odds ist das Verhältnis aus zwei zusammen gehörenden
Häufigkeiten. So stellt etwa der Quotient a / c die Anzahl der
männlichen Raucher im Verhältnis zu den weiblichen Rauchern dar.
Eine Odds Ratio mit dem Wert 1 zeigt, dass kein Zusammenhang
zwischen den beiden Merkmalen besteht. Die berechnete Odds
Ratio von 0,912 in Beispiel 3.4 lässt vermuten, dass bei den Studen-
ten kein wirklicher Zusammenhang zwischen den Merkmalen „Rau-
chen“ und „Geschlecht“ nachzuweisen ist.

Abb. 3.7
Zusammenhang
zwischen Rauchen
und Geschlecht,
2-dimensionales
Balkendiagramm
(Beispiel 3.4)

Abb. 3.8
Zusammenhang
zwischen Rauchen und
Geschlecht,
3-dimemsionales
Balkendiagramm
(Beispiel 3.4)
52 Kapitel 3 · Häufigkeiten

• Assoziationskoeffizient nach Yule (George Yule, 1871-1951, war


„
ein Mitarbeiter von Karl Pearson). Dieses Maß wird berechnet nach:

ad − bc
Q= (3.12)
ad + bc

3 Q nimmt den Wert 0 an, falls ad = bc (vollkommene Unabhängig-


keit). Ansonsten erstreckt sich Q zwischen -1 und +1. In Beispiel 3.4
nimmt Q den Wert -0,046 an.
Weitere Assoziationsmaße für qualitative Merkmale sind Gegen-
stand des Abschnitts 12.2.4. Zusammenhangsmaße für quantitative
Merkmale werden in Kapitel 5 erörtert.

3.4.3 Ausblick auf die induktive Statistik


In diesem Kapitel wurden Methoden vorgestellt, die dazu dienen,
eine Häufigkeitsverteilung zu quantifizieren und optisch darzustel-
len. Die Beschreibung einer Stichprobe ist – für sich allein genom-
men – jedoch unbefriedigend. Bisher wurde die Frage ausgeklam-
mert, inwieweit sich die Ergebnisse verallgemeinern lassen. Bei der
Betrachtung des Beispiels 3.4 drängen sich folgende Fragen auf:
ŷ Aus der Vierfeldertafel geht hervor, dass etwa 2/3 aller Medizin-
studenten des 1. klinischen Semesters weiblich sind. Kann man
daraus schließen (unter der Annahme, dass die beobachtete
Stichprobe repräsentativ für die Medizinstudenten des 1. klini-
schen Semesters in Deutschland ist), dass die Frauen die Mehr-
heit darstellen? Oder ist dieser Schluss zu gewagt?
ŷ 17 % der Männer rauchen, wohingegen dieser Anteil bei den
Frauen 19 % beträgt. Kann man daraus schließen, dass Frauen
mehr rauchen, oder sind die unterschiedlichen Anteile nur zu-
fällig bedingt und haben ansonsten keine tiefere Bedeutung?
Auf derlei Fragen kann die deskriptive Statistik keine befriedigenden
Antworten geben. Intuitiv würde man wohl annehmen, dass zum im
WS 2006/07 tatsächlich mehr Frauen als Männer Medizin studierten,
und dass sich aus dem minimalen Unterschied zwischen den Rau-
cheranteilen bei Männern und Frauen kein Hinweis darauf ergibt,
dass die Rauchgewohnheiten vom Geschlecht abhängen. Dabei han-
delt es sich jedoch nur um Vermutungen, die nicht statistisch abgesi-
chert sind. Zu diesem Zweck bedarf es Methoden der induktiven
Statistik. In den Kapiteln 9 bis 12 werden wir auf darauf zurück-
kommen.
4

Die Beschreibung eines


Merkmals
4.1 Die Methoden der univariaten Statistik 55

4.2 Lagemaße 55
4.2.1 Das arithmetische Mittel 55
4.2.2 Der Median 57
4.2.3 Quartile und Quantile 60
4.2.4 Der Modus 62
4.2.5 Minimum und Maximum 63
4.2.6 Das geometrische Mittel 63
4.2.7 Das harmonische Mittel 64

4.3 Streuungsmaße 64
4.3.1 Varianz und Standardabweichung 65
4.3.2 Der Variationskoeffizient 66
4.3.3 Die Spannweite 67
4.3.4 Weitere Streuungsmaße 68

4.4 Formmaße 69
4.4.1 Die Schiefe 69
4.4.2 Die Wölbung 71

4.5 Der Vergleich mehrerer Stichproben 73


4.5.1 Beispiele für Gruppenvergleiche 73
4.5.2 Graphische Darstellungen 74
4.5.3 Anforderungen an die Stichproben 76
4.5.4 Ausblick auf die induktive Statistik 76
55 4
4.1 Die Methoden der univariaten Statistik

4.1 Die Methoden der univariaten Statistik

In diesem Kapitel werden Methoden vorgestellt, mit denen sich die


charakteristischen Eigenschaften eines einzelnen Merkmals be-
schreiben lassen. Die geeigneten Methoden sind abhängig von der
Art des jeweiligen Merkmals, insbesondere von dessen Skalenniveau.
Zur quantitativen Analyse eines Merkmals bedarf es aussage-
kräftiger statistischer Kenngrößen (oder Maßzahlen). Man unter-
scheidet hierbei Lagemaße, Streuungsmaße und Formmaße. Diese
werden in den Abschnitten 4.2 bis 4.4 besprochen. Abschließende
Bemerkungen zu den Stichproben finden sich in Abschnitt 4.5.
i Die Daten einer Stichprobe werden allgemein mit x ,..., x bezeichnet.
z 1 n
Diese Werte bilden die so genannte Urliste. Die tief gestellten Indizes ge-
ben normalerweise die Reihenfolge an, in der die Daten erhoben wurden;
sie haben darüber hinaus keine Bedeutung. Die Zahl n symbolisiert den
Stichprobenumfang. Die Kenngrößen werden aus den Daten der Stich-
probe ermittelt und dienen als Schätzwerte für die entsprechenden Para-
meter der Grundgesamtheit. Man nennt sie deshalb empirische Größen.

4.2 Lagemaße

Die Lagemaße (auch Lokalisationsmaße genannt) geben an, in wel-


chem Bereich sich die Stichprobenwerte konzentrieren.

4.2.1 Das arithmetische Mittel


Das bekannteste Lagemaß ist der Mittelwert (das arithmetische Mittel
oder der Durchschnitt). Er wird mit x (sprich: x quer) bezeichnet
und nach folgender Formel berechnet:

n
¦ xi
i =1
x= (4.1)
n

Es werden also alle Stichprobenwerte addiert und deren Summe


durch den Stichprobenumfang n dividiert (zur Erklärung des ƶ-Zei-
› Abschnitt 3.1).
chens: z
56 Kapitel 4 · Die Beschreibung eines Merkmals

Beispiel 4.1
Von den Merkmalen der Tabelle 2.1 lassen sich Mittelwerte für die Körper-
größe, das Körpergewicht und die Anzahl der richtig gelösten Klausuraufga-
ben berechnen. Für die mittlere Körpergröße erhält man:
xm = 181,22 cm (männliche Studenten, n = 23 )
xw = 169,06 cm (weibliche Studenten, n = 48 )
x ges = 173,00 cm (alle Studenten, n = 71 )
Es fällt auf, dass die weiblichen Studenten im Durchschnitt wesentlich kleiner
4 sind als ihre männlichen Kommilitonen. Ob dieser Unterschied nur zufällig
bedingt ist oder ob er ein Hinweis darauf ist, dass weibliche Studenten gene-
rell kleiner sind, kann an dieser Stelle nicht beurteilt werden. Die induktive
Statistik stellt Methoden zur Verfügung, die eine Entscheidung diesbezüglich
gestatten (z › Kapitel 11).

Der Mittelwert hat dieselbe Maßeinheit wie die Daten der Stich-
probe. Bei einem kleinen Stichprobenumfang bis n = 10 sollte er mit
einer zusätzlichen Kommastelle angegeben werden; bis n = 100 er-
scheinen zwei und erst ab n = 1000 drei zusätzliche Stellen sinnvoll
(auch wenn der Taschenrechner oder der PC wesentlich mehr
Kommastellen angeben). Ansonsten täuscht man eine höhere Mess-
genauigkeit vor als in Wirklichkeit gegeben ist.
Der Mittelwert ist sicherlich die bekannteste Kenngröße der de-
skriptiven Statistik; allerdings wird seine Bedeutung häufig über-
schätzt. Viele Anwender wissen nicht, dass dessen Berechnung nicht
in jedem Fall sinnvoll ist und dass andere Lagemaße existieren, die
sich zur Beschreibung einer Häufigkeitsverteilung eventuell besser
eignen. Ein Nachteil des Mittelwerts besteht darin, dass er von Aus-
reißern stark beeinflusst wird und daher bei schiefen Verteilungen
ein verzerrtes Bild der Verteilung wiedergibt (z › Beispiel 4.3).
Aus der mathematischen Herleitung geht hervor, dass der Mit-
telwert nur dann berechnet werden darf, wenn die Differenz zwi-
schen zwei Ausprägungen definiert ist. Dies setzt quantitative Merk-
male voraus. Ein Mittelwert, der einem ordinalen oder gar einem
nominalen Merkmal zugeordnet wird, ist nicht sinnvoll interpretier-
bar (z› Beispiel 4.4).
Ob ein Merkmal annähernd symmetrisch verteilt ist, kann an-
hand einer geeigneten graphischen Darstellung (z. B. Histogramm)
oder am Wert der Schiefe (z › Abschnitt 4.4.1) beurteilt werden.
57 4
4.2 Lagemaße

Merke
Der Mittelwert
ŷ darf nur für quantitative Merkmale (nicht für ordinal skalierte)
berechnet werden;
ŷ ist vor allem bei symmetrischen, eingipfeligen Verteilungen sinnvoll;
ŷ nutzt im Gegensatz zu anderen Lagemaßen alle Informationen der
Stichprobenwerte.

Mathematische Herleitung des Mittelwertes


Vom Mittelwert x erwartet man, dass er die Lage der Werte xi optimal
repräsentiert; d. h. die Abweichungen der x i von x sollten möglichst gering
sein. Die Summe aller Abstände ¦ ( xi − x ) zu minimieren ist nicht sinnvoll,
da sich positive und negative Abweichungen gegenseitig ausgleichen. Daher
berechnet man x so, dass die Summe der Abstandsquadrate ¦ ( xi − x ) 2 mini-
mal wird. Dieses Vorgehen bezeichnet man als die Methode der kleinsten
Quadrate. Aus der Analysis ist bekannt, dass eine Funktion im Punkt x ein
relatives Minimum hat, wenn gilt: f ' ( x ) = 0 und f ' ' ( x ) > 0 . Man berechnet
also für die Funktion
n n n
f ( x ) = ¦ ( xi − x )2 = ¦ xi 2 − 2 x ¦ xi + n ⋅ x 2 ein x , für das gilt:
i =1 i =1 i =1
n
f '( x ) = −2¦ xi + 2nx = 0 und f '' ( x ) = 2 n > 0 .
i =1
n
Offensichtlich erfüllt der Wert x = ¦ xi / n diese Voraussetzungen.
i =1

Da mit diesem x die Summe der Abstandsquadrate minimiert ist, gilt:


n n

¦(x i − x )2 ≤ ¦ ( xi − c )2 für alle reellen Zahlen c.


i =1 i =1

Diese Ungleichung beschreibt die so genannte Minimumeigenschaft des Mit-


telwertes.

4.2.2 Der Median


Der empirische Median (oder Zentralwert) teilt die Stichprobenwerte
in zwei Hälften: Die eine Hälfte der Daten ist höchstens so groß wie
der Median, die andere Hälfte ist mindestens so groß. Um diese
Kenngröße, die üblicherweise mit x (sprich: x Schlange) bezeichnet
wird, zu ermitteln, sind die Stichprobenwerte der Größe nach zu
sortieren. Die geordneten Werte werden mit tief gestellten, in
Klammern gesetzten Indizes versehen, sodass gilt:
58 Kapitel 4 · Die Beschreibung eines Merkmals

x(1) ≤ x(2) ≤ ... ≤ x(n )

Demnach ist x (1) der kleinste Wert der Stichprobe, also das Mini-
mum (er wird auch als xmin bezeichnet); x (n ) oder x max ist der
größte Wert, das Maximum. Die sortierten Stichprobenwerte nennt
man Rangliste (z › Tabelle 4.1). Das dazugehörende Merkmal muss
mindestens ordinal skaliert sein, da für nominal skalierte Daten
keine sinnvolle Reihenfolge angegeben werden kann. Der empiri-
sche Median x wird in Abhängigkeit vom Stichprobenumfang n
4 nach folgender Formel ermittelt:

­ x § n +1 · für n ungerade
° ¨© 2 ¸¹
~ °
x = ®x n + x n (4.2)
§ · § ·
° ¨© 2 ¸¹ ¨ +1¸
©2 ¹
° für n gerade
¯ 2

Aus (4.2) folgt, dass x entweder ein Wert der Urliste ist (falls n
ungerade) oder der Durchschnittswert der beiden mittleren Werte
(falls n gerade). Deshalb hat der empirische Median dieselbe
Maßeinheit wie die xi -Werte und höchstens eine Stelle mehr nach
dem Dezimalkomma.

Beispiel 4.2
Nach der Formel (4.2) ergeben sich für die Körpergröße folgende Werte für
die Mediane (z › Tabelle 4.1):
~
xm = xm(12) = 180 cm (männliche Studenten, n = 23 )

~ xw( 24) + xw( 25)


xw = = 169,5 cm (weibliche Studenten, n = 48 )
2
~
x ges = x(36) = 173 cm (alle Studenten, n = 71 )

Da bei ordinal skalierten Daten die Berechnung des Mittelwerts


nicht statthaft ist, wird stattdessen gerne der Median als Lagemaß
benutzt. Ein weiterer Vorteil des Medians liegt darin, dass er gegen-
über Ausreißern robust ist. Ausreißer bewirken, dass Mittelwert und
Median stark voneinander abweichen – in diesen Fällen ist die Ver-
teilung schief. Wenn Mittelwert und Median in etwa übereinstim-
men, ist dies ein Hinweis darauf, dass die Verteilung symmetrisch
ist. Ein Vergleich der beiden Lagemaße liefert demnach Hinweise
auf die Form der zugrunde liegenden Verteilung.
59 4
4.2 Lagemaße

Beispiel 4.3
Die postoperative Krankenhaus-Aufenthaltsdauer von vier Patienten nach
einer Appendektomie betrug 4, 5, 5 und 6 Tage. Bei einem weiteren Patienten
traten Komplikationen ein; er blieb 20 Tage im Krankenhaus. Aus diesen 5
Werten ergibt sich eine mittlere Aufenthaltsdauer von 8 Tagen; der Median
beträgt dagegen nur 5 Tage. Der Mittelwert wird wesentlich vom Ausreißer
bestimmt; er gibt die tatsächlichen Verhältnisse verzerrt wieder. Der Median
ist dagegen von diesem Ausreißer weitgehend unbeeinflusst.

Beispiel 4.4
Wir betrachten das ordinal skalierte Merkmal „Therapieerfolg“ mit den Aus-
prägungen 0 (Patient verstorben), 1 (Zustand verschlechtert), 2 (keine Verän-
derung eingetreten), 3 (Zustand verbessert) und 4 (Patient vollständig geheilt).
Wenn jeweils die eine Hälfte der Patienten verstorben und die andere voll-
ständig geheilt ist, besagt der Median ~
x = 2 , dass bei der Hälfte der Patienten
keine Veränderung oder ein schlechterer Zustand eingetreten ist, während bei
der anderen Hälfte der Zustand unverändert geblieben ist oder sich gebessert
hat. Es ist jedoch vollkommen sinnlos, aus den Codierungen einen Mittelwert
von 2 zu berechnen und zu behaupten, „keine Veränderung“ sei der Durch-
schnitt zwischen „tot“ und „vollständig geheilt“.

Bei zensierten Daten (etwa bei Überlebenszeitanalysen) hat der Me-


dian den Vorteil, dass er bereits berechnet werden kann, nachdem
die Hälfte der Studienteilnehmer verstorben ist. Um einen Mittel-
wert zu berechen, müsste man den Tod aller Untersuchungseinhei-
ten abwarten. Wenn es sich bei dem Merkmal um die verabreichte
Dosis eines Pharmakons handelt, ist der Median die Dosis, die bei
der Hälfte der Untersuchungseinheiten einen Effekt erkennen lässt.

Mathematische Beschreibung des Medians


Der Median x ist der Wert, für den die Summe der Abweichungsbeträge
n n n

¦x i − x minimal ist; d. h.: ¦x i − x ≤ ¦ xi − c für alle reellen Zahlen c.


i =1 i =1 i =1

Diese Ungleichung beschreibt die Minimumeigenschaft des Medians. Diese


Eigenschaft setzt metrisch skalierte Merkmale voraus, da Differenzen bei or-
dinal skalierten Merkmalen nicht definiert sind. Für die Berechnung des
Medians werden jedoch nicht alle Werte benötigt; nur deren Reihenfolge ist
maßgebend. Da diese Reihenfolge auch bei einer Ordinalskala definiert ist, ist
die Berechnung des Medians auch bei diesen Merkmalen üblich.
60 Kapitel 4 · Die Beschreibung eines Merkmals

Merke
Die Angabe des Medians ist sinnvoll
ŷ bei ordinal skalierten Daten;
ŷ bei quantitativen Merkmalen, die schief verteilt sind;
ŷ bei Verdacht auf Ausreißer;
ŷ bei zensierten Daten.
Wenn der Mittelwert und der Median stark voneinander abweichen,
4 sollte dies bei der Präsentation der Ergebnisse und ihrer Interpretation
berücksichtigt werden.

4.2.3 Quartile und Quantile


Während der Median die Stichprobe in zwei Hälften einteilt, teilen
die Quartile die Stichprobe in vier Viertel.
„• Unteres oder erstes Quartil Q1 . Dieses besagt, dass 25% der
Stichprobenwerte kleiner als oder gleich Q1 sind, während dement-
sprechend 75% der Werte größer als oder gleich Q1 sind.
• Oberes oder drittes Quartil Q3 . Analog gilt, dass 75% der Werte
„
maximal so groß wie Q3 und die Werte des restlichen Viertels
mindestens so groß wie Q3 sind.
• Mittleres oder zweites Quartil Q2 . Es entspricht dem Median x .
„
Eine weitere Verfeinerung der Häufigkeitsverteilung gestatten die
Quantile (oder Fraktile) xα , die für alle reellen Zahlen α mit
0 < α < 1 definiert sind. Ein α-Quantil wird folgendermaßen be-
rechnet: Man ermittelt zunächst den Wert α ⋅ n und davon abhängig
eine Rangzahl k und das Quantil xα nach folgenden Formeln:

ŷ Falls α ⋅ n keine ganze Zahl ist, sei k die direkt auf α ⋅ n folgende
ganze Zahl und
xα = x( k ) (4.3a)
ŷ Falls α ⋅ n eine ganze Zahl ist, sei k = α ⋅ n und
x( k ) + x( k +1 )
xα = (4.3b)
2
Spezielle Quantile sind der Median (α = 0,50) sowie die beiden
Quartile (α = 0,25 bzw. α = 0,75). Von Dezilen spricht man, falls
α = 0,1 , 0,2 ,..., 0,9 ; von Perzentilen bei 2-stelligen Kommazahlen
α = 0,01 , ..., 0,99 .
61 4
4.2 Lagemaße

Die Angabe eines Perzentils kann sehr hilfreich sein, um einen


Messwert größenmäßig einzuordnen. So werden etwa in der Kin-
derheilkunde die individuellen Werte eines Kindes bezüglich Größe,
Gewicht oder Kopfumfang mit den altersgemäßen 5%- und 95%-
Perzentilen verglichen, um zu beurteilen, ob es Auffälligkeiten in
der Entwicklung gibt.

Beispiel 4.5
Wir bestimmen mit Hilfe der Rangliste in Tabelle 4.1 einige Quantile bezüg-
lich der Körpergröße der weiblichen Studenten nach Formel 4.3b ( n = 48 ):
1. Quartil: α ⋅ n = 0,25 ⋅ 48 = 12 ; also k = 12 und
Q1 = ( x(12) + x(13) ) / 2 = 165 cm
3. Quartil: α ⋅ n = 0,75 ⋅ 48 = 36 ; also k = 36 und
Q3 = ( x(36) + x(37) ) / 2 = 173,5 cm
9. Dezil: α ⋅ n = 0,90 ⋅ 48 = 43,2 ; also k = 44 und
x0,90 = x(44) = 178 cm
Daraus folgt, dass eine 164 cm große Studentin bezüglich ihrer Körpergröße
im unteren Viertel liegt, während eine 180 cm große Dame den oberen 10%
angehört.

Tabelle 4.1. Rangliste bezüglich des Merkmals „Körpergröße“ für weibliche


Studenten mit Daten aus Tabelle 2.1. Angegeben sind der Rang, die Kör-
pergröße sowie die ID.
Rang Größe ID Rang Größe ID Rang Größe ID
1 156 28 17 168 30 33 172 67
2 156 29 18 168 32 34 173 38
3 156 49 19 168 36 35 173 51
4 157 40 20 168 43 36 173 53
5 157 59 21 168 46 37 174 48
6 160 60 22 168 69 38 174 55
7 162 62 23 169 35 39 174 56
8 163 39 24 169 41 40 175 34
9 163 45 25 170 26 41 176 37
10 164 24 26 170 33 42 176 52
11 164 71 27 170 44 43 178 54
12 165 47 28 170 61 44 178 66
13 165 68 29 172 31 45 179 27
14 165 70 30 172 42 46 180 57
15 166 58 31 172 50 47 180 63
16 167 25 32 172 65 48 180 64
62 Kapitel 4 · Die Beschreibung eines Merkmals

Merke
Der Median, die Quartile und alle sonstigen Quantile lassen sich über die
empirische Verteilungsfunktion F (x) beschreiben und graphisch ab-
schätzen. Nach Definition ist nämlich: F (x~α ) = α . Für den Median und
die Quartile gelten also: F ( ~x ) = 0,5 , F (Q1 ) = 0,25 und F (Q3 ) = 0,75 (z

Abbildung 3.6).

! In der Literatur werden teilweise etwas andere Berechnungsarten vorge-


z
schlagen, die jedoch ähnliche Werte wie die Formeln (4.3a) und (4.3b)
4 liefern. In jedem Fall ist zu beachten, dass derlei Angaben nur bei einem
entsprechend hohen Stichprobenumfang sinnvoll sind.

4.2.4 Der Modus


Der Modus (auch Modalwert oder Dichtemittel genannt) ist die Aus-
prägung mit der größten Häufigkeit. Er wird mit dem Buchstaben D
(oder M) abgekürzt und kann bei allen Skalenniveaus ermittelt wer-
den. Bei Daten, die in Klassen eingeteilt sind, gibt man statt des Mo-
dalwertes gerne die modale Klasse an – das ist die Klasse mit der
größten Besetzungszahl – und bezeichnet deren Mitte als Modus.

Beispiel 4.6
Der Modus des Merkmals „Blutgruppe“ ist A (z › Beispiel 3.1). Bei der Anzahl
richtig gelöster Klausuraufgaben ist der Modus 9 (z › Abbildung 3.2). Die
modale Klasse bei der Körpergröße der Studenten ist (167,5 cm; 172,5 cm) mit
der Häufigkeit 18 und dem Modus 170 cm (z › Beispiel 3.2). Dieser Gipfel ist
jedoch nur schwach ausgeprägt. Die Klasse (177,5 cm; 182,5 cm) ist nahezu
ebenso stark.

Anhand der graphischen Darstellung ist erkennbar, ob die Vertei-


lung eingipfelig (unimodal), zweigipfelig (bimodal) oder mehrgipfe-
lig (multimodal) ist. Zwei- und mehrgipfelige Verteilungen beob-
achtet man in der Regel bei heterogenen Populationen, in denen sich
mehrere Verteilungen überlappen. So gibt es beispielsweise in der
Abbildung 3.4 (Häufigkeitspolygon der Körpergrößen) zwei Gipfel,
wobei einer von Männern und einer von Frauen gebildet wird. U-
förmige Verteilungen sind durch zwei Modalwerte an ihren Rändern
und einem Tiefpunkt in der Mitte charakterisiert. Der Mittelwert
einer solchen Verteilung repräsentiert einen atypischen Wert. Ein
Beispiel ist das Merkmal „Intensität der Einstellung zu einer alterna-
tiven Heilmethode“. Es gibt viele Ablehnende (niedrige Intensität),
viele Zustimmende (hohe Intensität), aber wenig Neutrale (mit
Werten in der Mitte der Skala).
63 4
4.2 Lagemaße

Merke
Modalwerte werden hauptsächlich angegeben:
ŷ bei nominalen Merkmalen, da andere Lagemaße bei diesem Skalen-
niveau nicht zulässig sind;
ŷ bei ordinalen und quantitativen Merkmalen, wenn es sich um einen
„ausgeprägten Gipfel“ handelt (dies setzt in der Regel einen sehr
hohen Stichprobenumfang voraus).
ŷ bei einer U-Verteilung.
Die Angabe eines Modalwertes ist nicht empfehlenswert:
ŷ bei Alternativmerkmalen (etwa Geschlecht oder Rhesusfaktor);
ŷ wenn es keinen „ausgeprägten Gipfel“ gibt.

4.2.5 Minimum und Maximum


Dies sind die beiden extremsten Werte eines ordinal oder metrisch
skalierten Merkmals. Sie geben einen sehr groben Überblick über die
Streuung der Daten. Außerdem sind diese Maße hilfreich, um die
Daten auf Plausibilität zu überprüfen: Fehler, die bei der Datenein-
gabe entstehen (wenn etwa das Dezimalkomma falsch gesetzt wird),
werden am ehesten durch einen Blick auf das Minimum und das
Maximum offensichtlich.

4.2.6 Das geometrische Mittel


Das geometrische Mittel wird bei relativen Änderungen verwendet,
bei denen sich der Unterschied zweier Merkmalswerte sinnvoller
durch einen Quotienten als durch eine Differenz beschreiben lässt.
Dies ist der Fall bei Verdünnungsreihen (z. B. bei Antikörpertitern in
der Immunologie) oder bei Wachstumserscheinungen (z. B. die Zu-
nahme der Unterhaltskosten einer Klinik). Wenn xi die relativen
Änderungen bezeichnen (wobei xi > 0 und dimensionslos), berech-
net es sich das geometrische Mittel als:

xG = n x1⋅...⋅xn (4.4)

Beispiel 4.7
Die Titer von fünf Kaninchenseren sind: 1/100, 1/200, 1/400, 1/800 und
1/1000. Dann berechnet man für das geometrische Mittel:
1 1 1 1 1 1
xG = 5 ⋅ ⋅ ⋅ ⋅ ≈
100 200 400 800 1000 364
64 Kapitel 4 · Die Beschreibung eines Merkmals

i Häufig wird das geometrische Mittel herangezogen, wenn die Stich-


z
› Abschnitt 4.4.1).
probenwerte rechtsschief verteilt sind (z

4.2.7 Das harmonische Mittel


Das harmonische Mittel dient als Lagemaß, wenn die Beobach-
tungswerte xi Verhältniszahlen (also Quotienten) sind, die sich nur
in ihren Nennern unterscheiden. Damit lässt sich etwa eine Durch-
schnittsgeschwindigkeit oder eine durchschnittliche Dichte berech-
4 nen. Es ist definiert als:

n
xH = n
(4.5)
1
¦x
i =1 i

Beispiel 4.8
Derselbe Weg s wird einmal mit der Geschwindigkeit v1 = 20 km/h und ein
anderes Mal mit v2 = 30 km/h zurückgelegt. Die Geschwindigkeiten sind defi-
niert als Quotienten v1 = s / t1 bzw. v 2 = s / t2 (wobei t1 und t2 die benötig-
ten Zeiten darstellen). Zur Berechnung der Durchschnittsgeschwindigkeit
verwendet man das harmonische Mittel nach (4.5):
2
vH = = 24
1 1
+
20 30

i Ein Vorteil des harmonischen Mittels liegt darin, dass auch „unendlich
z
lange“ Zeiten berücksichtigt werden können. Falls am Ende einer Studie
einige Probanden (oder Versuchstiere) noch leben, wird deren Überle-
benszeit als unendlich angenommen. Der Kehrwert ist dann 0 und fließt
als solcher in die Summe des Nenners ein. Damit kann das harmonische
Mittel nach (4.5) berechnet werden.

4.3 Streuungsmaße

Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln,


können sie dennoch aufgrund ihrer Streuung sehr unterschiedlich
sein. Die Streuungsmaße (oder Dispersionsmaße) geben Auskunft
über die Variabilität der Stichprobenwerte.
65 4
4.3 Streuungsmaße

4.3.1 Varianz und Standardabweichung


Bei quantitativen Merkmalen ist der Mittelwert das am häufigsten
benutzte Lagemaß. Es liegt deshalb nahe, ein Streuungsmaß zu defi-
nieren, das die Abweichungen der Stichprobenwerte vom Mittel-
wert quantifiziert. Ein solches Maß ist die Varianz – das ist die mitt-
lere quadratische Abweichung der Daten vom Mittelwert.
Wenn man nun (wie es nahe liegend erscheint) die Varianz be-
rechnet, indem man die Summe der Abstandsquadrate ( xi − x ) 2
durch n dividiert, erhält man die Varianz der Stichprobe. Allerdings
ist diese Stichproben-Varianz im Durchschnitt etwas kleiner als die
Varianz der Grundgesamtheit. Es wird später (z › Abschnitt 9.2.3) ge-
zeigt, dass man aus den Messwerten der Stichprobe einen optimalen
Schätzwert für die Varianz der Grundgesamtheit erhält, wenn man
die empirische Varianz nach folgender Formel ermittelt:
n n
¦ ( xi − x ) 2 ¦ xi2 − nx 2
i =1 i =1
Var = = (4.6)
n −1 n −1
Wegen der quadratischen Dimension ist die Varianz schwer zu in-
terpretieren. Um ein Streuungsmaß mit gleicher Dimension wie die
der Stichprobendaten zu erhalten, zieht man die Wurzel aus der Va-
rianz und erhält die Standardabweichung:

s = Var (4.7)

Beispiel 4.9
Für die Standardabweichungen des Merkmals „Körpergröße“ berechnet man:
sm = 7,12 cm (männliche Studenten, n = 23 )
s w = 6,60 cm (weibliche Studenten, n = 48 )
s ges = 8,83 cm (alle Studenten, n = 71 )
Die „gemischte“ Gruppe ist also bzgl. der Körpergröße wesentlich heterogener
ist als die beiden Gruppen der männlichen und der weiblichen Studenten.

Die Standardabweichung stellt ein Maß für die Homogenität bzw.


Heterogenität der Stichprobe dar. Sie ist wie der Mittelwert nur bei
quantitativen Merkmalen sinnvoll. Im Allgemeinen ist diese Maß-
zahl positiv; nur im Extremfall – wenn alle Werte identisch sind und
die Stichprobe vollkommen homogen ist – nimmt sie den Wert 0 an.
66 Kapitel 4 · Die Beschreibung eines Merkmals

Es ist üblich, quantitative, annähernd symmetrisch verteilte Daten


durch den Mittelwert und die Standardabweichung in der Form
x ± s unter Angabe des Stichprobenumfangs n zu charakterisieren,
wie zum Beispiel für die Körpergröße der männlichen Studenten:
x ± s = (181,22 ± 7,12) cm ( n = 23 ). Die Standardabweichung erlaubt
folgende Abschätzungen:
ŷ Bei Normalverteilungen liegen etwa 2/3 aller Werte zwischen
x − s und x + s ; zwischen den Grenzen x − 2s und x + 2 s lie-
4 gen ungefähr 95% aller Werte (z › Tabelle 8.1).
ŷ Bei symmetrischen, eingipfeligen Verteilungen liegen mindes-
tens 8/9 aller Werte innerhalb der Grenzen x ± 2 s und 95% im
Bereich x ± 3s (z› Formel 8.21).
ŷ Generell findet man bei allen (also auch bei schiefen) Verteilun-
gen mindestens 3/4 aller Werte im Intervall x ± 2 s und 8/9 in
x ± 3s (z
› Formel 8.19).

Mathematische Herleitung der Varianz


Die Idee, anstelle des mittleren Abstandsquadrats einfach den mittleren Ab-
stand der Messwerte vom Mittelwert zu berechnen, erweist sich als unsinnig,
da sich positive und negative Abweichungen ausgleichen:
n n

¦(x i − x ) = ¦ xi − nx = nx − nx = 0
i =1 i =1

Dies erklärt, weshalb man bei der Berechnung der Varianz die Summe der
Abstandsquadrate zugrunde legt. Wenn man im Zähler von (4.6) die einzel-
nen Terme ausmultipliziert und addiert, erhält man:
n n n n n

¦(x i − x )2 = ¦ xi 2 − 2 x ¦ xi +nx 2 = ¦ xi2 − 2nx 2 + nx 2 = ¦ xi2 −nx 2


i =1 i =1 i =1 i =1 i =1

Die Division durch n − 1 ist dadurch begründet, dass nur n − 1 Summanden


des Zählers eine Information beinhalten. Wenn nämlich n − 1 Stichproben-
werte und der Mittelwert bekannt sind, lässt sich aus diesen Angaben der
noch fehlende Summand ermitteln. Die Zahl f = n − 1 wird auch als die An-
zahl der Freiheitsgrade bezeichnet. Das bedeutet: Man hat die „Freiheit“,
n − 1 Werte nach Belieben zu verändern und den letzten Wert entsprechend
anzupassen, ohne dass sich dabei der Wert der Varianz ändert.

4.3.2 Der Variationskoeffizient


Eine Standardabweichung von 7,12 cm – bezogen auf die Körper-
größe von männlichen Studenten mit einem Durchschnittswert von
181,22 cm – wiegt wesentlich weniger als dieselbe Standardabwei-
chung bezogen auf eine Gruppe von Kleinkindern mit einer mittle-
67 4
4.3 Streuungsmaße

ren Größe von 90 cm. Dieser Sachverhalt lässt sich durch den Varia-
tionskoeffizienten quantitativ beschreiben:

V = s / x (falls x > 0 ) (4.8)


Dieses Maß ist dimensionslos und nur für verhältnisskalierte Merk-
male geeignet. Sein Maximum beträgt n . Der relative Variations-
koeffizient kann daher nur Werte zwischen 0 und 1 annehmen:
s/ x
Vr = (4.9)
n
i Ein relativer Variationskoeffizient bis zu 0,30 ist in den Biowissenschaf-
z
ten keine Seltenheit. Wenn er jedoch wesentlich höher ist, ist dies ein
Hinweis darauf, dass die Verteilung extrem schief ist, oder dass zwei in-
homogene Gruppen gemeinsam untersucht werden. Dies sollte man nach
Möglichkeit vermeiden.

Mathematische Herleitung des relativen Variationskoeffizienten


Die Varianz ist minimal (d. h. gleich 0), wenn alle Werte der Stichprobe iden-
tisch sind. Dann ist auch der relative Variationskoeffizient 0.
Die Varianz ist bei gegebenem Mittelwert x maximal, wenn eine Beobach-
tungseinheit den Wert n ⋅ x annimmt, während die anderen n −1 Werte
gleich 0 sind. Für diesen Extremfall berechnet man:
1 ⋅ ( nx − x ) 2 + ( n − 1) ⋅ (0 − x )2 ( n − 1) 2 ⋅ x 2 + ( n − 1) ⋅ x 2
s2 = = = n ⋅ x2
n −1 n −1
Daraus folgt: 0 ≤ V = s / x ≤ n und 0 ≤ Vr ≤ 1 .

4.3.3 Die Spannweite


Das am einfachsten zu berechnende Streuungsmaß ist die Spann-
weite oder Variationsbreite:
R = xmax − xmin = x( n ) − x(1) (4.10)

Ebenso wie die Standardabweichung ist die Spannweite nur dann


gleich 0, wenn alle Stichprobenwerte identisch sind, und ansonsten
positiv. Sie ist wesentlich leichter zu berechnen als die Standardab-
weichung; allerdings berücksichtigt sie nur die beiden extremsten
Werte und ist daher sehr stark von Ausreißern beeinflusst. Deshalb
wird diese Maßzahl hauptsächlich bei diskreten Merkmalen mit we-
nigen Ausprägungen verwendet.
68 Kapitel 4 · Die Beschreibung eines Merkmals

i Die Spannweite ist streng genommen nur für quantitative Merkmale


z
geeignet, da bei niedrigeren Skalenniveaus Differenzen nicht sinnvoll
sind. Vielfach wird R jedoch auch bei ordinal skalierten Merkmalen be-
rechnet. Dies ist dann zu vertreten, wenn die Ausprägungen mit natürli-
chen, aufeinander folgenden Zahlen codiert sind. Die Spannweite ist in
diesem Fall nicht als Differenz, sondern als die Anzahl der Abstufungen
zwischen dem größten und dem kleinsten Wert zu verstehen.

4.3.4 Weitere Streuungsmaße


4 • Dezilabstand. Ein Streuungsmaß, das weniger empfindlich ist als
„
die Spannweite, erhält man, wenn man an beiden Rändern der Ver-
teilung jeweils 10 % abschneidet und die Länge dieses so genannten
Interdezilbereichs berechnet:

I80 = x0,90 − x0,10 (4.11)

• Quartilsabstand. Dies ist die Länge des Interquartilsbereichs


„
Q1 ,Q3 , der die mittleren 50 % der Stichprobenwerte enthält:

I50 = Q3 − Q1 = x0,75 − x0,25 (4.12)

Beispiel 4.10
Für das Merkmal „Körpergröße“ (Daten aus Tabelle 2.1) berechnet man:
I 50, m = 186 cm − 178 cm = 8 cm (männliche Studenten, n = 23 )
I 50, w = 173,5 cm − 165 cm = 8,5 cm (weibliche Studenten, n = 48 )
I 50 ges = 179 cm − 168 cm = 11 cm (alle Studenten, n = 71 )
Auch diese Zahlen zeigen, dass die Gruppe aller Studenten heterogener ist als
die beiden anderen, geschlechtshomogenen Gruppen.

• Mittlere Abweichung vom Median. Auch dieses Streuungsmaß


„
wird – zusammen mit dem Median als Lagemaß – gelegentlich bei or-
dinal skalierten oder schief verteilten Daten verwendet:
n

¦ x − x
i =1
i
MAx = (4.13)
n
• Variation Ratio. Schließlich gibt es sogar ein Streuungsmaß für
„
nominal skalierte Merkmale: die Variation Ratio VR (ein deutscher
Begriff hat sich dafür noch nicht eingebürgert). Es handelt sich dabei
69 4
4.4 Formmaße

um die relative Häufigkeit der Beobachtungen, die nicht in die mo-


dale Kategorie fallen:
VR = 1 − hmodal (4.14)

(wobei hmodal die relative Häufigkeit des Modalwertes ist). VR nimmt


den Wert 0 an, falls alle Beobachtungen identisch sind; ansonsten
liegt VR zwischen 0 und 1. Je größer die Anzahl der Merkmalsaus-
prägungen und je weniger sich die Häufigkeiten der einzelnen Kate-
gorien unterscheiden, desto näher liegt VR an 1.

Beispiel 4.11
Aus Beispiel 3.1 geht hervor, dass die Blutgruppe A mit 44 % relativer Häufig-
keit der Modus ist. Demnach ist VR = 0,56 .

Merke
Lagemaße und Streuungsmaße müssen zusammen passen wie z. B.:
ŷ Mittelwert und Standardabweichung
bei symmetrisch verteilten Daten
ŷ Median und Quartilsabstand (Dezilabstand oder mittlere Abw. vom
Median) bei schief verteilten Daten oder Verdacht auf Ausreißer
ŷ Modus und Spannweite
bei diskreten Merkmalen mit wenigen Ausprägungen
ŷ Modus und Variation Ratio
bei nominal skalierten Merkmalen

4.4 Formmaße

Einige statistische Methoden setzen eine bestimmte Verteilungsform


(z. B. Normalverteilung, z› Abschnitt 8.2) voraus. Einen ersten Ein-
druck diesbezüglich liefern die graphischen Darstellungen. Sie lassen
erkennen, ob eine Verteilung einen oder mehrere Gipfel hat, ob sie
symmetrisch ist und ob sie stark oder eher schwach gewölbt ist. Die
dritte Art der Kenngrößen – die Formmaße – dient dazu, die Ver-
teilungsform quantitativ zu beschreiben.

4.4.1 Die Schiefe


Die Schiefe ist ein Formmaß, das die Symmetrie bzw. Asymmetrie
einer Verteilung kennzeichnet. Sie ist definiert als:
70 Kapitel 4 · Die Beschreibung eines Merkmals

n
1 3
n
⋅ ¦ (x − x)
i =1
i
g1 = (4.15)
s3
Die Schiefe ist dimensionslos und kann sowohl positive als auch ne-
gative Werte annehmen. Große Abweichungen der Werte vom
Mittelwert werden der 3. Potenz wegen stark betont; kleinere Ab-
weichungen fallen dagegen kaum ins Gewicht.
4 Falls sich positive und negative Abweichungen ausgleichen, er-
gibt sich für die Schiefe der Wert 0. Die Verteilung ist dann symmet-
risch bezüglich des Mittelwerts (z › Abbildung 4.1a). Das bekannteste
Beispiel einer symmetrischen Verteilung ist wohl die Normalvertei-
lung. Einige, aber bei weitem nicht alle Merkmale in der Medizin
sind annährend normalverteilt – etwa die Körpergröße erwachsener
Männer oder erwachsener Frauen. Die eigentliche Bedeutung dieser
Verteilung werden wir in Kapitel 8 kennen lernen.
Viele medizinisch relevante Merkmale sind rechtsschief (links-
gipfelig oder linkssteil) verteilt (z. B. das Körpergewicht erwachsener
Männer). Die Dichtefunktion hat einen Gipfel an der linken Seite
und einen langen Ausläufer rechts (z › Abbildung 4.1b). Linksschiefe
(rechtsgipfelige oder rechtssteile) Verteilungen (z › Abbildung 4.1c)
findet man in den Biowissenschaften eher selten; ein Beispiel ist die
Tragezeit bei Säugetieren. Diese Verteilungen haben einen Gipfel am
rechten Rand. Für eingipfelige Verteilungen gilt:
ŷ Bei symmetrischen Verteilungen ist g1 = 0 und x = ~x = D ,
ŷ bei rechtsschiefen Verteilungen ist g1 > 0 und x > x > D ,
ŷ bei linksschiefen Verteilungen ist g1 < 0 und x < x < D .
Wesentlich einfachere, dafür etwas grobere Abschätzungen für die
Schiefe unimodaler Verteilungen lassen sich nach den Formeln von
Pearson ermitteln:

3 ⋅ ( x − x )
g1 ≈ (4.16a)
s
x−D
g1 ≈ (4.16b)
s
Auf eine schiefe Verteilung kann nur dann geschlossen werden,
wenn das empirisch ermittelte g1 stark von 0 abweicht und der
Stichprobenumfang hinreichend groß ist. Kleinere Abweichungen
71 4
4.4 Formmaße

von 0 können zufallsbedingt sein und sind insofern kein Hinweis auf
eine schiefe Verteilung der Grundgesamtheit. Um eine „echte“
Schiefe einigermaßen sinnvoll abschätzen zu können, sollte ein
Stichprobenumfang von mindestens n ≥ 100 vorliegen.

4.4.2 Die Wölbung


Die Wölbung (auch Kurtosis oder Exzess genannt) beschreibt die
Massenanhäufungen an den Enden bzw. um den Mittelwert der
Verteilung. Sie ist definiert als:

1 n
⋅ ¦ ( xi − x ) 4
n i =1
g2 = −3 (4.17)
s4
Für symmetrische, eingipfelige Verteilungen gilt:
ŷ Falls g2 = 0 , sind die Daten normalverteilt.
ŷ Falls g2 > 0 , ist die Verteilung schmaler und steilgipfeliger als
die Glockenkurve der Normalverteilung mit gleicher Standard-
abweichung, das Maximum ist größer (positiver Exzess, starke
Wölbung). Die Werte häufen sich in der Umgebung des Mittel-
werts und an den Ausläufern (z › Abbildung 4.1d).
ŷ Falls g2 < 0 , ist die Verteilung flacher als die Glockenkurve der
Normalverteilung, und das Maximum ist kleiner (negativer Ex-
zess, schwache Wölbung). Eine solche Verteilung hat „ausge-
prägte Schulterpartien“ (z › Abbildung 4.1e).

Beispiel 4.12
Für die Körpergröße der weiblichen Studenten ergibt sich g1 = −0,337 . Dieser
Wert weicht nur geringfügig von 0 ab; man darf deshalb annehmen, dass die-
ses Merkmal annähernd symmetrisch verteilt ist. Ein Vergleich der Lagemaße
xw = 169,1 cm und ~ xw = 169,5 cm bestätigt dies. Der Wert der Kurtosis beträgt
g 2 = −0,416 . Dieser Wert nahe bei 0 ist ein Hinweis darauf, dass dieses
Merkmal nicht nur symmetrisch, sondern annähernd normalverteilt ist.

Auch bei der Kurtosis ist zu beachten: Nur größere Abweichungen


von 0 lassen den Schluss zu, dass die Daten nicht normalverteilt sind.
Kleinere Abweichungen sind in der Regel zufallsbedingt und haben
keine tiefere Bedeutung, insbesondere bei nicht allzu großen Stich-
proben.
72 Kapitel 4 · Die Beschreibung eines Merkmals

Abb. 4.1 a-e:


empirische Verteilungen mit
unterschiedlicher Schiefe und
unterschiedlicher Wölbung

4
a. symmetrische Verteilung
(Schiefe=0)

b. rechtsschiefe Verteilung c. linksschiefe Verteilung


(Schiefe>0) (Schiefe<0)

d. symmetrische Verteilung e. symmetrische Verteilung


(Wölbung>0) (Wölbung<0)
73 4
4.5 Der Vergleich mehrerer Stichproben

Übersicht 2: Univariate Datenbeschreibung –


geeignete Maßzahlen und graphische Darstellungen

Skala Lagemaße Streuungsmaße Formmaße graphische


Darstellungen

Nominal- Modus Variation Ratio -- Kreisdiagr.


skala Rechteckdiagr.
Balkendiagr.

Ordinal- Modus Variation Ratio -- Rechteckdiagr.


skala Median Spannweite Balkendiagr.
Quartile Quartilsabstand
Quantile Interdezilabstand

Intervall- Modus Spannweite Schiefe diskrete Daten:


skala Median Quartilsabstand Balkendiagr.
Quartile Interdezilabstand symmetrische Punktediagr.
Quantile Standardabw. Verteilungen:
Mittelwert Wölbung

Verhält- Spannweite stetige Daten:


nisskala Quartilsabstand Histogramm,
Interdezilabstand Häufigkeits-
Standardabw. polygon,
Variationskoeff. Stamm-und-
Blatt-Diagr.

4.5 Der Vergleich mehrerer Stichproben

4.5.1 Beispiele für Gruppenvergleiche


In diesem Kapitel wurden zahlreiche Methoden vorgestellt, mit de-
nen sich die charakteristischen Eigenschaften eines einzelnen
Merkmals graphisch darstellen und numerisch beschreiben lassen.
Oft ist es erforderlich, zwei oder mehrere Stichproben zu untersu-
chen und diese miteinander zu vergleichen.
Das Ziel der statistischen Analyse besteht in der Regel darin,
einen Unterschied zwischen diesen Gruppen nachzuweisen. In der
medizinischen Forschung finden sich dafür vielfältige Anwen-
dungsmöglichkeiten, wie die folgenden Beispiele zeigen:
74 Kapitel 4 · Die Beschreibung eines Merkmals

ŷ Mehrere Therapieformen (z. B. eine neue Therapie und eine


Standardtherapie) werden miteinander verglichen (z › klinisch-
kontrollierte Studie, Abschnitt 16.1);
ŷ eine Gruppe von erkrankten Patienten wird zur Klärung eines
ätiologischen Faktors einer Gruppe von gesunden Personen ge-
genübergestellt (z› Fall-Kontroll-Studie, Abschnitt 14.3);
ŷ Personen, die einem bestimmten Risiko ausgesetzt sind, und
Personen, die diesem Risiko nicht ausgesetzt sind, werden eine
Zeitlang gemeinsam beobachtet (z › Kohortenstudie, Abschnitt
4 14.4).

4.5.2 Graphische Darstellungen


Auch bei diesen Fragestellungen liefern graphische Darstellungen
erste Hinweise: Unterschiede bezüglich der Häufigkeitsverteilung
eines bestimmten Merkmals erkennt man daran, dass man für jede
Stichprobe ein Diagramm anfertigt und diese gemeinsam betrachtet.
Bei quantitativen Merkmalen eignen sich die so genannten Box-and-
Whiskers-Plots besonders gut. Dabei wird jede Stichprobe durch eine
rechteckige Box repräsentiert, die unten und oben (bzw. links und
rechts) vom 1. und 3. Quartil begrenzt wird. Innerhalb der Box wird
der Median gekennzeichnet; der Mittelwert kann ebenfalls
eingezeichnet werden (er muss nicht notwendigerweise in der Box
liegen). Die von der Box ausgehenden Striche („whiskers“ ist die
englische Bezeichnung für Schnurrhaare) zeigen die Lage des Mi-
nimums und des Maximums der jeweiligen Stichprobe an (z ›
Abbildung 4.2).
Die Plots liefern Hinweise zu Lagemaßen (Mittelwerte, Medi-
ane, Quartile, Maxima und Minima) und Streuungsmaßen (Spann-
weite, Quartilsabstand). Sie enthalten sogar Informationen bezüglich
der Schiefe: Je weiter der Mittelwert und der Median voneinander
entfernt sind, desto schiefer ist die Verteilung. Als Darstellung eignet
sich ferner ein abgewandeltes Säulendiagramm, bei dem die Höhe
einer Säule dem jeweiligen Mittelwert entspricht. Dabei kann die
Standardabweichung als senkrechter Strich auf eine Säule gesetzt
werden (z › Abbildungen 4.3a und 4.3b).
i Die Striche bei einem Box-and-Whisker-Plot können sich auch zwischen
z
dem 10%- und dem 90%-Perzentil oder dem 1%- und dem 99%-Perzen-
til erstrecken. Damit vermeidet man, dass die Whiskers wegen eines Aus-
reißers extrem in die Länge gezogen werden.
75 4
4.5 Der Vergleich mehrerer Stichproben

Abb. 4.2
Box-and-Whisker-Plots
bezüglich des Merkmals
„Körpergröße“
(Daten aus Tabelle 2.1)

Abb. 4.3a
Körpergrößen männli-
cher und weiblicher Stu-
denten. Die y-Achse be-
ginnt bei 0. Diese Dar-
stellung vermittelt den
Eindruck, der Unter-
schied zwischen den
beiden Gruppen sei sehr
gering.

Abb. 4.3b
Die y-Achse beginnt bei
160. Der Unterschied
tritt wesentlich deutlicher
hervor als in Abbildung
4.3a.

Merke
Eine graphische Darstellung sollte informieren und nicht manipulieren!
Es gibt zahlreiche Tricks, harmlose Effekte durch geschickte Graphiken
zu dramatisieren. Wertvolle Hinweise dazu finden sich in [3]. An dieser
Stelle sei lediglich erwähnt, dass der Wertebereich der Achsen dabei eine
wichtige Rolle spielt (z› Abbildungen 4.3a und 4.3b). Es ist in jedem Fall
wichtig, sich als Leser nicht nur von Graphiken beeindrucken zu lassen,
sondern zusätzlich einen Blick auf die Daten zu werfen.
76 Kapitel 4 · Die Beschreibung eines Merkmals

4.5.3 Anforderungen an die Stichproben


Die Häufigkeiten und die empirischen Kenngrößen haben eine dop-
pelte Funktion. Einerseits beschreiben sie die Charakteristika der
Stichprobe; darüber hinaus dienen sie als Schätzwerte für die ent-
sprechenden Parameter der Grundgesamtheit. Man kann freilich
nicht erwarten, dass die Kenngrößen der Stichprobe und die der
Grundgesamtheit identisch sind, oder dass die empirisch ermittelte
Verteilungsfunktion mit der Verteilungsfunktion der Grundgesamt-
4 heit exakt übereinstimmt. Man ist jedoch in jedem Fall daran inte-
ressiert, dass die Kenngrößen der Stichproben in brauchbarer Weise
die Eigenschaften der Grundgesamtheit beschreiben. Dazu muss die
Stichprobe zwei Bedingungen erfüllen:
ŷ Sie muss repräsentativ für die jeweilige Grundgesamtheit sein,
ŷ und der Stichprobenumfang muss hinreichend groß sein.
Bei einer sehr kleinen Stichprobe kann es vorkommen, dass einem
der Zufall einen Streich spielt und die empirischen Kenngrößen we-
sentlich beeinflusst, sodass die Eigenschaften der Grundgesamtheit
verzerrt wiedergegeben werden. Dies kann bei einer größeren Stich-
probe nicht so leicht passieren; Ausreißer werden eher ausgeglichen.
Daher leuchtet ein, dass eine große Stichprobe bessere Schätzungen
ermöglicht als eine kleine. Andererseits bereitet eine umfangreiche
Stichprobe in der Medizin oft erhebliche Probleme. Deshalb sollte
der Stichprobenumfang nicht größer sein als nötig. Die optimale
Stichprobengröße muss daher vor der Datenerhebung festgelegt
werden. Sie hängt von zahlreichen Faktoren ab, u. a. von den Ska-
lenniveaus der Merkmale, den Kenngrößen, die geschätzt werden
sollen und der erforderlichen Genauigkeit der Schätzung.

4.5.4 Ausblick auf die induktive Statistik


Ein Vergleich zwischen mehreren Stichproben wird nach folgendem
Prinzip durchgeführt: Zunächst werden geeignete Kenngrößen, die
den interessierenden Effekt beschreiben (etwa relative Häufigkeiten,
Mittelwerte und Standardabweichungen), für jede Stichprobe ge-
trennt berechnet. Diese Kenngrößen und geeignete graphische Dar-
stellungen ermöglichen einen direkten Vergleich. Dies ist allerdings
nicht ausreichend, um einen Unterschied statistisch abzusichern. In
einem zweiten Schritt wird deshalb mittels eines statistischen Tests
überprüft, ob die Unterschiede nur zufällig bedingt oder ob sie „sig-
nifikant“ sind. In den Kapiteln 10 bis 12 wird ausführlich auf dieses
Thema eingegangen.
5

Die Beschreibung eines


Zusammenhangs
5.1 Die Methoden der bivariaten Statistik 79

5.2 Die Korrelationsanalyse 80


5.2.1 Die Punktwolke 80
5.2.2 Die Voraussetzungen der Korrelationsanalyse 82
5.2.3 Die Kovarianz 82
5.2.4 Der Korrelationskoeffizient nach Pearson 84
5.2.5 Interpretation eines Korrelationskoeffizienten 85

5.3 Die Regressionsanalyse 88


5.3.1 Herleitung der Regressionsgeraden 88
5.3.2 Regression 1. Art und 2. Art 91
5.3.3 Das Bestimmtheitsmaß 92
5.3.4 Nicht-lineare Regression 94

5.4 Weitere Techniken 94


5.4.1 Der Korrelationskoeffizient nach Spearman 94
5.4.2 Der Zusammenhang zwischen einem quantitativen
und einem Alternativmerkmal 97
5.4.3 Der Zusammenhang zwischen qualitativen Merkmalen 98
5.4.4 Ausblick auf die induktive Statistik 98
79 5
5.1 Die Methoden der bivariaten Statistik

5.1 Die Methoden der bivariaten Statistik

Bei den meisten medizinischen Studien werden mehrere Merkmale


erfasst. In diesen Fällen ist es interessant und sinnvoll, nicht nur ein-
zelne Merkmale zu beschreiben, sondern darüber hinaus auch deren
Zusammenhang zu untersuchen. Aus Erfahrung oder aufgrund theo-
retischer Überlegungen ist oft bekannt, ob ein solcher Zusammen-
hang besteht. So weiß man beispielsweise, dass das Körpergewicht
eines Menschen von dessen Größe mitbestimmt wird; das Auftreten
bestimmter Krankheiten ist im Allgemeinen abhängig von diversen
Risikofaktoren, viele auch vom Geschlecht der Patienten. Manche
Zusammenhänge sind besonders stark ausgeprägt (z. B. zwischen
dem Geschlecht einer Person und der Erkrankung an Hämophilie),
andere dagegen eher schwach (z. B. zwischen der Körpergröße und
dem Gewicht).
Aus der Mathematik und der Physik sind Zusammenhänge zwi-
schen zwei oder mehreren Größen hinlänglich bekannt. So besteht
beispielsweise zwischen dem Umfang U und dem Radius r eines
Kreises die lineare Beziehung U = 2π ⋅ r ; der Weg s, den ein aus dem
Ruhezustand frei nach unten fallender Körper nach der Zeit t zu-
rückgelegt hat, lässt sich ausdrücken durch s = 1 / 2 ⋅ gt 2 (wobei die
Konstante g = 9,81 m / sec2 die Erdbeschleunigung bezeichnet). Diese
Art von Zusammenhängen nennt man funktional: Eine Größe kann
aus einer anderen mittels einer mathematischen Gleichung exakt be-
rechnet werden.
Die Zusammenhänge in der Medizin sind stochastisch, weil da-
bei bekanntlich auch der Zufall eine Rolle spielt. Es ist deshalb nicht
möglich, exakte Aussagen oder Vorhersagen zu treffen. Man kann je-
doch angeben, welche Werte – bei bekannter Ausprägung des einen
Merkmals – das andere Merkmal mit größerer oder kleinerer Wahr-
scheinlichkeit annehmen wird. Wenn beispielsweise ein gesicherter
Zusammenhang zwischen der Dosis eines Medikaments und dessen
Wirkung besteht und die Art dieses Zusammenhangs bekannt ist,
kann man aufgrund der Dosis einen Effekt abschätzen, ehe dieser
eingetreten ist. Wenn man von einem Patienten weiß, dass mehrere
Risikofaktoren vorliegen, die das Auftreten eines Herzinfarkts be-
günstigen, wird man eher auf entsprechende Symptome achten als
bei Patienten, bei denen diese Risikofaktoren nicht vorhanden sind.
So erlaubt die Kenntnis über einen Zusammenhang, bereits im Vor-
feld geeignete Maßnahmen zu treffen und geschickt zu intervenie-
ren.
80 Kapitel 5 · Die Beschreibung eines Zusammenhangs

Die Aufgaben der bivariaten Statistik bestehen darin, den Zusam-


menhang zwischen zwei Merkmalen aufzuzeigen und zu beschrei-
ben. Welche Methoden im Einzelfall geeignet sind, hängt von den
Skalenniveaus der beiden Merkmale ab:
ŷ Der Zusammenhang zwischen zwei quantitativen Merkmalen
wird mit Methoden der Korrelationsanalyse und der Regressi-
› Abschnitte 5.2 und 5.3).
onsanalyse untersucht (z
ŷ In Abschnitt 5.4 werden Techniken vorgestellt, die sich eignen,
wenn nicht beide Merkmale quantitativ sind.

5 5.2 Die Korrelationsanalyse

5.2.1 Die Punktwolke


Um einen Zusammenhang zwischen zwei quantitativen Merkmalen
zu untersuchen, sollte man – um einen ersten Überblick zu erhalten
– eine graphische Darstellung anfertigen. Es bietet sich an, jeder
Beobachtungseinheit ein Wertepaar ( xi , yi ) zuzuordnen und diese
Punkte in ein rechtwinkeliges Koordinatensystem einzutragen. Auf
diese Weise erhält man eine Punktwolke (oder Punkteschar).
Es hängt weitgehend von sachlogischen Überlegungen ab, wel-
ches Merkmal mit x und welches mit y bezeichnet wird. Wie bei
mathematischen Gleichungen üblich, sollte x das unabhängige und y
das abhängige Merkmal sein. Wenn eine Entscheidung diesbezüglich
nicht möglich ist, dienen die Buchstaben x und y lediglich zur Un-
terscheidung der beiden Merkmale.

Beispiel 5.1
Wir untersuchen den Zusammenhang zwischen Körpergröße und Gewicht
von 48 weiblichen Medizinstudenten anhand der Daten in Tabelle 2.1. Leider
hat eine Studentin ihr Gewicht nicht angegeben, sodass nur 47 Wertepaare
verfügbar sind. Es erscheint sinnvoll, die Körpergröße als das unabhängige
und das Gewicht als das abhängige Merkmal aufzufassen. Das Körpergewicht
kann nämlich in gewisser Weise beeinflusst werden, während die Körper-
größe bei jungen Erwachsenen quasi konstant ist. Somit repräsentieren die
Werte x i die Körpergröße der Studentinnen und die Werte yi deren Ge-
wicht.
81 5
5.2 Die Korrelationsanalyse

Abb. 5.1
Punktwolke resultierend
aus den Daten der Merk-
male Körpergröße
und Körpergewicht von
47 weiblichen Studenten
(Beispiele 5.1 und 5.2)

Anhand der Punktwolke sind zwei charakteristische Eigenschaften


eines Zusammenhangs auf einen Blick erkennbar:
ŷ Die Stärke des Zusammenhangs. Je dichter die Punkte beiein-
ander liegen, desto stärker ist der Zusammenhang. Die Punkt-
wolke in Abbildung 5.1 macht deutlich, dass ein Zusammenhang
zwischen Größe und Gewicht zwar besteht, dass dieser jedoch
von anderen Faktoren überlagert wird.
ŷ Die Art des Zusammenhangs. Die Art wird durch eine mathe-
matische Funktion angegeben, die den Zusammenhang optimal
beschreibt. Es ist Aufgabe der Regressionsanalyse, diese Funk-
tion zu finden. Vorausgesetzt werden metrische Skalenniveaus
bei beiden Merkmalen. Wenn – wie in unserem Beispiel – der
Zusammenhang durch eine Gerade charakterisiert werden kann,
spricht man von einem linearen Zusammenhang; dieser wird
durch eine Regressionsgerade beschrieben (z› Abschnitt 5.3).
Die positive Steigung der Regressionsgeraden besagt, dass zwischen
Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang
besteht – das heißt, große Studentinnen haben tendenziell ein höhe-
res Gewicht, während kleine Studentinnen eher weniger wiegen.
Auch der Zusammenhang zwischen Pulsfrequenz und Körpertempe-
ratur ist gleichsinnig. Ein Beispiel für einen gegensinnigen Zusam-
menhang findet sich in der Anwendung volatiler Anästhetika. Je
höher die inspiratorische Konzentration des Anästhetikums (z. B.
Isofluran) gewählt wird, desto niedriger wird der arterielle Blut-
druck (und umgekehrt).
82 Kapitel 5 · Die Beschreibung eines Zusammenhangs

5.2.2 Die Voraussetzungen der Korrelationsanalyse


Mittels der Korrelationsanalyse wird der Korrelationskoeffizient
nach Pearson berechnet, der geeignet ist, die Stärke eines Zu-
sammenhangs zu quantifizieren (z › Abschnitt 5.2.4). Meist schließt
sich daran die Berechnung einer Regressionsgeraden an (z › Ab-
schnitt 5.3). Zunächst sollte jedoch überprüft werden, ob die Vor-
aussetzungen für diese Methoden erfüllt sind. Es muss gelten:
ŷ Beide Merkmale x und y sind quantitativ.
ŷ Der Zusammenhang ist annähernd linear.
ŷ Die Beobachtungseinheiten sind unabhängig voneinander.
5 Ob der Zusammenhang als linear angesehen werden kann, sollte
vorab durch sachlogische Überlegungen geklärt werden. Hilfreich
zur Beurteilung dieser Frage ist außerdem die Punktwolke (z › Ab-
schnitt 5.2.1). Sie muss so geartet sein, dass sich mittendurch eine
Gerade legen lässt, um die die Punkte ellipsenförmig liegen.
Die Unabhängigkeit der Beobachtungseinheiten kann ebenfalls
durch logische Überlegungen überprüft werden. Bei Abhängigkeit
der Merkmalspaare könnte ein stärkerer Zusammenhang als tatsäch-
lich vorhanden vorgetäuscht werden. In unserem Beispiel ist diese
Voraussetzung erfüllt. Die Daten wären jedoch nicht unabhängig,
wenn sich unter den Studenten Geschwister befänden oder wenn die
Daten einzelner Studenten mehrfach erfasst worden wären.
Wenn die empirischen Maßzahlen der Stichprobe als Schätzer
für die entsprechenden Parameter der Grundgesamtheit dienen,
müssen weitere Voraussetzungen überprüft werden. Dazu sollten die
beiden Merkmale bivariat normalverteilt sein (z › Abschnitte 9.3.4
und 11.1.6).

5.2.3 Die Kovarianz


Der Korrelationskoeffizient und die Parameter der Regressionsgera-
den bauen auf der so genannten Kovarianz auf. Sie wird mit sxy be-
zeichnet und – basierend auf den Mittelwerten x und y – folgen-
dermaßen berechnet:
n n
¦ ( xi − x ) ⋅ ( yi − y ) ¦ xi y i − n ⋅ x ⋅ y
i =1 i =1
s xy = = (5.1)
n −1 n −1
83 5
5.2 Die Korrelationsanalyse

Die Formel (5.1) ähnelt der Formel (4.6), mit der die Varianz eines
Merkmals berechnet wird. Während die Varianz das durchschnittli-
che Abweichungsquadrat ( xi − x )2 quantifiziert, erfasst die Kovarianz
das durchschnittliche Produkt der Abweichungen ( xi − x ) und
( yi − y ) . Die Division durch n − 1 gewährleistet, dass man – analog
zur Varianz – einen optimalen Schätzwert für die Kovarianz der
Grundgesamtheit erhält.
Die Kovarianz ist ein Maß für das „Miteinander-Variieren“
zweier quantitativer Merkmale. Sie kann sowohl positive als auch
negative Werte annehmen:
„• Eine positive Kovarianz sxy > 0 impliziert einen gleichsinnigen Zu-
sammenhang. Wenn beide Messwerte einer Beobachtungseinheit
größer oder beide kleiner sind als der jeweilige Mittelwert, haben
die Terme ( xi − x ) und ( yi − y ) dasselbe Vorzeichen, sodass deren
› Abbildung 5.2a).
Produkt positiv ist (z
• Eine negative Kovarianz sxy < 0 ergibt sich, wenn sich die beiden
„
Merkmale gegensinnig verhalten. Dann haben die Abweichungen
( xi − x ) und ( yi − y ) unterschiedliche Vorzeichen, sodass deren Pro-
dukt negativ ist (z › Abbildung 5.2b).
• Eine Kovarianz nahe bei 0 signalisiert, dass nahe beieinander lie-
„
gende x-Werte sowohl mit positiven als auch mit negativen Abwei-
chungen ( yi − y ) korrelieren, sodass sich die Produkte
( xi − x ) ⋅ ( yi − y ) ausgleichen und in ihrer Summe einen Wert nahe
bei 0 annehmen (z › Abbildung 5.2c). Falls sxy ≈ 0 , bedeutet dies je-
doch keineswegs, dass generell kein Zusammenhang besteht. Dies
zeigt lediglich, dass kein linearer Zusammenhang nachzuweisen ist.

Abb. 5.2a gleichsinniger Abb. 5.2b gegensinni- Abb. 5.2c kein linearer
Zusammenhang, posi- ger Zusammenhang, Zusammenhang,
tive Kovarianz negative Kovarianz Kovarianz ≈ 0
84 Kapitel 5 · Die Beschreibung eines Zusammenhangs

Die Einheit der Kovarianz ist das Produkt der Einheiten der beiden
zugrunde liegenden Merkmale. Sowohl der Zahlenwert als auch die
Einheit der Kovarianz sind abhängig von deren Maßstäben (die mit-
unter recht willkürlich gewählt sind) und deshalb schwer zu inter-
pretieren. Die Kovarianz ist – für sich allein betrachtet – wenig in-
formativ zur Beurteilung der Frage, ob ein Zusammenhang beson-
ders eng oder eher lose ist. Sie informiert lediglich anhand des Vor-
zeichens darüber, ob der Zusammenhang gleichsinnig oder gegen-
sinnig ist.

5.2.4 Der Korrelationskoeffizient nach Pearson


5 Der Pearson’sche Korrelationskoeffizient (auch Produkt-Moment-
Korrelationskoeffizient genannt) stellt ein normiertes Maß zur
Quantifizierung eines linearen Zusammenhangs dar. Man erhält
diesen Koeffizienten, indem man die Kovarianz s xy durch die beiden
Standardabweichungen sx und s y dividiert:

s xy
r= (5.2)
sx ⋅ s y

Der Korrelationskoeffizient kann nur Werte zwischen -1 und +1 an-


nehmen; er ist dimensionslos. Der Buchstabe r weist darauf hin, dass
die Korrelations- und die Regressionsanalyse eng miteinander ver-
bunden sind. Das Vorzeichen von r ist identisch mit dem Vorzeichen
der Kovarianz sxy : Ein positives Vorzeichen steht demnach für einen
gleichsinnigen, ein negatives Vorzeichen für einen gegensinnigen
Zusammenhang.

Beispiel 5.2
Aus den Daten der Körpergröße und des Körpergewichts von 47 Studentinnen
ergibt sich eine Kovarianz von 36,856 cm · kg. Wenn man nun durch die Stan-
dardabweichungen s x = 6,63 cm und s y = 9,16 kg dividiert, erhält man den
Pearson’schen Korrelationskoeffizienten r = 0,607 . Die Stärke des Zusam-
menhangs ist also mittelmäßig. Einerseits ist r deutlich größer als 0 – daher
besteht durchaus ein Zusammenhang zwischen den beiden Merkmalen. Ande-
rerseits ist r kleiner als 1 – weil das Gewicht nicht nur von der Größe, sondern
von zahlreichen weiteren Faktoren abhängt.
85 5
5.2 Die Korrelationsanalyse

Der Betrag von r hat folgende Bedeutung:


ŷ Je näher r bei 0 liegt, desto schwächer ist der Zusammenhang
und desto weiter streut die Punktwolke um die Gerade.
ŷ Je näher der Betrag von r bei 1 liegt, desto stärker ist der Zusam-
menhang und desto dichter liegen die Punkte ( xi , yi ) an der Re-
gressionsgeraden.
ŷ Die Extremfälle r = 1 und r = −1 ergeben sich bei einem funkti-
onalen Zusammenhang, der durch eine lineare Gleichung der
Form y = a + bx exakt beschrieben werden kann. Alle Punkte
( xi , yi ) liegen dann auf der Regressionsgeraden.

Mathematische Herleitung des Korrelationskoeffizineten nach Pearson


Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn
der Zusammenhang funktional ist und durch eine lineare Gleichung
y = a + bx exakt beschrieben werden kann. Dann erhält man nach den
Definitionen der Kovarianz und der Varianz in (5.1) und (4.6):
n n n

¦x y i i − nxy ¦ x (a + bx ) − nx (a + bx )
i i b( ¦ xi2 − nx 2 )
s xy = i =1
= i =1 = i =1
= bsx 2
n −1 n −1 n −1
Für die Varianz s y 2 ergibt sich:
n n

¦( y i − y )2 b2 ¦ ( xi − x )2
sy2 = i =1
= i =1 = b2 sx 2
n −1 n −1
Für positives b ist s y = bsx und s xy = bs x 2 = sx ⋅ s y . Für negatives b folgt ana-
log: s y = − bsx und sxy = − sx ⋅ s y . Da es sich hierbei um die beiden Extremfälle
handelt, folgt für die Kovarianz: − sx ⋅ s y ≤ sxy ≤ sx ⋅ s y . Daraus ergibt sich für
sxy
den Korrelationskoeffizienten r = : −1 ≤ r ≤ 1 .
sx ⋅ s y

5.2.5 Interpretation eines Korrelationskoeffizienten


Häufig wird ein Korrelationskoeffizient falsch interpretiert, oder
seine Bedeutung wird überschätzt. Ein empirischer Koeffizient, des-
sen Betrag größer als 0 ist, besagt lediglich, dass ein Zusammenhang
aufgrund der Stichprobe nicht auszuschließen ist. Er besagt jedoch
nichts darüber, worauf dieser Zusammenhang zurückzuführen ist
und welche Schlussfolgerungen gezogen werden können.
Mittels einer geeigneten Statistiksoftware ist die Berechnung
eines Korrelationskoeffizienten auch bei umfangreichem Datenmate-
rial problemlos möglich. Die Software berechnet diese Maßzahl je-
86 Kapitel 5 · Die Beschreibung eines Zusammenhangs

doch auch dann, wenn die Voraussetzungen nicht erfüllt sind; sie
überprüft auch nicht, ob sachliche Gründe für den Zusammenhang
sprechen. So kommt es, dass hin und wieder Zusammenhänge be-
schrieben werden, die zwar formal korrekt, aber sachlogisch in kei-
ner Weise nachvollziehbar sind. Es gibt zahlreiche Beispiele für der-
artige Schein- oder Nonsens-Korrelationen:
„• Formale Korrelation. Sie entsteht beispielsweise dann, wenn
zwei relative Anteile miteinander in Beziehung gesetzt werden, die
sich zu 100 % addieren. Wenn etwa die Merkmale x und y die relati-
ven Anteile von Eiweiß und Fett in Nahrungsmitteln darstellen (so
dass die Summe 100 % beträgt), ergibt sich rein mathematisch ein
5 funktionaler Zusammenhang mit einem Korrelationskoeffizienten
von -1 (Abweichungen wären allein durch Messfehler zu erklären).
„• Selektionskorrelation. In der Stichprobe muss die gesamte Vari-
ationsbreite der zu untersuchenden Merkmale repräsentiert sein.
Wenn man jedoch bei der Wahl der Beobachtungseinheiten selek-
tiert, ergibt sich eine Korrelation, die nicht die Verhältnisse in der
Grundgesamtheit widerspiegelt. Ein Beispiel hierfür ist gegeben,
wenn zur Beurteilung der Frage, ob das Geburtsgewicht in Bezie-
hung zum Zigarettenkonsum der Mutter steht, nur Risikopatientin-
nen einer Spezialklinik herangezogen werden. Eine Selektion wird
auch dann vorgenommen, wenn einzelne Werte aus der Stichprobe
eliminiert werden, um einen vermeintlich starken Zusammenhang
künstlich zu erzeugen (selbstverständlich ist dieses Vorgehen höchst
unwissenschaftlich).
„• Korrelation durch Ausreißer. Ein Ausreißer – das ist ein Punkt,
der sehr weit vom Punkteschwarm entfernt liegt (z› Abbildung 5.3a)
– kann mitunter einen betragsmäßig hohen Korrelationskoeffizien-
ten verursachen. Die Punktwolke lässt Ausreißer auf einen Blick er-
kennen (z› Abschnitt 2.4).
„• Inhomogenitätskorrelation. Sie ergibt sich, wenn für zwei inho-
mogene Gruppen ein gemeinsamer Korrelationskoeffizient berechnet
wird. Die graphische Darstellung besteht aus zwei Punktwolken, die
sich nicht oder nur wenig überlappen (z › Abbildung 5.3b), und die –
isoliert betrachtet – keinen Zusammenhang offenbaren. Wenn bei-
spielsweise die Schuhgrößen und die Gehälter der Angestellten eines
Klinikums miteinander verglichen werden, ist ein Korrelationskoeffi-
zient zu erwarten, der deutlich größer als 0 ist. Er kommt dadurch zu-
stande, dass Männer im Allgemeinen größere Füße als Frauen haben
und gleichzeitig Positionen mit höheren Einkommen innehaben.
87 5
5.2 Die Korrelationsanalyse

Abb. 5.3a Korrelation, die durch Abb. 5.3b Inhomogenitäts-


einen Ausreißer verursacht ist Korrelation

„• Gemeinsamkeitskorrelation. Wenn zwei Merkmale durch ein


drittes beeinflusst werden, liegt eine Gemeinsamkeitskorrelation vor.
So ergibt sich beispielsweise rechnerisch eine positive Korrelation,
wenn man die Entwicklung des Storchenbestands in Deutschland
mit der Entwicklung der Geburtenrate vergleicht – obwohl allge-
mein bekannt sein dürfte, dass diese beiden Größen nicht kausal zu-
sammenhängen. Die Korrelation wird durch eine dritte Größe –
nämlich die allgemeine zeitliche Tendenz – künstlich erzeugt. Sie
beeinflusst gleichermaßen den Storchenbestand und die Geburten-
rate und täuscht somit eine typische Nonsens-Korrelation vor.
Diese Ausführungen belegen, dass es in keinem Fall ausreichend ist,
einen Korrelationskoeffizienten rechnerisch zu bestimmen und die-
sen Wert dann kritik- und kommentarlos als Maß für die Stärke
eines Zusammenhangs anzugeben. Auf zwei weit verbreitete Fehl-
interpretationen sei an dieser Stelle hingewiesen:
! Ein betragsmäßig hoher Korrelationskoeffizient allein ist kein Beleg für
z
eine kausale Beziehung, sondern allenfalls als Hinweis zu werten. Er be-
sagt jedoch nichts darüber, welches der beiden Merkmale das andere kau-
sal bedingt, ob die Merkmale wechselseitig aufeinander einwirken, oder
ob möglicherweise beide Merkmale durch ein drittes beeinflusst sind.
! Eine andere Fehlinterpretation wird vorgenommen, wenn beim Ver-
z
gleich zweier Messverfahren ein hoher Korrelationskoeffizient als Beweis
dafür gewertet wird, dass die Messwerte beider Verfahren übereinstim-
men. Um dies zu beurteilen, sollten zusätzlich der Mittelwert der Diffe-
renzen und deren Standardabweichung untersucht werden (Bland-Alt-
man-Analyse). Als graphische Darstellung eignet sich der Bland-Altman-
Plot, bei dem die Mittelwerte der einzelnen Messungen ( xi + yi ) / 2 ge-
gen die Differenzen ( xi − yi ) aufgetragen werden.
88 Kapitel 5 · Die Beschreibung eines Zusammenhangs

Merke
Um Fehlinterpretationen zu vermeiden, empfiehlt sich bei der Berech-
nung eines Korrelationskoeffizienten folgendes Vorgehen:
ŷ Theoretische Herleitung. Man sollte zunächst darüber nachdenken,
ob und wie der zu quantifizierende Zusammenhang begründet wer-
den kann. Das Erarbeiten eines theoretischen Hintergrundes trägt
wesentlich dazu bei, Nonsens-Korrelationen zu vermeiden.
ŷ Erstellen der Punktwolke. Die graphische Darstellung ist hilfreich
bei der Beurteilung, ob der Zusammenhang linear ist. Außerdem
deckt sie Ausreißer und inhomogene Gruppen auf.
ŷ Überprüfen der Voraussetzungen. Dies ist insbesondere dann wich-
5 tig, wenn der empirische Korrelationskoeffizient den Zusammenhang
in der Grundgesamtheit schätzen soll (z › Abschnitte 9.3.4, 11.1.6).
ŷ Interpretation. Nachdem ein Zusammenhang zwischen zwei Merk-
malen x und y theoretisch hergeleitet und statistisch abgesichert ist,
können vorsichtig Schlussfolgerungen gezogen werden. Dazu bedarf
es überwiegend medizinisch-fachlicher Überlegungen. Folgende
Möglichkeiten sind zu prüfen:
- x beeinflusst y.
- y beeinflusst x.
- x und y bedingen sich gegenseitig.
- Beide Merkmale werden durch eine dritte Größe beeinflusst.
- Der Zusammenhang kam zufällig zustande.

5.3 Die Regressionsanalyse

5.3.1 Herleitung der Regressionsgeraden


Die Regressionsanalyse ist ein flexibles und häufig eingesetztes Ver-
fahren, das in der Medizin u. a. für Ursachen- und Wirkungsanalysen
und Zeitreihenanalysen angewandt wird. Ihre Aufgabe besteht
darin, eine mathematische Gleichung herzuleiten, welche die Art
des Zusammenhangs zwischen zwei quantitativen Merkmalen opti-
mal beschreibt. Anhand dieser Gleichung lässt sich dann aus einem
bekannten Wert für das x-Merkmal ein entsprechender Wert für das
y-Merkmal prognostizieren.
i Das Wort „Regression“ geht zurück auf den englischen Naturforscher
z
Francis Galton (1822-1911), ein Vetter von Charles Darwin, der die Be-
ziehung zwischen den Körpergrößen von Vätern und ihren Söhnen un-
tersuchte. Er fand heraus, dass die Söhne großer Väter und die Söhne
89 5
5.3 Die Regressionsanalyse

kleiner Väter eine Körpergröße haben, die weniger vom Durchschnitts-


wert abweicht als die Größe der Väter. Dieses Phänomen bezeichnete er
als „Regression“ (Rückschritt zum Mittelwert). Galtons Freund Karl Pear-
son hat in 1.078 Familien die Größen von Vätern und Söhnen verglichen
und seine Ergebnisse zusammen mit dem nach ihm benannten Korrelati-
onskoeffizienten im Jahre 1903 veröffentlicht. Im Laufe der Zeit wurde
der Begriff „Regression“ allgemein verwendet, um den stochastischen
Zusammenhang zwischen zwei oder mehr Merkmalen zu beschreiben.

Aufgrund sachlogischer Überlegungen sollte vorab geklärt werden,


welches der beiden Merkmale sinnvollerweise als das unabhängige
x-Merkmal bzw. als das abhängige y-Merkmal bezeichnet wird. Für
praktische Zwecke ist es nahe liegend, dasjenige Merkmal, das einfa-
cher, billiger oder früher erfasst werden kann, als das x-Merkmal an-
zusehen. Wenn diesbezüglich keine Entscheidung möglich ist, ist die
Herleitung einer Regressionsgleichung nicht sinnvoll. Man sollte
sich in diesem Fall darauf beschränken, den Zusammenhang durch
einen Korrelationskoeffizienten zu beschreiben.
Die einfachste Form der Regressionsanalyse ist die Beschreibung
des Zusammenhangs durch eine Gerade. Dies ist erlaubt, nachdem
man sich davon überzeugt hat, dass der zu beschreibende Zusam-
menhang annähernd linear ist. Ein Blick auf den Punkteschwarm (z ›
Abbildung 5.1) macht deutlich, dass es bei stochastischen Zusam-
menhängen keine Gerade geben kann, auf der alle Punkte liegen.
Dies ist dadurch begründet, dass das y-Merkmal nicht nur vom x-
Merkmal, sondern auch von anderen Faktoren beeinflusst wird, die
in der Geradengleichung nicht berücksichtigt sind.
Die Aufgabe der Regressionsanalyse besteht nun darin, eine Ge-
rade zu finden, die die Punktwolke optimal repräsentiert – die so ge-
nannte Regressionsgerade. Diese ist so konstruiert, dass das durch-
schnittliche Abstandsquadrat der Beobachtungspunkte von der Ge-
raden minimal ist. Sie ist eindeutig bestimmt durch die Steigung

s xy
b= (5.3)
sx 2

und den y-Achsenabschnitt

a = y − bx (5.4)

Dabei sind s xy die in Abschnitt 5.2.3 eingeführte Kovarianz und s x 2


die Varianz der x-Werte. Der Parameter b wird als Regressionskoef-
fizient bezeichnet. Aus (5.3) geht hervor, dass sich der Variationsbe-
90 Kapitel 5 · Die Beschreibung eines Zusammenhangs

reich von b generell zwischen -∞ und +∞ erstreckt. Ein Vergleich


mit der Formel (5.2) auf Seite 84 zeigt, dass die Vorzeichen von b
und dem Korrelationskoeffizienten r übereinstimmen. Das bedeutet:
Bei einem gleichsinnigen Zusammenhang ist die Steigung der Re-
gressionsgeraden positiv, bei einem gegensinnigen Zusammenhang
ist sie negativ. Mit den Parametern a und b lässt sich bei Vorliegen
eines Wertes xi nach folgender Formel ein Wert ŷi für das abhän-
gige Merkmal prognostizieren:
s xy
yˆ i = a + bxi = y + ( xi − x ) (5.5)
s x2
5
Mathematische Herleitung der Regressionsgeraden
Von der Regressionsgeraden y = a + bx erwartet man, dass sie die y-Werte
optimal prognostiziert; das heißt die Abweichungen ( yi − yˆ i ) sollten mög-
lichst gering sein. Es gilt also, passende Werte für a und b zu finden, die eine
Gerade mit dieser Eigenschaft definieren. Dazu minimiert man nach der Me-
thode der kleinsten Quadrate die Summe der Abstandsquadrate:
n n

¦(y i − yˆ i )2 = ¦ ( yi − a − bxi ) 2 = f ( a, b) .
i =1 i =1

Das Minimum dieser Funktion erhält man, indem man die Ableitungen (nach
der Kettenregel der Differentialrechnung) bildet und gleich 0 setzt:
df n
= −2¦ ( yi − a − bxi ) = −2n ( y − a − bx ) = 0 und
da i =1

df n n n
= −2¦ xi ( yi − a − bxi ) = 2b¦ xi 2 − 2¦ xi yi + 2anx = 0
db i =1 i =1 i =1

Aus der ersten Gleichung folgt: a = y − bx . Wenn man diesen Term in die
zweite Gleichung einsetzt und nach b auflöst, ergibt sich:
n

¦x y − nxy
i =1
i i
sxy
b= n
= .
2 sx 2
¦x i − nx 2
i =1
d2 f d2 f n
Da für die zweiten Ableitungen gilt: 2
= 2n > 0 und 2
= 2¦ xi 2 > 0 ,
da
handelt es sich bei den berechneten Ausdrücken für a und db
b um Minima
i =1 der
Funktion f(a,b) und damit um optimale Parameter für die Regressionsgerade.
Mit einem statistischen Test lässt sich überprüfen, ob der beschriebene Zu-
sammenhang wirklich existiert und ob anzunehmen ist, dass er rein zufällig
zustande kam (z › Abschnitt 11.1.6).
91 5
5.3 Die Regressionsanalyse

Der Mittelwert der berechneten y i -Werte ist gleich dem Mittelwert


der beobachteten yi -Werte, also y . Der Punkt ( x , y ) liegt auf der
Regressionsgeraden; er ist der Schwerpunkt der Punktwolke. Wenn
der Zusammenhang funktional ist ( r = ±1 ), liegen alle Punkte auf
der Regressionsgeraden.

Beispiel 5.3
Bezüglich des Zusammenhangs zwischen Körpergröße und Gewicht von 47
Studentinnen ergibt sich folgende Regressionsgerade: yˆi = −81,111 + 0,839 xi .
Für eine 170 cm große Studentin würde man ein Gewicht von 61,5 kg prog-
nostizieren. Aus dieser Gleichung geht auch hervor, dass das Gewicht um
durchschnittlich 0,839 kg pro cm Körpergröße zunimmt. Der y-Achsenab-
schnitt -81,111 hat keine praktische Bedeutung.

! Es ist wichtig zu beachten, dass eine Extrapolation über den Beobach-


z
tungsbereich hinaus problematisch ist. In unserem Beispiel wurden bei
der Berechnung der Regressionsgeraden x-Werte zwischen 156 cm und
180 cm zugrunde gelegt. Wenn man mit dieser Geraden das Gewicht
eines 90 cm großen Kindes bestimmen würde, erhielte man -5,6 kg. Dies
zeigt, dass eine Extrapolation unsinnige Werte liefern kann. Wenn man
trotzdem extrapoliert, sollte man dies mit der gebotenen Vorsicht tun.

Wenn das y-Merkmal von mehreren x-Variablen bestimmt wird,


verwendet man die multiple Regressionsanalyse. Die Regressions-
gleichung enthält dann mehrere x-Variablen, die die y-Zielgröße be-
einflussen, und entsprechend viele Regressionskoeffizienten. Aus-
führliche Informationen findet man in [2], [4] und [10].

5.3.2 Regression 1. Art und 2. Art


Bei der Regressionsanalyse unter- ••
scheidet man nach der Eigenschaft •
der x-Variablen zwischen Regres- • • •
sion 1. Art und Regression 2. Art. •
• • •• •
Bei der Regression 1. Art sind die
Ausprägungen der x-Variablen ex- • • • •
plizit vorgeben. Zu jedem x-Wert • • •
• • •
existieren dann mehrere, zufällig
bedingte y-Werte. Als Beispiel sei ••

der Zusammenhang zwischen der

Dosis eines Medikaments und des-
sen Wirkung genannt. Wenn –
Abb. 5.4
wie beim Zusammenhang zwi-
Regression 1. Art
schen Körpergröße und Gewicht –
92 Kapitel 5 · Die Beschreibung eines Zusammenhangs

beide Merkmale Zufallsvariable darstellen, spricht man von der


Regression 2. Art. In beiden Fällen ist die Bestimmung der Regres-
sionsgleichung nützlich, um die Art des Zusammenhangs zu be-
schreiben. Der Korrelationskoeffizient nach Pearson als Maße der
Stärke des Zusammenhangs ist allerdings nur sinnvoll bei der
Regression 2. Art.

5.3.3 Das Bestimmtheitsmaß


Ein Problem der Regressionsanalyse liegt in der Verlässlichkeit der
Schätzung. Meistens wird der zu einem Messwert xi gehörende
Wert y i , der durch die Gleichung der Regressionsgeraden prognos-
5 tiziert wird, vom Beobachtungswert yi abweichen. Ein einfaches
Maß für diese Abweichung ist das Residuum:

ei = yi − yˆ i (5.6)

Um die Schätzung durch die Regressionsgerade generell zu beurtei-


len, bedarf es eines Maßes, das alle Residuen berücksichtigt. Da sich
die Residuen gegenseitig ausgleichen, sodass deren Summe gleich 0
ist, legt man die Summe der Abweichungsquadrate ei 2 zugrunde.
Diese Summe ist ein Teil des Zählers der Varianz der yi -Werte, die
sich aus zwei Komponenten zusammensetzt:
n n n
¦ ( yi − y ) 2 =¦ ( yi − yˆ i ) 2 +¦ ( yˆ i − y ) 2 (5.7)
i =1 i =1 i =1

Der Einfachheit halber sind in dieser Gleichung die Nenner ( n − 1)


weggelassen. Der Term auf der linken Seite des Gleichheitszeichens
steht für die Gesamtvarianz der Beobachtungswerte yi . Der erste
Summand rechts vom Gleichheitszeichen bezieht sich auf die Vari-
anz der Residuen ei (mit dem Mittelwert 0), der zweite auf die Vari-
anz der mit der Regressionsgleichung berechneten Werte y i . Der
zweite Teil der Gesamtvarianz wird auch als die erklärte Varianz be-
zeichnet (diese lässt sich durch die Gleichung der Regressionsgera-
den erklären). Der erste Summand, nämlich die Residualvarianz, ist
dagegen auf die Abweichung der Beobachtungswerte von der Reg-
ressionsgeraden zurückzuführen. Gleichung (5.7) lässt sich also ver-
bal folgendermaßen formulieren:
Gesamtvarianz = Residualvarianz + erklärte Varianz
93 5
5.3 Die Regressionsanalyse

Es ist offensichtlich, dass die Schätzung durch die Regressionsgerade


dann besonders gut ist, wenn der Anteil der Residualvarianz mög-
lichst klein und die erklärte Varianz entsprechend groß ist. Ande-
rerseits gilt: Je kleiner die erklärte Varianz ist, desto schlechter kön-
nen die y-Werte über das Regressionsmodell geschätzt werden. Aus
diesen Überlegungen ergibt sich, dass die erklärte Varianz im Ver-
hältnis zur Gesamtvarianz ein geeignetes Maß für die Güte des
Modells darstellt. Es lässt sich nachweisen, dass dieser Quotient mit
r 2 übereinstimmt:
n

s yˆ 2 ¦ ( yˆ i − y ) 2 erklärte Varianz
i =1
r2 = 2
= n
= (5.8)
sy Gesamtvarianz
¦ ( yi − y ) 2
i =1

Man bezeichnet r 2 als das Bestimmtheitsmaß oder den Determina-


tionskoeffizienten. Der Wertebereich des Bestimmtheitsmaßes r 2 er-
streckt sich zwischen 0 und 1. Im Extremfall r 2 = 1 ist die Residual-
varianz gleich 0.

Mathematische Herleitung des Bestimmtheitsmaßes


Die Gleichung (5.7) lässt sich durch elementare Umformungen unter Zuhilfe-
nahme der Gleichungen (5.3) bis (5.5) nachweisen. Ein geeignetes Maß für
die Güte der Schätzung ist die Varianz der berechneten yi -Werte (das ist die
durch das Regressionsmodell erklärte Varianz) dividiert durch die Gesamt-
varianz. Für die erklärte Varianz erhalten wir:
n n

¦ ( yˆ i − y )2 ¦ (bx i − bx ) 2
s 2yˆ = i =1
= i =1
= b 2 sx2
n −1 n −1
s y 2 b2sx 2
Daraus folgt für die Güte der Schätzung: 2
= .
sy sy 2
sxy s y 2 sxy 2
Mit b = 2
(Formel 5.3) erhalten wir: 2
= = r 2 (nach Formel 5.2).
sx sy sx 2 ⋅ s y 2

Beispiel 5.4
Aus r = 0,607 (Beispiel 5.2) ergibt sich für den Determinationskoeffizien-
ten: r 2 = 0,368 . Diese Zahl besagt, dass 37 % der Varianz des Gewichts durch
das Modell der Regressionsgeraden (also durch die Körpergröße) bedingt sind.
63 % sind durch andere, nicht im Modell berücksichtigte Einflüsse verursacht.
94 Kapitel 5 · Die Beschreibung eines Zusammenhangs

5.3.4 Nicht-lineare Regression


Nicht jeder Zusammenhang wird durch eine Gerade optimal be-
schrieben. Es gibt exponentielle Zusammenhänge (die beispielsweise
durch Wachstumsprozesse bedingt sind) oder Zusammenhänge, die
sich durch eine logarithmische Funktion beschreiben lassen. Diese
nicht-linearen Beziehungen erfordern spezielle Methoden zur Re-
gressionsanalyse.
Ehe man einen nicht-linearen Zusammenhang genauer unter-
sucht, sollte man darüber nachdenken, ob es eine Theorie gibt, die
diesen Trend erklärt. Danach versucht man, die Art des Zusammen-
hangs zu finden und eine allgemeine Regressionsgleichung mit Para-
5 metern a, b etc. aufzustellen. Diese Wahl ist oft recht schwierig und
erfordert sehr viel Erfahrung sowie genaue Kenntnisse der theoreti-
schen Hintergründe. Wertvolle Hinweise liefert auch hier die gra-
phische Darstellung der Wertepaare als Punktwolke. Generell gibt es
zwei Möglichkeiten, geeignete Werte für die Parameter a, b etc. zu
finden:
„• Manchmal ist es möglich, die nichtlineare Regressionsgleichung
in eine lineare zu transformieren. Anstelle der Gleichung y = a ⋅ ebx
würde man die Funktion lny = lna + bx betrachten und nach der
Methode der kleinsten Quadrate optimale Werte für lna (und damit
auch für a) sowie für b erhalten.
„• Man verwendet – ähnlich wie bei der linearen Regression – die
Methode der kleinsten Quadrate. So würde man etwa bei der Funk-
tion f ( x ) = a ⋅ ebx die Ableitungen von ¦ ( yi − a ⋅ ebxi ) 2 nach a und b
bilden und diese gleich 0 setzen.
i Die Güte eines multiplen oder eines nicht-linearen Modells lässt sich
z
ebenfalls mit dem Determinationskoeffizienten r 2 (der das Verhältnis der
erklärten zur Gesamtvarianz wiedergibt) abschätzen. Mit Hilfe dieses Ko-
effizienten lassen sich auch mehrere Modelle miteinander vergleichen.

5.4 Weitere Techniken

5.4.1 Der Korrelationskoeffizient nach Spearman


Die Berechnung des Korrelationskoeffizienten nach Pearson ist an
einige Bedingungen geknüpft. Es muss sich um quantitative Merk-
male handeln, und der Zusammenhang muss annähernd linear sein.
95 5
5.4 Weitere Techniken

Als Alternative bietet sich der Korrelationskoeffizient nach Spear-


man an (Charles Spearman, 1863-1945, war ein britischer Psycho-
loge). Dies ist ein Maß für die Stärke eines monotonen Zusammen-
hangs. Es wird auch als Rangkorrelation bezeichnet, da es auf den
Rangzahlen der Beobachtungswerte ( xi , yi ) basiert.
i Spearman untersuchte den Zusammenhang zwischen intellektuellen Leis-
z
tungen und einem allgemeinen Intelligenzfaktor. Er veröffentlichte seine
Ergebnisse etwa zeitgleich mit Pearson im Jahr 1904. In dieser Publika-
tion wurde die Rangkorrelation erstmals erwähnt.

Um diesen Koeffizienten zu be-


rechnen, werden alle x-Werte
• •••
• •• sortiert und mit Rangzahlen
• • versehen. Der kleinste Wert er-
•• hält den Rang 1, der größte den

•• • Rang n. Falls mehrere Aus-

• • prägungen übereinstimmen (man
• •• spricht dann von verbundenen
• Rängen), ermittelt man mittlere
• •
• • Rangzahlen, indem man die
• • Rangzahlen der gleichen Aus-

prägungen addiert und die
Abb. 5.5 gleichsinniger, Summe durch deren Anzahl di-
monotoner Zusammenhang; vidiert. Mit den Daten des y-
Rangkorrelation positiv Merkmals verfährt man ebenso.
Jeder Beobachtungseinheit wird also eine Rangzahl für das x-Merk-
mal und eine für das y-Merkmal zugeordnet. Die Differenz dieser
beiden Rangzahlen sei di . Aus diesen Differenzen wird der Spear-
man’sche Korrelationskoeffizient berechnet nach:
n
6 ⋅ ¦ di 2
i =1
rs = 1 − (5.9)
n ⋅ (n 2 − 1)

Ebenso wie der Korrelationskoeffizient nach Pearson erstreckt sich


auch der Korrelationskoeffizient nach Spearman rs zwischen –1 und
+1. rs nimmt den maximalen Betrag 1 an, wenn der Zusammenhang
streng monoton ist (dies umfasst den Begriff „streng linear“). Ein po-
sitives Vorzeichen symbolisiert einen gleichsinnigen, ein negatives
Vorzeichen einen gegensinnigen Zusammenhang. rs = 0 bedeutet,
dass kein monotoner Zusammenhang nachweisbar ist.
96 Kapitel 5 · Die Beschreibung eines Zusammenhangs

! Die Voraussetzungen, die zur Berechnung des Spearman’schen Korrelati-


z
onskoeffizienten erfüllt sein müssen, sind schwächer als die Vorausset-
zungen, die der Berechnung des Pearson’schen Koeffizienten zugrunde
liegen. Wenn allerdings zusätzlich eine Regressionsgleichung ermittelt
werden soll, wird – wenn es statthaft erscheint – dem Korrelationskoeffi-
zienten nach Pearson den Vorzug gegeben.

Beispiel 5.5
Bei 10 Frauen wird der BMI-Wert zu Beginn ihrer Schwangerschaft gemessen;
später wird der Apgar-Wert des neugeborenen Kindes ermittelt. Zum Nach-
weis eines Zusammenhangs eignet sich der Korrelationskoeffizient nach
Spearman, da es sich beim Apgar-Score um ein ordinal skaliertes Merkmal
5 handelt. Es ergeben sich folgende Werte (wobei x i der Apgar-Score, yi der
BMI, R( xi ) und R( yi ) die Ränge und d i = R( xi ) − R ( yi ) deren Differenzen
bezeichnen):
xi 4 5 6 6 7 8 8 8 9 10
yi 27,1 24,9 26,4 25,9 25,3 23,2 21,0 22,4 19,6 20,1
R ( xi ) 1 2 3,5 3,5 5 7 7 7 9 10
R ( yi ) 10 6 9 8 7 5 3 4 1 2
di -9 -4 -5,5 -4,5 -2 2 4 3 8 8
di 2 81 16 30,25 20,25 4 4 16 9 64 64
10
2 6 ⋅ 308,5
Daraus berechnet man ¦d i = 308,5 und rs = 1 − = −0,87 . Bei der
i =1 990
kleinen Stichprobe ist also ein gegensinniger Zusammenhang erkennbar: Je
höher der BMI-Wert der Mutter, desto geringer der Apgar-Score des Kindes.

i Streng mathematisch gesehen setzt der Spearman-Koeffizient voraus, dass


z
zwei benachbarte Merkmalsausprägungen äquidistant sind (was bekannt-
lich bei ordinalen Merkmalen problematisch ist). Die Rang-Korrelation τ
(griechischer Buchstabe tau) nach Kendall setzt dies nicht voraus; dabei
werden ausschließlich die ordinalen Informationen verwendet. Ausführ-
lich beschrieben ist dieser Koeffizient in [5]. Der Spearman’sche Korrela-
tionskoeffizient ist bekannter und wird häufiger angewandt.

Merke
Die Rangkorrelation nach Spearman eignet sich für folgende
Konstellationen:
ŷ Beide Merkmale sind ordinal skaliert.
ŷ Ein Merkmal ist metrisch, das andere ordinal skaliert.
ŷ Beide Merkmale sind quantitativ; der Zusammenhang ist monoton,
aber nicht linear.
97 5
5.4 Weitere Techniken

Mathematische Herleitung des Korrelationskoeffizienten nach Spearman


Dieser Koeffizient wird berechnet, indem man in die Formel zur Bestimmung
des Pearson’schen Korrelationskoeffizienten (5.2) anstelle der Messwerte x i
und yi deren Ränge R( xi ) und R( yi ) und für x und y den mittleren Rang
R einsetzt. Durch vollständige Induktion lässt sich nachweisen, dass
n n
n ⋅ ( n + 1) n n
n ⋅ ( n + 1) ⋅ (2n + 1)
¦ R( xi ) = ¦ i = und ¦ R 2 ( xi ) = ¦ i 2 =
i =1 i =1 2 i =1 i =1 6
Daraus resultiert für den Mittelwert und die Summe der Abstandsquadrate:
n +1 n n
n ⋅ ( n 2 − 1)
R= und ¦ ( R( xi ) −R )2 = ¦ R 2 ( xi ) − nR 2 =
2 i =1 i =1 12
Analoges gilt für die Ränge des y-Merkmals; d. h. die Standardabweichungen
von R( xi ) und R( yi ) sind gleich. Deren Produkt entspricht dem Nenner von
Formel (5.2). Für den Zähler ergibt sich durch Umformen:
n

¦ ( R( x ) − R ) ⋅ ( R( y ) − R ) =
i =1
i i

n n n n
2 2 2 2
¦ ( R( x ) − R ) + ¦ ( R( y ) − R ) − ¦ d
i =1
i
i =1
i i
n ⋅ ( n − 1) i =1 i
i =1
2 ¦d
= − .
2 12 2
Wenn man Zähler und Nenner zusammenfasst, erhält man die Formel (5.9).

5.4.2 Der Zusammenhang zwischen einem quantitativen und


einem Alternativmerkmal
In diesem Kapitel wurde der Frage nachgegangen, wie sich der Zu-
sammenhang zwischen zwei quantitativen Merkmalen – etwa zwi-
schen Körpergröße und Gewicht – beschreiben lässt. Nun hängt das
Gewicht bekanntlich nicht nur von der Größe, sondern auch vom
Geschlecht einer Person ab. Um den Unterschied zwischen zwei
Gruppen abzusichern, verwendet man üblicherweise einen statisti-
schen Test wie etwa den t-Test für zwei unverbundene Stichproben
(z› Abschnitt 11.1.3). Ein solcher Test beinhaltet jedoch kein
Assoziationsmaß, das die Stärke des Zusammenhangs quantifiziert.
Die Stärke des Zusammenhangs zwischen einem quantitativen
und einem Alternativmerkmal kann durch die punktbiseriale Kor-
relation rpb ausgedrückt werden. Dabei werden für die Ausprägun-
gen des Alternativmerkmals die Werte 0 oder 1 eingesetzt; damit
lässt sich dann nach (5.2) ein Korrelationskoeffizient berechnen.
98 Kapitel 5 · Die Beschreibung eines Zusammenhangs

Beispiel 5.6
Um die Stärke des Zusammenhangs zwischen Geschlecht und Körpergewicht
zu quantifizieren, codiert man das Geschlecht mit 0 (männlich) und 1 (weib-
lich). Die x-Werte nehmen dann entweder den Wert 0 oder 1 an; die y-Werte
sind die Messwerte für das Gewicht. Mit den Daten in Tabelle 2.1 erhalten wir
einen biserialen Korrelationskoeffizienten rpb = −0,638 . Der Zusammenhang
ist gegensinnig – d. h. Männer (mit dem kleineren x-Wert 0 codiert) wiegen
mehr als Frauen. Aus diesen Angaben folgt außerdem: rpb2 = 0,407 . Dies
besagt, dass – bezogen auf alle Studenten – etwa 41 % des Körpergewichts
durch den Einfluss des Geschlechts erklärt werden können.

5
5.4.3 Der Zusammenhang zwischen qualitativen Merkmalen
In Abschnitt 3.4.2 wurden die Odds Ratio und der Assoziationskoef-
fizient nach Yule erwähnt, die geeignet sind, den Zusammenhang
zwischen zwei Alternativmerkmalen zu quantifizieren. In Abschnitt
12.2.4 werden Assoziationsmaße vorgestellt, mit denen sich der Zu-
sammenhang zwischen zwei nominal skalierten Merkmalen be-
schreiben lässt. Allgemein gilt: Je höher das Skalenniveau der
zugrunde liegenden Merkmale ist, desto präziser lassen sich die
Stärke und die Art eines Zusammenhangs beschreiben.

5.4.4 Ausblick auf die induktive Statistik


Zur sinnvollen Interpretation eines Korrelationskoeffizienten, einer
Regressionsgleichung oder eines Assoziationskoeffizienten ist es
wichtig, dass der Stichprobenumfang hinreichend groß ist. Allge-
mein gilt: Je näher ein Korrelationskoeffizient bei 0 liegt und je klei-
ner der Stichprobenumfang ist, umso weniger kann auf einen real
existierenden Zusammenhang geschlossen werden. In diesen Fällen
muss man davon ausgehen, dass die empirisch ermittelte Korrelation
zufallsbedingt ist.
Um abschätzen zu können, ob und inwieweit der anhand der
Stichprobe ermittelte Zusammenhang auf die Grundgesamtheit
übertragbar ist, erscheint es sinnvoll, Vertrauensbereiche zu ermit-
teln und einen geeigneten statistischen Test durchzuführen. Dies
geschieht – in Abhängigkeit von den Skalenniveaus der beiden
Merkmale – mit Methoden der induktiven Statistik (z › Abschnitte
9.3.4, 11.1.6 und 12.2.4).
6

Wahrscheinlichkeiten in der
Medizin
6.1 Die Aufgaben der
Wahrscheinlichkeitsrechnung 101

6.2 Das Rechnen mit Wahrscheinlichkeiten 102


6.2.1 Zufallsexperimente und deren Beschreibung 102
6.2.2 Das Ermitteln einer Wahrscheinlichkeit 103
6.2.3 Die Verknüpfung zweier Ereignisse 105
6.2.4 Die Axiome von Kolmogoroff und deren Folgerungen 107
6.2.5 Abhängigkeit und bedingte Wahrscheinlichkeit 109
6.2.6 Das Bayes-Theorem 110

6.3 Wahrscheinlichkeiten in der Epidemiologie 111

6.4 Bevölkerungsstatistiken 114


6.4.1 Spezielle Wahrscheinlichkeiten 114
6.4.2 Sterbetafeln 115

6.5 Diagnostische Tests 118


6.5.1 Die Gütekriterien eines diagnostischen Tests 118
6.5.2 Vorhersagewerte 119
6.1 Die Aufgaben der 101 6
Wahrscheinlichkeitsrechnung

6.1 Die Aufgaben der Wahrscheinlichkeitsrechnung

Unser Alltag ist bestimmt von unendlich vielen Zufälligkeiten und


Irregularitäten. Wir haben gelernt, Wahrscheinlichkeiten intuitiv
abzuschätzen, um unseren Alltag regeln zu können – ansonsten
würden wir im Überangebot der auf uns einströmenden Informatio-
nen zugrunde gehen. Wir verlassen uns beispielsweise darauf, dass
wir sicher am Ziel ankommen, wenn wir ein Auto besteigen, und
wir kalkulieren bei unseren Zukunftsplänen keinen Lottogewinn
ein. Ein Arzt vertraut darauf, dass die von ihm verordnete Therapie
den gewünschten Erfolg erzielt, oder dass ein Patient durch eine
Impfung einer möglichen Epidemie entgeht. Mit einem unwahr-
scheinlichen Ereignis befassen wir uns erst dann, wenn dieses – ent-
gegen unseren Erwartungen – eingetreten ist. Wir orientieren uns
also nicht nur nach Sicherheiten, sondern geben uns meistens notge-
drungen mit Wahrscheinlichkeiten zufrieden.
Der Begriff „wahrscheinlich“ und davon abgeleitete Ausdrücke
entstammen unserer Umgangssprache. Mit Sätzen wie „Morgen
scheint wahrscheinlich die Sonne“ oder „Es ist unwahrscheinlich,
dass nach einer Impfung dauerhafte Schäden zurückbleiben“ drü-
cken wir Vermutungen aus bezüglich Ereignissen, die wir nicht vor-
hersehen können. Dabei handelt es sich meist um subjektive Wahr-
scheinlichkeiten, die auf alltäglichen Erfahrungen basieren. Diese
können wir nach unserem persönlichen Empfinden grob als hoch
oder eher niedrig einstufen; es ist jedoch nicht möglich, sie exakt zu
quantifizieren. Manchmal sind derlei Einschätzungen allerdings völ-
lig unrealistisch, weil wir uns bei subjektiven Beurteilungen gerne
von Wunschdenken oder anderen psychisch bedingten, intellektuell
kaum nachvollziehbaren Einflüssen täuschen lassen.
Auch die Prozesse und Entwicklungen in den Biowissenschaften
unterliegen dem Zufall. Man bezeichnet sie als probabilistisch – im
Gegensatz zu deterministischen Vorgängen, die sich exakt berech-
nen lassen. Für wissenschaftliche Untersuchungen ist es notwendig,
den Begriff der Wahrscheinlichkeit zu präzisieren und quantitativ zu
beschreiben. Diese Zahlenangaben bezeichnet man als objektive
Wahrscheinlichkeiten. Die Aufgaben der Wahrscheinlichkeitsrech-
nung und der induktiven Statistik bestehen darin, die Realität durch
ein statistisches Modell hinreichend genau zu beschreiben und an-
hand dieses Modells Gesetzmäßigkeiten herzuleiten und Wahr-
scheinlichkeiten zu bestimmen. Dabei ist es unerheblich, ob die zu
102 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

beschreibenden Vorgänge prinzipiell nicht erfassbar sind (wie z. B.


der Zerfall eines radioaktiven Atoms), oder ob sie so komplex sind,
dass sie sich einer deterministischen Beschreibung entziehen und
deshalb als probabilistisch angesehen werden.
Die mathematisch-theoretischen Aussagen, die in der Wahr-
scheinlichkeitsrechnung hergeleitet werden, bilden die Basis der in-
duktiven Statistik. Für den praktischen Anwender sind Kenntnisse
aus der Wahrscheinlichkeitsrechnung hilfreich und notwendig, um
die Methoden der induktiven Statistik zu verstehen und sinnvoll mit
ihnen umgehen zu können.
In diesem Kapitel werden zunächst in Abschnitt 6.2 Grundlagen
bezüglich des Rechnens mit Wahrscheinlichkeiten vermittelt. In den
Abschnitten 6.3 bis 6.5 werden einige für die Medizin relevante
Wahrscheinlichkeiten vorgestellt.
6
6.2 Das Rechnen mit Wahrscheinlichkeiten

6.2.1 Zufallsexperimente und deren Beschreibung


Um einen probabilistischen Vorgang zu untersuchen und relevante
Wahrscheinlichkeiten herzuleiten, genügt es nicht, ihn ein einziges
Mal durchzuführen. Es erscheint vielmehr angebracht, diesen Vor-
gang mehrmals zu wiederholen, die Ergebnisse der einzelnen Experi-
mente zu dokumentieren und auszuwerten. Diese Art von Untersu-
chungen bezeichnet man als Zufallsexperimente. Ein Zufallsexperi-
ment ist durch die folgenden Eigenschaften charakterisiert:
ŷ Es wird nach einer bestimmten Vorschrift durchgeführt,
ŷ es ist (zumindest prinzipiell) beliebig oft wiederholbar,
ŷ mehrere Ausgänge oder Ergebnisse sind möglich, und
ŷ das Ergebnis eines einzelnen Experiments ist vorab ungewiss.
So stellen beispielsweise das Würfeln oder das Werfen einer Münze
Zufallsexperimente dar. Beim Würfeln gibt es sechs mögliche Aus-
gänge, beim Münzwurf zwei. Auch das Erfassen der Blutgruppe oder
des Rhesusfaktors einer Person lässt sich als Zufallsexperiment auf-
fassen mit den möglichen Ergebnissen 0, A, B und AB bzw. „Rhesus-
faktor positiv“ und „Rhesusfaktor negativ“.
Zur Beschreibung von Zufallsexperimenten bedient sich die
Wahrscheinlichkeitsrechnung der Mengentheorie. Die Menge aller
möglichen Ergebnisse bildet den so genannten Ereignisraum. Diese
103 6
6.2 Das Rechnen mit Wahrscheinlichkeiten

Menge wird mit dem griechischen Großbuchstaben Ω (Omega) be-


zeichnet. Teilmengen von Ω nennt man Ereignisse, 1-elementige
Teilmengen Elementarereignisse. Ereignisse werden üblicherweise
mit großen lateinischen Buchstaben A, B usw. angegeben. Spezielle
Ereignisse sind der Ereignisraum Ω , der als das sichere Ereignis be-
zeichnet wird, und die leere Menge ∅ , die dem unmöglichen Ereig-
nis entspricht.

Beispiel 6.1
Der Ereignisraum für das Zufallsexperiment „Würfeln“ ist die 6-elementige
Menge Ω = {1,2,3,4,5,6} . Das Ereignis „gerade Zahl“ lässt sich durch die Teil-
menge A = {2,4,6} beschreiben. Man sagt: „Das Ereignis A ist eingetreten“,
falls ein Elementarereignis aus der Menge A eingetreten ist.

An diesem Beispiel wird der Zusammenhang zwischen der Wahr-


scheinlichkeitsrechung und der deskriptiven Statistik deutlich. Das
Analogon zum Ereignisraum ist die Ausprägungsliste; einzelne
Merkmalsausprägungen sind vergleichbar mit Elementarereignissen.
Der grundlegende Unterschied ist folgender: Die deskriptive Statistik
befasst sich mit Stichproben und Merkmalen; die Wahrscheinlich-
keitsrechnung untersucht die mathematisch-theoretischen Eigen-
schaften von Grundgesamtheiten.

6.2.2 Das Ermitteln einer Wahrscheinlichkeit


„• Theoretische Herleitung. Um eine Wahrscheinlichkeit quantita-
tiv anzugeben, ist es notwendig, diesen Begriff zu objektivieren. Eine
erste Definition geht auf den französischen Mathematiker Pierre
Simon Marquis de Laplace zurück, der sich für die Zufallsgesetze bei
Glücksspielen interessierte. Er definierte basierend auf dem Begriff
des Zufallsexperiments die Wahrscheinlichkeit, dass ein bestimmtes
Ereignis A eintritt, folgendermaßen:
Anzahl der günstigen Ergebnisse
P( A ) = (6.1a)
Anzahl der möglichen Ergebnisse
Mit der Mengenschreibweise lässt sich die Formel (6.1a) auch dar-
stellen als:

Anzahl der Elemente von A


P ( A) = (6.1b)
Anzahl der Elemente von Ω
104 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

Die Laplace’sche Definition ordnet demnach jedem Ereignis eine


Zahl zwischen 0 und 1 zu. Der Buchstabe P leitet sich ab vom engli-
schen Ausdruck „probability“. Die Wahrscheinlichkeit eines Ereig-
nisses ist vergleichbar mit der relativen Häufigkeit einer Merk-
malsausprägung.

Beispiel 6.2
Mit der Definition von Laplace lässt sich berechnen, wie groß die Chance ist,
eine gerade Zahl zu würfeln. Unter sechs möglichen Ergebnissen gibt es drei
„günstige“ (nämlich die Augenzahlen 2, 4 und 6). Damit erhält man:
P( A ) = 3 / 6 = 1 / 2 . Für das unmögliche Ereignis (beispielsweise die Zahl 7)
ergibt sich P( ∅ ) = 0 , da die Anzahl der günstigen Ereignisse gleich 0 beträgt.
Für das sichere Ereignis (Augenzahl zwischen 1 und 6) erhält man P( Ω ) = 1 ,
da die Anzahl der günstigen der Anzahl der möglichen Ereignisse entspricht.
6
Mit der Laplace’schen Definition lassen sich auch kompliziertere
Wahrscheinlichkeiten herleiten – so z. B. die Wahrscheinlichkeit,
sechs Richtige im Lotto zu erzielen. Dennoch ist diese Definition nur
eingeschränkt anwendbar: Sie setzt nämlich voraus, dass alle Ele-
mentarereignisse mit gleicher Wahrscheinlichkeit eintreten. Für das
Würfeln und den Münzwurf trifft dies auch zu. So ist beispielsweise
leicht nachvollziehbar, dass man bei einem idealen Würfel jeder
Augenzahl die Wahrscheinlichkeit 1/6 zuordnet, oder dass die
Wahrscheinlichkeit, beim Münzwurf „Wappen“ oder „Zahl“ zu er-
halten, jeweils 1/2 beträgt. Für Ereignisse im medizinischen Bereich
ist dieser Ansatz jedoch im Allgemeinen unbrauchbar.
„• Empirische Herleitung. Bei medizinisch-wissenschaftlichen
Fragestellungen wird eine Wahrscheinlichkeit in der Regel empi-
risch ermittelt. Dazu wird eine hinreichend große Stichprobe bezüg-
lich eines Merkmals untersucht; der Wert der relativen Häufigkeit
einer Merkmalsausprägung wird dann als Näherungswert für die
entsprechende Wahrscheinlichkeit zugrunde legt. Dieses Vorgehen
› Ab-
lässt sich durch das „Gesetz der großen Zahlen“ rechtfertigen (z
schnitt 8.3.2).

Beispiel 6.3
Aus den Daten aus Tabelle 2.1 von 71 Studenten ergeben sich folgende Häu-
figkeiten: 28 (Blutgruppe 0), 31 (Blutgruppe A), 9 (Blutgruppe B) und 3 (Blut-
gruppe AB). 60 Studenten haben Rhesusfaktor positiv (R+), 11 Rhesusfaktor
negativ (R–). Damit lassen sich folgende Wahrscheinlichkeiten schätzen:
P (0) = 39% , P ( A) = 44% , P ( B) = 13% und P ( AB) = 4% ;
P ( R +) = 85% , P ( R −) = 15% .
105 6
6.2 Das Rechnen mit Wahrscheinlichkeiten

„• Computersimulation. Bei sehr komplexen Problemen, insbeson-


dere aus dem technisch-wissenschaftlichen Bereich, ist auch die em-
pirische Vorgehensweise nicht brauchbar. Um beispielsweise die
Wahrscheinlichkeit zu ermitteln, dass ein Flugzeug abstürzt oder
dass bei einem Atomkraftwerk ein GAU eintritt, kann man keine
Zufallsexperimente durchführen. In diesen Fällen ist es sinnvoll, das
Problem im Computer zu simulieren und mit Hilfe dieses Modells
die Wahrscheinlichkeit für das Auftreten eines bestimmten Ereignis-
ses zu ermitteln. Die Computersimulation wird in den letzten Jahren
– dank der Entwicklung hochleistungsfähiger Rechner und adäqua-
ter Software – zunehmend auch für medizinische Fragestellungen
angewandt. Im Rahmen dieses Buches kann jedoch nicht näher auf
diese Thematik eingegangen werden.

6.2.3 Die Verknüpfung zweier Ereignisse


Im vorangegangenen Abschnitt wurden Methoden vorgestellt, mit
denen sich die Wahrscheinlichkeit für das Auftreten eines be-
stimmten Ereignisses A ermitteln lässt. Bei vielen Fragestellungen
interessieren jedoch nicht nur einzelne Ereignisse, sondern be-
stimmte Ereigniskonstellationen. Fragen dieser Art lauten z. B.: Wie
groß ist die Wahrscheinlichkeit,
ŷ dass eine Person eine andere Blutgruppe als 0 hat?
ŷ dass eine Person an zwei Krankheiten gleichzeitig erkrankt?
ŷ dass eine männliche Person an Hämophilie erkrankt?
Verbindungen zwischen zwei oder mehreren Ereignissen lassen sich
durch mengentheoretische Operationen beschreiben. Zur graphi-
schen Darstellung dieser Beziehungen eignen sich die so genannten
VENN-Diagramme (benannt nach dem britischen Mathematiker
John Venn, 1834-1923). So bezeichnen

die Vereinigungsmenge A ∪ B : das Ereignis, dass A allein oder B


(sprich: A vereinigt B) allein oder beide Ereignisse ge-
meinsam eintreten (Abb. 6.1a)
die Schnittmenge A ∩ B : das Ereignis, dass A und B ge-
(sprich: A Schnitt B) meinsam eintreten (Abb. 6.1b)
die Differenzmenge A − B : das Ereignis, dass A aber nicht B
(sprich: A minus B) eintritt (Abb. 6.1c)
106 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

B B B

A A A
Abb. 6.1a Abb. 6.1b Abb. 6.1c
Vereinigung A ∪ B Schnitt A ∩ B Differenz A − B
6 Beispiel 6.4
Wenn A das Ereignis „Blutgruppe A“ und R + das Ereignis „Rhesusfaktor posi-
tiv“ bezeichnet, dann bedeutet A ∪ R + das Ereignis, dass die Blutgruppe A
oder der Rhesusfaktor positiv vorliegt. Das Wort „oder“ wird dabei im nicht-
ausschließlichen Sinne verwendet: A ∪ R + beinhaltet, dass nur das Ereignis
A (Blutgruppe A, Rhesusfaktor negativ) oder nur das Ereignis R+ (andere Blut-
gruppe als A, Rhesusfaktor positiv) eintritt oder beide Ereignisse gemeinsam
(Blutgruppe A und Rhesusfaktor positiv) eintreten.

Zwei Ereignisse A und B, deren Durchschnitt die leere Menge bildet,


heißen disjunkt (oder unvereinbar). Als Beispiel seien „männliches
Geschlecht“ und „schwanger“ genannt. Formal gilt für disjunkte Er-
eignisse: A ∩ B = ∅ .
Zwei disjunkte Ereignisse, die sich zum Ereignisraum Ω ergän-
zen, nennt man komplementär. Das zu A komplementäre Ereignis
wird üblicherweise mit A (sprich: A quer) bezeichnet. Für A und A
gelten:
ŷ A ∪ A = Ω (die Ereignisse ergänzen sich) und
ŷ A ∩ A = ∅ (die Ereignisse sind disjunkt).
Beispiele für komplementäre Ereignisse sind: gerade und ungerade
Augenzahl beim Würfeln, männliches und weibliches Geschlecht,
„Rhesusfaktor positiv“ und „Rhesusfaktor negativ“ oder „Blutgruppe
A“ und „andere Blutgruppe als A“.
107 6
6.2 Das Rechnen mit Wahrscheinlichkeiten

6.2.4 Die Axiome von Kolmogoroff und deren Folgerungen


Um mit Wahrscheinlichkeiten zu rechnen, ist es notwendig, deren
mathematische Eigenschaften zu präzisieren. Der russische Mathe-
matiker Andrej Kolmogoroff (1903-1987) hat im Jahre 1930 drei Axi-
ome aufgestellt, die diese Eigenschaften definieren. Demnach heißt
eine Funktion P(A), die einem Ereignis A eine reelle Zahl zuordnet,
Wahrscheinlichkeit, falls die folgenden Axiome erfüllt sind:
1. 0 ≤ P( A ) ≤ 1
2. P( Ω ) = 1
3. P( A ∪ B ) = P( A ) + P( B ) für disjunkte Ereignisse A und B
i Axiome sind einfache mathematische Aussagen, die nicht beweisbar sind.
z
Sie werden aufgestellt, um einen Begriff zu definieren oder um eine The-
orie aufzubauen. Mittels der Axiome lassen sich weitere Aussagen de-
duktiv herleiten.

Beispiel 6.5
Wir betrachten die Funktion P, die den Blutgruppen folgende Wahr-
scheinlichkeiten zuordnet (Beispiel 6.3):
P (0) = 0,39 , P ( A) = 0,44 , P( B ) = 0,13 und P ( AB) = 0,04 .
Der Ereignisraum Ω ist die Menge {0, A, B, AB} . Man kann leicht nachprüfen,
dass die Axiome von Kolmogoroff erfüllt sind. Jeder Funktionswert liegt zwi-
schen 0 und 1 (Axiom 1), außerdem gilt P( Ω ) = 1 – denn eine der vier Blut-
gruppen liegt mit Sicherheit vor (Axiom 2).
Die Wahrscheinlichkeit, dass eine der Blutgruppen A oder B gegeben ist, ist:
P ( A ∪ B) = P ( A) + P ( B) = 0,44 + 0,13 = 0,57 ; Analoges gilt für die anderen Er-
eignispaare (demnach ist Axiom 3 erfüllt). Somit handelt es sich bei der Funk-
tion P um eine Wahrscheinlichkeit im Sinne von Kolmogoroff.

Die Definition der Wahrscheinlichkeit nach Kolmogoroff schließt


die Definition von Laplace ein – sie ist jedoch wesentlich allgemei-
ner als diese. Während Laplace davon ausgeht, dass alle Elementar-
ereignisse mit gleicher Wahrscheinlichkeit eintreten, verlangt Kol-
mogoroff lediglich, dass die Wahrscheinlichkeit jedes Elementarer-
eignisses eine Zahl zwischen 0 und 1 ist, und dass deren Summe 1 er-
gibt. Man kann leicht nachvollziehen, dass diese Eigenschaften auch
für relative Häufigkeiten und die daraus geschätzten Wahrschein-
lichkeiten gelten. Aus den Axiomen von Kolmogoroff lassen sich
mehrere Rechenregeln herleiten:
• Wahrscheinlichkeit für das komplementäre Ereignis. Aus P( A)
„
ergibt sich sehr einfach die Wahrscheinlichkeit für das Ereignis A :
108 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

P ( A ) = 1 − P ( A) (6.2)

Daraus und aus Axiom 2 folgt für das unmögliche Ereignis:

P (∅ ) = 0 (6.3)

Beispiel 6.6
Die Wahrscheinlichkeit für die Blutgruppe 0 beträgt P (0) = 0,39 . Damit be-
rechnet sich die Wahrscheinlichkeit, dass eine andere Blutgruppe als 0 vor-
liegt, als P ( 0 ) = 1 − 0,39 = 0,61 .

• Satz von der totalen Wahrscheinlichkeit. Er besagt, dass ein Er-


„
eignis A entweder zusammen mit dem Ereignis B oder B auftritt:
6 P ( A) = P ( A ∩ B ) + P ( A ∩ B ) (6.4)
Das Ereignis A ∩ B ist identisch mit der Differenzmenge A − B . Des-
› Abbildung 6.1c):
halb folgt aus der Formel (6.4) sofort (z
P( A − B ) = P( A ) − P( A ∩ B ) (6.5)
• Additionssatz. Für die Vereinigung zweier Ereignisse A und B gilt
„
allgemein:
P( A ∪ B ) = P( A ) + P( B ) − P( A ∩ B ) (6.6)
Wenn die beiden Ereignisse A und B disjunkt sind, ist A ∩ B = ∅ .
Dann hat der Additionssatz eine etwas einfachere Form:
P( A ∪ B ) = P( A ) + P( B ) (6.7)

Beispiel 6.7
Seien A und R+ die Ereignisse „Blutgruppe A“ bzw. „Rhesusfaktor positiv“.
Dann entspricht R- dem Ereignis „Rhesusfaktor negativ“. Der Satz von der
totalen Wahrscheinlichkeit (6.4) besagt, dass eine Person mit Blutgruppe A
entweder „Rhesusfaktor positiv“ oder „Rhesusfaktor negativ“ hat. Die Wahr-
scheinlichkeit P ( A) = 0,44 ist die Summe aus P( A ∩ R + ) = 0, 374 und
P( A ∩ R − ) = 0, 066 (die Wahrscheinlichkeiten der Schnittmengen werden
im nächsten Abschnitt hergeleitet). Die Wahrscheinlichkeit für Rhesusfaktor
positiv oder Blutgruppe A beträgt nach dem Additionssatz (6.6):
P( A ∪ R + ) = P( A) + P ( R + ) − P ( A ∩ R + ) = 0, 44 + 0,85 − 0, 374 = 0, 916
109 6
6.2 Das Rechnen mit Wahrscheinlichkeiten

Mathematische Herleitung der Rechenregeln


Alle genannten Rechenregeln lassen sich auf die drei Axiome von Kolmogo-
roff zurückführen. Aus den Axiomen 2 und 3 folgt sofort:
1 = P( Ω ) = P( A ∪ A ) = P( A ) + P( A )
Daraus ergibt sich Formel (6.2).
Der Satz von der totalen Wahrscheinlichkeit (Formel 6.4) folgt ebenfalls di-
rekt aus Axiom 3. Um den Additionssatz herzuleiten (Formel 6.6), zerlegt man
die Menge A ∪ B in drei disjunkte Teilmengen:
P( A ∪ B ) = P( A ∩ B ) + P( A ∩ B ) + P( A ∩ B )
Nach dem Satz von der totalen Wahrscheinlichkeit ergibt die Summe der
ersten beiden Summanden P( A ) ; für den dritten Summanden gilt:
P( A ∩ B ) = P( B ) − P( A ∩ B ) . Demnach ist
P( A ∪ B ) = P( A ) + P( B ) − P( A ∩ B ) .

6.2.5 Abhängigkeit und bedingte Wahrscheinlichkeit


In gewissen Situationen ist es nicht zweckmäßig, Wahrscheinlich-
keiten anzugeben, die sich auf die Grundgesamtheit beziehen. Viele
Krankheiten stehen in Zusammenhang mit dem Geschlecht der Pa-
tienten (z. B. Hämophilie, Rot-Grün-Blindheit oder Brustkrebs) oder
sind abhängig von bestimmten Risiken. In diesen Fällen ist es sinn-
voll, die Wahrscheinlichkeiten für bestimmte Teilmengen der
Grundgesamtheit getrennt zu berechnen – etwa für Männer und für
Frauen oder für Patienten mit und ohne Risikofaktor. Man spricht
dann von einer bedingten Wahrscheinlichkeit und bezeichnet diese
als P( A| B ) (sprich: „P von A gegeben B“ oder „P von A unter der
Bedingung B“). Sie ist folgendermaßen definiert:
P( A ∩ B )
P( A| B ) = (6.8)
P( B )
Diese Formel quantifiziert die Wahrscheinlichkeit für das Eintreten
des Ereignisses A eingeschränkt auf die Menge, die dem Ereignis B
entspricht.

Beispiel 6.8
Die Wahrscheinlichkeit, an Diabetes mellitus zu erkranken, beträgt für einen
Mann P( D| M ) ≈ 0 ,07 und für eine Frau P( D|W ) ≈ 0 ,02 . Daraus geht hervor,
dass das Risiko bei Männern wesentlich höher ist als bei Frauen. Die Wahr-
scheinlichkeit P( D ) ≈ 0 ,045 , die sich auf die gesamte Population bezieht, ist
weniger informativ.
110 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

Durch einfaches Umschreiben von (6.8) erhält man den Multiplika-


tionssatz, mit dem sich die Wahrscheinlichkeit berechnen lässt, dass
zwei Ereignisse A und B gemeinsam eintreten:
P( A ∩ B ) = P( A| B ) ⋅ P( B ) (6.9)
Wenn A und B unabhängig sind, bedeutet dies, dass das Eintreten
von B keinerlei Einfluss auf das Eintreten von A hat. Formal drückt
man dies folgendermaßen aus: P( A| B ) = P( A ) . Damit erhält man
den Multiplikationssatz und den Additionssatz für unabhängige Er-
eignisse als Spezialfälle von (6.9) und (6.6):
P( A ∩ B ) = P( A ) ⋅ P( B ) (6.10)
P( A ∪ B ) = P( A ) + P( B ) − P( A ) ⋅ P( B ) (6.11)
6
Beispiel 6.9
Die Ereignisse „Blutgruppe A“ und „Rhesusfaktor positiv“ sind unabhängig mit
den Wahrscheinlichkeiten P ( A) = 0,44 und P ( R +) = 0,85 . Die Wahrschein-
lichkeit, dass eine Person Blutgruppe A und Rhesusfaktor positiv hat, ist dann
(siehe auch Beispiel 6.7): P( A ∩ R + ) = P( A) ⋅ P ( R + ) = 0, 44 ⋅ 0,85 = 0, 374

6.2.6 Das Bayes-Theorem


Das Bayes-Theorem geht zurück auf den englischen Geistlichen
Thomas Bayes (1702-1761), der sich u. a. mit Glücksspielen befasste.
Es erlaubt die Berechnung der bedingten Wahrscheinlichkeit
P( A | B ) , wenn außer der Wahrscheinlichkeit P ( A) auch die be-
dingten Wahrscheinlichkeiten P( B | A) und P ( B | A ) bekannt sind.
Die Formel ist:
P( A ) ⋅ P( B| A )
P( A| B ) = (6.12)
P( A ) ⋅ P( B| A ) + P( A ) ⋅ P( B| A )
Das Bayes-Theorem ermöglicht also Rückschlüsse von der a-priori-
Wahrscheinlichkeit P( A ) auf die a-posteriori-Wahrscheinlichkeit
P ( A | B ) . Diese Formel wird in der Medizin bei diagnostischen Tests
benutzt: Wenn A das Ereignis „Vorliegen einer bestimmten Krank-
heit“ und B das Ereignis „Testergebnis positiv“ symbolisieren, lässt
sich mit obiger Formel die Wahrscheinlichkeit P ( A | B ) berechnen,
mit der ein Patient mit einem positiven Befund tatsächlich erkrankt
› Abschnitt 6.5.2).
ist (falls die Prävalenz P( A ) bekannt ist, z
111 6
6.3 Wahrscheinlichkeiten in der Epidemiologie

Übersicht 3: Rechenregeln für Wahrscheinlichkeiten


Name des Satzes Rechenregeln
Satz für das komple-
P( A ) = 1 − P( A )
mentäre Ereignis A
Satz von der totalen P ( A) = P ( A ∩ B ) + P ( A ∩ B )
Wahrscheinlichkeit
Additionssatz P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
A und B disjunkt Ÿ P ( A ∪ B ) = P ( A) + P ( B )
A und B unabhängig Ÿ
P ( A ∪ B ) = P ( A) + P( B ) − P( A) ⋅ P ( B )

Multiplikationssatz P( A ∩ B) = P( A | B) ⋅ P( B)
A und B disjunkt Ÿ P ( A ∩ B) = 0
A und B unabhängig Ÿ P ( A ∩ B ) = P ( A) ⋅ P ( B )

Mathematische Herleitung des Bayes-Theorems


Nach der Definition der bedingten Wahrscheinlichkeit in (6.8) ist
P( A ∩ B )
P( A| B ) = .
P( B )
Der Zähler dieses Quotienten lässt sich – wenn man die Ereignisse A und B in
der Formel (6.9) des Multiplikationssatzes vertauscht – schreiben als:
P ( A ∩ B) = P ( A) ⋅ P ( B | A) . Analog leitet man her:
P( A ∩ B) = P( A ) ⋅ P( B | A )
Mittels des Satzes von der totalen Wahrscheinlichkeit (6.4) ergibt sich dann
für den Nenner des obigen Quotienten:
P( B ) = P( A ∩ B ) + P( A ∩ B ) = P( A ) ⋅ P( B| A ) + P( A ) ⋅ P( B| A )
Mit diesen Ausdrücken erhält man für P( A| B ) die Formel (6.12).

6.3 Wahrscheinlichkeiten in der Epidemiologie

Die Epidemiologie befasst sich mit dem Auftreten von Krankheiten


in einer größeren Population. Die Ziele der epidemiologischen For-
schung sind: das Erkennen von Ursachen und Risikofaktoren von
Krankheiten; das Bestimmen deren Verbreitung in der Bevölkerung;
die Untersuchung des natürlichen Verlaufs und relevanter prognos-
tischer Faktoren; die Evaluation präventiver und therapeutischer
Maßnahmen sowie das Schaffen von Grundlagen für politische Ent-
112 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

scheidungen. Zur Beschreibung demographischer Charakteristika


werden folgende Wahrscheinlichkeiten verwendet:
„• Prävalenz (im engeren Sinne: Punktprävalenz).. Dies ist der rela-
tive Krankenbestand zu einem bestimmten Zeitpunkt – also die
Wahrscheinlichkeit P( K t ) für eine beliebige Person aus der Popula-
tion, zum Zeitpunkt t erkrankt zu sein. Dieses Maß eignet sich für
Krankheiten, die chronisch sind oder wiederholt auftreten; es wird
üblicherweise im Rahmen einer Querschnittstudie bestimmt. Die
Punktprävalenz muss immer zusammen mit dem Zeitpunkt angege-
ben werden, auf den sie sich bezieht. Es handelt sich dabei nicht um
einen Zeitpunkt im physikalischen Sinne, sondern meist um einen
bestimmten Tag oder Monat. Die Kenntnis der Prävalenz ist eine
wertvolle Hilfe für die Bedarfsplanung im Öffentlichen Gesund-
heitswesen.
6
„• Periodenprävalenz. Das Bestimmen einer Punktprävalenz kann
bei Krankheiten von sehr kurzer Dauer methodische Schwierigkei-
ten mit sich bringen. Dann mag es sinnvoll sein, anstelle der
Punktprävalenz eine Periodenprävalenz zu bestimmen, die sich auf
einen längeren Zeitraum bezieht. Dabei werden alle Personen be-
rücksichtigt, die zu Beginn, während oder am Ende des Beobach-
tungszeitraums erkrankt waren (üblicherweise im Rahmen einer
Kohortenstudie). Eine spezielle Form stellt die Lebenszeitprävalenz
dar; sie quantifiziert die Wahrscheinlichkeit einer Person, krank ge-
boren zu werden oder einmal im Laufe des Lebens zu erkranken.
„• Inzidenz. Dies ist die Neuerkrankungsrate, also die Wahrschein-
lichkeit P ( K ) für eine beliebige Person, während einer Beobach-
tungszeit zu erkranken. Dabei geht man von einer Population aus,
deren Mitglieder zu Beginn des Beobachtungszeitraumes nicht er-
krankt sind. Die Inzidenz wird immer in Verbindung mit einem
Zeitraum (z. B. ein bestimmtes Jahr oder die Dauer eines Klinikauf-
enthaltes) angegeben. Dieses Maß hat nur Aussagekraft bei Erkran-
kungen, die bei einer Person während der Beobachtungszeit maxi-
mal einmal auftreten. Bei länger andauernden Krankheiten lässt sich
die Prävalenz aus der Inzidenz berechnen nach:
Prävalenz = Inzidenz · durchschnittliche Dauer
Diese Gleichung erklärt, weshalb viele chronische Krankheiten zwar
eine geringe Inzidenz, aber dennoch eine hohe Prävalenz aufweisen.
Während die Inzidenz angibt, wie groß das Erkrankungsrisiko für
eine einzelne Person ist, informiert die Prävalenz über die Aus-
wirkungen einer Krankheit auf die Gesamtpopulation.
113 6
6.3 Wahrscheinlichkeiten in der Epidemiologie

Beispiel 6.10
Im Oktober 2003 lebten in Deutschland 39.000 HIV-positive Menschen; dies
entspricht bei einer Gesamtbevölkerung von 82 Millionen etwa 4,76 von
10.000 (Prävalenz). Bei Asthma beträgt die jährliche Inzidenz aller Kinder und
Jugendlichen zwischen 6 und 16 Jahren 3/1.000; die durchschnittliche Dauer
beträgt etwa 11 Jahre. Dann lässt sich nach obiger Formel ermitteln, dass 33
von 1.000 Personen in dieser Altersgruppe zu einem bestimmten Zeitpunkt an
Asthma erkrankt sind (Prävalenz).

• Krankheitsspezifische Mortalität. Darunter versteht man die To-


„
desrate – also die Wahrscheinlichkeit P ( K ∩ T ) , während der Beob-
achtungszeit an der Krankheit K zu erkranken und daran zu
versterben.
• Letalität. Die Tödlichkeitsrate der Erkrankten ist die bedingte
„
Wahrscheinlichkeit P( T| K ) . Die Angabe der Letalität ist nur sinn-
voll für Erkrankungen, deren Beginn und Ende innerhalb des Beob-
achtungszeitraums liegen. Nach dem Multiplikationssatz (6.9) gilt:
P( K ∩ T ) = P( K ) ⋅ P( T | K ) (6.13)

oder in Worten:

Mortalität = Inzidenz · Letalität

Beispiel 6.11
Ignaz Semmelweis ermittelte für den April des Jahres 1846 in der Ärzte-Abtei-
lung des Wiener Gebärhauses, dass 24 % der gebärenden Frauen während des
Klinikaufenthaltes an Kindbettfieber erkrankten (Inzidenz) und von den Er-
krankten 80 % verstarben (Letalität). Mit Formel (6.13) berechnet man daraus
eine Mortalität von etwa 19 %.

„• Morbidität. Dieser Begriff ist in der Literatur unterschiedlich de-


finiert: Teilweise wird er synonym für Prävalenz, teilweise synonym
für Inzidenz verwendet.
! Die Prävalenz, Inzidenz oder Mortalität sind keine absoluten Häufigkei-
z
ten, sondern Wahrscheinlichkeiten. Die Angabe der Bezugspopulation ist
unbedingt erforderlich. Man stellt diese Größen entweder als Prozent-
zahl dar oder – wenn diese sehr gering ist – als relative Häufigkeit bezo-
gen auf 1.000, 10.000 oder mehr Personen.

Bei Infektionskrankheiten sind außerdem folgende Wahrscheinlich-


keiten interessant:
114 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

• Kontagionsindex. Dieser Index gibt die Wahrscheinlichkeit an,


„
dass sich eine nicht immune Person, die mit dem Erreger in Kontakt
kommt, infiziert. Er ist also ein Maß für die Ansteckungsfähigkeit.
„• Manifestationsindex. Dies ist die Wahrscheinlichkeit, mit der
eine infizierte Person manifest erkrankt (die Krankheitsbereitschaft).
Je kleiner dieser Index ist, desto mehr Infektionsfälle verlaufen kli-
nisch stumm.
Beispiel 6.12
Bei Masern beträgt der Kontagionsindex fast 100 %; der Manifestationsindex
liegt bei etwa 95 %. Das heißt: Fast alle Personen, die mit dem Virus in Kon-
takt kommen, infizieren sich. Davon erkranken 95 % manifest, während 5 %
der Infektionen klinisch stumm verlaufen.

6 Schließlich sei noch angemerkt, dass all diese Maßzahlen keines-


wegs Naturkonstanten sind, die – nachdem man sie einmal bestimmt
hat – für alle Zeit ihren Wert behalten. Es handelt sich vielmehr um
Größen, die abhängig sind von den sozialen Rahmenbedingungen
sowie den aktuellen diagnostischen und therapeutischen Möglich-
keiten. Mit besseren diagnostischen Mitteln werden mehr Krank-
heitsfälle erkannt – dadurch steigt die Inzidenz. Wenn für eine
Krankheit eine bessere Therapie zur Verfügung steht, werden mehr
Personen überleben – damit steigt bei chronischen Erkrankungen
die Prävalenz, während die Mortalität und die Letalität sinken.
Weitere interessante Hinweise dazu findet man in [6].

6.4 Bevölkerungsstatistiken

6.4.1 Spezielle Wahrscheinlichkeiten


„• Natalität. Das ist die Geburtenrate (auch Geburtenziffer genannt),
also der Anteil lebend geborener Kinder im Verhältnis zur Gesamt-
population während eines Beobachtungszeitraums. Sie ist abhängig
von der Altersstruktur der beobachteten Population. Ein hoher Al-
tenanteil impliziert automatisch eine niedrige Geburtenrate.
„• Fertilitätsziffer. Dieses Maß beschreibt die Fruchtbarkeitsrate
(oder Fruchtbarkeitsziffer) – das ist die Wahrscheinlichkeit, dass
eine Frau im gebärfähigen Alter ein lebendes Kind zur Welt bringt
(bezogen auf ein Jahr). Sie ist – im Gegensatz zur Geburtenziffer –
unabhängig von der Altersstruktur der Population.
115 6
6.4 Bevölkerungsstatistiken

„• Pearl-Index. Dies ist ein Risikomaß bezüglich der Sicherheit einer


Verhütungsmethode. Zu dessen Schätzung müssen hinreichend viele
Frauen, die eine bestimmte Verhütungsmethode anwenden, über
einen längeren Zeitraum beobachtet werden. Der Index wird be-
stimmt, indem die Anzahl der ungewollten Schwangerschaften im
Verhältnis zur Anzahl der beobachteten Zyklen mit dem Faktor
1.200 multipliziert wird. Er gibt somit an, wie viele von 100 Frauen
in einem Jahr ungewollt schwanger werden (wobei davon ausgegan-
gen wird, dass eine nicht-schwangere Frau zwölf Zyklen pro Jahr
hat). Dieses Maß ist im Gegensatz zur Fertilitätsziffer keine Wahr-
scheinlichkeit!
„• Sterbeziffer. Dies ist die Gesamtmortalität – also der Anteil der im
Beobachtungszeitraum Verstorbenen. Darüber hinaus gibt es auch
spezifische Sterbeziffern, wie Sterbeziffern für Neugeborene oder
Sterbeziffern bezogen auf bestimmte Krankheiten.
Beispiel 6.13
Im Jahre 2004 betrug die Geburtenziffer im EU-Durchschnitt 10,9 pro 1.000
Einwohner. In Deutschland wurden damals 8,5 Kinder pro 1.000 Einwohner
geboren – das war eine der niedrigsten Geburtenziffern der Länder der Euro-
päischen Union. Wenn man bedenkt, dass die Sterbeziffer 10,4 Personen pro
1.000 Einwohner betrug, bedeutet das einen Bevölkerungsrückgang um 1,9
Personen je 1.000 Einwohner. Dieser Rückgang konnte durch Zuwanderun-
gen teilweise ausgeglichen werden. Die Fertilitätsrate lag bei 46 Geburten pro
1.000 Frauen im gebärfähigen Alter.

6.4.2 Sterbetafeln
Eine Sterbetafel beschreibt die Verteilung von Lebensdauern. Sie
basiert auf folgenden Häufigkeiten:
A 0 : Anzahl von Lebendgeborenen innerhalb eines Beobachtungs-
zeitraums (z. B. in einem bestimmten Jahr)
A x : Anzahl der Personen, die ihren x-ten Geburtstag erleben und da-
nach noch unbestimmte Zeit leben. Dann ist
d x = A x − A x +1 (6.14)

die Anzahl der Lebendgeborenen, die zwischen ihrem x-ten und


(x+1)-ten Geburtstag sterben. Der Einfachheit halber wird die Le-
bensdauer als diskretes Merkmal aufgefasst mit den Ausprägungen x
(Anzahl der erreichten Lebensjahre) und den absoluten Häufigkeiten
dx .
116 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

Die Sterbeziffern sind die altersspezifischen Mortalitätsraten


qx = d x / A x ( x = 0,..., ω ) (6.15)

Ein Wert q x drückt die Wahrscheinlichkeit aus, dass jemand, der


seinen x-ten Geburtstag erlebt hat, vor seinem (x+1)-ten Geburtstag
stirbt. Dabei ist ω das letzte in der Sterbetafel berücksichtige Alter.
Man nimmt also an: A ω+1 = 0 (oft wird ω = 100 gesetzt). Die durch-
schnittliche Lebenszeit (oder Lebenserwartung) eines Neugeborenen
lässt sich schätzen als:
ω
1 1
e0 = +
2 A0 ¦A
x =1
x (6.16)

6 Die Lebenserwartung eines x-jährigen berechnet sich analog als:


ω
1 1
ex = +
2 Ax ¦A
y = x +1
y (6.17)

Die Verteilungsfunktion F ( x ) gibt den relativen Anteil der Lebend-


geborenen an, deren Sterbealter kleiner als x ist:

Ax
F ( x) = 1 − für 0 ≤ x ≤ ω (6.18)
A0

Mathematische Herleitung der Lebenserwartungen


Die Anzahl der Personen, die x Jahre alt werden (und vor dem (x+1). Geburtstag
sterben), beträgt d x . Damit ist die mittlere Lebensdauer bei A 0 Lebendgebore-
ω
nen leicht herleitbar als: e0 = ¦ x ⋅ d x / A 0 .
x =0
Nach (6.14) und unter Berücksichtigung von A ω+1 = 0 ergibt sich daraus:
ω

0( A 0 − A1 ) + 1( A1 − A 2 ) + 2(A 2 − A 3 ) + ... + ω(A ω − A ω+1 ) ¦


Ax
e0 = = x =1
A0 A0
Üblicherweise wird zu e0 der Term ½ addiert, da man annimmt, dass die Le-
bensdauer eines Menschen, der im Jahr nach seinem x-ten Geburtstag stirbt,
durchschnittlich x + 1 / 2 beträgt. Der Anteil der Lebendgeborenen, die maximal
x −1
das Alter x erreichen, ist ¦d i / A 0 = ( A 0 − A x ) / A 0 = 1 − A x / A 0 . Daraus folgt (6.18).
i =0
117 6
6.4 Bevölkerungsstatistiken

Tabelle 6.1: Sterbetafel aus den Jahren 1901/10, entnommen aus dem Sta-
tistischen Jahrbuch der Bundesrepublik Deutschland. Die Tafel enthält fol-
gende Angaben: Anzahl A x der Personen, die das Alter x erreichen, Sterbe-
ziffern qx ⋅1000 und Lebenserwartung e x in Jahren.

männliche Bevölkerung weibliche Bevölkerung


bezogen auf 100.000 lebend bezogen auf 100.000 lebend
geborene Personen geborene Personen
x Ax qx ⋅1000 ex Ax qx ⋅1000 ex
0 100.000 202,34 44,82 100.000 170,48 48,33
1 79.766 39,88 55,12 82.952 38,47 57,20
2 76.585 14,92 56,39 79.761 14,63 58,47
5 74.211 5,28 55,15 77.334 5,31 57,27
10 72.827 2,44 51,16 75.845 2,56 53,35
15 72.007 2,77 46,71 74.887 3,02 49,00
20 70.647 5,04 42,56 73.564 4,22 44,84
25 68.881 5,13 38,59 71.849 5,37 40,84
30 67.092 5,56 34,55 69.848 5,97 36,94
35 65.104 6,97 30,53 67.679 6,86 33,04
40 62.598 9,22 26,64 65.283 7,71 29,16
45 59.405 12,44 22,94 62.717 8,54 25,25
50 55.340 16,93 19,43 59.812 11,26 21,35
55 50.186 23,57 16,16 55.984 16,19 17,64
60 43.807 32,60 13,14 50.780 24,73 14,17
65 36.079 47,06 10,40 43.540 39,60 11,09
70 27.136 69,36 7,99 34.078 62,06 8,45
75 17.586 106,40 5,97 23.006 98,31 6,30
80 8.987 157,87 4,38 12.348 146,50 4,65
85 3.212 231,60 3,18 4.752 217,39 3,40
90 683 320,02 2,35 1.131 295,66 2,59

Die Sterbetafel in Tabelle 6.1 beinhaltet – getrennt für männliche


und weibliche Personen – die Lebenserwartungen zu Beginn des 20.
Jahrhunderts im damaligen deutschen Reich. Bei neueren Sterbeta-
feln sind die Sterbeziffern und Lebenserwartungen nicht alle exakt
(da einige Personen, deren Lebenserwartung aufgelistet ist, noch le-
ben). Sie werden deshalb aufgrund von Erfahrungswerten aus ver-
gangenen Jahren geschätzt.
118 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

6.5 Diagnostische Tests

6.5.1 Die Gütekriterien eines diagnostischen Tests


Diagnostische Tests – wie z. B. der HIV-Test – werden benutzt, um
größere Sicherheit bezüglich des Krankheitsstatus eines Patienten zu
gewinnen. Im einfachsten Fall sind nur zwei Testergebnisse möglich.
Von einem guten Test erwartet man:
ŷ ein positives Ergebnis bei einer erkrankten Person und
ŷ ein negatives Ergebnis bei einer nicht-erkrankten Person.
Seien nun T+ und T− die Ereignisse, dass das Testergebnis positiv
bzw. negativ ist; K und K seien die Ereignisse, dass die zu untersu-
6 chende Krankheit vorliegt bzw. nicht vorliegt. Die Güte eines dia-
gnostischen Tests wird quantifiziert durch:
• Sensitivität. Dies ist die bedingte Wahrscheinlichkeit P (T+ | K ) ,
„
dass der Test bei einer kranken Person richtig (also positiv) reagiert.
• Spezifität. Darunter versteht man die bedingte Wahrscheinlich-
„
keit P(T− | K ) , dass eine nicht-erkrankte Person ein richtiges (also
negatives) Testergebnis erhält.
Im Idealfall – wenn alle Testergebnisse richtig sind – nehmen beide
Wahrscheinlichkeiten den Wert 1 an. In der Praxis muss man leider
damit rechnen, dass sich hin und wieder ein falscher Befund ergibt.
Wenn der Test die Krankheit eines Patienten übersieht, erhält man
ein falsch negatives Ergebnis. Die Wahrscheinlichkeit dafür ergibt
sich aus der Sensitivität. Da nämlich T− und T+ komplementäre
Ereignisse sind, berechnet man mit (6.2):
P (T− | K ) = 1 − P (T+ | K ) (6.19)

In analoger Weise lässt sich aus der Spezifität die Wahrscheinlich-


keit für ein falsch positives Ergebnis ermitteln:

P(T+ | K ) = 1 − P(T− | K ) (6.20)


119 6
6.5 Diagnostische Tests

Beispiel 6.14
Ein HIV-Test habe eine Sensitivität von 99% und eine Spezifität von 99,5%.
Dann werden 99% der infizierten und 99,5% der nicht-infizierten Personen
richtig klassifiziert. Die Wahrscheinlichkeit, dass eine infizierte Person fälsch-
licherweise ein negatives Ergebnis erhält, ist nach (6.19) 1%. Die Wahrschein-
lichkeit, dass sich bei einer nicht-infizierten Person ein falsch positives Ergeb-
nis ergibt, berechnet sich nach (6.20) als 0,5%. Wenn dieser Test bei einer Po-
pulation von 100.000 homosexuellen Männern (Prävalenz = 0,001) angewandt
wird, erwartet man theoretisch folgende Häufigkeiten:
positiver Befund negativer Befund
infiziert 99 1 100
nicht infiziert 500 99.400 99.900
599 99.401 100.000
Nur etwa 1/6 der positiven Ergebnisse ist auf eine Infektion zurückzuführen;
der Rest ist falsch positiv. Die negativen Befunde sind dagegen fast alle richtig.

6.5.2 Vorhersagewerte
Für den behandelnden Arzt und die betroffenen Patienten sind nicht
so sehr die Sensitivität und die Spezifität als vielmehr die Vorhersa-
gewerte (oder prädiktiven Werte) interessant – das sind die Wahr-
scheinlichkeiten, dass das Testergebnis den richtigen Krankheitssta-
tus anzeigt. Unter dem positiven Vorhersagewert versteht man die
bedingte Wahrscheinlichkeit P ( K | T+ ) ; der negative Vorhersage-
wert ist die bedingte Wahrscheinlichkeit P ( K | T− ) . Mit dem Bayes-
Theorem (6.12) leitet man her:
P( K ) ⋅ P( T+| K )
P( K|T+ ) = (6.21)
P( K ) ⋅ P( T+ | K ) + P( K ) ⋅ P( T+ | K )

P( K ) ⋅ P( T−| K )
P( K |T− ) = (6.22)
P( K ) ⋅ P( T− | K ) + P( K ) ⋅ P( T− | K )

Während die Prävalenz P( K ) die Wahrscheinlichkeit bezeichnet,


erkrankt zu sein, bevor das Testergebnis bekannt ist, ist der positive
Vorhersagewert die Wahrscheinlichkeit, erkrankt zu sein, nachdem
das positive Ergebnis vorliegt. Deshalb wird die Prävalenz auch „a-
priori-Wahrscheinlichkeit“ genannt, während der positive Vorher-
sagewert als „a-posteriori-Wahrscheinlichkeit“ bezeichnet wird.
120 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

Beispiel 6.15
Wir greifen zurück auf den HIV-Test in Beispiel 6.14 (Sensitivität 99%, Spezi-
fität 99,5%) und betrachten die Risikogruppe „homosexuelle Männer“ (Präva-
lenz 0,001). Für den positiven Vorhersagewert berechnet man nach (6.21):
0,001 ⋅ 0,99
P ( K | T+ ) = = 0,165
0,001 ⋅ 0,99 + 0,999 ⋅ 0,005
Dieser Wert gibt die a-posteriori-Wahrscheinlichkeit an, dass eine Person mit
einem positiven Testergebnis auch tatsächlich infiziert ist. Für den negativen
Vorhersagewert berechnet man nach (6.22):
0,999 ⋅ 0,995
P ( K | T− ) = = 0,99999
0,999 ⋅ 0,995 + 0,001 ⋅ 0,01
Das bedeutet, dass man bei einem negativen Testergebnis fast sicher sein kann,
dass die betreffende Person nicht infiziert ist. Diese Werte entsprechen den re-
6 lativen Häufigkeiten, die sich in Beispiel 6.14 ergeben:
99 99.400
P ( K | T+ ) = = 0,165 und P ( K | T− ) = = 0,99999
599 99.401

Der geringe positive und der hohe negative Vorhersagewert in Bei-


spiel 6.15 sind keine Besonderheit, sondern eher typisch für einen
diagnostischen Test. Ein positiver Befund kann sich nämlich auch
bei gesunden Personen ergeben aufgrund von Einflüssen, die in kei-
nem Zusammenhang mit der relevanten Krankheit stehen. Deshalb
ist bei niedriger Prävalenz (wenn der Test bei weitaus mehr gesun-
den als bei kranken Personen durchgeführt wird) oft nur ein kleiner
Teil der positiven Befunde auf die zu diagnostizierende Krankheit
zurückzuführen. Die negativen Befunde sind dagegen fast aus-
schließlich gesunden Personen zuzuordnen; nur ein sehr kleiner
Anteil ist falsch negativ.

Beispiel 6.16
Für den HIV-Test ergeben sich in Abhängigkeit von der Prävalenz folgende
Vorhersagewerte:
positiver negativer
Population Prävalenz
Vorhersagewert Vorhersagewert
ohne Risiko 0,00001 0,00198 1,00000
(Rechenbeispiel) 0,0001 0,01942 1,00000
homosexuelle Männer 0,001 0,16541 0,99999
Drogenabhängige 0,01 0,66667 0,99990
(Rechenbeispiel) 0,1 0,95652 0,99888
121 6
6.5 Diagnostische Tests

An Beispiel 6.16 wird deutlich, dass die Vorhersagewerte von der


Prävalenz abhängen. Dies kann bei klinischen Anwendungen zu
Problemen führen, da ein exakter Wert für die Prävalenz im Einzel-
fall oft gar nicht bekannt ist.
Bei den meisten Krankheiten ist die Prävalenz glücklicherweise
gering – was sich jedoch nachteilig auf den positiven Vorhersage-
wert auswirkt. Aus Beispiel 6.16 geht hervor, dass dieser insbeson-
dere bei kleiner Prävalenz extrem niedrig sein kann. Nur bei beson-
deren Risikogruppen oder in Spezialkliniken sind die Prävalenz und
damit auch die Aussagekraft eines diagnostischen Tests höher. Die
negativen Vorhersagewerte haben dagegen alle einen Wert, der nahe
bei 1 liegt. Während also bei einem negativen Ergebnis die Krank-
heit mit hoher Wahrscheinlichkeit ausgeschlossen werden kann, ist
ein positiver Befund weitaus schwieriger zu bewerten. In jedem Fall
muss der Arzt ihn ernst nehmen; er sollte sich jedoch hüten, voreilig
falsche Schlussfolgerungen zu ziehen. Das Testergebnis ist lediglich
ein Hinweis darauf, dass die Krankheit vorliegen könnte. Um eine si-
chere Diagnose zu erstellen, bedarf es weiterer Untersuchungen.
Leider sind sich viele Anwender darüber nicht im Klaren und
interpretieren ein positives Testergebnis intuitiv so, als seien Zweifel
an der Erkrankung eines Patienten quasi ausgeschlossen. Sie folgern
naiv, dass – wenn mit 99%-iger Wahrscheinlichkeit aus der Bedin-
gung „Krankheit vorhanden“ die Aussage „Testergebnis positiv“ folgt
– auch der Umkehrschluss gilt: dass also aus einem positiven Ergeb-
nis mit 99%-iger Sicherheit auf die Krankheit geschlossen werden
kann. Dabei unterliegen sie jedoch einer kognitiven Täuschung – sei
es aufgrund von Selbstüberschätzung, Bequemlichkeit oder einfach
nur wegen mangelnder Erfahrung im Umgang mit Wahrscheinlich-
keiten (siehe dazu [3] und [8]). Um ein Testergebnis zu beurteilen,
bedarf es jedoch weniger Intuition als vielmehr fachlicher Fähigkei-
ten und solider Statistik-Kenntnisse.

Merke
ŷ Die Vorhersagewerte sind abhängig von der Prävalenz.
ŷ Der positive Vorhersagewert kann bei geringer Prävalenz sehr nied-
rig sein – auch dann, wenn die Sensitivität und Spezifität hoch sind.
! In einigen Publikationen taucht der Begriff „accuracy“ im Zusammen-
z
hang mit diagnostischen Tests auf. Dies bezeichnet die Wahrscheinlich-
keit, dass eine beliebige Person, die sich dem Test unterzieht, einen kor-
rekten Befund erhält. Allerdings ist dieses Maß für praktische Anwen-
dungen wenig geeignet, da es von der Prävalenz abhängt und keine
Information bezüglich der Vorhersagewerte beinhaltet.
122 Kapitel 6 · Wahrscheinlichkeiten in der Medizin

Übersicht 4: Kenngrößen diagnostischer Tests

Bezeichnung der formelle


Ereignis
Wahrscheinlichkeit Schreibweise
Prävalenz
Krankheit liegt vor P( K )
(a-priori-Wahrscheinlichkeit)
Testergebnis richtig positiv Sensitivität P( T+ | K )
Testergebnis falsch negativ --- P( T−| K )
Testergebnis richtig negativ Spezifität P( T−| K )
Testergebnis falsch positiv --- P( T+| K )
Krankheit liegt vor, positiver Vorhersagewert
P( K|T+ )
falls Testergebnis positiv (a-posteriori-Wahrscheinl.)
Krankheit liegt nicht vor,
negativer Vorhersagewert P( K |T− )
falls Testergebnis negativ
6
! Weitere Hinweise zu diagnostischen Tests finden sich in Kapitel 15.
z
7

Diskrete Verteilungen
7.1 Diskrete Zufallsvariable 125
7.1.1 Die Bedeutung einer Zufallsvariablen 125
7.1.2 Wahrscheinlichkeiten 126
7.1.3 Lageparameter 127
7.1.4 Streuungsparameter 128

7.2 Die Binomialverteilung 129


7.2.1 Das Bernoulli-Experiment 129
7.2.2 Eigenschaften der Binomialverteilung 130
7.2.3 Die symmetrische Binomialverteilung 134

7.3 Andere diskrete Verteilungen 136


7.3.1 Die Poissonverteilung 136
7.3.2 Die Polynomialverteilung 138
7.3.3 Die negative Binomialverteilung 139
7.3.4 Die hypergeometrische Verteilung 140
7.3.5 Die diskrete Gleichverteilung 141
125 7
7.1 Diskrete Zufallsvariable

In diesem und dem nächsten Kapitel werden einige Verteilungen


behandelt, die für die Biowissenschaften von Bedeutung sind. Häu-
figkeitsverteilungen, die bei empirischen Studien beobachtet wer-
den, lassen sich oft über eine solche Verteilung approximieren und
in ihren wesentlichen Eigenschaften beschreiben. Zunächst wird in
Abschnitt 7.1 der Begriff der Zufallsvariablen eingeführt, und es
wird erläutert, wie eine Verteilung mittels statistischer Kenngrößen
beschrieben werden kann. Danach werden die Binomialverteilung
und andere diskrete Verteilungen vorgestellt. Die Normalverteilung
und weitere stetige Verteilungen werden in Kapitel 8 besprochen.

7.1 Diskrete Zufallsvariable

7.1.1 Die Bedeutung einer Zufallsvariablen


Der Begriff des Merkmals ist fundamental für die deskriptive Statis-
tik. Die Beschreibung einer Stichprobe beruht im Wesentlichen auf
den Häufigkeiten der Merkmalsausprägungen und auf statistischen
Kenngrößen wie etwa Mittelwert und Standardabweichung.
In der Wahrscheinlichkeitsrechnung benutzt man anstelle des
konkreten Begriffs „Merkmal“ den abstrakten Begriff „Zufallsvari-
able“. Theoretisch handelt es sich dabei um eine Funktion, die jedem
möglichen Ergebnis eines Zufallsexperiments eine reelle Zahl zuord-
net. Diese Zahlenwerte entsprechen den Merkmalsausprägungen
und werden mit Kleinbuchstaben vom Ende des Alphabets (z. B. xi )
symbolisiert. Die Zufallsvariable selbst bezeichnet man in der Regel
mit dem passenden Großbuchstaben (z. B. X ). Es ist für das Ver-
ständnis der Wahrscheinlichkeitsrechnung sehr hilfreich, sich die
Analogie der Begriffe „Merkmal“ und „Zufallsvariable“ immer wie-
der vor Augen zu halten.
Die xi werden Realisationen (oder Realisierungen) der Zufalls-
variablen X genannt. Bei quantitativen Merkmalen sind die xi die
Mess- oder Zählwerte; bei qualitativen Merkmalen entsprechen die
xi den numerischen Codierungen der einzelnen Ausprägungen (z ›
Beispiel 2.5). Ebenso wie ein Merkmal lässt sich auch eine Zufallsva-
riable einem bestimmten Skalenniveau zuordnen; ferner lassen sich
diskrete und stetige Zufallsvariablen unterscheiden. Dieses Kapitel 7
befasst sich mit diskreten Zufallsvariablen und deren Verteilungen.
126 Kapitel 7 · Diskrete Verteilungen

7.1.2 Wahrscheinlichkeiten
Diskrete Zufallsvariable ergeben sich bei der Beobachtung von Zu-
fallsexperimenten, bei denen abzählbar viele Ergebnisse möglich
sind. So lassen sich beispielsweise die Merkmale „Münzwurf“, „Blut-
gruppe“ oder die Anzahl der Schwangerschaften einer Frau durch
diskrete Zufallsvariablen beschreiben. Ein Elementarereignis A lässt
sich darstellen durch X = xi (das heißt: Die Zufallsvariable X nimmt
den Wert xi an). Für die Wahrscheinlichkeit P ( X = xi ) sind fol-
gende Schreibweisen gebräuchlich:
P ( A) = P ( X = xi ) = P( xi ) = pi (7.1)

Beispiel 7.1
Beim Münzwurf gibt es zwei Möglichkeiten: Wappen oder Zahl. A sei das Er-
eignis „Zahl“. Dieses Merkmal lässt sich durch eine diskrete Zufallsvariable X
beschreiben, die die beiden Werte 0 (Wappen) oder 1 (Zahl) annehmen kann.
Wenn man mehrmals nacheinander eine Münze wirft, bedeutet xi = 1 , dass
7 sich beim i-ten Wurf eine Zahl ergeben hat; das Ereignis „Wappen“ wird be-
schrieben durch xi = 0 . Dabei gilt: P( A) = P( X = 1) = 1/ 2 .

Die Wahrscheinlichkeiten aller Elementarereignisse (deren Anzahl


sei k) summieren sich – ebenso wie die relativen Häufigkeiten – zu 1:
k k

¦ p = ¦ f (x ) = 1
i =1
i
i =1
i (7.2)

Die Wahrscheinlichkeitsfunktion f ( x ) ordnet jedem Wert xi des-


sen Wahrscheinlichkeit pi zu; sie ist definiert als:

­ p für x = xi (i = 1,...k )
f ( x) = ® i (7.3)
¯0 sonst
Die Formel (7.2) entspricht dem 2. Axiom von Kolmogoroff, nach
dem die Wahrscheinlichkeit des Ereignisraums gleich 1 ist. Die Ver-
teilungsfunktion F ( x) = P ( X ≤ x) einer diskreten Zufallsvariablen
(die mindestens ordinal skaliert sein muss) gibt die Wahrscheinlich-
keit an, dass die Zufallsvariable X einen Wert annimmt, der kleiner
als x oder gleich x ist. Man erhält die Funktionswerte F ( x ) durch
Aufaddieren der Wahrscheinlichkeiten pi (z › Beispiel 7.3).
127 7
7.1 Diskrete Zufallsvariable

7.1.3 Lageparameter
„• Erwartungswert. Das bekannteste Lagemaß einer Stichprobe ist
der Mittelwert; das Analogon zur Charakterisierung einer Grundge-
samtheit wird Erwartungswert genannt. Während die Parameter
einer Stichprobe gewöhnlich mit lateinischen Buchstaben dargestellt
werden, werden die Parameter einer Grundgesamtheit mit griechi-
schen Buchstaben bezeichnet. So wird der Erwartungswert mit µ
(sprich: mü) symbolisiert; dies entspricht dem lateinischen m. Bei
einer diskreten Zufallsvariablen mit k möglichen Realisationen ist µ
definiert als:
k
µ = ¦ xi ⋅ pi (7.4)
i =1

Der Erwartungswert von X wird auch mit E( X ) , EX oder µ x be-


zeichnet. Diese Schreibweisen bevorzugt man, wenn der Variablen-
name X hervorgehoben werden soll. Zwei unmittelbar einleuch-
tende Rechenregeln seien an dieser Stelle genannt:
E ( aX + b) = a ⋅ EX + b (7.5)
n
E ( X 1 + ... + X n ) = ¦ EX i (7.6)
i =1

Die Gleichung (7.6) beschreibt die Additivität der Erwartungswerte.


! Der Begriff des Erwartungswertes wurde bereits im Jahr 1657 vom nie-
z
derländischen Mathematiker Christiaan Huygens in dessen Buch „De
Ratiociniis in Alea Ludo“ eingeführt. Dieses Werk war das erste ge-
druckte Lehrbuch der Wahrscheinlichkeitsrechnung und hatte großen
Einfluss auf die weitere Entwicklung dieses Gebietes.

Abgesehen von den Begriffen „Mittelwert“ bzw. „Erwartungswert“


stimmen bei den anderen Parametern die Bezeichnungen für die
Stichprobe und die Grundgesamtheit weitgehend überein.

• Median und Quantile. Der Median µ


„ ~ (sprich: mü Schlange) einer
Grundgesamtheit ist durch die Verteilungsfunktion bestimmt. Bei
einer diskreten Zufallsvariablen ist der Median die kleinste Zahl
zwischen 0 und k, für die gilt: F (µ ~ ) ≥ 0,5 . Analog dazu ist ein
~
beliebiges α-Quantil µ α (mit 0 < α < 1 ) definiert als die kleinste
Zahl mit F (µ~ ) ≥ α . So ist etwa der Median in Beispiel 7.3 gleich 2.
α
128 Kapitel 7 · Diskrete Verteilungen

Übersicht 5: Analoge Begriffe aus der deskriptiven


Statistik und der Wahrscheinlichkeitsrechnung

deskriptive Statistik Wahrscheinlichkeitsrechnung


Merkmal Zufallsvariable X
Ausprägungsliste Ereignisraum Ω
Merkmalsausprägung Elementarereignis A
ermittelter Merkmalswert der Realisation xi der
Beobachtungseinheit i Zufallsvariablen
relative Häufigkeit hi Wahrscheinlichkeit pi
empirische Verteilungsfunktion Fˆ ( x) Verteilungsfunktion F ( x)
Mittelwert x Erwartungswert µ

• Modus. Der Modus der Grundgesamtheit ist der Wert mit der
„
größten Wahrscheinlichkeit. Bei bi- oder multimodalen Verteilun-
gen existieren eventuell mehrere Modalwerte.
7
7.1.4 Streuungsparameter
„• Varianz. In der deskriptiven Statistik ist die empirische Varianz
definiert als die mittlere quadratische Abweichung der Stichproben-
Daten vom Mittelwert. Das Analogon in der Wahrscheinlichkeits-
rechnung ist der Erwartungswert der quadratischen Abweichung der
Zufallsvariablen X vom Erwartungswert µ :

σ2 = E ( ( X − µ ) 2 ) = E ( X 2 ) − µ 2 (7.7)

Das griechische σ (Sigma) entspricht dem lateinischen s. Für dis-


krete Zufallsvariable ist die Varianz äquivalent zu:
k
σ2 = ¦ ( xi − µ) 2 pi (7.8)
i =1

Wegen der quadratischen Dimension einer Varianz gilt:

Var( aX + b) = a 2 ⋅ Var(X ) (7.9)

Daraus folgt sofort (für a = 0 ): Var(b) = 0 . Dies beinhaltet die trivi-


ale Feststellung: Eine Konstante hat keine Varianz. Analog zur
deskriptiven Statistik erhält man die Standardabweichung ı aus der
Wurzel der Varianz. Für verhältnisskalierte Zufallsvariable ist der
129 7
7.2 Die Binomialverteilung

Variationskoeffizient definiert als der Quotient σ / µ . Für die Summe


zweier Zufallsvariablen gilt allgemein:
Var( X + Y ) = Var( X ) + Var(Y ) + 2 ⋅ Cov( X , Y ) (7.10)

Dabei gilt für die Kovarianz:

Cov( X , Y ) = E ( ( X − µ x ) ⋅ (Y − µ y ) ) = E ( XY ) − µ x ⋅ µ y (7.11)

Die Kovarianz ist 0, wenn X und Y unabhängige Variable sind. Für


die Summe von mehreren unabhängigen Zufallsvariablen gilt:
n n
Var( ¦ X i ) = ¦ Var(X i ) (7.12)
i =1 i =1

Mathematische Herleitung der Rechenregeln zur Varianz


Aus der Definition der Varianz ergibt sich unter Berücksichtigung der Re-
chenregeln (7.5) und (7.6) die Formel (7.7):
σ2 = E (( X − µ )2 ) = E ( X 2 − 2µ ⋅ X + µ 2 ) = E ( X 2 ) − 2µ ⋅ E ( X ) + µ 2 =
= E ( X 2 ) − 2µ 2 + µ 2 = E ( X 2 ) − µ 2
Die Formel (7.8) folgt dann direkt aus (7.4), indem man xi durch ( xi − µ) 2
ersetzt. Für die Variable aX + b erhält man aus der Definition der Varianz in
(7.7) die Formel (7.9):
Var (aX + b) = E (aX + b − aµ − b) 2 = a 2 ⋅ E ( X − µ) 2 = a 2 ⋅ Var ( X )

i Weitere Kenngrößen zur Beschreibung einer Verteilung, nämlich die


z
Formmaße, werden in Abschnitt 8.1.3 erläutert.

7.2 Die Binomialverteilung

7.2.1 Das Bernoulli-Experiment


Die Binomialverteilung basiert auf einem Zufallsexperiment ein-
fachster Art, bei dem nur zwei Ausgänge möglich sind. Man be-
zeichnet dies als ein Bernoulli-Experiment, benannt nach dem
Schweizer Mathematiker Jakob Bernoulli (1654-1705). Generell las-
sen sich alle Experimente, bei denen ein Alternativmerkmal beob-
achtet wird (z. B. der Münzwurf oder die Bestimmung des Ge-
schlechts einer Person) als ein Bernoulli-Experiment auffassen. Die-
130 Kapitel 7 · Diskrete Verteilungen

ses Modell ist anwendbar bei allen qualitativen und quantitativen


Merkmalen, deren Ausprägungen in zwei Gruppen oder Klassen ein-
geteilt sind (z. B. Blutgruppe A oder andere Blutgruppe, Laborwert
normal oder pathologisch).
Um ein Bernoulli-Experiment formal zu beschreiben, betrachten
wir zwei komplementäre Ereignisse A und A . Wir führen eine Zu-
fallsvariable X ein, welche die Werte 1 (falls A eintritt) und 0 (falls
A eintritt) annehmen kann (z › Beispiel 7.1). Die dazugehörenden
Wahrscheinlichkeiten seien:
P( A) = P( X = 1) = p
P( A) = P( X = 0) = q

Nach Formel (6.2) erhalten wir für die Wahrscheinlichkeit des kom-
plementären Ereignisses A :
q = 1− p (7.13)
7
Die Wahrscheinlichkeit p kann – wie bereits in Abschnitt 6.2.2 er-
wähnt – empirisch geschätzt werden, indem man ein Bernoulli-Ex-
periment hinreichend oft wiederholt und dann die relative Häufig-
keit des Ereignisses A als Schätzwert für p verwendet.

i Diese Variante des Gesetzes der großen Zahlen (z


z › Abschnitt 8.3.2) fin-
det sich bereits in Bernoullis Schrift „Ars conjectandi“, die erst nach sei-
nem Tod im Jahr 1713 veröffentlicht wurde. Das Neue und Besondere an
diesem Werk ist die Idee, die Statistik auf wirtschaftliche und gesell-
schaftliche Probleme anzuwenden.

7.2.2 Eigenschaften der Binomialverteilung


Wenn ein Bernoulli-Experiment mehrfach wiederholt wird und
diese Wiederholungen unabhängig voneinander sind, bezeichnet
man dies als einen Bernoulli-Prozess. Wenn beispielsweise bei einer
Wurfserie mit einem Würfel die Anzahl der 6er gezählt wird, oder
wenn eine bestimmte Anzahl von Personen danach untersucht wird,
wie häufig „Rhesusfaktor positiv“ vorkommt, dann handelt es sich
bei diesen Beobachtungsserien formal um Bernoulli-Prozesse. Ein
solcher Prozess ist folgendermaßen charakterisiert:
ŷ Es werden n unabhängige Bernoulli-Experimente durchgeführt,
die durch gleich verteilte Zufallsvariable X i ( i = 1,..., n ) be-
schrieben werden.
131 7
7.2 Die Binomialverteilung

ŷ Jedes X i nimmt mit der Wahrscheinlichkeit p den Wert 1 (bei


Eintreten des Ereignisses A) und mit der Wahrscheinlichkeit
q = 1 − p den Wert 0 (bei Eintreten von A ) an.
ŷ Dann quantifiziert die Zufallsvariable X = X 1 + X 2 + ... + X n ,
wie häufig bei n Experimenten das Ereignis A eingetreten ist. X
wird durch eine Binomialverteilung beschrieben.
Eine binomialverteilte Zufallsvariable X ist durch die Parameter n
und p eindeutig festgelegt und wird mit X ~ B (n, p ) angegeben. Der
Erwartungswert und die Varianz sind berechenbar als:
n
E ( X ) = ¦ EX i = n ⋅ p (7.14)
i =1
n
Var( X ) = ¦ Var( X i ) = n ⋅ p ⋅ q (7.15)
i =1

Beispiel 7.2
Eine Klausur in Biomathematik bestehe aus 10 Aufgaben. Es sind jeweils fünf
Antworten vorgegeben, von denen genau eine richtig ist. Wenn ein Student
mangels solider Statistik-Kenntnisse darauf angewiesen ist, die richtigen Ant-
worten zu erraten, lässt sich dieses Vorgehen formal ansehen als einen Prozess
bestehend aus n = 10 Bernoulli-Experimenten mit den möglichen Ereignissen
A (richtig raten) und A (falsch raten). Die Wahrscheinlichkeiten sind:
p = P ( A) = 1 / 5 = 0,2 und q = P (A ) = 4 / 5 = 0,8 .
X ~ B (10;0,2) sei die Zufallsvariable, die die Anzahl der richtig gelösten Auf-
gaben angibt. Für den Erwartungswert und die Varianz ergeben sich:
µ = 10 ⋅ 0, 2 = 2, 0 nach (7.14)
σ2 = 10 ⋅ 0, 2 ⋅ 0, 8 = 1, 6 nach (7.15)

Etwas komplizierter ist die Berechnung der Wahrscheinlichkeiten.


Die Zufallsvariable X ~ B (n, p ) kann theoretisch jede natürliche Zahl
zwischen 0 und n annehmen. Diese Zahl gibt an, wie oft bei n Zu-
fallsexperimenten das Ereignis A eingetreten ist. Die entsprechenden
Wahrscheinlichkeiten berechnet man nach folgender Formel:

§n·
P ( X = k ) = ¨ ¸ ⋅ p k ⋅ q n − k für k = 0,..., n (7.16)
©k ¹
132 Kapitel 7 · Diskrete Verteilungen

§n·
Der Ausdruck ¨¨ ¸¸ (sprich: n über k) wird als Binomialkoeffizient
©k ¹
bezeichnet. Er quantifiziert die Anzahl der Möglichkeiten, aus einer
Menge von n Elementen genau k Elemente auszuwählen, und ist fol-
gendermaßen definiert:

§n· n! 1 ⋅ 2 ⋅ ... ⋅ n
¨k ¸ = = (7.17)
© ¹ k !⋅ ( n − k )! (1 ⋅ ... ⋅ k ) ⋅ ((1 ⋅ ... ⋅ ( n − k ))
Der Zähler dieses Ausdrucks n! (sprich: n Fakultät) bezeichnet das
Produkt, das aus allen natürlichen Zahlen von 1 bis n gebildet wird.
Entsprechend werden k! und (n − k )! im Nenner berechnet.

Mathematische Herleitung der Parameter der Binomialverteilung


Wir betrachten den einfachsten Fall n = 1 , also ein einzelnes Bernoulliexperi-
7 ment mit zwei möglichen Ergebnissen A bzw. A und den Wahrschein-
lichkeiten p bzw. q. Nach (7.4) und (7.8) berechnet man:
µ = 1⋅ p + 0 ⋅ q = p
σ 2 = (1 − p ) 2 ⋅ p + (0 − p ) 2 ⋅ q = q 2 ⋅ p + p 2 ⋅ q = pq ⋅ (q + p ) = pq
Für die Summe X = X 1 + ... + X n gilt nach (7.6) und (7.12):
EX = np und VarX = npq
Bei n unabhängigen Wiederholungen dieses Experiments beträgt die Wahr-
scheinlichkeit, dass bei den ersten k Experimenten das Ereignis A und bei den
folgenden (n-k) Experimenten das Ereignis A eintritt, p k ⋅ q n−k . Diese
Wahrscheinlichkeit ergibt bei jeder Kombination, bei der k-mal A und (n-k)-
mal A eintritt – egal in welcher Reihenfolge.
Jetzt bleibt nur noch zu klären, wie viele Möglichkeiten existieren, aus einer
Menge von n Elementen eine Teilmenge von k Elementen auszuwählen. Für
das 1. Element gibt es n Auswahlmöglichkeiten, für das 2. verbleiben (n − 1)
und für das k. Element noch (n − k + 1) Möglichkeiten – dies ergibt insgesamt
n!
n ⋅ (n − 1) ⋅ ... ⋅ (n − k + 1) = .
(n − k )!
Da es k! Möglichkeiten gibt, diese k Elemente anzuordnen (und da die
Reihenfolge keine Rolle spielt), müssen wir diesen Quotienten durch k!
dividieren und erhalten:
n! § n· §n·
= ¨ ¸ und damit: P( X = k ) = ¨¨ ¸¸ ⋅ p k ⋅ q n−k .
(k!) ⋅ (n − k )! ¨© k ¸¹ ©k ¹
133 7
7.2 Die Binomialverteilung

Beispiel 7.3
Wir greifen zurück auf das Beispiel 7.2 (Biomathe-Klausur) und berechnen die
Wahrscheinlichkeit dafür, dass 3 von 10 Antworten richtig sind. Die Wahr-
scheinlichkeit, die ersten 3 Aufgaben richtig und die restlichen 7 falsch zu lö-
sen, ist: p 3 ⋅ q 7 = 0, 23 ⋅ 0,87 ≈ 0, 0017 . Es gibt jedoch nicht nur eine, sondern
§ 10 ·
insgesamt ¨ ¸ = 120 Möglichkeiten, von 10 Aufgaben genau 3 richtig zu
©3¹
erraten. Demnach beträgt die gesuchte Wahrscheinlichkeit nach (7.16):
P ( X = 3) = 120 ⋅ 0,23 ⋅ 0,87 = 0,2013 . Für die anderen Wahrscheinlichkeiten
ergibt sich (z› Abbildung 7.1):
k P( X = k ) F ( k ) = P( X ≤ k )
0 10 10
0 1 ⋅ 0, 2 ⋅ 0, 8 = 0, 8 = 0,1074 0,1074
1 9
1 10 ⋅ 0, 2 ⋅ 0, 8 = 0, 2684 0,3758
2 45 ⋅ 0, 22 ⋅ 0, 88 = 0, 3020 0,6778
3 7
3 120 ⋅ 0, 2 ⋅ 0, 8 = 0, 2013 0,8791
4 210 ⋅ 0,2 4 ⋅ 0,86 = 0,0881 0,9672
5 5
5 252 ⋅ 0, 2 ⋅ 0, 8 = 0, 0264 0,9936
6 210 ⋅ 0, 26 ⋅ 0, 84 = 0, 0055 0,9991
7 3
7 120 ⋅ 0, 2 ⋅ 0, 8 = 0, 0008 0,99992
8 45 ⋅ 0, 28 ⋅ 0, 82 = 7 ⋅ 10−5 0,999996
9 10 ⋅ 0, 29 ⋅ 0, 81 = 4 ⋅ 10−6 0,9999999
10 0 10 −7
10 1 ⋅ 0, 2 ⋅ 0, 8 = 0, 2 = 10 1

Die Wahrscheinlichkeit, durch Raten weniger als 6 Punkte zu erreichen, be-


trägt demnach P ( X ≤ 5) = 99,36% . Wenn 6 Punkte zum Bestehen der Klausur
notwendig sind, hat man eine Chance von weniger als 1 %, ohne die geringste
Ahnung von Biomathematik die Klausur zu bestehen.

Bezüglich der Formel (7.17) sind folgende Regeln zu beachten:


ŷ Jeder Binomialkoeffizient ist eine natürliche Zahl.
ŷ Einen Binomialkoeffizienten berechnet man am einfachsten als
einen Bruch mit k natürlichen Zahlen im Zähler (beginnend bei
n in absteigender Reihenfolge) und k Zahlen im Nenner (begin-
nend bei 1 in aufsteigender Reihenfolge). So ist z. B.
§10 · 10 ⋅ 9 ⋅ 8
¨¨ ¸¸ = = 120 .
© 3 ¹ 1⋅ 2 ⋅ 3
134 Kapitel 7 · Diskrete Verteilungen

ŷ Für alle p gilt generell: p 0 = 1 und p1 = p .


§n· § n · § 10 · § 10 ·
ŷ Für alle k = 0,..., n gilt: ¨¨ ¸¸ = ¨¨ ¸¸ ; z. B. ¨ ¸ = ¨ ¸ .
©k ¹ ©n − k ¹ ©3¹ ©7¹
§ n· § n·
ŷ Per definitionem ist: ¨¨ ¸¸ = ¨¨ ¸¸ = 1
0 n© ¹ © ¹

7.2.3 Die symmetrische Binomialverteilung


Für die symmetrische Binomialverteilung ( p = q = 0,5 ) vereinfachen
sich die obigen Formeln zu:
E ( X ) = 0,5 ⋅ n (7.18)

Var( X ) = 0, 25 ⋅ n (7.19)
7 §n·
P( X = k ) = P( X = n − k ) = ¨ ¸ ⋅ 0,5n (7.20)
©k ¹

Beispiel 7.4
Eine Familie habe vier Kinder, X sei die Anzahl der Jungen. Wir nehmen an,
dass mit der Wahrscheinlichkeit von 0,5 ein Junge geboren wird. Nach (7.18)
und (7.19) ergibt sich: E ( X ) = 2 und Var ( X ) = 1 . Für die Wahrschein-
lichkeiten berechnet man nach (7.20) (z› Abbildung 7.2):
k P( X = k ) P( X ≤ k )
0 1 ⋅ 0,54 = 1 / 16 = 0,0625 0,0625
4
1 4 ⋅ 0,5 = 1 / 4 = 0,25 0,3125
4
2 6 ⋅ 0,5 = 3 / 8 = 0,375 0,6875
3 4 ⋅ 0,54 = 1 / 4 = 0,25 0,9375
4
4 1 ⋅ 0,5 = 1 / 16 = 0,0625 1

i Die Schiefe einer Binomialverteilung berechnet sich als γ1 = ( q − p ) / σ .


z
Also ist die Verteilung genau dann symmetrisch ist, wenn p = q .
135 7
7.2 Die Binomialverteilung

0,4

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10
Abb. 7.1 Binomialverteilung mit n = 10 und p = 0,2

0,4

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10
Abb. 7.2 Binomialverteilung mit n = 4 und p = 0,5

0,3

0,2

0,1

0
0 1 2 3 4 5 6 7 8 9 10
Abb. 7.3 Poissonverteilung mit λ = 2
136 Kapitel 7 · Diskrete Verteilungen

7.3 Andere diskrete Verteilungen

7.3.1 Die Poissonverteilung


Der französische Mathematiker Siméon Denis Poisson (1781-1840)
hat die Binomialverteilung für den speziellen Fall untersucht, dass
die Anzahl der Wiederholungen n groß und die Wahrscheinlichkeit
p für das Eintreten des Ereignisses A klein ist. Fragestellungen dieser
Art treten in der Medizin häufig auf. So wird etwa bei epidemiolo-
gischen Untersuchungen eine umfangreiche Population beobachtet,
wobei die Wahrscheinlichkeit, dass bei einem Individuum eine be-
stimmte Krankheit eintritt, sehr gering ist. Ein anderes Beispiel stellt
der radioaktive Zerfall dar: In einer bestimmten Zeiteinheit zerfällt
nur ein minimaler Anteil von Millionen radioaktiver Isotope.
Poisson hat nachgewiesen, dass für n ≥ 30 und p ≤ 0,1 die Binomial-
verteilung durch folgende Grenzverteilung approximiert werden
7 kann:

λ k −λ
P( X = k ) = ⋅e (7.21)
k!
Der Buchstabe e symbolisiert die Euler’sche Zahl, deren Wert un-
gefähr 2,718 beträgt. Die Formel (7.21) hat gegenüber (7.16) den
Vorteil, dass sie für große n und kleine k wesentlich leichter zu
handhaben ist. Der griechische Buchstabe λ (Lambda) repräsentiert
den Erwartungswert der Verteilung, für den nach (7.14) gilt:
E( X ) = λ = n ⋅ p (7.22)

Nach (7.15) und (7.13) lässt sich die Varianz approximieren durch:

λ λ
Var( X ) = n ⋅ p ⋅ q = n ⋅ ⋅ (1 − ) → λ (7.23)
n n n→∞
Demnach stimmen bei der Poissonverteilung der Erwartungswert
und die Varianz überein. Durch den Parameter λ ist eine Poisson-
verteilte Zufallsvariable eindeutig festgelegt; sie wird als X ~ P (λ)
angegeben. Wegen des kleinen Wertes für p bezeichnet man diese
Verteilung auch als die „Verteilung der seltenen Ereignisse“.
! Für die Berechnung einer Wahrscheinlichkeit nach (7.21) wird nur der
z
Erwartungswert NJ benötigt. Weitere Angaben (der Parameter n oder die
Wahrscheinlichkeit p für das Eintreten eines Ereignisses im Einzelfall)
137 7
7.3 Andere diskrete Verteilungen

sind nicht erforderlich. Daher kann die Poissonverteilung auch ange-


wandt werden, wenn die Grundgesamtheit nicht konkret angegeben
werden kann oder wenn die Wahrscheinlichkeit p nicht explizit quanti-
› Beispiel 7.6).
fizierbar ist (z

Beispiel 7.5
In einer Geburtsklinik werden jährlich n = 2.000 Kinder geboren. Die Wahr-
scheinlichkeit, dass ein Neugeborenes mit einem Down-Syndrom zur Welt
kommt, beträgt p = 0,001 . Unter der Annahme, dass die Ereignisse unabhän-
gig sind, lässt sich die Anzahl der Neugeborenen mit Down-Syndrom durch
eine Poisson-verteilte Zufallsvariable X beschreiben. Für den charakteristi-
schen Parameter gilt: λ = n ⋅ p = 2.000 ⋅ 0,001 = 2 . Mit (7.21) berechnet man:

k P( X = k ) F ( k ) = P( X ≤ k )
−2
0 e = 0,135 0,135
1 2 ⋅ e −2 = 0,271 0,406
4 −2
2 ⋅ e = 0, 271 0,677
2
8 −2
3 ⋅ e = 0,180 0,857
6
16 −2
4 ⋅ e = 0,090 0,947
24
32 −2
5 ⋅ e = 0,036 0,983
120
64 −2
6 ⋅ e = 0,012 0,995
720
Man erkennt, dass die Wahrscheinlichkeiten für wachsendes k sehr schnell
abnehmen (z › Abbildung 7.3). Die Wahrscheinlichkeit, dass pro Jahr mehr als
6 Kinder mit Down-Syndrom geboren werden, ist nahezu 0.

Beispiel 7.6
Verdünntes Blut wird in eine Zählkammer eingefüllt. Diese ist in zahlreiche
Quadrate identischer Fläche eingeteilt. Unter dem Mikroskop werden die
Erythrozyten in 80 Quadraten gezählt. Man ermittelt durchschnittlich 5,9125
Erythrozyten pro Zählquadrat. Es stehen Millionen von Erythrozyten zur
Verfügung; die Wahrscheinlichkeit, dass ein bestimmter Erythrozyt in einem
Zählquadrat gefunden wird, ist extrem gering. Dies rechtfertigt die Annahme,
dass die Anzahl der Erythrozyten pro Quadrat einer Poissonverteilung folgt.
Also kann man nach (7.21) mit λ = 5,9125 Wahrscheinlichkeiten berechnen,
ohne dass die Parameter n und p explizit bekannt sind (siehe auch z › Ab-
schnitt 12.2.6, Beispiel 12.6).
138 Kapitel 7 · Diskrete Verteilungen

Mathematische Herleitung der Poissonverteilung


Diese Verteilung ist ein Grenzfall der Binomialverteilung und kann aus dieser
hergeleitet werden. Mit (7.16) und λ = n ⋅ p ergibt sich:
n −k
§n· 1 n ⋅ ( n − 1) ⋅ ... ⋅ ( n − k + 1) k § λ· § λ·
P( X = k ) = ¨ ¸ ⋅ p k ⋅ q n − k = ⋅ k
⋅ λ ⋅ ¨1 − ¸ ¨1 − ¸
k
© ¹ k ! n © n ¹ © n¹
Für großes n und vergleichsweise kleines k ist das Produkt der k Faktoren des
Zählers ungefähr n k . Aus der Analysis ist bekannt, dass gilt:
n −k
§ λ· § λ·
lim ¨1 − ¸ = e − λ . Außerdem ist lim ¨ 1 − ¸ =1.
n → ∞© n¹ n →∞
© n¹
λ k −λ
Damit erhalten wir für obige Formel: P ( X = k ) = ⋅e
k!

i Die Poissonverteilung ist immer rechtsschief (oder linksgipfelig), da für


z
die Schiefe gilt: γ1 = ( q − p ) / σ → (1 − 0) / λ = 1/ λ > 0 .
n →∞

7 7.3.2 Die Polynomialverteilung


Die Polynomialverteilung (oder Multinomialverteilung) stellt eine
Verallgemeinerung der Binomialverteilung dar. Sie beschreibt eine
Serie von n Zufallsexperimenten, bei denen pro Beobachtung eines
von k möglichen Ereignissen A1 , A2 ,..., Ak mit den Wahr-
scheinlichkeiten p1 , p2 ,..., pk auftreten kann. Die Wahrscheinlich-
keit, dass bei n Beobachtungen das Ereignis A1 mit der Häufigkeit
n1 , das Ereignis A2 mit der Häufigkeit n2 usw. eintritt, berechnet
sich nach:

( p1 ) n1 ⋅ ... ⋅ ( pk ) nk
P ( n1 , n2 ,..., nk p1 , p2 ,..., pk ) = ⋅ n! (7.24)
n1 !⋅ ... ⋅ nk !
k k
Dabei ist ¦p i = 1 und ¦n i =n.
i =1 i =1

Beispiel 7.7
Die Wahrscheinlichkeiten für das Auftreten der Blutgruppen betragen:
P (0) = p1 = 0,39 , P (A ) = p2 = 0,44 , P (B) = p3 = 0,13 , P (AB) = p4 = 0,04 .
Dann ist die Wahrscheinlichkeit, dass unter n = 10 Personen je 4mal die Blut-
gruppen 0 und A und je 1mal B und AB vorkommen, nach (7.24):
0,394 ⋅ 0,444 ⋅ 0,131 ⋅ 0,041
P(4,4,1,1 0,39;0,44;0,13;0,04 ) = ⋅10!= 0,0284
4! ⋅4! ⋅1! ⋅1!
139 7
7.3 Andere diskrete Verteilungen

7.3.3 Die negative Binomialverteilung


Während die Binomialverteilung darüber informiert, mit welcher
Wahrscheinlichkeit das Ereignis A bei n unabhängigen Beobachtun-
gen 0, 1, 2, ... oder n-mal gezählt wird, beschreibt die negative Bino-
mialverteilung NB (r , p ) , mit welcher Wahrscheinlichkeit das Ereig-
nis A gerade bei der j-ten Beobachtung zum r-ten Mal eintritt. Diese
Verteilung wird häufig zur Analyse von Wartezeiten verwendet.
Der einfachste Spezialfall ist die geometrische Verteilung
NB (1, p) , die angibt, mit welcher Wahrscheinlichkeit das Ereignis A
bei der j-ten Beobachtung erstmals eintritt. Sie lässt sich leicht her-
leiten als:

P ( X = j ) = q j −1 ⋅ p (7.25)

Dabei wird zugrunde gelegt, dass bei den ersten j − 1 Beobachtun-


gen jeweils das Ereignis A (mit der Wahrscheinlichkeit q = 1 − p )
und bei der j. Beobachtung das Ereignis A (mit der Wahrscheinlich-
keit p ) eintritt.

Beispiel 7.8
Eine Blutbank benötigt Blut von 10 Personen mit dem Rhesusfaktor positiv.
Wie groß ist die Wahrscheinlichkeit, dass man nach der Blutentnahme bei ma-
ximal 14 Personen 10 positive Konserven hat? Nach (7.26) berechnet man für X
~ NB(10;0,85) (also r = 10 und p = 0,85 ):
§9·
P ( X = 10) = ¨¨ ¸¸ ⋅ 0,8510 = 0,1969
©9¹
§10 ·
P( X = 11) = ¨¨ ¸¸ ⋅ 0,15 ⋅ 0,8510 = 0,2953
©9¹
§11·
P( X = 12) = ¨¨ ¸¸ ⋅ 0,152 ⋅ 0,8510 = 0,2436
©9¹
§12 ·
P( X = 13) = ¨¨ ¸¸ ⋅ 0,153 ⋅ 0,8510 = 0,1462
©9¹
§13·
P ( X = 14) = ¨¨ ¸¸ ⋅ 0,154 ⋅ 0,8510 = 0,0713
©9¹
Durch Addition erhält man: P ( X ≤ 14) = 0,9533 . Das bedeutet, dass mit 95%-
iger Wahrscheinlichkeit 14 Entnahmen ausreichen werden, um 10 positive
Reserven zu erhalten.
140 Kapitel 7 · Diskrete Verteilungen

Wie groß ist nun die Wahrscheinlichkeit, dass bei der j-ten Beo-
bachtung das Ereignis A zum r-ten Mal eintritt? Dabei ist zu berück-
sichtigen, dass unter den vorangegangenen ( j − 1) Beobachtungen
das Ereignis A genau (r − 1) -mal gezählt worden ist. Also gilt für die
negative Binomialverteilung allgemeiner Art:

§ j − 1· j − r r
P( X = j ) = ¨¨ ¸¸ ⋅ q ⋅ p für j ≥ r (7.26)
© r − 1¹

7.3.4 Die hypergeometrische Verteilung


Die hypergeometrische Verteilung beschreibt n Beobachtungen, bei
denen jeweils alternativ die Ereignisse A und A eintreten können.
Im Gegensatz zur Binomialverteilung sind diese Beobachtungen je-
doch nicht unabhängig voneinander – das Auftreten eines bestimm-
ten Ereignisses beeinflusst die Wahrscheinlichkeiten aller nachfol-
7 genden Ereignisse.

i Die Binomial- und die hypergeometrische Verteilung lassen sich durch


z
zwei unterschiedliche Urnenmodelle veranschaulichen. Gegeben sei eine
Urne mit roten und weißen Kugeln; der Anteil roter Kugeln betrage p.
Wenn man aus dieser Urne nacheinander n Kugeln zieht, und nach jeder
Ziehung die Kugel zurück in die Urne legt, sind die Ziehungen unabhän-
gig voneinander und die Wahrscheinlichkeit, eine rote Kugel zu ziehen,
beträgt bei jedem Zug p. Ein solcher Prozess lässt sich durch eine Bino-
mialverteilung beschreiben. Wenn man jedoch die gezogenen Kugeln
nicht zurücklegt, ändern sich bei jedem Zug die Wahrscheinlichkeiten.
Die Ziehungen sind voneinander abhängig und werden durch eine hy-
pergeometrische Verteilung charakterisiert.

Der hypergeometrischen Verteilung liegen folgende Annahmen zu-


grunde:
ŷ Insgesamt stehen N Objekte (also endlich viele) zur Verfügung,
von denen genau M die Eigenschaft A und ( N − M ) die Eigen-
schaft A aufweisen.
ŷ Von den N Objekten werden n zufällig ausgewählt.
Die Zufallsvariable X ~ HG (n; N , M ) gibt an, wie häufig das Merk-
mal A bei n Beobachtungen auftritt. Die Wahrscheinlichkeiten für
k = 0,..., n sind:
141 7
7.3 Andere diskrete Verteilungen

§M · §N − M ·
¨ k ¸⋅¨ n − k ¸
P( X = k ) = © ¹ © ¹ (7.27)
§N·
¨n¸
© ¹
Der Quotient p = M / N wird auch als Anteilswert bezeichnet. Da-
mit ist der Erwartungswert der hypergeometrischen Verteilung ähn-
lich wie bei der Binomialverteilung (Formel 7.14):

M
E ( X ) = np = n ⋅ (7.28)
N
Für die Varianz gilt:
N −n
Var( X ) = ⋅ n ⋅ p ⋅ (1 − p ) (7.29)
N −1
Der Faktor ( N − n) /( N − 1) in Formel (7.29) entspricht der Endlich-
keitskorrektur. Falls N im Vergleich zu n sehr groß ist, kann die hy-
pergeometrische Verteilung durch die Binomialverteilung approxi-
miert werden.
Beispiel 7.9
Von den 71 Studenten in Tabelle 2.1 sind 23 männlich. Wie groß ist die Wahr-
scheinlichkeit, dass von 5 zufällig ausgewählten Studenten 2 männlich sind?
Nach (7.27) ergibt sich mit N = 71 , M = 23 , n = 5 und k = 2 :
§ 23· § 48 ·
¨¨ ¸¸ ⋅ ¨¨ ¸¸
2 3 253 ⋅17.296
P ( X = 2) = © ¹ © ¹ = = 0,336
§ 71· 13.019.909
¨¨ ¸¸
©5¹

7.3.5 Die diskrete Gleichverteilung


Schließlich sei noch die diskrete Gleichverteilung DG (k ) erwähnt.
Sie beschreibt ein Zufallsexperiment, bei dem k Ereignisse
A1 , A2 ,..., Ak mit jeweils derselben Wahrscheinlichkeit eintreten kön-
nen. Ein bekanntes Beispiel ist der ideale Würfel, bei dem jede Au-
genzahl mit der Wahrscheinlichkeit p = 1 / 6 erzielt wird. In der Sta-
tistik spielen diskrete Gleichverteilungen bei Zufallszahlen eine
Rolle. Dies sind Ziffernfolgen, bei denen jede Ziffer mit derselben
Wahrscheinlichkeit p = 0,1 auftritt. Zwei nebeneinander stehende
142 Kapitel 7 · Diskrete Verteilungen

Ziffern bilden dann eine 2-stellige Zufallszahl zwischen 0 und 99.


Diese sind gleichverteilt mit p = 1 / 100 .

Übersicht 6: Diskrete Verteilungen

Name und Bezeichnung Anzahl und Art der mögliche


der Verteilung Abschnitt Beobachtungen Einzelereignisse
Binomialverteilung
7.2 n unabhängige A und A
B ( n, p )
Poisson-Verteilung n unabhängige
7.3.1 A und A
P (λ) n ≥ 30, p ≤ 0,1
Polynomial-Verteilung 7.3.2 n unabhängige A1 ,..., Ak
geometrische
bis A zum
Verteilung 7.3.3 A und A
1. Mal eintritt
NB(1, p)
7 negative
bis A zum
Binomialverteilung 7.3.3 A und A
r. Mal eintritt
NB(r , p)
hypergeometrische
Verteilung 7.3.4 n abhängige A und A
HG (n; N , M )
Gleichverteilung A1 ,..., Ak
7.3.5 1
DG (k )
8

Stetige Verteilungen
8.1 Stetige Zufallsvariable 145
8.1.1 Funktionen 145
8.1.2 Lage- und Streuungsparameter 147
8.1.3 Die zentralen Momente 147

8.2 Die Normalverteilung 148


8.2.1 Allgemeine Eigenschaften 148
8.2.2 Die Standardnormalverteilung 149
8.2.3 σ-Bereiche und Referenzbereiche 151
8.2.4 Normalisierende Transformationen 152

8.3 Sätze der Wahrscheinlichkeitsrechnung 155


8.3.1 Die Tschebyscheff’sche Ungleichung 155
8.3.2 Das Gesetz der großen Zahlen 157
8.3.3 Der zentrale Grenzwertsatz 159
8.3.4 Die Bedeutung der Normalverteilung 161

8.4 Die Verteilung von Überlebenszeiten 162


8.4.1 Einige wichtige Begriffe 162
8.4.2 Die Exponentialverteilung 164
8.4.3 Die Weibull-Verteilung 165

8.5 Prüfverteilungen 166


8.5.1 Die t-Verteilung 167
8.5.2 Die Chi2-Verteilung 168
8.5.3 Die F-Verteilung 170
145 8
8.1 Stetige Zufallsvariable

8.1 Stetige Zufallsvariable

8.1.1 Funktionen
Eine stetige Zufallsvariable X (z. B. Körpergewicht oder Körper-
größe) kann theoretisch alle Zahlenwerte innerhalb eines bestimm-
ten Intervalls annehmen. Die Wahrscheinlichkeitsverteilung wird
durch die Dichtefunktion (oder Dichte) beschrieben. Diese Funktion
ordnet jedem Wert xi der Zufallsvariablen einen Funktionswert
f ( xi ) > 0 zu. Die Gesamtfläche unter der Kurve f (x ) ist gleich 1:
+∞

³ f ( x)dx = 1
−∞
(8.1)

Diese Gleichung drückt aus, dass die Zufallsvariable X mit Sicherheit


(also der Wahrscheinlichkeit 1) einen Wert zwischen -∞ und +∞ an-
nimmt. Sie ist vergleichbar mit (7.2); das Σ-Zeichen ist ersetzt durch
das Integral. Die Verteilungsfunktion einer stetigen Zufallsvariablen
ist das Integral über der Dichte:
x
F ( x) = P( X ≤ x) = ³ f (t )dt (8.2)
−∞

Daraus folgt für das komplementäre Ereignis X > x :


+∞
P( X > x) = ³ f (t )dt = 1 − F ( x) (8.3)
x

! Die Dichte wird in den Gleichungen (8.2) und (8.3) mit f ( t ) bezeichnet,
z
weil x eine Grenze des Integrals darstellt, während sich die Variable t
zwischen den Grenzen -∞ und x bzw. zwischen x und +∞ bewegt.
Aus den obigen Formeln lassen sich folgende allgemeine Eigen-
schaften der Verteilungsfunktion F ( x ) herleiten:
ŷ F ( x ) ist eine monoton wachsende Funktion,
ŷ F ( x ) hat die Grenzwerte F( −∞ ) = 0 und F( +∞ ) = 1 ,
ŷ die Dichte f ( x ) ist die Ableitung der Verteilungsfunktion; es
gilt nämlich: f ( x ) = F' ( x ) .
146 Kapitel 8 · Stetige Verteilungen

Die Wahrscheinlichkeit, dass X einen Wert zwischen a und b an-


nimmt, wird folgendermaßen berechnet::
b
P ( a ≤ X ≤ b) = ³ f ( x)dx = F (b) − F (a) (8.4)
a

Dieses Integral beschreibt eine Fläche, die von der x-Achse, der
Kurve f ( x ) und den Parallelen zur y-Achse x = a und x = b be-
grenzt wird (z › Abbildung 8.1). Dies entspricht einem Teil der Ge-
samtfläche unter der Dichtefunktion, deren Wert nach (8.1) 1 be-
trägt. Infolgedessen hat das Integral in (8.4) immer einen Wert zwi-
schen 0 und 1. Für die Wahrscheinlichkeit, dass X einen bestimmten
Wert a annimmt, berechnet man:
P( X = a) = F (a) − F (a) = 0 (8.5)

Dieses Ergebnis mag manchen Leser überraschen. Es sei an einem


konkreten Beispiel erläutert: Wir betrachten die Zufallsvariable X,
die das Merkmal „Körpergröße“ symbolisiert. Dann ist es sinnlos,
8 nach der Wahrscheinlichkeit zu fragen, mit der X einen Wert von
beispielsweise 178 cm annimmt. Dieser scheinbare Widerspruch zur
Realität wird dadurch erklärt, dass die gemessene Körpergröße nicht
exakt 178 cm beträgt, sondern sich – bei einer Messgenauigkeit von
1 cm – zwischen 177,5 cm und 178,5 cm bewegt.

Abb. 8.1
Dichte einer
stetigen Zu-
fallsvariablen.
Die einge-
zeichnete Flä-
P(a ≤ x ≤ b)
che entspricht
P ( a ≤ X ≤ b) .

a b
147 8
8.1 Stetige Zufallsvariable

8.1.2 Lage- und Streuungsparameter


Für den Erwartungswert einer stetigen Zufallsvariablen gilt:
+∞
µ= ³ x ⋅ f ( x)dx (8.6)
−∞

Der Median und die α-Quantile sind definiert als: F( µ ) = 0 ,5 bzw.


F( µ α ) = α . Der Modus ist der Wert, an dem die Dichtefunktion
f ( x ) ein Maximum aufweist (bei multimodalen Verteilungen gibt es
mehrere relative Maxima). Die Varianz lässt sich darstellen als:
+∞
2 2
σ = ³ ( x − µ) f ( x)dx (8.7)
−∞

Ansonsten gelten die in Abschnitt 7.1 dargelegten Rechenregeln


analog.

8.1.3 Die zentralen Momente


Weitere Charakterisierungen einer quantitativen Zufallsvariablen
gestatten die so genannten Momente EX k und die zentralen Mo-
mente E ( X − EX )k (wobei k eine natürliche Zahl ist). Das erste Mo-
ment EX haben wir bereits als den Erwartungswert µ kennen ge-
lernt. Das zweite zentrale Moment E( X − EX )2 ist die Varianz. Aus
dem 3. zentralen Moment lässt sich die Schiefe γ1 (Gamma) herlei-
ten (z› Formel 4.15):

γ1 = E ( X − EX ) 3 σ 3 (8.8)

Da sich wegen der 3. Potenz negative und positive Abweichungen


der x-Werte vom Mittelwert ausgleichen, ergibt sich bei symmetri-
schen Verteilungen für die Schiefe der Wert 0. Bei rechtsschiefen
Verteilungen ist γ1 > 0 , bei linksschiefen ist γ1 < 0 . Mit dem 4. zen-
tralen Moment wird die Wölbung definiert als

γ 2 = E ( X − EX ) 4 σ 4 − 3 (8.9)
› Formel 4.17). Das 4. Moment der Normalverteilung ist 3σ 4 . Mit
(z
der Definition nach (8.9) erreicht man, dass die Wölbung einer
normalverteilten Zufallsvariablen den Wert 0 annimmt.
148 Kapitel 8 · Stetige Verteilungen

8.2 Die Normalverteilung

8.2.1 Allgemeine Eigenschaften


Die Normalverteilung ist für die Statistik und deren praktische An-
wendung von grundlegender Bedeutung. Ihre Dichte wird durch die
Gauß’sche Glockenkurve dargestellt (sie war ehemals zusammen mit
dem Konterfei von Carl Friedrich Gauß auf dem 10-Mark-Schein ab-
gebildet). Die zugrunde liegende mathematische Funktion lautet:
−( x −µ) 2
1 2σ 2
f ( x) = ⋅e (8.10)
2π ⋅ σ
Eine normalverteilte Zufallsvariable X ist durch den Erwartungs-
wert µ und die Standardabweichung σ eindeutig charakterisiert.
Sie wird deshalb allgemein als X ~ N (µ, σ 2 ) angegeben (so auch in
diesem Buch); andere Autoren verwenden die Schreibweise X
~ N (µ, σ) . Aus (8.10) lassen sich folgende Eigenschaften der Normal-
8 verteilung herleiten:
ŷ Die Glockenkurve ist symmetrisch um den Erwartungswert µ; es
gilt also: f (µ + x) = f (µ − x) .
ŷ Sie hat zwei Wendepunkte bei x = µ − σ und x = µ + σ .
ŷ Ihr Maximum ist an der Stelle x = µ .
ŷ Der Erwartungswert, der Median und der Modalwert von X
stimmen überein.
ŷ Die Dichte f ( x) ist für jede reelle Zahl definiert und größer als
0. Für x → ±∞ nähert sie sich asymptotisch der x-Achse.
Der Ausdruck „asymptotisch“ bedeutet in diesem Zusammenhang,
dass die Glockenkurve für hinreichend große x-Beträge beliebig
nahe an die x-Achse herankommt, ohne diese jedoch zu erreichen.
Die spezielle Form der Glockenkurve hängt von der Standardabwei-
chung σ ab: Bei kleinem σ ist sie schmal und hoch; bei großem σ ist
› Abbildung 8.2). In jedem Fall ist die
sie dagegen breit und niedrig (z
Gesamtfläche unter der Kurve gemäß Formel (8.1) gleich 1. Die
Schiefe γ1 ist – wie bei jeder symmetrischen Verteilung – gleich 0.
Auch die Wölbung γ 2 ist nach (8.9) so definiert, dass sie bei einer
Normalverteilung den Wert 0 annimmt. Die Wahrscheinlichkeit,
dass eine normalverteilte Zufallsvariable X einen Wert zwischen
zwei Grenzwerten a und b annimmt, berechnet man nach (8.4)
über die Verteilungsfunktion F ( x ) :
149 8
8.2 Die Normalverteilung

b − ( x −µ ) 2
1 2σ 2
P ( a ≤ X ≤ b) = ⋅³e dx = F (b) − F (a) (8.11)
2π ⋅ σ a

Diese Wahrscheinlichkeit entspricht der Fläche, die von der Glo-


ckenkurve, der x-Achse und den Parallelen zur y-Achse x = a und
x = b begrenzt wird (z › Abbildung 8.1). Die Bestimmung eines sol-
chen Intervalls ist allerdings problematisch: Es ist nicht möglich, die
Funktion F (x ) analytisch aufzulösen, und ein Taschenrechner hilft
hier im Allgemeinen auch nicht weiter. Man kann sich jedoch heut-
zutage – wenn man Zugang zu einem Rechner mit geeigneter Soft-
ware hat – die gewünschten Werte einfach und schnell berechnen
lassen.

Mathematische Betrachtung der Gauß’schen Glockenkurve


Für die Ableitungen von f (x) berechnet man mit der Kettenregel der Diffe-
x−µ § ( x − µ) 2 1 ·
rentialrechnung: f ' ( x) = − f ( x) ⋅ und f ' ' ( x) = f ( x) ⋅ ¨ − 2¸.
σ 2 ¨ σ4 σ ¸¹
©
Daraus folgt: Das Maximum (d. h. der Modalwert) ist bei x = µ ( f ' (µ) = 0 ,
f ' ' (µ) < 0 ); die Wendepunkte bei x = µ ± σ ( f ' ' (µ ± σ) = 0 ).
Der Nachweis, dass die gesamte Fläche unter der Glockenkurve gleich 1 ist, er-
fordert die Lösung des bestimmten Integrals über den Ausdruck in Formel (8.10).
Um nachzuweisen, dass es sich bei den Parametern µ und σ 2 tatsächlich um
den Erwartungswert bzw. die Varianz handelt, reichen schulmathematische
Kenntnisse nicht aus. Deshalb wird an dieser Stelle auf den Beweis verzichtet.

8.2.2 Die Standardnormalverteilung


Um eine bestimmte Wahrscheinlichkeit einer normalverteilten Zu-
fallsvariablen auszurechnen, ist man ohne geeignete Statistik-Soft-
ware auf Tabellen angewiesen, in denen die Funktionswerte der
Verteilungsfunktion aufgelistet sind und die in jedem Statistik-Buch
zu finden sind. Diesen Tabellen liegt generell die Standardnormal-
verteilung zugrunde – das ist eine spezielle Normalverteilung mit
dem Erwartungswert 0 und der Varianz 1. Jede normalverteilte
Zufallsvariable X ~ N (µ, σ 2 ) lässt sich in die Standardnormalvertei-
lung Z ~ N (0,1) transformieren durch:

X −µ
Z= (8.12)
σ
150 Kapitel 8 · Stetige Verteilungen

Mit den Rechenregeln (7.5) und (7.9) lässt sich nachweisen, dass
EZ = 0 und VarZ = 1 . Durch die Transformation wird die Glocken-
kurve entlang der x-Achse so verschoben, dass der Erwartungswert 0
wird. Außerdem wird die Kurve aufgrund der Division durch ı in
ihrer Form so angepasst, dass die Standardabweichung den Wert 1
annimmt. Für die Dichte und die Verteilungsfunktion der Stan-
dardnormalverteilung erhält man mit (8.10) und (8.2):
−z2
1
ϕ( z ) = ⋅e 2 (8.13)

z z −t 2
1
Φ( z ) = P(Z ≤ z ) = ³ ϕ(t )dt = ³ e 2 dt (8.14)
−∞ 2π −∞

Die griechischen Buchstaben ϕ (klein Phi) und ĭ (groß Phi) ent-


sprechen den lateinischen Buchstaben f bzw. F. In der Tabelle A im
Anhang dieses Buches sind diverse z-Perzentile zusammen mit den
Funktionswerten ϕ(z ) und Φ (z ) aufgelistet.
8 Beispiel 8.1
Die Körpergröße einer Population von jungen Männern X sei normalverteilt
mit µ = 180 cm und σ = 10 cm . Gesucht ist die Wahrscheinlichkeit
P (170 cm ≤ X ≤ 190 cm) . Nach (8.12) berechnet man für die entsprechenden
Grenzen der standardisierten Variablen:
170 − 180 190 − 180
z1 = = −1 und z2 = = +1 .
10 10
Aus den z-Variablen geht hervor, dass die Körpergrößen 170 cm und 190 cm
eine Standardabweichung unter bzw. über dem Erwartungswert liegen. Nach
(8.11) ist die gesuchte Wahrscheinlichkeit:
P (-1 ≤ Z ≤ +1) = P ( Z ≤ 1) − P ( Z ≤ −1) . Nun ist P ( Z ≤ 1) = φ(1) .
Wegen der Symmetrie der Glockenkurve gilt:
P ( Z ≤ −1) = P ( Z ≥ 1) = 1 − P ( Z ≤ 1) = 1 − Φ (1) . Demnach ist
P (-1 ≤ Z ≤ +1) = Φ (1) − (1 − Φ (1)) = 2Φ (1) − 1
Aus Tabelle A ist zu entnehmen: Φ (1) = 0,84 . Daraus ergibt sich:
P (170 cm ≤ X ≤ 190 cm) = 2 ⋅ 0,84 - 1 = 0,68 .

i Eine Tabelle mit Funktionswerten der Standardnormalverteilung wurde


z
erstmals 1812 von Laplace in „Théorie Analytique des Probabilités“ pu-
bliziert. Ihr Umgang erfordert einige Übung, da man die gesuchten Werte
nicht immer direkt ablesen kann. Aus Platzgründen enthalten derlei Ta-
bellen nämlich im Allgemeinen nur Funktionswerte für z ≥ 0 . Für nega-
tive -z gilt Φ (− z ) = P ( Z ≤ − z ) = P ( Z ≥ z ) = 1 − Φ ( z ) aufgrund der Symmet-
151 8
8.2 Die Normalverteilung

rie der Glockenkurve. Heute lassen sich mit einer geeigneten Software
derlei Wahrscheinlichkeiten für jede beliebige Normalverteilung leicht
ermitteln. Dennoch mag die Berechnung der standardisierten z-Variablen
sinnvoll sein: Sie informiert, um wie viele Standardabweichungen der
entsprechende x-Wert vom Erwartungswert Nj abweicht (z › Beispiel 8.1).

8.2.3 σ-Bereiche und Referenzbereiche


Obwohl die Normalverteilung theoretisch für alle x zwischen −∞
und +∞ definiert ist, konzentrieren sich die Werte in unmittelbarer
Umgebung des Erwartungswertes µ. Einige oft benutzte Intervalle
und deren Wahrscheinlichkeiten lassen sich generell für jede Nor-
malverteilung angeben. Aus Tabelle 8.1 geht hervor, dass etwa 2/3
aller Messwerte innerhalb der Grenzen µ ± σ liegen (z › Beispiel 8.2).
Die Wahrscheinlichkeit, einen Wert außerhalb des 3σ -Bereichs zu
finden, beträgt nahezu 0. Deshalb wird die Normalverteilung häufig
verwendet, um quantitative, symmetrisch verteilte, eingipfelige
Merkmale zu beschreiben – auch wenn der Wertebereich in der Pra-
xis immer eine obere und eine untere Grenze aufweist.
Für medizinische Fragestellungen sind so genannte Normberei-
che (oder Referenzbereiche, z› Abbildung 8.3) wichtig, die 95% oder
99% aller Werte enthalten. So legt man bei normalverteilten Daten
zugrunde, dass ein Wert außerhalb eines bestimmten Referenzbe-
reichs überprüft werden sollte (etwa auf Messfehler, pathologische
Besonderheiten etc.). Allerdings muss darauf hingewiesen werden,
dass anhand eines Normbereichs keine Entscheidung wie etwa
„pathologisch / nicht pathologisch“ getroffen werden kann.

Abb. 8.2 Normal- 0,7


verteilungen mit 0,6
gleichem Erwar-
0,5
tungswert µ = 0
und unterschiedli- 0,4
cher Streuung. 0,3
Obere Kurve: 0,2
σ = 0,6 , mittlere
0,1
Kurve: σ = 1 ,
untere Kurve: σ = 2 0
-4 -2 0 2 4
152 Kapitel 8 · Stetige Verteilungen

Tabelle 8.1 Spezielle Intervalle und Wahrscheinlichkeiten der Normalver-


teilung

Intervallgrenzen für Intervallgrenzen Wahr-


Bezeichnung
für scheinlich-
X : N (µ, σ 2 ) Z : N (0,1)
des Intervalls
keit P
µ−σ ≤ X ≤ µ+σ −1 ≤ Z ≤ 1 1σ-Bereich 0,6827
µ − 2σ ≤ X ≤ µ + 2σ −2 ≤ Z ≤ 2 2σ-Bereich 0,9545
µ − 3σ ≤ X ≤ µ + 3σ −3 ≤ Z ≤ 3 3σ-Bereich 0,9973
µ − 1,96σ ≤ X ≤ µ + 1,96σ −1,96 ≤ Z ≤ 1,96 95%-Refe- 0,95
renzbereich
µ − 2,58σ ≤ X ≤ µ + 2,58σ −2,58 ≤ Z ≤ 2,58 99%-Refe- 0,99
renzbereich

Beispiel 8.2
Die Körpergröße einer männlichen Population X sei normalverteilt mit
µ = 180 cm und σ = 10 cm . Gesucht ist das Intervall um den Erwartungswert,
in dem sich mit einer Wahrscheinlichkeit von 95% ein Messwert befindet.
8 Der Tabelle 8.1 ist zu entnehmen, dass dieses Intervall durch µ ± 1,96σ be-
grenzt ist. Damit berechnet man für die untere bzw. obere Grenze:
x1 = µ − 1,96σ = 160,4 cm und x2 = µ + 1,96σ = 199,6 cm . Also gilt:
P (−1,96 ≤ Z ≤ +1,96) = P (160,4 cm ≤ X ≤ 199,6 cm) = 0,95 .
Diese Wahrscheinlichkeit lässt sich graphisch darstellen als die Fläche unter
der Glockenkurve, bei der an beiden Seiten 2,5% „abgeschnitten“ sind. Jeweils
2,5 % aller Studenten sind kleiner als 160,4 cm oder größer als 199,6 cm; 95 %
haben eine Größe zwischen diesen beiden Werten.

8.2.4 Normalisierende Transformationen


Bei den Anwendern der Statistik ist die Normalverteilung aus ver-
schiedenen Gründen recht beliebt. Zum einen lassen sich Referenz-
bereiche auch ohne Computer sehr leicht berechnen; zum anderen
setzen – wie wir später sehen werden – viele Verfahren der indukti-
ven Statistik normalverteilte Daten voraus.
Leider sind jedoch etliche Merkmale in der Medizin rechtsschief
verteilt. Das heißt: Die Dichtefunktion hat einen Gipfel am linken
Rand und einen langen Auslauf an der rechten Seite. Bei empiri-
schen Daten ist dies optisch erkennbar am Histogramm. Rechnerisch
lässt sich die Verteilungsform über die empirische Schiefe nach For-
mel (4.15) nachprüfen; sie ist bei einer rechtsschiefen Verteilung
größer als 0 (z› Abbildung 4.1b).
153 8
8.2 Die Normalverteilung

Abb. 8.3
95%-Referenz-
bereich einer
Normalvertei-
lung
95%

2,5 % 2,5 %

Eine solche Verteilung entsteht dadurch, dass ein Merkmal nach


unten eine natürliche Grenze aufweist, während im oberen
Wertebereich die Einflussfaktoren multiplikativ zusammen wirken.
Dadurch ist die Variabilität der Messwerte am unteren Rand einge-
schränkt, wohingegen im oberen Bereich die Werte durch zufällige
Änderungen wesentlich stärker beeinflusst werden. Als Beispiele
seien das Körpergewicht der erwachsenen Bevölkerung, der systoli-
sche und der diastolische Blutdruck oder die Senkungsgeschwindig-
keit von Erythrozyten genannt (jeweils mit 0 als untere Grenze). In
diesen Fällen ist es eventuell möglich, durch eine logarithmische
Transformation der Originaldaten eine angenäherte Normalvertei-
lung zu erhalten. Man betrachtet also anstelle der X-Variablen die
transfomierte Y-Variable
Y = ln X (8.15)
Wenn Y = ln X normalverteilt ist, heißt X logarithmisch normalver-
teilt (oder lognormalverteilt). Dabei ist „ln“ der natürliche Logarith-
mus zur Basis e (Euler’sche Zahl). Man schreibt abkürzend X
~ LN (µ, σ 2 ) , wobei µ den Erwartungswert und σ 2 die Varianz von
Y bezeichnen. Eine lognormalverteilte Zufallsvariable X muss posi-
tiv sein, da andernfalls die Transformation X → ln X nicht möglich
ist. Auf diese Weise werden kleine x-Werte zwischen 0 und 1 in
negative y-Werte abgebildet; große x-Werte am rechten Rand der
Verteilung werden gestaucht. Die Rücktransformation erfolgt über:

X = eY (8.16)
Die Umrechnungen (8.15) oder (8.16) sind mühelos mit einem Ta-
schenrechner zu bewältigen. Da die e-Funktion streng monoton
154 Kapitel 8 · Stetige Verteilungen

wachsend ist, gilt für jede Zahl c > 0 : Y ≤ c ist gleichbedeutend mit
X = eY ≤ e c . Daraus folgt:

P (Y ≤ c) = P ( X ≤ e c ) (8.17)

Aus dieser Eigenschaft lassen sich folgende Aussagen herleiten:


ŷ Allgemein lassen sich aus den Quantilen von Y = ln X nach
Rücktransformation die entsprechenden Quantile von X be-
stimmen.
ŷ Die zurücktransformierten Grenzen der Referenzbereiche von
Y sind die Grenzen der Referenzbereiche von X .
ŷ Der Median der transformierten Variablen Y ist gleich deren
Erwartungswert µ (da Y normalverteilt ist). Dann ist der Median
der log-normalen Verteilung X gleich e µ ; denn wegen (8.17)
gilt: P ( X ≤ e µ ) = P (Y ≤ µ) = 0,5 .
ŷ Der Erwartungswert von X ist nicht einfach zu bestimmen; bei
dieser Verteilung ist jedoch das geometrische Mittel (z › Ab-
schnitt 4.2.6) ohnedies das sinnvollere Lagemaß.
ŷ Aus der Formel (4.4) lässt sich mit elementaren Berechnungen
8 herleiten: Das geometrische Mittel der x-Werte entspricht dem
Median e µ .
Beispiel 8.3
Die Konzentrationswerte von Serum-IgM bei Kindern seien log-normalver-
teilt mit Werten zwischen 0,1 und 2,8 g/l. Durch Logarithmieren erhalte man
eine normalverteilte Zufallsvariable Y mit dem Erwartungswert µ y = −0,36
und der Standardabweichung s y = 0,51 . Dann ergibt sich für den Median und
~ = e −0,36 = 0,70 g/l.
das geometrische Mittel von X: µ x
Für den 95%-Referenzbereich von Y berechnet man folgende Grenzwerte:
y1 = µ − 1,96σ = −0,36 − 1,96 ⋅ 0,51 = −1,36 und
y2 = µ + 1,96σ = −0,36 + 1,96 ⋅ 0,51 = 0,64
Innerhalb der Grenzen x1 = e −1,36 = 0,26 g/l und x2 = e0,64 = 1,90 g/l liegen
demnach 95% aller IgM-Werte. Nur 2,5% sind größer als 1,90 g/l, und 2,5 %
sind kleiner als 0,26 g/l.

i Wenn sich die 0 oder negative Werte unter den Original-Daten befinden,
z
bietet sich eine Transformation der Form Y = ln( X + a) (wobei a eine
konstante, positive Zahl ist) an. Bei sehr schiefen Verteilungen mit ex-
trem großen Werten erreicht man eine Normalverteilung eventuell
durch 2-faches Logarithmieren: Y = ln ln ( X ) . Die optimale Art der Trans-
formation muss empirisch bestimmt werden.
155 8
8.3 Sätze der Wahrscheinlichkeitsrechnung

Weit seltener werden in den Biowissenschaften linksschiefe Vertei-


lungen beobachtet. Sie zeichnen sich aus durch einen langen Anlauf
links und einen Gipfel am rechten Rand (z › Abbildung 4.1c). Ihre
Schiefe ist kleiner als 0. Bei diesen Verteilungen finden sich viele
Daten im unteren Wertebereich, während nach oben eine natürliche
Grenze existiert. Beispiele sind die Schwangerschaftsdauer, die
Tragezeit von Säugetieren oder der Kopfumfang von Neugeborenen.
Eine Normalisierung dieser Verteilungen erreicht man durch eine
Potenztransformation wie z. B.:

Y = X 1,5 (8.18)
Dadurch wird der Gipfel am rechten Rand in die Breite gezogen. Bei
besonders stark ausgeprägter Rechtsgipfeligkeit potenziert man mit
einem höheren Wert.

8.3 Sätze der Wahrscheinlichkeitsrechnung

Um die eigentliche Bedeutung der Normalverteilung ermessen zu


können, benötigen wir einige bekannte Sätze aus der Wahrschein-
lichkeitsrechnung, die in diesem Abschnitt vorgestellt werden.

8.3.1 Die Tschebyscheff’sche Ungleichung


Von dem russischen Mathematiker Pafnutij Tschebyscheff (1821-
1879) wurde im Jahr 1874 die nach ihm benannte Tscheby-
scheff’sche Ungleichung hergeleitet. Sie erlaubt eine Abschätzung
der Wahrscheinlichkeit, mit der die Zufallsvariable X um mehr als
eine feste Zahl vom Erwartungswert µ abweicht. Es gilt:

1
P(| X − µ |> kσ) ≤ für alle k > 0 (8.19)
k2
Diese Ungleichung lässt sich auch in einer anderen Form schreiben,
indem man den Faktor kσ durch ε (Epsilon) ersetzt:

σ2
P (| X − µ |> ε) ≤ für alle ε > 0 (8.20)
ε2
Die Tschebyscheff’sche Ungleichung setzt keine besondere Vertei-
lungsform voraus – sie gilt generell für alle, also für symmetrische
156 Kapitel 8 · Stetige Verteilungen

und schiefe Verteilungen. Allerdings sind die daraus hergeleiteten


Abschätzungen recht grob. Für k = 1 ergibt sich aus (8.19) lediglich
die triviale Feststellung:
P (| X − µ |> σ) ≤ 1

Für k = 2 und k = 3 berechnet man:

1 1
P (| X − µ |> 2σ) ≤ P (| X − µ |> 3σ) ≤
4 9
Demnach liegen bei jeder Verteilung mindestens 8/9 aller Werte in-
nerhalb der Grenzen µ±3σ. Wenn genauere Informationen bezüg-
lich der Verteilungsform vorliegen, sind bessere Abschätzungen
möglich. Gauß hat bereits 1821 für symmetrische, eingipfelige Ver-
teilungen eine schärfere Ungleichung nachgewiesen:

4
P (| X − µ |> kσ) ≤ für alle k ≥ 2 3 ≈ 1,155 (8.21)
9k 2
8 Für k = 2 oder k = 3 erhält man damit folgende Abschätzungen:

1
P(| X − µ |> 2σ) ≤ ≈ 0,111
9
4
P (| X − µ |> 3σ) ≤ ≈ 0,049
81

Mathematische Herleitung der Tschebyscheff’schen Ungleichung


Zunächst betrachten wir eine stetige Zufallsvariable X mit dem Erwartungswert
µ, die nur positive Werte annehmen kann. Dann gilt nach der Definition des
Erwartungswertes in (8.6) und nach (8.3) für alle c > 0 :
+∞ +∞ +∞
µ= ³0 xf ( x)dx ≥ ³ xf ( x)dx ≥ cµ ³ f ( x)dx = cµ ⋅ P( X > cµ)
cµ cµ
Daraus folgt: P ( X > cµ) ≤ 1 / c .
Wenn man nun anstelle von X die Variable ( X − µ) 2 mit dem Erwartungswert
σ 2 betrachtet und für c eine Konstante k 2 einsetzt, erhält man:
( )
P ( EX − µ) 2 > k 2σ 2 ≤ 1 / k 2 .
Da der Ausdruck in der Klammer gleichbedeutend ist mit: EX − µ > kσ , folgt
daraus die Tschebyscheff’sche Ungleichung in der Form (8.19).
157 8
8.3 Sätze der Wahrscheinlichkeitsrechnung

Beispiel 8.4
Wir betrachten die Körpergröße X einer Grundgesamtheit einer männlichen
Population mit µ x = 180 cm und σ x = 10 cm . X ist symmetrisch verteilt.
Dann gilt nach der Ungleichung von Gauß: 8/9=89% der Studenten haben
eine Körpergröße zwischen 160 cm und 200 cm.

8.3.2 Das Gesetz der großen Zahlen


Es ist intuitiv klar, dass sich der Erwartungswert einer Grundge-
samtheit durch einen Mittelwert umso genauer schätzen lässt, je
größer der zugrunde liegende Stichprobenumfang ist. Das Gesetz der
großen Zahlen ist die mathematisch präzise Formulierung dieses
Sachverhalts.
Vorab einige Überlegungen: Wir wissen, dass der Mittelwert aus
n Werten berechnet wird, die zufällig in die Stichprobe gelangen.
Wenn man aus derselben Grundgesamtheit eine andere Stichprobe
des Umfangs n ziehen würde, erhielte man andere Stichproben-
Werte und damit auch einen anderen Mittelwert. Bei einer großen
Grundgesamtheit sind eine enorme Vielzahl von Stichproben des
Umfangs n und fast ebenso viele verschiedene Mittelwerte denkbar.
Demzufolge ist jeder Mittelwert vom Zufall abhängig und lässt sich
insofern auffassen als die Realisation einer Zufallsvariablen:
n
¦ Xi
i =1
X =
n
Alle Variablen X i haben den Erwartungswert µ und die Varianz
σ 2 . Für die Funktional-Parameter von X leitet man her:

E( X ) = µ (8.22)
2
σ
Var( X ) = (8.23)
n
σ
σx = (8.24)
n
Diese Betrachtung der Zufallsvariablen X ist für jemanden, der sich
zum ersten Mal mit Wahrscheinlichkeitsrechnung befasst, eine
eigenartige Sichtweise. Normalerweise liegt eine konkrete Stich-
probe vor, aus der ein einziger Mittelwert resultiert. Wieso spricht
man nun von der Verteilung der Mittelwerte, und was bedeuten in
158 Kapitel 8 · Stetige Verteilungen

diesem Zusammenhang der Erwartungswert und die Standardabwei-


chung von X ?
Man muss sich – um einen Mittelwert beurteilen zu können –
darüber im Klaren sein, dass dieser Wert zufällig zustande gekom-
men ist, und dass sich ebenso gut ein anderer aus einer immensen
Vielzahl von Möglichkeiten hätte ergeben können. Die Variabilität
dieser möglichen Mittelwerte wird durch die Standardabweichung
σ x quantifiziert. Sie wird deshalb auch als der Standardfehler des
Mittelwerts bezeichnet. Dieser ist umso geringer, je kleiner die Stan-
dardabweichung der Grundgesamtheit σ und je größer der
Stichprobenumfang n ist. Aus diesem Grund ermöglichen homogene
Grundgesamtheiten mit kleinem σ bessere Schätzungen des Er-
wartungswerts als heterogene Populationen mit großem σ . Wir
werden in Kapitel 9 bei der Behandlung von Schätzverfahren darauf
zurückkommen. Im nächsten Abschnitt 8.3.3 wird gezeigt, dass die
Verteilung der Mittelwerte einer Normalverteilung entspricht.
Nach diesen theoretischen Überlegungen lässt sich nun das so
genannte schwache Gesetz der großen Zahlen herleiten. Es beinhal-
tet die Aussage, dass sich ein Mittelwert x mit wachsendem Stich-
8 probenumfang dem Erwartungswert µ nähert. Mathematisch formu-
liert man dies folgendermaßen:

1 n
X = ¦ Xi → µ (8.25)
n i =1 n →∞

Man sagt auch: Der Mittelwert konvergiert gegen den Erwartungs-


wert. Die schärfere Form – das starke Gesetz der großen Zahlen – be-
sagt, dass diese Annäherung mit einer Wahrscheinlichkeit von na-
hezu 1 erfolgt. Sei ε > 0 eine beliebige positive Zahl; dann gilt:

P (| X − µ |< ε ) → 1 (8.26)
n →∞

Verbal formuliert bedeutet die Formel (8.26), dass die Differenz ε


zwischen Mittelwert und Erwartungswert beliebig klein gehalten
werden kann, wenn n entsprechend groß ist. Einerseits rechtfertigt
dieses Gesetz einen hohen Stichprobenumfang. Andererseits besagt
es auch, dass ab einer gewissen Größe der Unterschied zwischen
Mittelwert und Erwartungswert so gering ist, dass eine Erhöhung
des Stichprobenumfangs nicht mehr sinnvoll ist.
159 8
8.3 Sätze der Wahrscheinlichkeitsrechnung

Mathematische Herleitung des Gesetzes der großen Zahlen


Zunächst berechnen wir den Erwartungswert und die Varianz des Mittelwerts.
Mit (7.5) und (7.6) leitet man her:
n
1 n n ⋅µ
E ( X ) = E (¦ X i / n) = ¦ E ( X i ) = =µ
i =1 n i =1 n
Für die Varianz berechnet man mit (7.9) und (7.12):
n n
1 n ⋅ σ2 σ2
Var ( X ) = Var( ¦
i
X i / n) =
=1
¦ Var( X i ) =
n i 2
=1 n2
=
n
Dann folgt mit der Tschebyscheff’schen Ungleichung (8.20):
σ2
(
P | X − µ |> ε ≤
ε2
) Var( X )
→ 0
nε 2 n → ∞
=

Wenn man nun die Wahrscheinlichkeit für das komplementäre Ereignis


X − µ < ε betrachtet, ergibt sich das Gesetz der großen Zahlen nach (8.26).

8.3.3 Der zentrale Grenzwertsatz


Der zentrale Grenzwertsatz sagt aus, dass – unter sehr allgemeinen
Bedingungen – die Summe einer großen Anzahl von Zufallsvariab-
len normalverteilt ist. Mathematisch präzise formuliert lautet dieser
Satz: Seien X i ( i = 1,..., n ) unabhängige, identisch verteilte Zu-
fallsvariablen mit dem Erwartungswert µ und der Varianz σ 2 . Dann
ist die Summe der X i asymptotisch normalverteilt mit dem Erwar-
tungswert n ⋅ µ und der Varianz n ⋅ σ 2 . Das bedeutet wiederum, dass
die Variable
n

¦X
i =1
i − n ⋅µ
X −µ
Zn = =
n ⋅σ σ/ n
asymptotisch standardnormalverteilt ist. Daraus ergeben sich un-
mittelbar einige wichtige Konsequenzen bezüglich der:
„• Verteilung von Zufallsvariablen. Dieser Satz rechtfertigt die An-
nahme, dass eine Zufallsvariable normalverteilt ist, wenn zahlreiche
Einflüsse additiv und unabhängig voneinander zusammenwirken.
Aus diesem Grund sind beispielsweise Messfehler normalverteilt.
Carl Friedrich Gauß hat dies bereits im Jahre 1794 erkannt und be-
schrieben; deshalb wird die Normalverteilung ihm zu Ehren auch
Gauß-Verteilung genannt.
160 Kapitel 8 · Stetige Verteilungen

„• Verteilung von Mittelwerten. Aus dem Gesetz der großen Zahlen


geht hervor, dass die Gesamtheit aller theoretisch denkbaren Mit-
telwerte, die aus Stichproben des Umfangs n derselben Grund-
gesamtheit berechnet werden, den Erwartungswert µ und die Vari-
anz σ 2 / n hat. Aus dem zentralen Grenzwertsatz folgt nun, dass –
falls der Stichprobenumfang n hinreichend groß ist (etwa n ≥ 25 ) –
diese Mittelwerte normalverteilt sind (auch wenn die Grundgesamt-
heit nicht normalverteilt ist). Diese Aussage hat weit reichende Fol-
gen für die Methoden der induktiven Statistik (z› Beispiel 8.5).

„• Binomialverteilung. Eine binomialverteilte Zufallsvariable X


~ B (n, p ) lässt sich nämlich auffassen als die Summe von n identisch
verteilten, unabhängigen Variablen X i , die jeweils die Werte 1 oder
0 (mit den Wahrscheinlichkeiten p bzw. q = 1 − p ) annehmen kön-
nen. Nach dem zentralen Grenzwertsatz kann eine Binomialvertei-
lung für hinreichend großes n durch eine Normalverteilung X mit
dem Erwartungswert µ = np und der Varianz σ2 = npq (z › Ab-
schnitt 7.2.2) approximiert werden. Als Faustregel gilt, dass dazu die
Ungleichung npq ≥ 9 erfüllt sein muss.
8 Beispiel 8.5
Das Körpergewicht weiblicher Studenten habe einen Erwartungswert von
µ = 61 kg und eine Standardabweichung von σ = 6,2 kg . Wir führen nun fol-
gendes Gedankenexperiment durch: Aus der Grundgesamtheit werden meh-
rere Stichproben vom Umfang n = 30 entnommen und jeweils der Mittelwert
bestimmt. Nach dem zentralen Grenzwertsatz sind diese Mittelwerte normal-
verteilt mit einem Erwartungswert von µ x = 61 kg und einer Standardabwei-
chung von σ x = 6,2 / 30 kg = 1,13 kg . Wegen der Normalverteilung der x
definieren µ x ± 1,96 ⋅ σ x = (61 ± 1,96 ⋅1,13) kg einen 95%-Referenzbereich, d. h.
P(58,8 kg ≤ x ≤ 63,2 kg) = 0,95 .
Man wird also bei einer Stichprobe des Umfangs n = 30 mit 95%-iger Wahr-
scheinlichkeit einen Mittelwert zwischen 58,8 und 63,2 kg erhalten; die
Wahrscheinlichkeiten, dass der Mittelwert kleiner ist als 58,8 kg oder größer
als 63,2 kg, betragen jeweils 2,5 %.

i Der Zusammenhang zwischen Binomial- und Normalverteilung wurde


z
von dem französischen Mathematiker Abraham de Moivre (1667-1754) im
Jahre 1718 erkannt und in seinem Werk „The doctrine of chances“ be-
schrieben. De Moivre hat die Normalverteilung sozusagen „entdeckt“.
Von Gauß wurde sie einige Jahrzehnte später bei der Erarbeitung seiner
Fehlertheorie wiederentdeckt. Es wurde schon früh vermutet, dass die
Aussage des zentralen Grenzwertsatzes gilt. Der Beweis für diesen Satz
wurde jedoch erst im Jahre 1920 erbracht.
161 8
8.3 Sätze der Wahrscheinlichkeitsrechnung

8.3.4 Die Bedeutung der Normalverteilung


Die zentrale Bedeutung der Normalverteilung für die Statistik und
deren Anwendung in den Biowissenschaften muss unter verschiede-
nen Aspekten beurteilt werden. Sie lässt sich ansehen als:
„• Eine empirische Verteilung. Der belgische Astronom und Physi-
ker Adolphe Quetelet (1796-1874) gab ein frühes Beispiel für die
Normalverteilung eines Merkmals menschlicher Individuen: Ihm
war aufgefallen, dass die Daten des Brustumfangs von 5.738 schotti-
schen Soldaten angenähert normalverteilt sind. Der Name „Normal-
verteilung“ wurde von Francis Galton im Jahr 1880 eingeführt.
Einige Wissenschaftler vertraten damals die Auffassung, dass die be-
lebte Natur bei jedem Merkmal die Normalverteilung anstrebe.
„Normal“ wird dabei im Sinne von „allgemein üblich“ oder „phy-
siologisch“ verwendet. Wir wissen heute, dass dieser Ansatz nicht
stimmt. Es gibt zwar einige medizinisch relevante Merkmale, die an-
genähert normalverteilt sind (z. B. die Körpergröße erwachsener
Männer). Andere wichtige Verteilungen in der Medizin sind jedoch
nicht symmetrisch (z. B. Überlebenszeiten, z› Abschnitt 8.4).
„• Eine approximative Verteilung. Schiefe Verteilungen lassen sich
eventuell in eine Normalverteilung transformieren (z › Abschnitt
8.2.4). Die Binomial- und auch die Poissonverteilung lassen sich un-
ter gewissen Bedingungen durch die Normalverteilung approximie-
ren (z› Abschnitt 8.3.3).
• Eine Verteilung für statistische Kennwerte. Nach dem zentralen
„
Grenzwertsatz sind die Mittelwerte aus Stichproben des Umfangs n
beliebiger Verteilungen normalverteilt. Bei normalverteilten Grund-
gesamtheiten sind auch andere Kenngrößen wie z. B. der Median,
die Varianz etc. normalverteilt. Ansonsten können allerdings die
Verteilungen statistischer Kennwerte – außer der des Mittelwertes –
erheblich von der Normalverteilung abweichen.
„• Eine Basisverteilung für Prüfverteilungen. Die Normalverteilung
bildet die Grundlage für die wichtigsten Prüfverteilungen, die in der
induktiven Statistik Anwendung finden (z › Abschnitt 8.5).
162 Kapitel 8 · Stetige Verteilungen

8.4 Die Verteilung von Überlebenszeiten

8.4.1 Einige wichtige Begriffe


In diesem Abschnitt werden zwei wichtige Verteilungen vorgestellt,
die in der medizinischen Forschung bei Überlebenszeitanalysen be-
nutzt werden.
„• Überlebenszeit. Das wesentliche Merkmal, das bei diesen Studien
untersucht wird, ist die Dauer, die zwischen einem definierten An-
fangsereignis und dem Eintritt eines zufallsbedingten Endereignisses
vergeht. Diese Zeitspanne wird Überlebenszeit genannt. Die An-
fangsereignisse sind beispielsweise die Geburt eines Individuums
oder der Beginn einer therapeutischen Maßnahme; bei den
Endereignissen handelt es sich üblicherweise um den Tod eines Pa-
tienten, den eingetretenen Heilerfolg, das Ende der Beschwerdefrei-
heit, das Auftreten eines bestimmten Symptoms oder den Ausfall
eines transplantierten Organs. Wenn ein Lebewesen vom Zeitpunkt
der Geburt bis zu seinem Tod beobachtet wird, spricht man von Le-
8 bensdauer. Dieser Begriff wird auch in der Technik verwendet, wo
er die Zeit zwischen dem Betriebsbeginn und dem Ausfall eines Ob-
jekts bezeichnet.
Der Begriff „Überlebenszeit“ ist also nicht unbedingt gleichbe-
deutend mit der Zeit, die bis zum Tod eines Individuums vergeht.
Wenn wir im Folgenden dennoch das kritische Endereignis mit
„Tod“ oder „Sterben“ gleichsetzen, dann geschieht dies deshalb, weil
diese Begriffe anschaulicher und prägnanter sind als Formulierungen
wie etwa „das Eintreten des kritischen Endereignisses“.
„• Überlebensfunktion. Sei T eine Zufallsvariable zur Beschreibung
einer Überlebenszeit. T kann sinnigerweise nur positive Werte an-
nehmen, die im Folgenden – da es sich um Zeiten handelt – mit dem
Buchstaben t (vom lateinischen tempus) symbolisiert werden. Die
dazugehörende Verteilungsfunktion F(t) gibt die Wahrscheinlichkeit
an, mit der ein Individuum vor dem Zeitpunkt t stirbt. Daraus ergibt
sich die Überlebenswahrscheinlichkeit oder Überlebensfunktion:
S (t ) = P(T > t ) = 1 − F (t ) (8.27)

S (t ) ist also die Wahrscheinlichkeit, dass ein Individuum den Zeit-


punkt t überlebt. Der Buchstabe S ist abgeleitet vom englischen
Ausdruck „survival function“.
163 8
8.4 Die Verteilung von Überlebenszeiten

• Bedingte Überlebenswahrscheinlichkeit. Sie quantifiziert die


„
Wahrscheinlichkeit für ein Individuum, das den Zeitpunkt t erreicht
hat, eine weitere Zeitspanne der Länge ∆t (Delta t) zu überleben.
Sie lässt sich nach Formel (6.8) berechnen als:

P (T > t + ∆t )
P (T > t + ∆t T > t ) = (8.28)
P (T > t )

„• Momentane Sterberate r (t ) (auch Hazard-Rate oder im techni-


schen Bereich Ausfallrate genannt). Sie ist durch folgende Beziehung
charakterisiert:

f (t )
r (t ) = (8.29)
S (t )

Dabei ist f (t ) die Dichtefunktion der Variablen T. Die momentane


Sterberate hat gegenüber der in Abschnitt 6.3 eingeführten Mortali-
tät den Vorteil, dass sie unabhängig vom Beobachtungszeitraum ist
und für jeden Zeitpunkt t angegeben werden kann.

Mathematische Herleitung der Sterberate


Die Sterberate r (t ) basiert auf der bedingten Wahrscheinlichkeit, dass ein Indi-
viduum, nachdem es den Zeitpunkt t überlebt hat, im darauf folgenden Zeitin-
tervall der Länge t + ∆t stirbt. Diese Wahrscheinlichkeit ist wegen der Defini-
tion von F (t ) und S (t ) :
P(t < T ≤ t + ∆t ) F (t + ∆t ) − F (t )
P (t < T ≤ t + ∆t | X > t ) = =
P (T > t ) S (t )
Unter der momentanen Sterberate versteht man nun diese Wahrscheinlichkeit
bezogen auf ein infinitesimal kleines Zeitintervall der Länge ∆t :
F (t + ∆t ) − F (t ) 1
r (t ) = lim ⋅
∆t → 0 ∆t S (t )
F (t + ∆t ) − F (t ) dF (t )
Für den Differentialquotienten gilt: lim = = f (t ) .
∆t → 0 ∆t d (t )
f (t )
Daraus ergibt sich: r (t ) = .
S (t )
164 Kapitel 8 · Stetige Verteilungen

8.4.2 Die Exponentialverteilung


Im einfachsten Fall lässt sich die Überlebenswahrscheinlichkeit mo-
dellieren als (wobei λ > 0 ):

S (t ) = P(T > t ) = e −λt (8.30)

(λ = griechischer Buchstabe lambda). Die Wahrscheinlichkeit, mit


der ein Individuum vor dem Zeitpunkt t stirbt, ist demnach:

F (t ) = 1 − S (t ) = P (T ≤ t ) = 1 − e −λt (8.31)

Eine Zufallsvariable T mit dieser Verteilungsfunktion nennt man


exponentialverteilt T ~ Exp(λ ) . Für die Dichtefunktion ergibt sich:

f (t ) = F ' (t ) = λe −λt (8.32)

Die Exponentialverteilung hat einige bemerkenswerte Eigenschaf-


ten. Für die bedingte Überlebenswahrscheinlichkeit folgt mit (8.28)
und (8.30):
8
e − λ (t + ∆t )
P (T > t + ∆t T > t ) = − λt
= e −λ⋅∆t (8.33)
e
Die Wahrscheinlichkeit, noch eine Zeitspanne der Länge ∆t zu le-
ben, ist also unabhängig vom Alter. Deshalb wird die Exponential-
verteilung auch gedächtnislose Verteilung genannt. Wegen dieser
Eigenschaft ist die Sterberate über die Zeit konstant; mit (8.29),
(8.32) und (8.30) berechnet man nämlich:

f (t ) λe − λt
r (t ) = = − λt = λ (8.34)
S (t ) e

Deshalb eignet sich die Exponentialverteilung zur Beschreibung von


Lebensdauern nicht alternder Objekte oder von Überlebenszeiten
bei Individuen, deren Tod unabhängig vom aktuellen Alter eintritt.
Typische Beispiele sind die Lebensdauern radioaktiver Teilchen oder
das Überleben nach einer schweren Erkrankung mit kurzer Lebens-
erwartung.
Weitere wichtige Kenngrößen sind der Median (der bei Überle-
benszeitstudien auch mediane Überlebenszeit genannt wird), der Er-
wartungswert (auch mittlere Lebensdauer genannt) und die Varianz:
165 8
8.4 Die Verteilung von Überlebenszeiten

~ = 1 ⋅ ln 2
µ (8.35)
λ

1
µ= (8.36)
λ
1
σ2 = (8.37)
λ2
Diese Maßzahlen sind also umso größer, je kleiner die momentane
Sterberate λ ist. Die Schiefe beträgt grundsätzlich 2 – demnach ist
die Exponentialverteilung ebenso wie die Lognormalverteilung
rechtsschief.
i Der Median lässt sich relativ einfach berechnen, indem man die Funktion
z
~ ) = 0,5 in (8.31) nach µ
F (µ ~ auflöst. Der Erwartungswert, die Varianz
und die Schiefe ergeben sich durch aufwendige Integralrechnungen.

8.4.3 Die Weibull-Verteilung


Die Weibull-Verteilung ist nach dem schwedischen Ingenieur
Waloddi Weibull (1887-1979) benannt, der damit die Bruchfestigkeit
von Werkzeugen beschrieb. Im medizinischen Umfeld wird sie
hauptsächlich zur Analyse von Überlebenszeiten verwendet. Eine
Zufallsvariable T heißt Weibull-verteilt mit den Parametern λ > 0
und γ > 0 , wenn für ihre Verteilungsfunktion gilt:
γ
F (t ) = 1 − e − λ⋅t für t > 0 (8.38)

Durch die beiden Parameter λ (lambda) und γ (gamma) ist die Ver-
teilung eindeutig festgelegt; man schreibt: T ~ WB(λ, γ ) . Im Ver-
gleich mit (8.31) wird deutlich, dass die Weibull-Verteilung eine
Verallgemeinerung der Exponentialverteilung darstellt. Durch den
zusätzlichen Parameter γ ist sie wesentlich flexibler; die Dichte-
und die Überlebensfunktion sowie die Parameter sind allerdings er-
heblich komplizierter zu berechnen. Aus der Verteilungsfunktion
(8.38) leitet man her:
γ
S (t ) = P( X > t ) = 1 − F (t ) = e − λ⋅t (8.39)
γ
f (t ) = F '(t ) = λγ ⋅ t ( γ−1) ⋅ e −λ⋅t (8.40)
166 Kapitel 8 · Stetige Verteilungen

Daraus ergibt sich für die momentane Sterberate:

f (t )
r (t ) = = λγ ⋅ t γ −1 (8.41)
S (t )

Es lassen sich nun drei Fälle unterscheiden:


ŷ Sterberate konstant ( γ = 1 ). Dieser Spezialfall ist die Exponen-
tialverteilung.
ŷ Sterberate monoton wachsend ( γ > 1 ). Eine Weibullverteilung
mit γ > 1 ist geeignet, ein Überleben mit Altern zu beschreiben.
ŷ Sterberate monoton fallend ( 0 < γ < 1 ). Diese Verteilung be-
schreibt ein Überleben mit Regeneration, bei dem mit wachsen-
dem Alter die Sterberate abnimmt.

Den Median einer Weibullverteilung berechnet man, indem man die


~ ) = 0,5 auflöst; aus (8.38) ergibt sich unter Anwen-
Gleichung F (µ
dung elementarer Rechenregeln:
1/ γ
8 ~ = §¨ ln 2 ·¸
µ (8.42)
© λ ¹
Dieser Parameter gibt an, nach welcher Zeit die Hälfte der Beobach-
tungseinheiten verstorben ist.
i Die Berechnung anderer Parameter (Erwartungswert, Varianz) erfordert
z
die Kenntnis einer speziellen Funktion (nämlich der so genannten
Gamma-Funktion). Ausführliche Informationen zu diesem Thema findet
man in [9].

8.5 Prüfverteilungen

Wir wissen, dass nicht nur einzelne Messwerte xi , sondern auch sta-
tistische Kennwerte wie etwa der Mittelwert x oder die empirische
Standardabweichung s dem Zufall unterliegen und damit als
Realisationen einer Zufallsvariablen X bzw. S aufgefasst werden
können. Die Prüfverteilungen dienen dazu, die Verteilung von sta-
tistischen Kenngrößen zu beschreiben.
Die Prüfverteilungen sind die Grundlage für die Schätz- und
Testmethoden der induktiven Statistik. Deren Anwendung setzt
zwar nicht unbedingt spezielle Kenntnisse bezüglich der Prüfver-
teilungen voraus. Mathematisch weniger interessierte Leser können
167 8
8.5 Prüfverteilungen

daher diesen Abschnitt 8.5 überschlagen. Allerdings erscheinen die


Verfahren der induktiven Statistik logischer und leichter nachvoll-
ziehbar, nachdem man sich mit dem theoretischen Hintergrund die-
ser Verteilungen etwas näher befasst hat.

8.5.1 Die t-Verteilung


Diese Verteilung wurde im Jahre 1908 von dem Engländer William
Sealy Gosset (1876-1937) veröffentlicht. Gosset befasste sich mit der
Schätzung von Mittelwerten, deren Verteilung nach dem zentralen
Grenzwertsatz (z › Abschnitt 8.3.3) durch die standardnormalver-
teilte Zufallsvariable

X −µ
Z=
σ/ n

beschrieben wird. In der Praxis ist jedoch der Parameter σ meist


unbekannt. Deshalb ist die Verteilung von Z nur theoretisch inter-
essant, aber für praktische Untersuchungen wenig aufschlussreich.
Aus diesem Grund ersetzte Gosset das σ durch die empirische Stan-
dardabweichung s und betrachtete anstelle von Z die Variable

X −µ
T= (8.43)
S/ n
Diese Verteilung ging als Student- oder t-Verteilung in die Literatur
ein. Sie ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge)
definiert. Dabei muss allerdings vorausgesetzt werden, dass die Ein-
zelbeobachtungen X i , aus denen X und S berechnet werden, nor-
malverteilt sind mit dem Erwartungswert µ und der Varianz σ 2 .
Die t-Verteilung hat ähnliche Eigenschaften wie die Standard-
normalverteilung:
ŷ Sie ist symmetrisch um 0, stetig und glockenförmig,
ŷ sie kann Werte zwischen −∞ und +∞ annehmen, und
ŷ der Erwartungswert ist 0.
Es gibt allerdings zwei wesentliche Unterschiede:
ŷ Sie ist nicht direkt abhängig von σ (sondern nur von s),
ŷ sie ist aber abhängig vom Parameter f, der die Anzahl der Frei-
heitsgrade angibt. Die t-Verteilung nach (8.43) hat f = n − 1
Freiheitsgrade. Diese Anzahl begründet sich dadurch, dass in die
168 Kapitel 8 · Stetige Verteilungen

Berechnung der t -Größe n Beobachtungen einfließen, die einer


einschränkenden Bedingung (durch die Vorgabe des Mittelwer-
tes x ) unterliegen.
Es existiert also für jeden Freiheitsgrad f eine spezielle t-Verteilung.
Die Varianz beträgt f /( f − 2) für alle f ≥ 3 und ist damit größer als
1. Demzufolge hat die t-Verteilung für kleine Freiheitsgrade einen
flacheren Verlauf als die Standard-Normalverteilung. Für große
Freiheitsgrade geht sie in die Normalverteilung über.
Die t-Verteilung spielt eine wichtige Rolle bei der Schätzung
und dem Vergleich von Lagemaßen (z › Kapitel 9 bis 11). Einige
Quantile, die für Schätz- und Testverfahren wichtig sind, sind in Ta-
belle B im Anhang aufgelistet.
i Gosset war eigentlich als Chemiker bei der bekannten Bierbrauerei Guin-
z
ness angestellt und betrieb Statistik als Hobby. Weil er als Angestellter
seiner Firma nicht unter seinem Namen veröffentlichen wollte, benutzte
er das Pseudonym „Student“.

8.5.2 Die Chi2-Verteilung


8
Die Chi2-Verteilung (sprich: Chi-Quadrat, auch mit dem griechi-
schen Buchstaben χ 2 geschrieben) beschreibt in ihrer einfachsten
Form die Verteilung des Quadrats einer standnormalverteilten Zu-
fallsvariablen Z ~ N (0,1) . Für den Erwartungswert von χ12 = Z 2 gilt:

EZ 2 = VarZ + ( EZ ) 2 = 1 (8.44)

Die Gleichung (8.44) leitet man aus der Definition der Varianz nach
(7.7) her, indem man X durch Z ersetzt.
Falls nun mehrere Variablen Z1 ,..., Z n unabhängig voneinander
2
nach N (0,1) verteilt sind, ist deren Quadratsumme ¦Z i χ 2 -verteilt

mit n Freiheitsgraden oder (anders ausgedrückt): χ 2n -verteilt.


Wegen (8.44) ist der Erwartungswert dieser Zufallsvariablen
gleich n, die Varianz beträgt 2n und die Schiefe γ 1 = 8 / n . Die χ 2n -
Verteilung ist also immer rechtsschief (z › Abbildung 8.4). Mit wach-
sendem n nähert sie sich einer Normalverteilung.
Wir betrachten nun n unabhängige, normalverteilte Variable
X i ~ N (µ, σ2 ) . Dann sind die ( X i − µ) / σ standardnormalverteilt,
und demnach gilt für deren Quadratsumme:
169 8
8.5 Prüfverteilungen

Abb. 8.4
Dichtefunk-
tionen von
Chi2-Vertei-
lungen mit
unterschiedli-
chen Frei-
heitsgraden n

2
n
§ Xi − µ ·
¦ ¨©  χ2n (8.45)
i =1 σ ¸¹

Wenn wir in diesem Ausdruck den Erwartungswert µ durch die


Variable X ersetzen, erhalten wir eine χ 2 -Verteilung mit n − 1
Freiheitsgraden, da die X i wegen des Mittelwerts X einer ein-
schränkenden Bedingung unterliegen. Daraus folgt:
2
n
§ Xi − X · ( n − 1) ⋅ S 2
¦ ¨ ¸ =  χ2n −1 (8.46)
i =1 © σ ¹ σ2

Der Erwartungswert dieser Variablen ist n − 1 , die Varianz beträgt


2( n − 1) . Diese Eigenschaften sind fundamental für die Schätzung
der Varianz aus einer Stichprobe vom Umfang n . Zahlreiche statisti-
sche Tests (insbesondere Homogenitäts- und Unabhängigkeitstests,
z› Kapitel 12) basieren auf der χ 2 -Verteilung. Wichtige Quantile
findet man im Anhang in Tabelle E.
i Die Chi2-Verteilung verdanken wir Forschungen auf dem Gebiet der
z
Astronomie. Sie geht zurück auf den Physiker und Astronomen Ernst
Abbe (1840-1905), der sie erstmals 1863 erwähnt. Abbe war Professor an
der Universität in Jena und Direktor der dortigen Sternwarte. Unabhän-
gig von Abbe wurde die Chi2-Verteilung von Friedrich Robert Helmert
(1843-1917), der Astronom und Mathematiker war, entdeckt. Sie geriet
dann in Vergessenheit, bis sie von Karl Pearson einige Jahre später wie-
derentdeckt wurde und seither vielfältige Anwendung bei den Verfahren
der induktiven Statistik findet.
170 Kapitel 8 · Stetige Verteilungen

8.5.3 Die F-Verteilung


Als dritte Prüfverteilung sei die F-Verteilung erwähnt (benannt
nach Sir Ronald Aylmer Fisher). Seien S12 und S 22 die Varianzen
zweier unabhängiger Stichproben aus zwei normalverteilten Grund-
gesamtheiten mit derselben Varianz σ2. Dann folgt die Variable

S12
Fm ,n = (8.47)
S22

einer F-Verteilung mit m und n Freiheitsgraden im Zähler bzw. im


Nenner. Diese Zahlen entsprechen den um 1 reduzierten Stichpro-
benumfängen. Die F-Verteilung findet u. a. Anwendung bei der
Varianzanalyse. Es lassen sich folgende Beziehungen nachweisen:

F1,n = tn2 (8.48)

χm2 n
Fm ,n = ⋅ (8.49)
χ n2 m
8

Übersicht 7: Stetige Verteilungen

Name und
Bezeichnung der Abschnitt X beschreibt Beispiele
Verteilung
symmetrisch
Normalverteilung 8.2.1 - verteilte Daten, Messfehler,
N (µ, σ 2 ) 8.2.3 Dichte Körpergröße
glockenförmig
logarithmische
Normalverteilung rechtsschief Körpergewicht,
8.2.4
2 verteilte Daten Blutdruck
LN (µ, σ )

Lebensdauern mit Zerfall


Exponentialverteilung
8.4.2 konstanter radioaktiver
Exp(λ)
Sterberate Teilchen
Lebensdauern mit Überleben mit
Weibullverteilung
8.4.3 nicht konstanter Altern, Überleben
WB(λ, γ )
Sterberate mit Regeneration
9

Schätzverfahren
9.1 Grundlagen 173

9.2 Punktschätzungen 173


9.2.1 Der Begriff der Punktschätzung 173
9.2.2 Kriterien zur Güte einer Schätzung 174
9.2.3 Spezielle Schätzfunktionen 175

9.3 Intervallschätzungen 177


9.3.1 Die Bedeutung eines Konfidenzintervalls 177
9.3.2 Konfidenzintervalle für einen Erwartungswert 179
9.3.3 Konfidenzintervall für eine Wahrscheinlichkeit 182
9.3.4 Konfidenzintervalle für Zusammenhangsmaße 183

9.4 Abschließende Bemerkungen 184


9.4.1 Die Bedeutung des Stichprobenumfangs 184
9.4.2 Zu den Voraussetzungen 186
173 9
9.1 Grundlagen

9.1 Grundlagen

Wir haben in den vorangegangenen Kapiteln Zufallsvariablen X und


deren Verteilungen kennen gelernt und durch charakteristische Pa-
rameter beschrieben. Diese Betrachtungen waren allerdings rein
theoretischer Natur. Die Eigenschaften von X können in der Regel
nicht exakt bestimmt werden, da man sich bei empirischen Untersu-
chungen normalerweise nur auf eine Stichprobe stützen kann. Man
ist also darauf angewiesen, anhand einzelner Stichprobenwerte In-
formationen bezüglich der Grundgesamtheit und der Zufallsvariab-
len X zu gewinnen. Dazu dienen die Methoden der induktiven Statis-
tik (auch schließende, analytische oder beurteilende Statistik ge-
nannt). Bei diesen Verfahren muss grundsätzlich vorausgesetzt wer-
den, dass eine zufällige Stichprobe vorliegt, die repräsentativ für ein
übergeordnetes Kollektiv (die Grundgesamtheit) ist.
Oft sind gewisse Eigenschaften von X (etwa der Verteilungstyp)
aus Erfahrung bekannt oder ergeben sich aus der Beschreibung der
zugrunde liegenden Zufallsexperimente. Die charakteristischen Pa-
rameter sind dagegen meist unbekannt. So kann man beispielsweise
leicht nachvollziehen, dass bei einer klinischen Studie mit einer be-
stimmten Anzahl von Patienten der Heilungserfolg eines Medika-
ments durch eine Binomialverteilung beschrieben werden kann,
wobei die einzelnen Zufallsvariablen X i die Werte 1 (Heilung er-
folgreich) oder 0 (Heilung nicht erfolgreich) annehmen können. Es
liegt jedoch in der Natur der Sache, dass eine exakte Angabe der Er-
folgswahrscheinlichkeit p a priori nicht möglich ist. Man ist daher
bemüht, anhand der Stichprobe den oder die unbekannten Parame-
ter der Grundgesamtheit annähernd zu bestimmen.
Bisher haben wir kaum Gedanken darüber angestellt, welche
Anforderungen an ein Schätzverfahren zu stellen sind und wie die
Güte eines Schätzwertes zu beurteilen ist. Diesen Fragen werden wir
in den folgenden Abschnitten nachgehen.

9.2 Punktschätzungen

9.2.1 Der Begriff der Punktschätzung


Es liegt intuitiv nahe, die Funktionalparameter einer Grundgesamt-
heit durch die entsprechenden Kenngrößen einer zufälligen Stich-
probe zu schätzen. So erscheint der Mittelwert als Schätzwert für
174 Kapitel 9 · Schätzverfahren

den Erwartungswert geeignet; eine Wahrscheinlichkeit wird durch


eine relative Häufigkeit geschätzt. Man nennt ein solches Verfahren,
bei dem ein unbekannter Parameter durch einen einzigen Wert ge-
schätzt wird, eine Punktschätzung. Die Schätzfunktion (oder der
Schätzer) ist eine Vorschrift, nach der aus den Daten einer Stich-
probe des Umfangs n ein angenäherter Wert für den unbekannten
Parameter berechnet wird. So lautet z. B. die Schätzfunktion für den
Erwartungswert:
n
¦ Xi
i =1
X = (9.1)
n
Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweili-
gen Stichprobe annimmt, nennt man Schätzwerte.

9.2.2 Kriterien zur Güte einer Schätzung


Die oben genannten Punktschätzungen sind nicht so selbstverständ-
lich, wie es auf den ersten Blick scheinen mag. Niemand bezweifelt
zwar, dass der Erwartungswert durch den Mittelwert optimal ge-
9 schätzt wird. Was aber spricht dagegen, bei symmetrischen Vertei-
lungen den Erwartungswert durch den empirischen Median zu
schätzen – zumal dies mit weniger Rechenaufwand verbunden wäre?
Außerdem ist bisher nicht eindeutig geklärt, weshalb bei der empi-
rischen Varianz oder bei der empirischen Kovarianz durch n − 1
dividiert wird (und nicht durch den Stichprobenumfang n ).
Um diese Fragen zu beantworten, bedarf es objektiver und nach-
prüfbarer Eigenschaften, nach denen sich die Güte einer Schätzung
beurteilen lässt. Hierzu orientiert man sich an den folgenden vier
Kriterien, die von Sir Ronald Aylmer Fisher aufgestellt wurden:
„• Erwartungstreue. Man kann nicht erwarten, dass eine einzelne
Stichproben-Kenngröße den unbekannten Parameter exakt wieder-
gibt. Allerdings sollte die Schätz-Vorschrift nicht systematisch einen
zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwar-
tungstreue fordert daher, dass der Durchschnitt (oder genauer: der
Erwartungswert) aller theoretisch denkbaren Schätzwerte aus den
Stichproben des Umfangs n mit dem unbekannten Parameter
übereinstimmt. Eine erwartungstreue Schätzung heißt unverzerrt.
• Konsistenz. Es ist außerdem plausibel, von einem guten Schätzer
„
Folgendes zu verlangen: Je größer der Stichprobenumfang n, desto
175 9
9.2 Punktschätzungen

genauer sollte die Schätzung sein. Ein Schätzer ist immer dann kon-
sistent, wenn dessen Varianz für große n gegen 0 geht.
„• Effizienz. Die Varianz des Schätzers sollte möglichst gering sein.
Je geringer sie ist, desto präziser ist die Schätzung. Eine hohe Effi-
zienz bedeutet, dass auch eine kleine Stichprobe einen brauchbaren
Schätzwert liefert. Die Effizienz ist insbesondere dann wichtig,
wenn zwei verschiedene Schätzverfahren für einen Parameter zu
vergleichen sind.
• Exhaustivität. Ein Schätzer ist exhaustiv (oder erschöpfend),
„
wenn er alle Informationen, die in den Daten einer Stichprobe ent-
halten sind, berücksichtigt.
Alle diese Forderungen scheinen plausibel und wünschenswert zu
sein; wir werden jedoch sehen, dass sie nicht unbedingt bei allen be-
kannten Schätzfunktionen erfüllt sind.

9.2.3 Spezielle Schätzfunktionen


„• Erwartungswert. Wir wollen die oben genannten Kriterien zu-
nächst an dem wohl bekanntesten Beispiel überprüfen und betrach-
ten dazu den Mittelwert x einer Stichprobe, der den Erwartungs-
wert µ der Grundgesamtheit schätzt. Wir wissen aus Abschnitt
8.3.2, dass gilt:

σ2
E ( X ) = µ und Var ( X ) = → 0
n n →∞
Demnach ist diese Schätzung erwartungstreu und konsistent. Die
Konsistenz ergibt sich auch aus dem Gesetz der großen Zahlen.
„• Median. Etwas komplizierter liegen die Dinge beim empirischen
Median. Man kann zeigen: Falls die Verteilung stetig und symmet-
~ ~ . In diesem Fall
risch ist, ist X ein erwartungstreuer Schätzer für µ
~
~ aber µ = µ ; deshalb ist etwa bei Normalverteilungen der Median
ist
X ein erwartungstreuer Schätzer für den Erwartungswert µ . Für
die Varianz des Medians gilt (dies sei ohne Beweis angeführt):

~ π σ2
Var( X ) = ⋅ → 0 (9.2)
2 n n →∞
~
Somit ist X auch
~ eine konsistente Schätzung. Allerdings ist die
Varianz von X größer als die Varianz von X ; deshalb ist der
176 Kapitel 9 · Schätzverfahren

Mittelwert der effizientere Schätzer für µ . Der Median ist (im Ge-
gensatz zum Mittelwert) nicht erschöpfend, weil nicht alle Stichpro-
benwerte in dessen Berechnung einfließen. Der Mittelwert hat also
im Vergleich zum empirischen Median die günstigeren Schätzei-
genschaften.
„• Varianz. Die daraus berechnete Standardabweichung ist bei quan-
titativen Merkmalen das am häufigsten benutzte Streuungsmaß. Die
Varianz wird bekanntlich nach folgender Vorschrift geschätzt:
n
¦ ( X i − X )2
S2 = i =1
(9.3)
n −1
Es lässt sich nachweisen, dass gilt:

E (S 2 ) = σ 2 (9.4)

2σ 4
Var( S 2 ) = → 0 (9.5)
n − 1 n →∞
Demnach ist diese Schätzung erwartungstreu und konsistent. Die
9 Schätzung der Standardabweichung σ durch S ist zwar konsistent,
aber merkwürdigerweise nicht erwartungstreu.
„• Wahrscheinlichkeit. Die Wahrscheinlichkeit p wird über eine
relative Häufigkeit geschätzt. Deren Erwartungswert ist p :
n n
1 np
E (¦ X i / n) = E (¦ X i ) = =p (9.6)
i =1 n i =1 n
wobei Xi ~ B (1, p) . Die Schätzung ist also erwartungstreu. Die Konsi-
stenz ergibt sich aus dem Gesetz der großen Zahlen.
• Parameter der bivariaten Statistik. Man kann nachweisen, dass
„
die Schätzung der Kovarianz erwartungstreu und konsistent ist,
ebenso die Schätzung der Parameter der Regressionsgeraden. Die
Schätzfunktion für den Pearson’schen Korrelationskoeffizient nach
Formel (5.2) ist dagegen nicht erwartungstreu, wohl aber konsistent.
177 9
9.3 Intervallschätzungen

Mathematische Herleitung der Eigenschaften der empirischen Varianz


Für den Erwartungswert gilt:
§ n · § n ·
E ¨ ¦ ( X i − X )2 ¸ E ¨ ¦ ( X i − µ)2 − n( X − µ)2 ¸
E(S 2 ) = © i =1 ¹ = © i =1 ¹
n −1 n −1
Da nach der Definition der Varianz (Formel (7.7)) gilt:
n
E ( X i − µ) 2 = Var ( X i ) = σ 2 , folgt: E ( ¦ ( X i − µ)2 ) = n ⋅ σ2 .
i =1

2 2
Außerdem ist E ( X − µ) = Var ( X ) = σ / n .
Wenn man dies in die erste Gleichung einsetzt, erhält man:
nσ 2 − σ 2
E (S 2 ) = = σ 2 (Formel (9.4)).
n −1
Dies ist die formale Rechtfertigung dafür, dass bei der empirischen Varianz
(n − 1) S 2
durch (n − 1) dividiert wird. Nach (8.46) ist die Größe χ 2 -verteilt
σ2
mit der Varianz 2(n − 1) . Daraus leitet man mit (7.9) her:
2(n − 1) ⋅ σ 4 2σ 4
Var( S 2 ) = 2
= (Formel (9.5)).
(n − 1) n −1
Wenn man in (7.7) die Variable X durch S und µ durch ES ersetzt, erhält man:
Var( S ) = E( S 2 ) − ( ES ) 2 = σ 2 − ( ES ) 2 . Daraus folgt: ( ES ) 2 = σ 2 − Var( S ) und
damit ES < σ . Die empirische Standardabweichung s schätzt also σ systema-
tisch zu gering.

9.3 Intervallschätzungen

9.3.1 Die Bedeutung eines Konfidenzintervalls


Wir wissen, dass die gängigen Schätzverfahren günstige Eigenschaf-
ten haben und wenden sie an in der Hoffnung, einen brauchbaren
Schätzwert zu erhalten. Dennoch sind diese Punktschätzungen in
gewisser Weise unbefriedigend – ein einzelner Schätzwert enthält
nämlich keine Information darüber, wie sehr er vom „wahren“
Parameter der Grundgesamtheit abweicht. Prinzipiell kann man
darüber auch keine exakten Angaben treffen, da der gesuchte Para-
meter letztlich unbekannt ist. Wir dürfen jedoch bei einem geeig-
neten Schätzverfahren vermuten, dass er sich in der näheren Umge-
178 Kapitel 9 · Schätzverfahren

bung des Schätzwertes befindet. Es geht in diesem Abschnitt darum,


diesen unscharfen Ausdruck „nähere Umgebung“ zu präzisieren.
In Beispiel 4.1 wurde anhand der Daten von 23 männlichen
Medizinstudenten eine mittlere Körpergröße von xm = 181,22 cm
berechnet. Wenn wir diese Gruppe auffassen als eine Stichprobe,
dann handelt es sich bei diesem Mittelwert um eine Schätzung für
den Erwartungswert der Grundgesamtheit. Wir wissen, dass dieser
Mittelwert zufallsbedingt ist – eine andere Stichprobe des Umfangs
n = 23 würde andere Daten und einen anderen Mittelwert liefern.
Die konkrete Frage, die sich nun stellt, lautet: Welcher Erwar-
tungswert Nj könnte dem besagten Mittelwert zugrunde liegen? Es
erscheint durchaus möglich, dass er aus einer Grundgesamtheit mit
µ = 180 cm oder mit µ = 183 cm resultiert. Wir glauben jedoch
nicht, dass der wahre Parameter µ = 170 cm beträgt – obwohl auch
diese Möglichkeit nicht ganz ausgeschlossen werden kann.
Um Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu
gewinnen, konstruiert man aus den Daten der Stichprobe ein so ge-
nanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei
diesem Verfahren ein Intervall zu erhalten, das den gesuchten Para-
meter überdeckt. Es ist allerdings möglich, dass die Daten der Stich-
probe ein Konfidenzintervall erzeugen, das „daneben liegt“ und das
den gesuchten Parameter nicht enthält. Diese Irrtumswahrschein-
9 lichkeit wird vor der Bestimmung des Konfidenzintervalls festgelegt.
Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in be-
sonderen Fällen auch 1% oder 0,1%. Generell gibt es bei der Kon-
struktion eines Konfidenzintervalls zwei Möglichkeiten:
ŷ Mit der Wahrscheinlichkeit 1 − α erhält man ein Intervall, das
den unbekannten Parameter enthält. Der Wert 1 − α wird als
Konfidenzwahrscheinlichkeit (oder Konfidenzniveau) bezeichnet.
Für die Irrtumswahrscheinlichkeit α = 5% beträgt die Konfi-
denzwahrscheinlichkeit 1 − α = 95% .
ŷ Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den
unbekannten Parameter nicht enthält.
Das Konfidenzintervall selbst liefert leider keinen Anhaltspunkt da-
für, welche dieser beiden Möglichkeiten eingetreten ist. Es ist des-
halb immer notwendig, die Irrtumswahrscheinlichkeit α mit anzu-
geben. In den folgenden Abschnitten wird anhand mehrerer Bei-
spiele das Konstruktionsprinzip eines Konfidenzintervalls erläutert.
179 9
9.3 Intervallschätzungen

9.3.2 Konfidenzintervalle für einen Erwartungswert


Der Erwartungswert ist bei quantitativen Daten in der Regel der Pa-
rameter des wesentlichen Interesses. Er wird über den Mittelwert x
geschätzt. Ein Konfidenzintervall auf dem Niveau 1 − α = 95% ist ge-
geben durch:

ª 1,96 ⋅ σ 1,96 ⋅ σ º
«x − ;x + » (9.7)
¬ n n ¼
Die Wahrscheinlichkeit, dass ein Erwartungswert, der kleiner als die
linke oder größer als die rechte Intervallgrenze ist, zu x geführt hat,
beträgt jeweils 2,5% – also insgesamt α = 5% .
! Die plausibel klingende Aussage „Der Erwartungswert µ liegt mit einer
z
Wahrscheinlichkeit von 95 % innerhalb des Konfidenzintervalls“ ist ir-
reführend. Der Erwartungswert ist zwar unbekannt – er ist jedoch eine
feste Größe und nicht vom Zufall abhängig. Dagegen ist das Konfidenzin-
tervall abhängig von der Stichprobe und deshalb vom Zufall mitbe-
stimmt. Eine korrekte Formulierung lautet: „Man erhält mit einer
Wahrscheinlichkeit von 95 % ein Konfidenzintervall, das den unbe-
kannten Erwartungswert µ überdeckt“.

Bei einer Irrtumswahrscheinlichkeit von α = 1% ist der Wert 1,96


in (9.7) durch 2,58 zu ersetzen. Theoretisch ist natürlich jede belie-
bige Irrtumswahrscheinlichkeit denkbar; die Quantile der Standard-
normalverteilung sind dementsprechend anzugleichen (z › Tabelle A
im Anhang). Wegen der Symmetrie dieser Verteilung unterscheiden
sich die Quantile, die die beiden Intervallgrenzen bestimmen, nur
bezüglich ihres Vorzeichens. Allgemein ist ein zweiseitiges Konfi-
denzintervall auf dem (1 − α) -Niveau definiert durch die Intervall-
mitte x und die Grenzen:

ª σ σ º
« x − z1−α / 2 ⋅ ; x + z1− α / 2 ⋅ » (9.8)
¬ n n¼

Dabei bezeichnet der Index 1 − α / 2 das jeweilige Quantil der Stan-


dardnormalverteilung. Für α = 5% erhält man z1−α / 2 = z0,975 = 1,96 .
180 Kapitel 9 · Schätzverfahren

Mathematische Betrachtung des Konfidenzintervalls


für den Erwartungswert
Dessen Bestimmung liegt der zentrale Grenzwertsatz zugrunde. Demnach
sind alle theoretisch denkbaren Mittelwerte aus Stichproben des Umfangs n
normalverteilt (zumindest für n ≥ 25 ) mit dem Erwartungswert µ und der
Standardabweichung σ / n . Deshalb gilt:
X −µ
P (−1,96 ≤ ≤ 1,96) = 0,95
σ/ n
Die Zahlenwerte sind die Grenzen, die den 95%-Referenzbereich der Stan-
dardnormalverteilung angeben (Tabelle 8.1). Durch Umformen dieser Unglei-
chung ergibt sich:
1,96 ⋅ σ 1,96 ⋅ σ
P(− ≤ X −µ ≤ ) = 0,95
n n
Das bedeutet, dass der Abstand zwischen dem Mittelwert und dem Erwar-
tungswert betragsmäßig mit 95%-iger Wahrscheinlichkeit unterhalb von
1,96 ⋅ σ / n liegt. Damit ergibt sich ein Konfidenzintervall nach (9.7).

Bei diesen Formeln wurde stillschweigend vorausgesetzt, dass die


Standardabweichung σ der Grundgesamtheit bekannt ist. Dies ist
aber bei praktischen Untersuchungen fast niemals der Fall. Man
9 könnte notgedrungen das σ durch die empirische Standardabwei-
chung s ersetzen. Dies würde aber insbesondere bei kleinen Stich-
proben – die in den Biowissenschaften eher die Regel als die Aus-
nahme sind – zu einer weiteren Ungenauigkeit der Schätzung füh-
ren. Vor diesem Problem stand Sealy Gosset, als er zu Beginn des 20.
Jahrhunderts Mittelwerte für Bieringredenzien schätzen wollte und
dabei nur auf kleine Stichproben zurückgreifen konnte. Dies war die
Ausgangssituation für die Entwicklung der t-Verteilung. Wenn die
Zufallsvariable X normalverteilt ist, lassen sich die Quantile der
Standardnormalverteilung in (9.8) ersetzen durch die entsprechen-
den t-Werte, und man erhält folgendes Konfidenzintervall:

ª tn −1;1−α / 2 ⋅ s t ⋅sº
«x − ; x + n −1;1−α / 2 » (9.9)
¬ n n ¼
i Der Ausdruck t n −1;1− α / 2 ist für Anfänger gewöhnungsbedürftig. Die bei-
z
den Angaben im Index sind notwendig, um den speziellen t-Wert exakt
zu kennzeichnen. Der Index f = n − 1 bezeichnet die Anzahl der
Freiheitsgrade der jeweiligen t-Verteilung (es gibt nämlich für jedes f
eine spezielle t-Verteilung), 1 − α / 2 gibt das Quantil an.
181 9
9.3 Intervallschätzungen

Ohne eine geeignete Software, die Konfidenzintervalle berechnet,


müssen die Quantile tn −1;1−α / 2 in Tabellen nachgeschlagen werden
(z› Tabelle B im Anhang). Der Faktor s / n in Formel (9.9) ist eine
Schätzung für den Standardfehler des Mittelwerts σ / n . Theoretisch
sind auch einseitige Konfidenzintervalle konstruierbar, die an einer
Seite offen sind:
tn −1;1−α ⋅ s tn −1;1−α ⋅ s
( −∞; x + ] oder [ x − ;+∞) (9.10)
n n
Auf ein besonderes Problem sei an dieser Stelle hingewiesen: Bisher
wurde vorausgesetzt, dass die Grundgesamtheit unendlich groß ist.
Wird nun eine Stichprobe des Umfangs n aus einer endlichen
Grundgesamtheit des Umfangs N gezogen, muss der Standardfehler
korrigiert werden. Diese Endlichkeitskorrektur ergibt sich aus der
Varianz der hypergeometrischen Verteilung (z › Abschnitt 7.3.4). Die
Grenzen des Konfidenzintervalls bei einer endlichen Grundgesamt-
heit sind demnach:

N −n
x ± tn −1;1−α / 2 ⋅ s ⋅ (9.11)
n ⋅ ( N − 1)

Bei großen Grundgesamtheiten mit N / n ≥ 100 nimmt die Endlich-


keitskorrektur einen Wert nahe bei 1 an und kann deshalb vernach-
lässigt werden.

Beispiel 9.1
Körpergrößen männlicher Studenten (n = 23):
Aus xm ± sm = (181,22 ± 7,12)cm ergibt sich für die Konfidenzintervalle:
[178,14 cm ; 184,29 cm] ( α = 0,05 ) mit t22;0,975 = 2,074
[177,04 cm ; 185,40 cm] ( α = 0,01 ) mit t22;0,995 = 2,819
Körpergrößen weiblicher Studenten (n = 48):
Aus xw ± sw = (169,06 ± 6,60)cm berechnet man:
[167,15 cm ; 170,98 cm] ( α = 0,05 ) mit t47;0,975 = 2,012
[166,51 cm ; 171,62 cm] ( α = 0,01 ) mit t47;0,995 = 2,685
Man erkennt:
ŷ Die Konfidenzintervalle der Frauen sind schmaler als die der Männer.
Das liegt zum einen am höheren Stichprobenumfang, zum anderen an der
geringeren Streuung der Daten.
ŷ Die 95%-Intervalle sind schmaler als die 99%-Intervalle. Das liegt an den
t-Quantilen, die für α = 0,05 kleiner sind als für α = 0,01 .
182 Kapitel 9 · Schätzverfahren

9.3.3 Konfidenzintervall für eine Wahrscheinlichkeit


Als Punktschätzer für eine Wahrscheinlichkeit p dient bekanntlich
eine relative Häufigkeit:

X
pˆ = (9.12)
n
Dabei bezeichnet X die Häufigkeit des Ereignisses A bei n Zufallsex-
perimenten. Die Grenzen eines Konfidenzintervalls für die unbe-
kannte Wahrscheinlichkeit p lassen sich angeben als:

§ 1 pˆ (1 − pˆ ) ·¸
pˆ ± ¨ +z ⋅ (9.13)
¨ 2n 1−α / 2 n ¸
© ¹
Dabei wird vorausgesetzt, dass npˆ > 5 und n(1 − pˆ ) > 5 . Das bedeu-
tet: Der Stichprobenumfang darf nicht zu klein und die relativen
Häufigkeiten sollten nicht zu extrem sein. Das in (9.13) definierte
Intervall ist vergleichbar mit dem Konfidenzintervall für den Er-
wartungswert nach (9.8): p̂ entspricht dem Mittelwert, die Wurzel
dem Standardfehler der Schätzung. Bei endlichen Grundgesamthei-
ten ist auch hier der Standardfehler mit dem Faktor ( N − n) /( N − 1)
9 zu multiplizieren. Der Faktor 1 / 2n in (9.13) ist die so genannte Ste-
tigkeitskorrektur.

Mathematische Betrachtung des Konfidenzintervalls für p


Dieses Konfidenzintervall basiert auf dem zentralen Grenzwertsatz. Für
npq ≥ 9 ist die binomialverteilte Variable X normalverteilt mit µ = np und
› Binomialverteilung,, Abschnitt 7.2.2). Also gilt:
σ 2 = np(1 − p) (z
X − np
P( − z1− α / 2 ≤ ≤ z1− α / 2 ) = 1 − α
np(1 − p )
Durch Umformen ergibt sich dann das Konfidenzintervall:
p(1 − p)
pˆ ± z1− α / 2 ⋅
n
Das unbekannte p unter der Wurzel wird durch den Schätzwert p̂ ersetzt.
Um das Intervall auch für kleinere Stichprobenumfänge konstruieren zu kön-
nen, wird die Stetigkeitskorrektur 1 / 2n hinzugefügt (wodurch das Intervall
um insgesamt den Faktor 1 / n verbreitert wird). Dadurch wird versucht, den
Fehler auszugleichen, der beim Übergang von den relativen Häufigkeiten p̂
(diskrete Variable) zur Standardnormalverteilung entsteht.
183 9
9.3 Intervallschätzungen

Beispiel 9.2
Der Anteil weiblicher Studenten wird anhand der Daten von Tabelle 2.1 mit
pˆ = 48 / 71 = 0,676 geschätzt. Kann man davon ausgehen, dass mehr als die
Hälfte der Medizinstudenten weiblich sind – oder ist der höhere Anteil nur
zufällig bedingt? Für dass 95%-Konfidenzintervalls erhalten wir nach (9.13):
48 §¨ 1 48 / 71 ⋅ 23 / 71 ·¸
± + 1,96 ⋅ . Das Intervall ist also: [0,560 ; 0,792] .
¨
71 © 142 71 ¸
¹
Aufgrund dieser Schätzung dürfen wir mit größerem Vertrauen annehmen,
dass der Anteil der Frauen tatsächlich mehr als 50% beträgt. Worauf ist dies
zurückzuführen? Darüber schweigt sich das Konfidenzintervall aus.

9.3.4 Konfidenzintervalle für Zusammenhangsmaße


Die Berechnung eines Konfidenzintervalls für den Korrelationskoef-
fizienten nach Pearson wird hier nicht im Detail beschrieben (zumal
diese Berechnungen normalerweise nicht manuell durchgeführt
werden). Der Anwender muss lediglich wissen, dass X und Y bivariat
(also 2-dimensional) normalverteilte Zufallsvariable sein sollten. Die
Berechnung eines solchen Intervalls ist auch für den Korrelationsko-
effizienten nach Spearman bei einem Stichprobenumfang
n ≥ 10 möglich.
Beispiel 9.3
Für den Zusammenhang zwischen Körpergröße und Gewicht weiblicher Stu-
denten ermittelten wir r = 0,607 ( n = 47 , z › Beispiel 5.2). Mit einer Statistik-
software lässt sich folgendes 95%-Konfidenzintervall bestimmen: (0,412 ;
0,803). Was besagt dieses? Da beide Intervallgrenzen deutlich größer als 0
sind, können wir einigermaßen sicher sein, dass ein gleichsinniger Zusam-
menhang existiert. Allerdings wissen wir nicht, ob dieser schwach oder eher
stark ist. Für die männlichen Studenten gilt r = 0,570 ( n = 23 ); das Konfi-
denzintervall ist (0,313 ; 0,827). Dieses ist breiter, weil der Stichprobenumfang
geringer und damit die Schätzung ungenauer ist.

Auch für die Steigung der Regressionsgeraden können Konfidenz-


intervalle berechnet werden. Spezielle Voraussetzungen gelten bei
der Regression 1. Art, bei der die Ausprägungen der x-Variablen
nach Belieben festgelegt werden, sodass zu jedem x j mehrere Werte
yij existieren:
ŷ Die Residuen yij − y j müssen normalverteilt sein mit dem Er-
wartungswert 0 ( y j sei der Mittelwert der yij ).
184 Kapitel 9 · Schätzverfahren

ŷ Die Varianzen der zu den einzelnen x j -Werten gehörenden yij


sollten gleich sein (diese Eigenschaft bezeichnet man als
Homoskedastizität).
Es erscheint zumindest bei hohen Stichprobenumfängen sinnvoll, in
einem Koordinatensystem die Residuen gegen die Werte des x-
Merkmals aufzutragen. Wenn bei dieser Darstellung Muster erkenn-
bar sind, ist dies ein Hinweis darauf, dass die oben genannten Vor-
aussetzungen nicht erfüllt sind. Falls sie erfüllt sind, lässt sich mit
einer leistungsfähigen Software für einen fest vorgegebenen x-Wert
ein 95%-Vorhersageintervall (Prognoseintervall) für den dazugehö-
renden y-Wert angeben. Außerdem lassen sich Konfidenzintervalle
für die Mittelwerte y j berechnen.

9.4 Abschließende Bemerkungen

9.4.1 Die Bedeutung des Stichprobenumfangs


Die Präzision einer Schätzung wird ausgedrückt durch die Breite des
Konfidenzintervalls. Je schmaler dieses Intervall ist, desto genauer ist
die Schätzung. Ein sehr breites Konfidenzintervall ist dagegen für
9 praktische Zwecke unbrauchbar. So beträgt die Breite des nach (9.9)
berechneten zweiseitigen Konfidenzintervalls für den Erwartungs-
wert:

2 ⋅ tn −1;1−α / 2 ⋅ s
BK = (9.14)
n
Generell sind also drei Faktoren für die Präzision der Schätzung von
Bedeutung (z › Beispiel 9.1):

ŷ Die Irrtumswahrscheinlichkeit α . Für α = 5% ergibt sich ein


schmaleres Intervall als für α = 1% . Ein schmales Intervall lässt
sich also erreichen durch eine höhere Irrtumswahrscheinlichkeit
und damit zu Lasten der Sicherheit.
ŷ Die Standardabweichung s. Je homogener die Grundgesamtheit,
desto kleiner sind die Standardabweichung und die Breite des
Konfidenzintervalls.
ŷ Der Stichprobenumfang n . Die Schätzung ist umso präziser, je
höher der Stichprobenumfang ist.
185 9
9.4 Abschließende Bemerkungen

Der Anwender hat also die Möglichkeit, über die Irrtumswahr-


scheinlichkeit und den Stichprobenumfang die Breite eines Konfi-
denzintervalls zu beeinflussen. Aus (9.14) geht hervor, dass bei vor-
gegebener Breite der Mindeststichprobenumfang berechnet werden
kann – allerdings nur theoretisch. In der Praxis ist die Standardab-
weichung σ nicht bekannt; der empirische Schätzwert s ergibt sich
erst, nachdem die Daten der Stichprobe vorliegen. Außerdem kann
der t-Wert (der von n abhängig ist) nicht explizit angegeben wer-
den, sondern allenfalls grob geschätzt werden (er beträgt für α = 5%
und n ≥ 10 ungefähr 2). Aus (9.14) ist außerdem ersichtlich, dass bei
gleicher Standardabweichung der vierfache Stichprobenumfang er-
forderlich ist, um die Breite des Intervalls zu halbieren (da der Stich-
probenumfang nur mit n in den Nenner der Formel (9.14) ein-
geht).
Schließlich sei noch die Breite des Konfidenzintervalls für die
Wahrscheinlichkeit p angegeben. Aus (9.13) ergibt sich:

pˆ (1 − pˆ ) 1
BK = 2 ⋅ z1− α / 2 ⋅ + (9.15)
n n
Auch diese Breite wird durch die Irrtumswahrscheinlichkeit und
den Stichprobenumfang bestimmt. Um einen Mindestumfang festle-
gen zu können, ist zumindest eine grobe Abschätzung der Wahr-
scheinlichkeit p erforderlich.
Beispiel 9.4
Von 71 Studenten haben 60 (das sind ungefähr 85 %) Rhesusfaktor „positiv“.
Daraus berechnet sich nach (9.13) das Konfidenzintervall (mit α = 0,05 ):
60 §¨ 1 60 / 71 ⋅11 / 71 ·¸
± + 1,96 ⋅ = [0,75;0,94]
¨
71 © 142 71 ¸
¹
Wenn man nun den 4-fachen Stichprobenumfang zugrunde legen würde (also
n = 284) und annehmen würde, dass 240 Personen „Rhesusfaktor positiv“ ha-
ben, erhielte man denselben Schätzwert pˆ = 240 / 284 ≈ 85% . Das Konfidenz-
intervall wäre jedoch schmaler und die Schätzung wäre präziser:
240 §¨ 1 240 / 284 ⋅ 44 / 284 ·¸
± + 1,96 ⋅ = [0,80;0,89]
¨
284 © 568 284 ¸
¹

Analoge Überlegungen gelten für andere Parameter: In jedem Fall


sind die Breite des Konfidenzintervalls und die Genauigkeit der
Schätzung abhängig vom Stichprobenumfang n und von der Irrtums-
wahrscheinlichkeit Į.
186 Kapitel 9 · Schätzverfahren

9.4.2 Zu den Voraussetzungen


Die Beispiele in diesem Kapitel machen deutlich, dass die Angabe
eines Konfidenzintervalls eine wesentlich bessere Beurteilung des
Schätzwertes erlaubt als eine einfache Punktschätzung. Während
aber ein Punktschätzer auf einfache Weise aus den Daten der Stich-
probe zu berechnen ist, kann die Bestimmung eines Konfidenzinter-
valls äußerst kompliziert sein. Sie setzt nämlich voraus, dass die Ver-
teilung der Stichproben-Kenngrößen bekannt ist. So wird beispiels-
weise bei der Berechnung eines Konfidenzintervalls für den Erwar-
tungswert zugrunde gelegt, dass die Zufallsvariable X normalver-
teilt ist. Falls die Verteilung der Kenngröße nicht explizit bekannt ist
(z. B. bei der Schiefe oder Wölbung), kann man Monte-Carlo-Studien
einsetzen. Dabei werden aus einer bekannten Grundgesamtheit
zahlreiche Zufallsstichproben des Umfangs n gezogen und jeweils die
interessierende Kenngröße berechnet. Aus all diesen Werten wird
dann deren Verteilung simuliert. Mit der Monte-Carlo-Methode
lässt sich auch überprüfen, ob und inwieweit Verletzungen der Vor-
aussetzungen tolerierbar sind. So kann man beispielsweise zeigen,
dass die t-Verteilung einigermaßen robust ist gegenüber Abwei-
chungen von der Normalverteilung.
Es ist für den Anwender nicht notwendig, die mathematischen
9 Hintergründe genau zu kennen, zumal die Intervalle in der Regel
von einer Statistiksoftware ermittelt werden. Er sollte allerdings in
der Lage sein, ein Konfidenzintervall sinnvoll zu interpretieren.
Häufig werden die Bedingungen zur Konstruktion eines Konfi-
denzintervalls nicht überprüft, sondern stillschweigend als erfüllt
vorausgesetzt – sei es aus Bequemlichkeit oder Nichtwissen oder
schlicht aus Not, weil keine anderen Schätzverfahren zur Verfügung
stehen. Nun bedeutet dieses laxe Vorgehen nicht unbedingt, dass die
Schätzung insgesamt unbrauchbar ist – es kommt eben darauf an,
wie das Schätzverfahren auf eine Verletzung der Voraussetzungen
reagiert.
Die Verfahren der induktiven Statistik sind insgesamt wesent-
lich komplexer als die Methoden der deskriptiven Statistik. Eine ge-
eignete Software ist hierbei ein sinnvolles Mittel, ohne das manche
Rechnungen gar nicht oder nur mit größter Mühe zu bewältigen
wären. Es darf jedoch keineswegs dazu führen, dass man allzu sorg-
los die Voraussetzungen eines Verfahrens ignoriert. Man sollte in je-
dem Fall darauf achten, dass sie nicht in extremer Weise verletzt
sind und die Ergebnisse mit der gebotenen Vorsicht interpretieren.
10

Das Prinzip eines statistischen


Tests
10.1 Die Durchführung eines Tests 189
10.1.1 Die Funktion eines statistischen Tests 189
10.1.2 Das Formulieren der Hypothesen 190
10.1.3 Fehlerarten 192
10.1.4 Der Stichprobenumfang 194

10.2 Testentscheidung und Konsequenzen 195


10.2.1 Die Basis der Testentscheidung 195
10.2.2 p-Wert und Konfidenzintervall 197
10.2.3 Die Interpretation eines signifikanten Ergebnisses 199
10.2.4 Die Interpretation eines nicht-signifikanten
Ergebnisses 199
10.2.5 Die Manipulation des Testergebnisses 200
10.2.6 Multiples Testen 201

10.3 Klassifikation der Testmethoden 202


189 10
10.1 Die Durchführung eines Tests

10.1 Die Durchführung eines Tests

10.1.1 Die Funktion eines statistischen Tests


Der Fortschritt in einer empirischen Wissenschaft wie der Medizin
beruht im Wesentlichen auf Beobachtungen, die ein Arzt bei der
Patientenbehandlung oder im Labor macht. Möglicherweise entwi-
ckelt er dabei eine Therapie, von der er glaubt, dass sie der her-
kömmlichen Standardtherapie in irgendeiner Weise überlegen sei,
oder er gewinnt neue wissenschaftliche Erkenntnisse. Aus einer
Vielzahl von Beobachtungen gepaart mit fachlich-theoretischen
Überlegungen entsteht so eine Vermutung und – wenn diese präzise
formuliert wird – eine Hypothese.
In der Regel ist es nicht möglich, derlei Hypothesen zu bewei-
sen. Ein Forscher wird zwar meist von der Richtigkeit seiner Ver-
mutung überzeugt sein – dies allein kann jedoch kein objektives
Kriterium darstellen. Die Überprüfung einer Hypothese hat in
zweifacher Hinsicht zu erfolgen:
ŷ Zunächst sollte ein theoretischer Hintergrund erarbeitet werden,
um die Hypothese mit sachlichen Argumenten zu untermauern.
Dazu bedarf es überwiegend medizinischer Fachkenntnisse und
Erfahrungen – mit Statistik hat dies vorerst nichts zu tun.
ŷ Darüber hinaus ist es erforderlich, die Hypothese statistisch ab-
zusichern. Zu diesem Zweck müssen relevante Daten erhoben
und mit einer geeigneten Testmethode analysiert werden.
In diesem Abschnitt 10.1 wird das Prinzip eines statistischen Tests
anhand eines einfachen Beispiels erläutert, wofür der t-Test für eine
Stichprobe herangezogen wird. Wir stellen uns dazu folgende Situa-
tion vor: Aus der Fachliteratur ist bekannt, dass das mittlere Ge-
burtsgewicht gesunder Kinder nach einer unauffällig verlaufenden
Schwangerschaft 3.500 Gramm beträgt. Ein Mediziner hat die Ver-
mutung, dass Babys, deren Mütter während der Schwangerschaft
einem bestimmten Risiko ausgesetzt waren, im Durchschnitt weni-
ger wiegen. Er beschließt, das Geburtsgewicht von 20 solcher Ri-
siko-Babys in seiner Klinik zu messen und den daraus resultierenden
Mittelwert mit 3.500 Gramm zu vergleichen. Generell sind nun zwei
Möglichkeiten bezüglich der (unbekannten) Ausgangssituation
denkbar:
190 Kapitel 10 · Das Prinzip eines statistischen Tests

ŷ Es besteht kein Unterschied zwischen dem mittleren Geburtsge-


wicht der Risiko-Babys und dem aus der Literatur bekannten
Wert von 3.500 Gramm. In diesem Fall würde man bei den 20
Babys ein Durchschnittsgewicht von 3.500 Gramm erwarten.
Freilich wird man niemals einen Mittelwert von exakt 3.500
Gramm erhalten. Kleinere Abweichungen muss man tolerieren.
ŷ Es besteht ein Unterschied. Dann wiegen die Kinder durch-
schnittlich weniger (oder auch mehr) als 3.500 Gramm, wobei
der Unterschied nicht nur zufällig bedingt ist.
Diese beiden Aussagen sind komplementär: Sie ergänzen sich und
schließen sich gegenseitig aus. Genau eine davon muss also richtig
sein. Eine Entscheidung aufgrund des Testergebnisses fällt mitunter
schwer. Wenn der Arzt ein mittleres Geburtsgewicht von 3.480
Gramm ermittelt, wird er kaum schlussfolgern, dass sich das Risiko
negativ auf das Geburtsgewicht der Kinder auswirkt. Wenn er dage-
gen einen Mittelwert von weniger als 3.000 Gramm erhält, wird er
seine Vermutung bestätigt finden. Wo aber ist die Grenze? Welche
Abweichungen vom Sollwert 3.500 Gramm sind als zufällig bedingt
einzustufen – und ab welchem Punkt muss man davon ausgehen,
dass die Abweichung nicht allein durch den Zufall erklärt werden
kann?
Ein statistischer Test hilft in solchen Situationen weiter. Er
funktioniert nach folgendem Prinzip: Man stellt zwei komplemen-
täre Hypothesen auf (siehe oben), wählt einen für die Fragestellung
10 passenden Test und berechnet dann aus den Daten einer (oder meh-
rerer) Stichprobe(n) nach einem bestimmten mathematischen Algo-
rithmus eine so genannte Testgröße (oder Prüfgröße). Diese Größe
erlaubt es, eine objektive und nachvollziehbare Entscheidung zu-
gunsten von einer der beiden Hypothesen zu treffen.

10.1.2 Das Formulieren der Hypothesen


Es ist wichtig, die beiden Hypothesen vor der Durchführung des
Tests inhaltlich so präzise wie möglich zu formulieren. Erst dadurch
wird die konkrete Fragestellung klar definiert.
Diejenige Hypothese, die eine innovative Aussage beinhaltet und
Althergebrachtes in Frage stellt, bezeichnet man als Alternativhypo-
these. In unserem Beispiel lautet sie: „Das mittlere Geburtsgewicht
der 20 Risiko-Babys unterscheidet sich von 3.500 Gramm“. Die dazu
konkurrierende Aussage nennt man Nullhypothese: „Es gibt keinen
Unterschied“.
191 10
10.1 Die Durchführung eines Tests

Die inhaltlichen Aussagen werden nun in statistische Hypothesen


übersetzt. In unserem Beispiel lauten sie:

H0 : µ = 3.500 H1 : µ ≠ 3.500

Dabei symbolisiert der Buchstabe Nj den Erwartungswert, der durch


den Mittelwert der 20 Risiko-Babys geschätzt wird. Die Nullhypo-
these H 0 beinhaltet ein Gleichheitszeichen; sie ist also eindeutig
formuliert. Die Alternativhypothese, die üblicherweise mit H1 (oder
mit H A ) bezeichnet wird, ist dagegen sehr allgemein gehalten: Sie
vereinigt in sich alle Hypothesen mit Ausnahme der Nullhypothese.
Diese Art von Hypothesen, bei denen nichts über die Richtung
eines Unterschieds ausgesagt wird, nennt man zweiseitig (oder unge-
richtet). Wenn aufgrund inhaltlicher Überlegungen oder Erfahrun-
gen bereits Kenntnisse über die Richtung eines möglichen Unter-
schiedes vorliegen, ist es eventuell sinnvoll, einseitige (oder gerich-
tete) Hypothesen zu formulieren. Wenn der Arzt berechtigten
Grund zur Annahme hat, dass die Babys auf keinen Fall mehr, son-
dern weniger wiegen als 3.500 Gramm, und dies statistisch absichern
möchte, wird er folgende Hypothesen aufstellen:
H0 : µ = 3.500 H1 : µ < 3.500

Eine Testentscheidung lässt nur diese beiden Alternativen zu. Die


Möglichkeit µ > 3.500 wird bei dieser Fragestellung gar nicht in Be-
tracht gezogen.
! Oft wird die Nullhypothese bei einseitiger Fragestellung komplementär
z
zur Alternativhypothese formuliert (also in unserem Beispiel: µ ≥ 3.500 ).
Welche Formulierung das inhaltliche Problem besser beschreibt, bleibt
dem Anwender überlassen. Für die Durchführung des Tests ist dies irre-
levant: Die Berechnung der Prüfgröße und die Testentscheidung basieren
in jedem Fall auf einer eindeutig formulierten Nullhypothese.

Ob eine Fragestellung ein- oder zweiseitig formuliert wird, hat der


Versuchsleiter vor der Durchführung des Tests festzulegen. Diese
Entscheidung ist aufgrund von spezifisch-fachlichen Überlegungen
zu treffen. Sie ist u. a. abhängig von den Konsequenzen einer Fehl-
entscheidung (z › nächster Abschnitt). Falls der Versuchsleiter nicht
sicher ist, ob die Voraussetzungen für eine einseitige Fragestellung
vorliegen, ist es zweckmäßig, die zweiseitige zu wählen.
192 Kapitel 10 · Das Prinzip eines statistischen Tests

10.1.3 Fehlerarten
Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum
wird aus den Stichprobenwerten ermittelt. Es ist nicht ausgeschlos-
sen, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung
führt.
Wenn in Wirklichkeit die Nullhypothese richtig ist und man
sich fälschlicherweise für die Alternativhypothese entscheidet, liegt
ein α-Fehler (oder Fehler 1. Art) vor. Auch dann, wenn sich die Ri-
siko-Babys bezüglich ihres Geburtsgewichts von den anderen nicht
unterscheiden würden (wenn also die Nullhypothese zuträfe),
könnten allein aufgrund des Zufalls nur leichtgewichtige Babys in
die Stichprobe gelangen, deren durchschnittliches Gewicht weit
unter 3.500 Gramm läge. Der Arzt würde dann annehmen, dass diese
Kinder weniger wiegen und sich irrtümlicherweise für die Alterna-
tivhypothese entscheiden. Damit würde er einen α-Fehler begehen
(freilich ohne dies zunächst zu merken).
Ein α-Fehler ist nicht generell vermeidbar – aber er ist kontrol-
lierbar. Dieser Fehler kann nämlich nur bei Gültigkeit der Nullhy-
pothese auftreten, und diese ist eindeutig formuliert. Deshalb ist es
möglich, die Wahrscheinlichkeitsverteilung der Prüfgröße explizit
anzugeben. Es ist bekannt, dass unter H 0 die Zufallsvariable

X − µ0
T=
S/ n
10
› Abschnitt 8.5.1). Nach dieser Vorschrift berechnet
t-verteilt ist (z
man aus den Daten der Stichprobe die Prüfgröße t:

x − µ0
t= (10.1)
s/ n
Diese Prüfgröße kann Werte zwischen −∞ und +∞ annehmen.
Unter der Nullhypothese betragen die entsprechenden Wahrschein-
lichkeiten (mit α = 5% ):
Entscheidung Wahrscheinlich-
Bereich der Prüfgröße t
für keit
t < tn −1;α / 2 < 0 kritischer Bereich H1 α / 2 = 2,5%
tn −1;α / 2 ≤ t ≤ tn −1;1− α / 2 Annahmebereich H0 1 − α = 95%
t > tn −1;1− α / 2 > 0 kritischer Bereich H1 α / 2 = 2,5%
193 10
10.1 Die Durchführung eines Tests

Im kritischen Bereich hat die Prüfgröße einen Betrag t > tn −1;1− α / 2


(wegen der Symmetrie der t-Verteilung ist t n −1;α / 2 = −t n −1;1−α / 2 ).
Deshalb ist für diesen Test folgende Entscheidungsregel relevant:

ŷ Falls t ≤ t n −1;1−α / 2 , behält man die Nullhypothese bei;


ŷ falls t > t n −1;1−α / 2 , nimmt man die Alternativhypothese an.
Die Werte ± tn −1;1−α / 2 trennen den Annahme- vom kritischen Bereich
und werden deshalb als kritische Werte bezeichnet (z › Abbildung
10.1). Bei einseitiger Fragestellung
H1 : µ > µ0

wird die Nullhypothese abgelehnt, falls t > t n −1;α . Wenn man dage-
gen die Alternativhypothese formuliert als
H1 : µ < µ0 ,

muss die Prüfgröße t negativ und kleiner als t n −1;α = −t n −1;1−α sein,
damit die Alternativhypothese angenommen werden kann. Der Ab-
lehnungsbereich mit der Fläche α ist bei einseitigen Fragestellungen
nur auf einer Seite der Dichtefunktion der t-Verteilung.
Die kritischen Werte sind also abhängig von der Anzahl der
Freiheitsgrade f = n − 1 , der Irrtumswahrscheinlichkeit α und da-
von, ob man ein- oder zweiseitig testet.

Abb. 10.1
Annahme- und
Ablehungsbereich
beim t-Test
(zweiseitige
Fragestellung) 1- α
Annahmebereich
α/2 α/2

-tn –1;1– α/2 tn –1;1– α/2


194 Kapitel 10 · Das Prinzip eines statistischen Tests

Diese Vorgehensweise gewährleistet, dass – falls die Nullhypothese


richtig ist – mit einer Wahrscheinlichkeit von mindestens 95% eine
richtige Entscheidung getroffen wird. Das Risiko einer Fehlentschei-
dung (also der α-Fehler) beträgt demnach maximal 5%.
Theoretisch kann der Anwender eines statistischen Tests die
maximale Größe des α-Fehlers nach Belieben festlegen. Um jedoch
eine Vergleichbarkeit statistisch abgesicherter Entscheidungen zu
ermöglichen, hat sich in den Biowissenschaften ein Schwellenwert
von 5 % eingebürgert. Diesen Wert bezeichnet man als das α-Niveau
oder Signifikanzniveau. Bei besonderen Fragestellungen wählt man
auch α = 1% oder α = 0,1% , hin und wieder auch α = 10% . Die
maximale Größe des α-Fehlers sollte vor der Durchführung des Tests
festgelegt werden. Daraus ergeben sich dann der Annahmebereich
für die Nullhypothese sowie der kritische Bereich (oder Ablehnungs-
bereich für die Nullhypothese). Wenn die Prüfgröße in den Annah-
mebereich fällt, entscheidet man sich für die Nullhypothese, an-
sonsten für die Alternativhypothese.
Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alter-
nativhypothese richtig ist und man fälschlicherweise die Nullhypo-
these beibehält. In diesem Fall begeht man einen β-Fehler oder Feh-
ler 2. Art. Dieser lässt sich im Gegensatz zum α-Fehler kaum ab-
schätzen, da die Alternativhypothese nicht explizit vorgegeben ist.
Generell gilt: Je mehr sich der unbekannte Erwartungswert Nj und
der Sollwert µ 0 unterscheiden, desto eher lässt sich die Alternativ-
10 hypothese absichern und desto kleiner ist der β-Fehler.
Man kann den β-Fehler durch die Wahl des α-Fehlers beeinflus-
sen. Je größer der Wert für α angenommen wird, umso größer ist
der kritische Bereich und umso kleiner ist β. Ein kleiner α-Fehler
bedeutet also einerseits, dass man seltener eine richtige Nullhypo-
these ablehnt. Andererseits geht man ein höheres Risiko ein, die
Nullhypothese auch dann beizubehalten, wenn in Wirklichkeit die
Alternativhypothese richtig ist.

10.1.4 Der Stichprobenumfang


Dem Stichprobenumfang ist besondere Beachtung beizumessen, da
er das Testergebnis massiv beeinflusst. Je kleiner der Stichproben-
umfang ist, desto eher wird die Nullhypothese beibehalten. Ande-
rerseits gibt ein extrem großer Stichprobenumfang der Nullhypo-
these keine Chance. Daraus folgt: Jede Alternativhypothese (die auch
nur minimal von der Nullhypothese abweicht) lässt sich statistisch
absichern, wenn nur der Stichprobenumfang hinreichend groß ist.
195 10
10.2 Testentscheidung und Konsequenzen

Demnach könnte man meinen, dass die Testentscheidung bedeu-


tungslos ist. Sie ist es jedoch nicht, wenn der Anwender (der ja in
der Regel die Alternativhypothese annehmen möchte) vorab darüber
nachdenkt, wie groß der Unterschied zwischen Null- und Alterna-
tivhypothese sein sollte, damit ihm eine praktische Bedeutung zu-
kommt, und aufgrund dieser Überlegungen den Stichprobenumfang
bestimmt. Damit kann man verhindern, dass ein Test nur aufgrund
eines hohen Stichprobenumfangs kleinste Unterschiede erkennt, die
in Wirklichkeit belanglos sind.
Eine Besonderheit stellen sequenzielle Testverfahren dar, bei de-
nen der Stichprobenumfang nicht vor dem Testen als fixe Größe
festgelegt, sondern als eine Zufallsvariable aufgefasst wird. Der zu
prüfende Parameter wird nicht nur unter der Nullhypothese, son-
dern auch unter der Alternativhypothese fixiert (dazu muss der An-
wender wissen, welche Differenz zwischen Null- und Alternativ-
hypothese klinisch bedeutsam ist). Außerdem werden sowohl Į als
auch β vorab bestimmt. Man führt den Test zunächst mit einem mi-
nimalen Stichprobenumfang durch, erhöht diesen um 1 und wieder-
holt diese Prozedur so lange, bis eine Testentscheidung möglich ist.
Dieses Verfahren gewährleistet, dass der Stichprobenumfang optimal
ist (nicht zu hoch und nicht zu niedrig). Allerdings sind sequenzielle
Verfahren in der Praxis nicht immer geeignet. Näheres dazu findet
man in [5].

Merke
Der optimale Stichprobenumfang hängt von mehreren Parametern ab:
1. vom Į-Fehler (üblich ist Į = 0,05),
2. vom β-Fehler (üblich ist β = 0,20),
3. von der Art der Daten und deren Skalenniveau,
4. von der Streuung der Daten,
5. vom speziellen Test und
6. von der Größe des nachzuweisenden Effekts.

10.2 Testentscheidung und Konsequenzen

10.2.1 Die Basis der Testentscheidung


Ein statistischer Test endet mit einer Entscheidung, die aufgrund des
Testergebnisses getroffen wird. Generell gibt es zwei Möglichkeiten:
196 Kapitel 10 · Das Prinzip eines statistischen Tests

ŷ Wenn die Prüfgröße im kritischen Bereich liegt, entscheidet


man sich für die Alternativhypothese. Ein solches Ergebnis heißt
in Abhängigkeit von α schwach-signifikant ( α = 10% ), signifi-
kant ( α = 5% ), hoch-signifikant ( α = 1% ) oder höchst-signifi-
kant ( α = 0,1% ). Theoretisch kann diese Entscheidung zwar
falsch sein – nämlich dann, wenn in Wirklichkeit die Null-
hypothese richtig ist und man dennoch eine Prüfgröße im kriti-
schen Bereich erhält. Dieses Risiko wird jedoch durch den Wert
von α kontrolliert. Man formuliert die Entscheidung als: „Die
Nullhypothese wird verworfen“ oder „Die Alternativhypothese
wird angenommen“.
ŷ Wenn die Prüfgröße im Annahmebereich liegt, entscheidet man
sich für die Nullhypothese. Diese Entscheidung ist richtig, wenn
die Aussage der Nullhypothese in Wirklichkeit zutrifft. An-
sonsten ist man einem β-Fehler erlegen. Dieser Fehler ist im Ge-
gensatz zum α-Fehler nicht abschätzbar; er kann – insbesondere
bei kleinem Stichprobenumfang – sehr groß sein. Eine Prüf-
größe im Annahmebereich ist deshalb kein Beleg für die Rich-
tigkeit der Nullhypothese, sondern lediglich ein Hinweis darauf,
dass man anhand des vorhandenen Datenmaterials die Null-
hypothese nicht ablehnen kann. Man formuliert deshalb sehr
vorsichtig: „Die Nullhypothese kann auf dem Signifikanzniveau
α nicht verworfen werden“ oder „Es ergibt sich kein Wider-
spruch zur Nullhypothese“.
10 Die Wahrscheinlichkeit eines Tests, eine richtige Alternativhypo-
these als solche zu erkennen, ist 1 − β . Sie quantifiziert die so ge-
nannte Güte, Teststärke, Trennschärfe oder Macht. Auch der engli-
sche Ausdruck Power wird häufig verwendet.
! Der Versuchsleiter weiß bei Annahme der Alternativhypothese nie ganz
z
genau, ob er eine richtige Entscheidung getroffen hat, oder ob er einem
α-Fehler erlegen ist. Deshalb klingen Sätze „Mit 95%-iger Sicherheit
trifft die Alternativhypothese zu“ oder „Mit einer Wahrscheinlichkeit
von weniger als 5% ist die Alternativhypothese falsch“ plausibel. Diese
Formulierungen sind zwar weit verbreitet, aber nicht korrekt. Sie wür-
den ja implizieren, dass die vorab konkret formulierte Alternativhypo-
these meistens richtig, aber zufällig auch einmal falsch sein kann. Einer
Hypothese haftet jedoch nichts Zufälliges an – sie ist entweder richtig
oder falsch. Zufällig sind die Daten, die in die Stichprobe gelangen, damit
auch die Testgröße und die davon abhängige Entscheidung.
197 10
10.2 Testentscheidung und Konsequenzen

Tabelle 10.1 Entscheidungen bei einem statistischen Test

Wirklichkeit
Testentscheidung H 0 gilt H1 gilt
richtige Entscheidung Fehler 2. Art
für H 0
1− α ß
Fehler 1. Art richtige Entscheidung
für H1
α 1− ß
Summe 1 1

Aus diesen Ausführungen geht hervor: Die Nullhypothese ist in der


Testtheorie die Basis, von der entschieden wird. Es ist wichtig, dafür
zu sorgen, dass sie nicht leichtfertig oder grundlos abgelehnt wird.
Man ist deshalb vorsichtig und akzeptiert die Alternativhypothese
nur dann, wenn die Testgröße in den kritischen Bereich fällt – mit
anderen Worten: wenn der Wert der Testgröße mit der Nullhypo-
these nur schwer zu vereinbaren ist.

10.2.2 p-Wert und Konfidenzintervall


Vor noch nicht allzu langer Zeit war es üblich, eine Prüfgröße per
Hand oder mit einem Taschenrechner zu berechnen. Um zu beur-
teilen, ob das Ergebnis signifikant war, hatte man den berechneten
Wert mit einem kritischen Wert zu vergleichen. In fast jedem Sta-
tistiklehrbuch findet man Tabellen, in denen kritische Werte aufge-
› Anhang, Tabellen A – F). Wenn beispielsweise die
listet sind (z
Prüfgröße, die aus einem t-Test für eine Stichprobe resultiert, be-
tragsmäßig größer ist als das Quantil tn −1;0,975 , kann man davon aus-
gehen, dass das Testergebnis signifikant ist auf dem Niveau α = 0,05 .
Wenn die Prüfgröße sogar größer ist als tn −1;0,995 , ist der Unterschied
auf dem 1%-Niveau abgesichert (jeweils beim zweiseitigen Testen).
Heutzutage ist es üblich, einen statistischen Test mit Hilfe einer
geeigneten Software durchzuführen. Diese berechnet in der Regel
außer der Prüfgröße den so genannten p-Wert. Dieser Wert quantifi-
ziert die Wahrscheinlichkeit, dass das gefundene Testergebnis (oder
ein noch extremeres Ergebnis) zustande kommt, wenn in Wirklich-
keit die Nullhypothese richtig ist. Wenn p kleiner ist als das zuvor
festgelegte Signifikanzniveau Į, wird die Alternativhypothese ange-
nommen. Etwas salopp ausgedrückt ist der p-Wert die Wahrschein-
lichkeit dafür, dass das Testergebnis ein reiner Zufallsbefund ist.
Grundsätzlich ist Folgendes zu beachten:
198 Kapitel 10 · Das Prinzip eines statistischen Tests

• Der p-Wert besagt lediglich, ob ein statistisch signifikanter


„
Unterschied existiert. Er enthält jedoch keine Informationen über
die Größe dieses Unterschieds. Deshalb ist es sinnvoll, zusätzlich
zum p-Wert ein Konfidenzintervall zu berechnen.
„• Grundsätzlich sind alle Werte im Konfidenzintervall für die
Größe des Unterschieds in Betracht zu ziehen. Je schmaler dieses
Intervall ist, desto präziser ist die Schätzung und desto einfacher ist
die Interpretation des Testergebnisses. Problematisch ist es, wenn
ein kleiner Stichprobenumfang zu einem nicht-signifikanten Ergeb-
nis und einem breiten Konfidenzintervall führt. In diesem Fall kann
keine Aussage darüber getroffen werden, ob es keinen praktisch re-
levanten Unterschied gibt oder ob dieser nur nicht nachgewiesen
werden kann.
Beispiel 10.1
Ein Arzt erhält bei einer Beobachtungsstudie mit 20 Babys von Risiko-Patien-
tinnen für das Geburtsgewicht: x ± s = (3280 ± 490) Gramm. Diese Werte sind
zu vergleichen mit dem aus der Literatur bekannten Durchschnittswert von
3500 Gramm.
x − µ0 3280 − 3500
Aus den Daten resultiert nach (10.1): t = == = −2,0079 und
s/ n 490 / 20
p = 0, 0509 . Der kritische Wert ist t19;0,975 = 2, 093 (zweiseitiger Test, Tabelle
B). Auf dem α = 5% -Niveau müsste man also die Nullhypothese beibehalten.
10 Für das einseitige Testen beträgt der kritische Punkt jedoch t19;0,95 = 1, 729 ; der
p-Wert halbiert sich auf 0,0255. Dieses Ergebnis ist signifikant.
Das einseitige Konfidenzintervall für den Mittelwert ist nach Formel (9.10):
(-’; 3469). Dies zeigt zwar, dass die 20 Babys durchschnittlich weniger
wiegen als 3500 Gramm, dass aber der Unterschied möglicherweise nicht sehr
gravierend ist. Bei diesem einseitigen Intervall ist nur die obere Grenze inte-
ressant.

i Beim einseitigen t-Test entspricht der p-Wert dem Integral (also der Flä-
z
che) zwischen der nach (10.1) berechneten Prüfgröße und dem Ende der
Dichtefunktion; beim zweiseitigen t-Test verteilt sich diese Fläche gleich-
mäßig auf beide Enden der Dichtefunktion. Falls das Ergebnis signifikant
› Abbil-
ist mit p < α , ist diese Fläche ein Teil des kritischen Bereiches (z
dung 10.1). Es ist in der Regel nicht möglich, die p-Werte eines statisti-
schen Tests manuell zu bestimmen. In den Beispielen der Kapitel 10 bis
12 wurden diese mit Hilfe der Statistiksoftware SAS ermittelt.
199 10
10.2 Testentscheidung und Konsequenzen

10.2.3 Die Interpretation eines signifikanten Ergebnisses


Das Ziel eines statistischen Tests besteht meistens darin, die Alter-
nativhypothese abzusichern. Ob das gelingt, hängt vom p-Wert ab.
Ein p-Wert unter 0,05 ist häufig Anlass zu großer Freude! Viele An-
wender unterliegen aber allzu menschlichen Schwächen und
„über“interpretieren ein Testergebnis subjektiv nach ihren eigenen
Vorstellungen. Dies möge an den Beispielen dieses Kapitels verdeut-
licht werden.
Das Ergebnis von Beispiel 10.1 erhärtet die These, dass das Ge-
burtsgewicht der Risiko-Babys geringer ist als der allgemeine
Durchschnitt. Das Ergebnis allein ist aber kein hieb- und stichfester
Beweis (sondern lediglich ein Hinweis) für einen kausalen Zusam-
menhang. Um diese These zu erhärten, sind weitere Überlegungen
fachlicher Art notwendig.
In Beispiel 11.1 wird die Wirkung einer Diät an 10 Probanden
getestet; der Unterschied bezüglich des durchschnittlichen Körper-
gewichts vor und nach der Diät ist statistisch signifikant. Dies heißt
jedoch keineswegs, dass sich das Körpergewicht allein wegen der
Diät verringert hat. Auch andere Ursachen sind in Betracht zu zie-
hen (möglicherweise haben die Probanden generell ihren Lebensstil
oder ihre Einstellung zu ihrer Gesundheit verändert). In Beispiel
11.5 erhält man mit denselben Daten und einem anderen Testverfah-
ren ein nicht-signifikantes Ergebnis. Hier wäre es allzu leichtfertig,
das Ergebnis dahingehend zu interpretieren, als habe die Diät keinen
Einfluss auf das Gewicht. Das Ergebnis ist auch bedingt durch die ge-
ringe Power des Tests und den kleinen Stichprobenumfang.
Generell gilt: Der p-Wert besagt nichts über die Ursachen eines
Unterschiedes oder über die Konsequenzen, die sich daraus ergeben.
Diese Fragen müssen mit medizinischem Sachverstand geklärt wer-
den; die Statistik hilft dabei nicht weiter. Der Anwender eines sta-
tistischen Tests sollte sich von einem kleinen p-Wert nicht blenden
lassen. „Statistische Signifikanz“ ist nicht gleichbedeutend mit
„praktischer Relevanz“ oder „wissenschaftlicher Bedeutsamkeit“.

10.2.4 Die Interpretation eines nicht-signifikanten Ergebnisses


Ein nicht-signifikantes Testergebnis kann zweierlei bedeuten. 1: Es
gibt keinen relevanten Unterschied, oder 2: Es gibt einen bedeutsa-
men Unterschied, der sich aber wegen eines zu geringen Stichpro-
benumfangs nicht nachweisen lässt. Ein Konfidenzintervall ist hilf-
200 Kapitel 10 · Das Prinzip eines statistischen Tests

reich, um zu beurteilen, welche dieser beiden Alternativen eher zu-


trifft.
Der Test in Beispiel 12.2 wurde durchgeführt, um herauszufin-
den, ob ein Zusammenhang zwischen Rauchen und Geschlecht be-
steht. Das Ergebnis „nicht signifikant“ ist mit Vorsicht zu interpre-
tieren. Abgesehen vom nicht allzu großen Stichprobenumfang ist zu
bedenken, dass die Beobachtungseinheiten Medizinstudenten sind.
Auf andere Populationen ist das Ergebnis nicht ohne weiteres über-
tragbar.
Wenn man keinen Unterschied erwartet hat, ist ein nicht-
signifikantes Testergebnis nicht Aufsehen erregend. Ansonsten sollte
man überlegen, ob ein inhaltlicher Fehler vorliegt oder ob die statis-
tische Analyse nicht optimal verlaufen ist.
Nun gibt es auch Fragestellungen, bei denen die Beibehaltung
der Nullhypothese erwünscht ist. Dazu zählen Anpassungstest und
Äquivalenztests. Mit einem Anpassungstest soll nachgewiesen wer-
den, dass eine empirische Verteilung mit einer theoretischen Ver-
› Abschnitt 12.2.6). In diesen Fällen wird die
teilung vereinbar ist (z
Nullhypothese meist erst für p ≥ 0,10 angenommen.
Äquivalenztests werden u. a. bei Bioverfügbarkeitsstudien ange-
wandt, um die therapeutische Gleichwertigkeit zweier Behandlun-
gen zu prüfen. Für den Nachweis, dass zwei Verfahren übereinstim-
mend dieselben Ergebnisse liefern (abgesehen von zufällig bedingten
Abweichungen, die für die Praxis unerheblich sind), stehen spezielle
10 Methoden zur Verfügung. Für quantitative Messwerte eignet sich die
Bland-Altman-Analyse (z › Abschnitt 5.2.5). Bei qualitativen Merk-
malen wird üblicherweise ein Kappa-Index berechnet, um den Grad
der Übereinstimung abzuschätzen (z › Abschnitt 15.1.4). Weitere
Informationen zu Äquivalenztests findet man in [11].

10.2.5 Die Manipulation des Testergebnisses


Ein signifikantes Ergebnis lässt sich leichter publizieren als ein
nicht-signifikantes. Um dies zu erreichen, ist einigen Leuten jedes
Mittel recht. Einige dieser „Tricks“ werden hier aufgezählt (wobei
ausdrücklich betont wird, dass sie nicht zur Nachahmung empfohlen
werden).
„• Auswahl des Tests. Bei vielen Fragestellungen kommen theore-
tisch mehrere Testmethoden mit unterschiedlichen Voraussetzungen
in Frage. Die oben behandelte Frage, ob das mittlere Geburtsgewicht
der 20 Babys mit dem Sollwert von 3.500 Gramm zu vereinbaren ist,
201 10
10.2 Testentscheidung und Konsequenzen

kann auch mit dem Wilcoxon-Test oder dem Vorzeichentest über-


› Abschnitte 11.2.1 und 11.3.1). Man könnte nun alle
prüft werden (z
in Frage kommenden Tests durchprobieren und sich dann denjeni-
gen auswählen, dessen p-Wert am besten gefällt (irgendeine Be-
gründung bezüglich der Voraussetzungen lässt sich sicherlich fin-
den). Grundsätzlich sollte man sich jedoch von vornherein aufgrund
der Datenlage für ein bestimmtes Testverfahren entscheiden und
dessen Ergebnis dann akzeptieren.
„• Ein- oder zweiseitiges Testen. Es mag verlockend sein, einseitig
zu testen, nachdem man mit dem zweiseitigen Testen einen p-Wert
zwischen 0,05 und 0,10 erhalten hat. Dann halbiert sich der p-Wert,
und aus einem nicht-signifikanten Ergebnis wird ein signifikantes.
Gegen eine einseitige Fragestellung ist nichts einzuwenden, falls sie
sachlich begründet ist und falls die Richtung eines möglichen Un-
terschiedes vor der Datenerhebung festgelegt wird. Es ist aber un-
ehrlich, einseitig zu testen und die Richtung des Unterschieds erst
festzulegen, nachdem die Daten vorliegen. Man testet einseitig, wenn
man die Richtung eines eventuell vorhandenen Unterschiedes vorab
kennt, oder wenn sich Konsequenzen nur bei einer bestimmten Ab-
weichungsrichtung ergeben. Der Anwender sollte sich allerdings fra-
gen, ob wirklich nur eine einzige Abweichungsrichtung interessant
ist, oder ob er sich einen Unterschied in einer bestimmten Richtung
erhofft und deshalb einseitig testet. Außerdem ist zu berücksichti-
gen, dass einseitige Tests empfindlicher auf eine Verletzung ihrer
Voraussetzungen reagieren als zweiseitige.
Weitere Kniffe, mit denen sich Daten „frisieren“ lassen und so zu
sinnlosen oder irreführenden Ergebnissen führen, liest man auf un-
terhaltsame Weise in [3]. Man kann zwar mit derlei Tricks gewalt-
sam ein signifikantes Ergebnis herbeiführen und dieses mit etwas
Glück sogar veröffentlichen. Die wissenschaftliche Arbeit ist damit
aber wertlos. Fälschungen könnten bei späteren Verifikationen auf-
fallen und sehr unangenehme Folgen für alle Beteiligten haben. Die
beste Methode, zu einem signifikanten Testergebnis zu kommen und
einen α-Fehler zu vermeiden, besteht immer noch darin, vor der Da-
tenerhebung die Fragestellung theoretisch zu überdenken und in-
haltlich abzusichern.

10.2.6 Multiples Testen


Im klinischen Alltag wird häufig eine große Anzahl von Daten er-
hoben. Mit einer passenden Software und etwas EDV-Know-How
202 Kapitel 10 · Das Prinzip eines statistischen Tests

stellen deren Analyse kein nennenswertes Problem dar. So ist man


oft geneigt, einen Test nach dem anderen durchzuführen, in der
Hoffnung, wenigstens ein einziges signifikantes Ergebnis zu erhal-
ten. Aber: Bei mehrmaligem Testen steigt der α-Fehler enorm an.
Bei einem einzelnen Test beträgt die Wahrscheinlichkeit, unter der
Nullhypothese richtig zu entscheiden, 1 − α ; bei 10 unabhängig
durchgeführten Tests liegt diese Wahrscheinlichkeit nur noch bei
(1 − α)10 . Bei α = 5% sind dies etwa 60% – das heißt, der gesamte
Fehler 1. Art liegt bei 40 %! Es lässt sich mathematisch nachweisen,
dass bei k Tests der α -Fehler insgesamt etwa kα beträgt. Beim mul-
tiplen Testen wird daher häufig eine Korrektur benutzt. Nach der
Bonferroni-Korrektur ist beispielsweise ein einzelnes Testergebnis
erst dann signifikant, wenn der p-Wert kleiner als α / k ist. Der
Nachteil dieses Verfahrens liegt allerdings darin, dass sich dadurch
der β-Fehler enorm erhöht.
Das Problem des multiplen Testens kann dadurch entschärft
werden, dass man nicht wahllos jeden Test durchführt, der theore-
tisch denkbar ist, sondern dass man vorab die konkrete Fragestellung
präzise formuliert und dann überlegt, welche Tests dem inhaltlichen
Problem angemessen sind. Häufig ist es sinnvoll, anstatt mehrerer
einfacher Tests ein komplexeres Verfahren zu verwenden (so z. B.
eine Varianzanalyse statt mehrerer t-Tests), da dies eine effizientere
Datenanalyse ermöglicht.
Zum Schluss sei betont: Es ist selbstverständlich legitim, ein
10 signifikantes Ergebnis anzustreben und dieses auch zu veröffentli-
chen. Dies sollte aber nicht durch Manipulation der Daten oder un-
sachgemäßer Handhabung der Verfahren geschehen, sondern auf-
grund einer ordentlichen Versuchsplanung. Die statistische Analyse
ist dann nur noch das „Tüpfelchen auf dem i“.

10.3 Klassifikation der Testmethoden

Es gibt diverse Testverfahren für die unterschiedlichsten Fragestel-


lungen. Diese lassen sich nach mehreren Aspekten einteilen:
„• Anzahl der Stichproben. Es gibt 1-Stichprobentests, 2-Stichpro-
ben- und Mehrstichprobentests. Bei den 1-Stichprobentests wird
eine empirische Kenngröße (z. B. ein Mittelwert) mit einem vorge-
gebenen Sollwert verglichen. Mehrere Stichproben werden bezüg-
lich eines bestimmten Parameters (z. B. dem Mittelwert) miteinan-
der verglichen.
203 10
10.3 Klassifikation der Testmethoden

„• Art der Stichproben. Zwei oder mehrere Stichproben können


verbunden oder unverbunden sein. Verbundene (oder abhängige)
Stichproben haben immer denselben Umfang; zwei verbundene
Stichproben werden auch paarig genannt. Jeder Wert der einen
Stichprobe bildet mit einem Wert der anderen Stichprobe inhaltlich
ein Paar. Verbundene Stichproben werden untersucht, wenn ein be-
stimmtes Merkmal im Laufe einer Therapie an Patienten zu mehre-
ren Zeitpunkten erfasst wird. Unverbundene (oder unabhängige)
Stichproben sind bezüglich ihrer Beobachtungseinheiten unabhängig
voneinander; ihre Umfänge können unterschiedlich sein. Solche
Stichproben treten bei klinischen Studien auf, in denen zwei oder
mehr Therapien an unterschiedlichen Patientengruppen angewandt
und verglichen werden.
• Funktion des Tests. Diesbezüglich lassen sich Tests einteilen in:
„
ŷ Lagetests zum Vergleich von Lagemaßen;
ŷ Wahrscheinlichkeitstests zum Vergleich einer relativen
Häufigkeit mit einer vorgegebenen Wahrscheinlichkeit;
ŷ Homogenitätstests zum Vergleich mehrerer Stichproben bezüg-
lich einer Häufigkeitsverteilung;
ŷ Dispersionstests zur Prüfung von Streuungsmaßen;
ŷ Unabhängigkeitstests, um die Unabhängigkeit zweier Merkmale
zu überprüfen;
ŷ Anpassungstests, bei denen eine empirische Verteilung mit
einer theoretischen (z. B. Normalverteilung oder Poissonvertei-
lung) verglichen wird;
ŷ Tests zum Vergleich von Überlebenszeitkurven.
„• Prüfgrößen. Danach unterscheidet man u. a. t-Tests, Rang-
summentests, Vorzeichentests, Chi2-Tests und Binomialtests.

In den beiden nächsten Kapiteln werden Tests behandelt, die sich


zum Nachweis einfacher Zusammenhänge eignen. Diese Tests bein-
halten das Basiswissen, das erforderlich ist, um komplexere Verfah-
ren anwenden zu können. Dazu zählen Mehrstichprobentests und
multiple Methoden, die den Zusammenhang zwischen einer Ziel-
größe und mehreren Einflussgrößen untersuchen. Es würde den
Rahmen dieses Buches sprengen, derlei Verfahren ausführlich zu
behandeln. Interessierten Lesern seien die Werke [1,], [2], [4] und
[10] empfohlen.
204 Kapitel 10 · Das Prinzip eines statistischen Tests

Übersicht 8: Statistische Tests

Funktion des Tests Bezeichnung Testgegenstand Abschn.


t-Test X normalverteilt 11.1.1
Lagetest für eine
Wilcoxon-Test X symmetrisch verteilt 11.2.1
Stichprobe
Vorzeichentest Variable X 11.3.1
Differenz X − Y
t-Test 11.1.2
Lagetest für zwei normalverteilt
verbundene Differenz X − Y
Wilcoxon-Test 11.2.2
Stichproben symmetrisch verteilt
Vorzeichentest Differenz X − Y 11.3.2
X und Y normalverteilt mit
t-Test 11.1.3
gleicher Varianz
Lagetest für zwei
Welch-Test X und Y normalverteilt 11.1.4
unverbundene
X und Y gleiche
Stichproben U-Test 11.2.3
Verteilungsform
Median-Test X und Y ordinal skaliert 12.2.2
Dispersionstest F-Test 2 Varianzen 11.1.5

Unabhängigkeitstest t-Test Korrelationskoeffizient 11.1.6

Wahrscheinlichkeitstest Binomialtest Alternativmerkmal 12.1


Homogenitätstest für Vierfeldertest 2 Alternativmerkmale 12.2.1
zwei unverbundene Chi2-Test 2 qualitative Merkmale 12.2.3
10 Stichproben, Fisher’s
2 qualitative Merkmale 12.3
Unabhängigkeitstest exakter Test
Homogenitätstest für
zwei verbundene McNemar-Test Alternativmerkmal 12.2.5
Stichproben
Chi2-
Anpassungstest empirische Verteilung 12.2.6
Anpassungstest
Vergleich von
Logrank-Test Überlebenszeitkurven 12.2.7
Überlebenszeiten
11

Lagetests
11.1 t-Tests 207
11.1.1 Der t-Test für eine Stichprobe 207
11.1.2 Der t-Test für zwei verbundene Stichproben 207
11.1.3 Der t-Test für zwei unverbundene Stichproben 209
11.1.4 Der Welch-Test 210
11.1.5 Die Voraussetzungen der t-Lagetests 212
11.1.6 Andere Anwendungen des t-Tests 214

11.2 Rangsummentests 215


11.2.1 Der Wilcoxon-Test für eine Stichprobe 215
11.2.2 Der Wilcoxon-Test für zwei verbundene Stichproben 216
11.2.3 Der U-Test von Mann und Whiney 218
11.2.4 Vergleich zwischen Rangsummentests und t-Tests 219

11.3 Vorzeichentests 222


11.3.1 Der Vorzeichentest für eine Stichprobe 222
11.3.2 Der Vorzeichentest für zwei verbundene Stichproben 223
11.3.3 Vergleich mit anderen Lagetests 223

11.4 Ausblick auf komplexere Methoden 224


11.4.1 Mehrstichprobentests 224
11.4.2 Multiple Methoden 225
207 11
11.1 t-Tests

11.1 t-Tests

Diese Tests setzen theoretisch normalverteilte Grundgesamtheiten


voraus. Man bezeichnet sie als parametrische Tests, da bei bekannter
Verteilung der Zufallsvariablen nur noch bestimmte Parameter (z. B.
Erwartungswerte) überprüft werden.

11.1.1 Der t-Test für eine Stichprobe


Dieser Test vergleicht den Mittelwert x einer Stichprobe mit einem
vorgegeben Sollwert µ 0 . Er setzt voraus, dass
ŷ die Stichprobenwerte xi Realisationen einer normalverteilten
Zufallsvariablen X ~ N (µ, σ 2 ) sind.
Dieser Test wurde ausführlich in Abschnitt 10.1 behandelt. Die
Prüfgröße, nach der entschieden wird, berechnet sich nach (10.1)
aufgrund des Mittelwerts und der Standardabweichung der Stich-
probe als:
x − µ0
t=
s/ n

11.1.2 Der t-Test für zwei verbundene Stichproben


Dies ist ein Lagetest, der herangezogen wird, um die Gleichheit von
zwei Erwartungswerten zu überprüfen. Er setzt formell voraus:
ŷ zwei verbundene Stichproben des Umfangs n mit Wertepaaren
( xi , yi ) , die aus Grundgesamtheiten mit den Erwartungswerten
µ1 und µ 2 stammen;
ŷ Differenzen d i = xi − yi , die Realisationen einer normalverteil-
ten Zufallsvariablen D mit dem Erwartungswert į (Delta) sind.
Die Hypothesen lauten bei zweiseitiger Fragestellung:
H0 : δ=0 H1 : δ≠0

bzw. bei einseitiger Fragestellung:


H1 : δ>0 (oder δ < 0 )
208 Kapitel 11 · Lagetests

Unter der Nullhypothese erwartet man für die Differenzen d i den


Mittelwert d = 0 . Die Prüfgröße berechnet sich analog zu (10.1) als

d
t= (11.1)
sd / n

Dabei bezeichnet s d die empirische Standardabweichung der Diffe-


renzen d i . Die Nullhypothese wird abgelehnt, falls t > t n −1;1− α / 2
(bei zweiseitiger Fragestellung). Bei einseitiger Fragestellung wird
die Nullhypothese abgelehnt, falls t > tn −1;1−α (für H1 : δ > 0 ) bzw.
falls t < −tn −1;1−α (für H1 : δ < 0 ). Auch bei diesem Test ist es sinnvoll,
ein Konfidenzintervall zu bestimmen, um die Größe des „wahren“
Unterschieds abzuschätzen (z › Formel 9.9):

ª t n −1;1−α / 2 ⋅ s d t n −1;1−α / 2 ⋅ s d º
«d − ;d + »
¬ n n ¼
Falls einseitig getestet wird, benutzt man die Formeln nach (9.10),
um ein halboffenes Intervall zu konstruieren.

Beispiel 11.1
In Beispiel 11.3 sind die Körpergewichte von 10 Personen aufgelistet, die vor
und nach einer Diät gemessen wurden. Die Mittelwerte sind 93,9 kg (vorher)
und 91,2 kg (nachher). Die mittlere Differenz ist (2,68 ± 3,32) kg. Dies ergibt
nach (11.1) die Prüfgröße t = 2,55 .
Aus Tabelle B entnimmt man t9;0,975 = 2,262 als kritischen Punkt (der p-Wert
11 beträgt 0,0312). Der Unterschied ist also signifikant auf dem Niveau α = 0,05 .
Das Konfidenzintervall für die Differenz ist: [0,302 ; 5,059]. Eventuell ist der
durchschnittliche Unterschied mit 300 Gramm minimal; er könnte jedoch
auch mehrere kg betragen. Das Testergebnis ist zwar signifikant – ein höherer
Stichprobenumfang würde aber zu einem kleineren Konfidenzintervall und zu
einer genaueren Schätzung führen.

i Bei praktischen Anwendungen ist es nicht notwendig, die Prüfgröße, den


z
kritischen Punkt oder das Konfidenzintervall manuell zu berechnen. Um
zu beurteilen, ob ein Ergebnis signifikant ist, lässt man den p-Wert und
das Konfidenzintervall von einer Statistiksoftware ermitteln (die
Prüfgröße ist bei Publikationen von untergeordneter Bedeutung).
Dennoch wird in den Beispielen der Kapitel 11 und 12 die Berechnung
der jeweiligen Prüfgröße aus didaktischen Gründen durchgeführt.
209 11
11.1 t-Tests

11.1.3 Der t-Test für zwei unverbundene Stichproben


Die Prämissen dieses Tests sind folgende:
ŷ Es liegen zwei unverbundene Stichproben der Umfänge n1 und
n2 vor;
ŷ die Daten beider Stichproben entstammen normalverteilten
Grundgesamtheiten mit derselben Varianz, also X ~ N (µ1, σ 2 )
und Y ~ N (µ 2 , σ 2 ) .

Beide Verteilungen sollten demnach dieselbe Form haben und sich


höchstens bezüglich ihrer Erwartungswerte unterscheiden. Die
Nullhypothese lautet: H 0 : µ1 = µ 2 . Die Prüfgröße ist:

x−y
t= (11.2)
1 1
s⋅ +
n1 n2

Da in diese Berechnung zwei unabhängige Mittelwerte einfließen,


beträgt die Anzahl der Freiheitsgrade f = n1 + n2 − 2 . Die Nullhypo-
these wird abgelehnt, falls t > t f ;1−α / 2 (bei zweiseitiger Fragestel-
lung). Bei einseitiger Fragestellung ist +t f ;1−α bzw. t f ;α = −t f ;1−α
der kritische Wert.
Dabei ist s 2 die „mittlere“ Varianz, die sich aufgrund der An-
nahme gleicher Varianzen der Grundgesamtheiten durch eine ge-
wichtete Mittelung aus den beiden empirischen Varianzen s12 und
s 22 berechnen lässt:

( n1 − 1) s12 + ( n2 − 1) s22
s2 = (11.3)
n1 + n2 − 2

Die Grenzen des zweiseitigen Konfidenzintervalls sind:

1 1
x − y ± tn1 + n2 − 2;1−α / 2 ⋅ s ⋅ +
n1 n2

Bei gleichen Stichprobenumfängen n = n1 = n2 vereinfachen sich die


obigen Formeln zu:
x−y
t= (11.4)
s⋅ 2/n
210 Kapitel 11 · Lagetests

s12 + s22
s2 = (11.5)
2

Mathematische Herleitung der Prüfgröße beim t-Test für zwei unverbun-


dene Stichproben
Die Prüfgröße beschreibt die Verteilung der Differenz X − Y , die aus den
Mittelwerten der beiden Stichproben berechnet wird. Unter der Nullhypo-
these sind die Differenzen normalverteilt mit dem Erwartungswert 0. Für
σ2 σ2
deren Varianz gilt: Var ( X − Y ) = Var X + Var Y = + .
n1 n2
Die unbekannte Varianz σ 2 wird geschätzt durch das gewichtete Mittel der
beiden Stichproben-Varianzen nach Formel (11.3). Wenn man diese Terme in
(8.43) einsetzt, erhält man eine Prüfgröße nach (11.2).

Beispiel 11.2
Für die Körpergrößen männlicher und weiblicher Studenten ergeben sich
Mittelwerte von xm = 181,22 cm bzw. xw = 169,06 cm . Ist dieser Unterschied
nur zufällig bedingt oder kann man ihn als signifikant werten? Mit den Stan-
dardabweichungen sm = 7,12 cm bzw. sw = 6,60 cm und den Stichproben-
umfängen n1 = 23 und n2 = 48 berechnet man nach (11.3):
22 ⋅ 7,12 2 + 47 ⋅ 6,60 2
s2 = cm 2 = 45,835 cm 2
69
Daraus ergibt sich für die Prüfgröße nach (11.2):
181,22 − 169,06 12,16
t= = = 7,083
45,835 45,835 1,717
11 23
+
48
Die Anzahl der Freiheitsgrade beträgt f = 23 + 48 − 2 = 69 . Der kritische
Wert t69;0,975 = 1,995 ist wesentlich kleiner als die Prüfgröße. Für den p-Wert
gilt: p < 0,0001 ; das Ergebnis ist also hoch signifikant. Für die mittlere
Differenz ergibt sich folgendes Konfidenzintervall: [8,73 cm ; 15,58 cm].

11.1.4 Der Welch-Test


Der Welch-Test ist eine Alternative zum t-Test für zwei unverbun-
dene Stichproben. Die Voraussetzungen sind dahingehend abge-
schwächt, dass die Gleichheit der Varianzen (die so genannte
Homoskedazität) der beiden Grundgesamtheiten nicht vorausgesetzt
wird.
211 11
11.1 t-Tests

i Die Problematik, Mittelwerte zu vergleichen, ohne dass gleiche Varian-


z
zen der Grundgesamtheiten vorausgesetzt werden, wurde von B. L. Welch
im Jahre 1937 beschrieben. Dieser Test ist auch unter dem Namen „t-Test
nach Satterthwaite“ bekannt.

Die empirischen Stichprobenvarianzen s12 und s 22 sind Schätzwerte


für die Varianzen der Grundgesamtheiten. Die Prüfgröße berechnet
sich analog zu Formel (11.2) als:
x−y
t= (11.6)
s12 s22
+
n1 n2

Die Anzahl der Freiheitsgrade ermittelt man nach:

( s12 / n1 + s22 / n2 ) 2
f = (11.7)
( s12 / n1 ) 2 ( s22 / n2 ) 2
+
n1 − 1 n2 − 1

Meist wird sich mit dieser Formel keine ganze Zahl ergeben; in die-
sem Fall rundet man auf die nächst kleinere, ganze Zahl ab.
In vielen Situationen stellt sich die Frage, ob der t-Test oder der
Welch-Test geeigneter ist. Da beim Welch-Test weniger Vorausset-
zungen zu berücksichtigen sind, könnte man geneigt sein, diesen zu
bevorzugen (wenn etwa die Varianzen der Grundgesamtheit unbe-
kannt sind oder die Gleichheit aus anderen Gründen nicht ange-
nommen werden kann). Doch Vorsicht: Wenn die Bedingungen des
t-Tests erfüllt sind, hat der Welch-Test eine geringere Power. Dann
kann es passieren, dass der klassische t-Test ein Ergebnis zur An-
nahme der Alternativhypothese liefert, während der Welch-Test mit
denselben Daten zur Beibehaltung der Nullhypothese führt. Außer-
dem sollte man sich Gedanken bezüglich der Interpretation des
Testergebnisses machen. Beim Welch-Test werden ungleiche Vari-
anzen und damit verschiedene Verteilungsformen angenommen. Ein
Vergleich der dazugehörenden Erwartungswerte erinnert an den be-
rühmten Vergleich zwischen Birnen und Äpfeln.
Eine sinnvollere Strategie besteht in der Regel darin, Frage-
stellungen zu behandeln, bei denen man annähernd gleichförmige
Verteilungen (mit gleichen Varianzen) voraussetzen darf und den
Welch-Test nur in begründeten Ausnahmefällen zu verwenden.
212 Kapitel 11 · Lagetests

11.1.5 Die Voraussetzungen der t-Lagetests


t-Lagetests sind im Allgemeinen recht beliebt. Deren Grundvoraus-
setzung – nämlich die Normalverteilung der Zufallsvariablen – wird
dabei oft ignoriert. Leider sind jedoch viele Merkmale in der Medi-
zin nicht normalverteilt; hin und wieder hat man es mit Merkmalen
zu tun, deren Verteilung unbekannt ist. Wie lässt sich nun die Nor-
malverteilung überprüfen? Streng genommen gar nicht – denn die
Forderung nach Normalverteilung bezieht sich auf die Grundge-
samtheit, und diese ist in der Regel nicht konkret vorgegeben. Man
kann lediglich anhand der Stichprobe überprüfen, ob gewisse Argu-
mente für oder gegen die Normalverteilung sprechen.
„• Histogramm. Dieses informiert auf einen Blick, ob die Daten der
Stichprobe symmetrisch oder eher schief verteilt sind.
„• Mittelwert und Median. Falls diese beiden Parameter stark
voneinander abweichen, spricht dies für eine schiefe Verteilung.
„• Schiefe und Kurtosis. Beide Parameter müssten – falls die Daten
normalverteilt sind – Werte um 0 annehmen.
„• Anpassungstest. Hin und wieder wird empfohlen, „zur Sicher-
heit“ die Normalverteilung mit einem Anpassungstest zu überprüfen.
Der Nutzen dieses Vorgehens ist jedoch zweifelhaft. Wenn die mit
einem Anpassungstest ermittelte Prüfgröße in den Annahmebereich
fällt, ist damit die Normalverteilung keineswegs abgesichert, sondern
lediglich nicht ausgeschlossen. Insbesondere bei kleinen Stichproben
kann der β-Fehler so groß sein, dass ein solches Ergebnis als Bestäti-
gung für die Normalverteilung höchst unzuverlässig ist.
11 Glücklicherweise ist der t-Test jedoch robust (also unempfindlich)
gegenüber Abweichungen von der Normalverteilung. Dies bedeutet:
Trotz geringfügiger Verletzungen seiner Voraussetzungen bleiben
die Wahrscheinlichkeiten für Fehlentscheidungen (also der α-Fehler
und der β-Fehler) nahezu konstant. Folgendes ist zu beachten:
„• t-Test für eine Stichprobe. Bei Stichproben des Umfangs n ≥ 10
genügt es, wenn die Daten annähernd symmetrisch verteilt sind. Für
n ≥ 25 kann man davon ausgehen, dass die Stichprobenmittelwerte
nach dem zentralen Grenzwertsatz normalverteilt sind (auch wenn
die Messwerte anders verteilt sind). Bei kleineren Stichproben sollte
man allerdings, wenn keine Normalverteilung vorliegt, auf einen
anderen Lagetest ausweichen – etwa auf den Wilcoxon-Test für eine
Stichprobe (z › Abschnitt 11.2.1) oder den Vorzeichentest (z › Ab-
schnitt 11.3.1).
213 11
11.1 t-Tests

„• t-Test für zwei verbundene Stichproben. Für n ≥ 10 ist es ausrei-


chend, wenn die Differenzen d i annähernd symmetrisch verteilt
sind. Diese Voraussetzung ist bereits erfüllt, wenn die Variablen X
und Y ungefähr die gleiche Verteilungsform haben. Asymmetrien
werden durch die Bildung der Differenzen ausgeglichen.
„• t-Test für zwei unverbundene Stichproben. Dieser Test zum Ver-
gleich zweier Erwartungswerte ist außerordentlich beliebt, obwohl
seine Voraussetzungen formal sehr streng sind. Manche Anwender
umgehen dieses Problem, indem sie die einschränkenden Prämissen
schlicht missachten. Andere treffen umfangreiche Vorarbeiten, ehe
sie den t-Test durchführen, indem sie mit zwei „Vortests“ die Vor-
aussetzungen (Gleichheit der Varianzen und Normalverteilung)
überprüfen. Dass mit einem Anpassungstest die Normalverteilung
nicht nachzuweisen ist, wurde bereits oben erwähnt. Ähnlich ver-
hält es sich mit dem F-Test, der üblicherweise zur Prüfung der
Gleichheit zweier Varianzen herangezogen wird (dieser Test ist be-
nannt nach Sir Ronald Fisher und basiert auf der in Abschnitt 8.5.3
genannten F-Verteilung). Bei einem kleinen Stichprobenumfang be-
deutet die Beibehaltung der Nullhypothese mitnichten, dass die Va-
rianzen übereinstimmen. Andererseits wird ein hoher Stichproben-
umfang fast immer zur Ablehnung der Nullhypothese führen, da
sich damit auch geringe Abweichungen der beiden Varianzen nach-
weisen lassen. Man sollte bei diesem t-Test darauf achten, dass
ŷ beide Stichprobenumfänge mindestens 10 (bei nicht symmetri-
schen Verteilungen 20) betragen und ähnlich groß sind, und
ŷ die Zufallsvariablen X und Y ungefähr denselben Verteilungstyp
haben. Dies lässt sich über die empirischen Kenngrößen oder
eine graphische Darstellung überprüfen.
Bei ungeplanten, wahllos durchgeführten Datensammlungen mag
dies schwierig sein – ein sorgfältiges Studiendesign kann jedoch
Einiges dazu beitragen, dass diese Voraussetzungen erfüllt sind.
Merke
Um einen Unterschied mit einem t-Test abzusichern, sind günstig:
ŷ Ein hoher Stichprobenumfang,
ŷ ein großer Unterschied zwischen den Mittelwerten,
ŷ eine geringe Streuung der Daten.
Dies geht aus den Berechnungen der Prüfgrößen hervor (Formeln 10.1,
11.1, 11.2 und 11.6). Je größer der Betrag von t, umso eher wird die
Alternativhypothese angenommen.
214 Kapitel 11 · Lagetests

Was sollte man tun, wenn die Voraussetzungen nicht erfüllt sind?
Hier bieten sich zwei Möglichkeiten an:
ŷ Man kann versuchen, nicht normalverteilte Daten in geeigneter
Weise zu transformieren (z› Abschnitt 8.2.4). Wenn man rechts-
schiefe Daten logarithmiert, ist dies oft doppelt hilfreich: Die
logarithmierten Daten sind eher normalverteilt und die
Varianzen eher annähernd gleich.
ŷ Man kann auf einen Test mit schwächeren Voraussetzungen aus-
weichen (z. B. einen Rangsummentest, z › Abschnitt 11.2.3).

11.1.6 Andere Anwendungen des t-Tests


Der t-Test ist keineswegs nur als Lagetest einsetzbar. Um zu testen,
ob sich ein empirischer Korrelationskoeffizient nach Pearson signifi-
kant von 0 unterscheidet, berechnet man folgende Prüfgröße:
r
t= (11.8)
1− r2
n−2
Dieses t hat n − 2 Freiheitsgrade. Falls t > tn −2;1−α (bzw. t < −tn − 2;1−α ),
entscheidet man sich für die Alternativhypothese. In diesen Fällen
wird man in der Regel einseitig testen, da die Richtung eines Zusam-
menhangs (gleich- oder gegensinnig) vorab bekannt sein dürfte.
Darüber hinaus ist es sinnvoll, ein Konfidenzintervall für ein empi-
risch ermitteltes r anzugeben (z› Abschnitt 9.3.4).
11 Aus Gleichung (11.8) geht hervor: Je größer der Betrag des
empirischen Korrelationskoeffizienten r und je größer der Stichpro-
benumfang n, desto größer ist der Betrag der Prüfgröße t und desto
eher wird die Alternativhypothese angenommen. Das nach (11.8)
berechnete t dient übrigens gleichzeitig zur Überprüfung des Stei-
gungskoeffizienten der Regressionsgeraden.
Sowohl für r als auch für die Parameter der Regressionsgeraden
lassen sich Konfidenzintervalle berechnen. Die Voraussetzungen
dafür sind formal recht streng (z› Abschnitt 9.3.4).

Der t-Test hat also mehrere Anwendungsmöglichkeiten und dabei


einschränkende Voraussetzungen. Glücklicherweise sind t-Tests ro-
bust: Mit Monte-Carlo-Studien wurde nachgewiesen, dass geringfü-
gige Verletzungen der Prämissen (insbesondere der Normalvertei-
lung) tolerierbar sind.
215 11
11.2 Rangsummentests

11.2 Rangsummentests

Diese Tests werden alternativ zu den t-Lagetests verwendet. Sie ha-


ben weniger strenge Voraussetzungen: Es handelt sich um vertei-
lungsfreie (oder nicht-parametrische) Tests, die keine bestimmte
Verteilungsform voraussetzen. Die Prüfgrößen werden nicht aus den
Original-Messwerten, sondern aus deren Rangzahlen berechnet. Da-
her lassen sich diese Tests unter Umständen auch für ordinal-ska-
lierte Merkmale verwenden. Sie basieren auf einer Methode des Ma-
thematikers Frank Wilcoxon (1892-1965).

11.2.1 Der Wilcoxon-Test für eine Stichprobe


Dieser Test überprüft, ob und in welchem Maß die Werte einer
~ abweichen. Die
Stichprobe von einem vorgegebenen Sollwert µ 0
Nullhypothese lautet:
H0 : ~=µ
µ ~
0

~ der Median der Grundgesamtheit, zu der die Stichprobe


Dabei ist µ
gehört. Die Testdurchführung lässt sich wie folgt beschreiben:
ŷ Zunächst wird für jeden Stichprobenwert die Differenz zum
Sollwert berechnet.
ŷ Stichprobenwerte, die mit dem Sollwert übereinstimmen, wer-
den eliminiert. Dadurch verringert sich eventuell der Stichpro-
benumfang.
ŷ Die Differenzen werden nun nach der Größe ihres Betrags in
aufsteigender Reihenfolge sortiert und mit Rangzahlen versehen.
Die betragsmäßig kleinste Differenz erhält die Rangzahl 1, die
größte die Rangzahl n.
ŷ Wenn zwei oder mehr identische Differenzbeträge auftreten,
ordnet man jeder Differenz eine mittlere Rangzahl zu (z › Bei-
spiel 11.3). Man spricht dabei von verbundenen Rängen.
ŷ Dann werden die Rangzahlen der negativen Differenzen und die
Rangzahlen der positiven Differenzen aufaddiert. Diese beiden
Rangsummen bezeichnet man mit R − bzw. R + .
ŷ Die Prüfgröße R ist die kleinere der beiden Rangsummen.
ŷ In Tabelle C (z› Anhang) findet man kritische Werte in Abhän-
gigkeit vom Stichprobenumfang n und der Irrtumswahrschein-
lichkeit α. Die Nullhypothese wird abgelehnt, falls die Prüf-
größe gleich oder kleiner ist als der kritische Wert.
216 Kapitel 11 · Lagetests

Für Stichprobenumfänge mit n > 25 ist die Prüfgröße approximativ


normalverteilt mit dem Erwartungswert n(n + 1) / 4 und der Varianz
n(n + 1)(2n + 1) / 24 . Durch Transformation der Prüfgröße in den
Wert der Standardnormalverteilung lässt sich abschätzen, ob das Er-
gebnis signifikant ist. Bei der zweiseitigen Fragestellung beträgt der
› Anhang, Tabelle A).
kritische Wert 1,96 (für α = 0,05 , z
Der Wertebereich der Prüfgröße R erstreckt sich zwischen 0 und
n(n + 1) / 4 . Der Extremfall 0 besagt, dass sich die beiden Rangsum-
men maximal unterscheiden. Alle Stichprobenwerte sind dann klei-
ner (oder alle größer) als der Sollwert. Unter der Nullhypothese er-
wartet man dagegen gleiche Rangsummen der Größe n(n + 1) / 4 . Bei
diesem Test weisen also (anders als beim t-Test) kleine Prüfgrößen
auf große Unterschiede hin.
• Zu den Voraussetzungen. Dieser Test setzt zwar keine Normal-
„
verteilung voraus, wohl aber eine symmetrische Verteilung. Falls
diese Voraussetzung grob verletzt ist, stellt der Vorzeichentest für
› Abschnitt 11.3.1).
eine Stichprobe eine Alternative dar (z

11.2.2 Der Wilcoxon-Test für zwei verbundene Stichproben


Dieser Test ist das Pendant zum t-Test für zwei verbundene Stich-
proben mit jeweils dem Umfang n. Es werden die beiden Mediane
verglichen; die Nullhypothese lautet:
~ =µ
H0 : µ ~
1 2

11 Das Testverfahren funktioniert ähnlich wie beim 1-Stichprobentest:


ŷ Für jedes Merkmalspaar werden aus den beiden Stichprobenwer-
ten die Differenzen d i = x i − y i gebildet. Der Test verlangt, dass
diese Differenzen symmetrisch verteilt sind.
ŷ Differenzen, die gleich 0 sind, werden eliminiert.
ŷ Die Werte d i werden nach der Größe ihres Betrags in aufstei-
gender Reihenfolge sortiert und mit Rangnummern versehen.
ŷ Dann addiert man separat die Rangzahlen der positiven und die
Rangzahlen der negativen Differenzen.
ŷ Die kleinere Summe ist die Prüfgröße. Die kritischen Werte fin-
det man in Tabelle C (z › Anhang); für n > 25 ist die Prüfgröße
normalverteilt mit dem Erwartungswert n(n + 1) / 4 und der
Varianz n(n + 1)(2n + 1) / 24 .
217 11
11.2 Rangsummentests

Wie beim Wilcoxon-Test für eine Stichprobe, schwankt auch dieses


R zwischen 0 und n( n + 1) / 4 . R = n(n + 1) / 4 entsteht, wenn sich die
Ränge vollkommen gleichmäßig zwischen den beiden Stichproben
aufteilen. R = 0 bedeutet, dass jeder Wert der einen Stichprobe klei-
ner ist als jeder beliebige Wert der anderen Stichprobe.

Beispiel 11.3
Zehn Personen nehmen sechs Monate lang eine Diät zu sich. Die Werte be-
züglich des Körpergewichts vor und nach der Diät sind in der folgenden Ta-
belle wiedergegeben. Mit dem Wilcoxon-Test für zwei verbundene Stichpro-
ben soll überprüft werden, ob sich das durchschnittliche Gewicht geändert
hat. Die Gewichte vor und nach der Diät der i-ten Beobachtungseinheit seien
xi bzw. yi (in kg).
Rangzahlen Rangzahlen
i xi yi d i = xi − y i
für d i > 0 für d i < 0
1 92,7 85,8 6,9 9
2 86,2 83,4 2,8 5,5
3 102,1 98,3 3,8 7
4 85,9 83,6 2,3 3
5 96,3 91,1 5,2 8
6 90,2 92,7 -2,5 4
7 87,5 88,6 -1,1 2
8 98,0 98,7 -0,7 1
9 89,9 87,1 2,8 5,5
10 110,2 102,9 7,3 10
R + = 48 R− = 7
+ −
Zur Rechenkontrolle bildet man die Summe aus R und R ; sie ergibt 55.
Dies stimmt überein mit der Summe der Zahlen 1 bis 10 (die sich allgemein als
n(n + 1) / 2 berechnet). Weil die Differenzbeträge der Beobachtungseinheiten
2 und 9 übereinstimmen, werden verbundene Ränge zugewiesen. Die Prüf-
größe ist R = 7 . Für α = 5% und n = 10 ermittelt man als kritischen Punkt
(bei zweiseitiger Fragestellung) den Wert 8 (z › Tabelle C). Da R kleiner ist als
8, wird die Alternativhypothese angenommen.

• Zu den Voraussetzungen. Diese sind bei vielen praktischen An-


„
wendungen annähernd erfüllt. Bei zwei verbundenen Stichproben
kann man nämlich oft davon ausgehen, dass die Zufallsvariablen X
und Y annähernd die gleiche Verteilungsform aufweisen. Dann sind
auch die Differenzen d i symmetrisch verteilt. Falls mehrere
Differenzen in ihrem Betrag übereinstimmen, bildet man (wie oben
beschrieben) verbundene Ränge.
218 Kapitel 11 · Lagetests

11.2.3 Der U-Test von Mann und Whitney


Dieser Test stellt eine Alternative zum t-Test für zwei unverbundene
Stichproben dar. Dabei werden zwei Mediane miteinander vergli-
chen; die Nullhypothese lautet: H 0 : µ ~ =µ~ . Die Stichprobenum-
1 2
fänge seien n1 und n2 ; diese müssen nicht identisch sein.
Der U-Test verlangt Zufallsvariable X und Y, die etwa die gleiche
Verteilungsform haben. Symmetrie oder gar Normalverteilung wer-
den nicht vorausgesetzt. Insofern basiert dieser Test auf wesentlich
schwächeren Voraussetzungen als der t-Test. Er wird folgenderma-
ßen durchgeführt:
ŷ Alle Werte aus beiden Stichproben werden in aufsteigender Rei-
henfolge sortiert und mit Rangzahlen versehen.
ŷ Danach addiert man für jede der beiden Stichproben die entspre-
chenden Rangzahlen und bezeichnet die Summen als R1 bzw.
R2 . Daraus berechnet man:

n1 (n1 + 1)
U 1 = n1 ⋅ n2 + − R1
2
(11.9)
n (n + 1)
U 2 = n1 ⋅ n2 + 2 2 − R2
2
ŷ Es lässt sich nachweisen, dass gilt: U1 + U 2 = n1 ⋅ n2 .
ŷ Die Testgröße wird berechnet als U = min(U1 ,U 2 ) .
ŷ Wenn U kleiner ist als der kritische Wert oder gleich diesem (z›
Tabelle D, Anhang), wird die Nullhypothese abgelehnt.
11 Für größere Stichproben (mindestens 10 pro Gruppe) ist die Prüf-
größe normalverteilt mit dem Erwartungswert n1 ( n1 + n2 + 1) / 2 und
der Varianz n1 n2 / 6 (wobei n1 den kleineren Umfang bezeichnet).
Die Prüfgröße U erstreckt sich zwischen 0 und n1 ⋅ n2 / 2 . Je nä-
her U bei 0 liegt, umso mehr unterscheiden sich die beiden Stichpro-
ben und umso eher wird die Alternativhypothese angenommen.
Verbundene Ränge sind unproblematisch, wenn sie innerhalb
einer Stichprobe auftreten. Die Anzahl der verbundenen Ränge, die
beide Stichproben betreffen, sollte ein gewisses Maß (höchstens
20 %) nicht überschreiten. Sie lassen sich bei einer hohen Messge-
nauigkeit vermeiden.
i In manchen Publikationen wird dieser Test „Wilcoxon-test for 2 samples“
z
genannt. Wilcoxon und die Statistiker Mann und Whitney haben ihre Tests
nahezu zeitgleich veröffentlicht. Formal handelt es sich um dasselbe
Verfahren.
219 11
11.2 Rangsummentests

Beispiel 11.4
Es soll nachgewiesen werden, dass männliche Studenten im Durchschnitt ein
höheres Körpergewicht haben als weibliche. Dazu werden 10 Studenten und
12 Studentinnen aus dem in Tabelle 2.1 auflisteten Personenkreis zufällig aus-
gewählt. Da man beim Merkmal „Körpergewicht“ nicht unbedingt von einer
Normalverteilung ausgehen kann, benutzt man den U-Test. Die Werte und
Ränge der Daten sind in der folgenden Tabelle aufgelistet:
Stichprobe 1 (Männer, n1 = 10 ) Stichprobe 2 (Frauen, n2 = 12 )
Gewicht xi Rang Gewicht y j Rang
61 8 48 1
69 11 52 2
70 12,5 55 3
72 14 57 4
75 16 58 5
79 18 60 6,5
82 19 60 6,5
84 20 63 9
85 21 65 10
90 22 70 12,5
74 15
77 17
R1 = 161,5 R2 = 91,5
Mit (11.9) ergibt sich: U1 = 13,5 und U 2 = 106,5 . Also ist U = 13,5 . Aus Ta-
belle D entnimmt man für den kritischen Wert 29 (zweiseitiger Test,
α = 5% ). Da die Prüfgröße wesentlich kleiner ist, ist der Unterschied
abgesichert. Der p-Wert beträgt 0,0024. Wenn man mit denselben Daten
einen t-Test durchführt, ergibt sich ein kleineres p von 0,0007.

11.2.4 Vergleich zwischen Rangsummentests und t-Tests


Die Rangsummentests haben schwächere Voraussetzungen als die t-
Tests und damit ein breiteres Anwendungsspektrum. Die Ränge ha-
ben nämlich die günstige Eigenschaft, dass sie von Datenmanipulati-
onen unberührt bleiben, solange dabei die Reihenfolge der Daten
nicht verändert wird. Deshalb eignen sich auch Daten, die nur als
Prozentangaben vorliegen, für Rangsummentests. Unter Umständen
können derlei Tests auch für metrisch-diskrete und für ordinal-ska-
lierte Merkmale verwendet werden.
220 Kapitel 11 · Lagetests

Mathematische Herleitung der Prüfgröße U


Zunächst berechnen wir die Summe der Prüfgrößen. Aus (11.9) folgt:
n (n + 1) + n2 (n2 + 1)
U1 + U 2 = 2n1n2 + 1 1 − ( R1 + R2 )
2
Da die Summe der Rangzahlen R1 und R2 der Summe aller Zahlen von 1 bis
(n1 + n2 )(n1 + n2 + 1)
n1 + n2 entspricht, gilt: R1 + R2 = . Wenn man diesen
2
Ausdruck in die obige Formel einsetzt, erhält man U1 + U 2 = n1 ⋅ n2 .
Welche Werte können U 1 und U 2 annehmen? Wir gehen zunächst von fol-
gendem Extremfall aus: Jedes Element xi der 1. Stichprobe ist kleiner als je-
des beliebige Element y j der 2. Stichprobe. In diesem Fall unterscheiden sich
die beiden Stichproben maximal. Dann haben die xi die Ränge 1 bis n1 und
die y j die Ränge n1 + 1 bis n1 + n2 . Es gilt also: R1 = n1 ⋅ (n1 + 1) / 2 und damit
nach (11.9): U1 = n1 ⋅ n2 , U 2 = 0 und U = min(U1 ,U 2 ) = 0 .
Wenn die Ränge in den beiden Stichproben gleich verteilt sind, verhalten
sich die Rangsummen wie die Stichprobenumfänge, also n1 / n2 = R1 / R2 . In
diesem Fall ist U = U1 = U 2 = n1 ⋅ n2 / 2 .

Allerdings sollte man nicht vollkommen bedenkenlos einen Rang-


summentest gegenüber einem t-Test bevorzugen. t-Tests sind außer-
ordentlich beliebt, und zwar aus mehreren Gründen:
ŷ Ein Rangsummentest wertet nur die Reihenfolge der Daten aus.
Dies ist nicht für alle Fragestellungen sinnvoll.
ŷ Der t-Test nutzt dagegen die in den Daten enthaltenen Infor-
mationen vollständig aus.
11 ŷ Mittels der t-Verteilung lassen sich nicht nur p-Werte ermitteln,
sondern auch Konfidenzintervalle berechnen. Diese sind sehr
hilfreich, um die Größe eines Unterschiedes zu beurteilen. Bei
den Rangsummentests ist die Berechnung dieser Konfidenzin-
tervalle nicht möglich.
Grundsätzlich gilt: Wenn Scores mit äquidistanten Werten 0, 1, 2
etc. zu analysieren sind, eignet sich ein Rangsummentest besser als
ein t-Test. Wenn dagegen bei Messwerten berechtigter Grund zur
Annahme besteht, dass die Daten einer Normalverteilung entstam-
men, sollte man den t-Test bevorzugen.
Zwar sind auch Rangsummentests bei normalverteilten Daten
durchaus legitim. Das Problem ist folgendes: Wenn man einen
Rangsummentest verwendet (obwohl die Voraussetzungen des t-
Tests erfüllt sind), bedeutet dies eine Verminderung der Power
1 − β . So kann es vorkommen, dass man mit dem t-Test ein statis-
221 11
11.2 Rangsummentests

tisch signifikantes Ergebnis erhält, während der entsprechende


Rangsummentest mit denselben Daten zur Beibehaltung der Nullhy-
pothese führt. Dies ist höchst ärgerlich für einen Forscher, der ja in
der Regel etwas Neues etablieren und deshalb die Alternativhypo-
these absichern will. Einen Test, der zur Beibehaltung der Nullhy-
pothese tendiert, nennt man konservativ.
Wenn man dagegen einen Test anwendet, obwohl seine Voraus-
setzungen nicht erfüllt sind, nimmt man eventuell eine Erhöhung
des α-Fehlers in Kauf. Das bedeutet: Der Test lässt mehr Ergebnisse
signifikant werden als dem festgelegten α-Niveau entspricht. Ein
solches Testverhalten heißt progressiv. Ein signifikantes Ergebnis ist
zwar meist erwünscht – es könnte aber peinlich werden, wenn sich
herausstellt, dass der vermeintliche Unterschied mit einer wissen-
schaftlich unsauberen Methode gewaltsam herbeigeführt wurde. Die
Auswahl eines geeigneten Tests muss also sehr differenziert erfolgen.
Hierzu einige Anmerkungen:
„• 1-Stichproben-Tests. Sie sind generell mit Vorsicht zu handha-
ben. Perfekt symmetrische Verteilungen (oder gar Normalverteilun-
gen) gibt es in der Natur eigentlich nicht. Bei einem Stichproben-
umfang von weniger als 10 sollte man – wenn man sich der Normal-
verteilung nicht sicher ist – den Wilcoxon-Test bevorzugen. Für
nicht symmetrische Verteilungen bietet sich der Vorzeichentest an
(z› Abschnitt 11.3.1).

„• Tests für zwei verbundene Stichproben. Beim Wilcoxon-Test


müssen nur die Differenzen symmetrisch verteilt sind. Diese Ein-
schränkung ist nicht allzu stark. Bei sorgfältig geplanten Studien
kann man zugrunde legen, dass die beiden Verteilungen bezüglich
ihrer Form ähnlich sind. Dann sind auch die Differenzen symmet-
risch. Falls der Stichprobenumfang 10 übersteigt, kann man den t-
Test benutzen – er ist dann robust gegenüber Verletzungen seiner
Voraussetzungen. Für nicht symmetrische Verteilungen empfiehlt
› Abschnitt 11.3.2).
sich auch hier der Vorzeichentest (z
„• Tests für zwei unverbundene Stichproben. Die Bedingungen des
U-Tests sind im Vergleich zu denen des t-Tests schwach. Über den
speziellen Verteilungstyp werden beim U-Test keine Angaben ge-
macht, während der t-Test Normalverteilung voraussetzt. Deshalb
bietet der U-Test eine sinnvolle Alternative, wenn die Prämissen des
t-Tests nicht erfüllt sind. Ein weiterer Test für zwei unverbundene
Stichproben ist der Median-Test (z › Abschnitt 12.2.2).
222 Kapitel 11 · Lagetests

11.3 Vorzeichentests

11.3.1 Der Vorzeichentest für eine Stichprobe


Die Nullhypothese ist dieselbe wie beim Wilcoxon-Test: Es wird
untersucht, ob der Median einer Stichprobe mit einem vorgegebenen
Sollwert vereinbar ist. Das Testverfahren ist einfach:
ŷ Man beurteilt jeden Stichprobenwert danach, ob er größer oder
kleiner als der Sollwert ist und ordnet ihm dementsprechend ein
positives oder ein negatives Vorzeichen zu.
ŷ Werte, die mit dem Sollwert identisch sind, werden eliminiert.
ŷ Man zählt die Anzahl der positiven und der negativen Vorzei-
chen; die kleinere Zahl ist die Prüfgröße k. Falls die Nullhypo-
these zutrifft, erwartet man, dass die Anzahl der positiven und
die der negativen Vorzeichen übereinstimmen.
ŷ Die Testentscheidung trifft man nach einem Vergleich mit dem
kritischen Wert in Tabelle F im Anhang.
Die Bezeichnung Vorzeichentest ist darauf zurückzuführen, dass in
die Berechnung der Prüfgröße nur die Vorzeichen der Differenzen
einfließen. Es wird also nur die Richtung der Abweichungen vom
Sollwert (nicht deren Betrag oder Rang wie beim t- bzw. Wilcoxon-
Test) berücksichtigt. Daher ist dieser Test auch bei ordinal skalierten
Merkmalen anwendbar.
Die Prüfgröße ist unter der Nullhypothese binomialverteilt mit
dem Erwartungswert n ⋅ 0,5 . Schranken für den Annahmebereich
11 findet man in Tabelle F. Notfalls kann man mit einem Taschenrech-
ner bei einem kleinen Stichprobenumfang den Annahmebereich er-
mitteln, indem man nach (7.20) die einzelnen Wahrscheinlichkeiten

§n·
P( X = k ) = ¨¨ ¸¸ ⋅ 0,5 n
©k ¹
berechnet und damit einen Annahmebereich für die Prüfgröße k
(also die Anzahl der positiven oder negativen Vorzeichen) kon-
struiert. Bei größeren Stichprobenumfängen ( n ≥ 36 ) lässt sich die
Binomialverteilung durch eine Normalverteilung mit dem Erwar-
tungswert n ⋅ 0,5 und der Varianz n ⋅ 0, 25 approximieren. Die
Schranken für den Annahmebereich sind dann:
0,5 ⋅ n ± (1,96 ⋅ 0,25 ⋅ n + 0,5)
223 11
11.3 Vorzeichentests

11.3.2 Der Vorzeichentest für zwei verbundene Stichproben


Mit diesem Test werden Vergleiche einfachster Art durchgeführt. Es
wird lediglich vorausgesetzt, dass die Zufallsvariablen der beiden
Stichproben in irgendeiner Weise vergleichbar sind (etwa: Der Zu-
stand nach der Therapie ist besser als vor der Therapie) – ohne dass
die Differenz exakt quantifiziert werden müsste. Jedem Beobach-
tungspaar kann dann ein positives oder ein negatives Vorzeichen zu-
geordnet werden. Die Nullhypothese lautet:
P ( X < Y ) = P( X > Y ) = 0,5
Unter der Nullhypothese müssten etwa gleich viele Beobachtungs-
paare ein negatives bzw. ein positives Vorzeichen erhalten. Das
Testverfahren ist ähnlich wie beim Vorzeichentest für eine Stich-
probe:
ŷ Man ordnet jedem Beobachtungspaar das passende Vorzeichen
zu. Paare, deren Stichprobenwerte sich nicht unterscheiden,
werden nicht berücksichtigt.
ŷ Man zählt die Anzahl der positiven und der negativen Vorzei-
chen. Die kleinere Zahl ist die Prüfgröße.
ŷ Die Testentscheidung trifft man nach einem Vergleich mit den
kritischen Werten in Tabelle F.
Beispiel 11.5
In den Beispielen 11.1 und 11.3 wurde das Körpergewicht von n = 10 Perso-
nen vor und nach einer Diät miteinander verglichen. Mit dem t-Test und dem
Wilcoxon-Test für zwei verbundene Stichproben ergaben sich signifikante
Testergebnisse. Wenn wir den Vorzeichentest anwenden, findet man mit
Hilfe der Tabelle F als Annahmebereich das Intervall zwischen den Zahlen 2
und 8. Die Prüfgröße k = 3 (es gibt 3 negative und 7 positive Vorzeichen bei
den Differenzen) liegt also innerhalb des Annahmebereichs; demnach muss
die Nullhypothese beibehalten werden.

11.3.3 Vergleich mit anderen Lagetests


Ein Vorzeichentest beinhaltet quasi keine Voraussetzungen. Aller-
dings nutzt er bei weitem nicht alle Informationen der Stichproben-
daten aus. Aus diesem Grund hat der Vorzeichentest eine wesentlich
geringere Power als der entsprechende t-Test oder Rangsummentest.
Wegen seiner Rechenökonomie findet er häufig als „Schnelltest“
Verwendung. Ein Wissenschaftler, dem es ja meist darum geht, die
Alternativhypothese abzusichern, sollte den Vorzeichentest meiden
224 Kapitel 11 · Lagetests

und statt dessen – sofern die Voraussetzungen erfüllt sind – den pas-
senden t-Test oder Wilcoxon-Test anwenden.
i Ein Vorzeichentest basiert auf der Analyse von Häufigkeiten. Formal
z
handelt es sich dabei um einen Binomialtest, mit dem getestet wird, ob
eine relative Häufigkeit mit der Wahrscheinlichkeit p = 0,5 vereinbar ist
› Abschnitt 12.1).
(z
! Als Lagetest für zwei unverbundene Stichproben eignet sich auch der auf
z
der Chi2-Verteilung basierende Median-Test (z› Abschnitt 12.2.2).

11.4 Ausblick auf komplexere Methoden

11.4.1 Mehrstichprobentests
Die t-Lagetests und die Rangsummentests sind auf eine oder zwei
Stichproben beschränkt. In der medizinischen Forschung stellt sich
hin und wieder das Problem, dass mehr als zwei Stichproben zu ver-
gleichen sind (etwa wenn bei einer Therapiestudie zwei unter-
schiedliche Dosen eines Medikaments mit einem Placebo verglichen
werden). Um mehr als zwei unverbundene Stichproben bezüglich
einer quantitativen Zielgröße zu vergleichen, bieten sich an:
„• 1-faktorielle Varianzanalyse. Dies ist eine Erweiterung des t-Tests
für mehr als zwei unverbundene Stichproben. Die Varianzanalyse
setzt – ebenso wie der klassische t-Test – normalverteilte Grundge-
samtheiten mit gleichen Varianzen voraus. Die Methode beruht auf
dem Vergleich der Varianz der k Mittelwerte x i ( i = 1,..., k ) mit der
11 Varianz der Abstände ( xij − xi ) (wobei k ≥ 2 die Anzahl der Stich-
proben bezeichnet). Der Quotient dieser Varianzen folgt einer F-
Verteilung (z› Abschnitt 8.5.3). Er nimmt den Wert 1 an, falls alle
Stichproben aus derselben Grundgesamtheit stammen. Je mehr die
Mittelwerte streuen, desto größer wird F und desto eher wird die
Alternativhypothese angenommen.
„• Kruskal-Wallis-Test. Dieser Rangsummentest ist eine Erweite-
rung des U-Tests für mehr als zwei Stichproben.
Diese Verfahren können nur globale Unterschiede nachweisen. Ein
signifikantes Ergebnis zeigt lediglich an, dass nicht alle Erwartungs-
werte identisch sind. Aus dem p-Wert geht jedoch nicht hervor, wo
die Unterschiede liegen. Freilich könnte man mit t-Tests (nach einer
Varianzanalyse) oder U-Tests (nach einem Kruskal-Wallis-Test) be-
liebig viele 2-Stichproben-Vergleiche durchführen. Diese Vergleiche
225 11
11.4 Ausblick auf komplexere Methoden

sind jedoch nicht ganz unproblematisch, weil es sich dabei um mul-


› Abschnitt 10.2.6). Dennoch ist der Anwen-
tiples Testen handelt (z
der daran interessant, diese Unterschiede herauszufinden und nach-
zuweisen. Dazu bieten sich folgende Möglichkeiten an:
ŷ Man überlegt sich vor der Testdurchführung, welche paarweisen
Stichprobenvergleiche interessant sind und beschränkt die An-
zahl dieser Vergleiche auf ein Mindestmaß.
ŷ Man verwendet die Bonferroni-Korrektur (z› Abschnitt 10.2.6).
Der Nachteil dieser Methode liegt darin, dass – insbesondere
dann, wenn zahlreiche Tests durchgeführt werden – die Power
gering wird und sich Unterschiede kaum mehr nachweisen las-
sen.
ŷ Für die Varianzanalyse wurden mehrere Verfahren für paar-
weise Mittelwert-Vergleiche entwickelt. Eine bekannte Metho-
de ist der Scheffé-Test: Er vergleicht alle Stichproben paarweise
miteinander und gewährleistet dabei dennoch, dass bei jedem
Vergleich das Į-Signifikanzniveau eingehalten wird. Allerdings
ist dieses Verfahren eher konservativ.
Für den Vergleich von mehr als zwei verbundenen Stichproben be-
züglich eines quantitativen Merkmals eignen sich:
„• Varianzanalyse mit Messwiederholungen. Während der t-Test
für zwei verbundene Stichproben geeignet ist für einen einfachen
Vorher-Nachher-Vergleich, können mit einer Varianzanalyse mehr
als zwei Zeitpunkte verglichen werden.
• Friedman-Test. Dieser Test basiert auf der Analyse von Rangsum-
„
men. Er ist eine Verallgemeinerung des Wilcoxon-Tests für mehr als
zwei verbundene Stichproben.

11.4.2 Multiple Methoden


Bei multiplen Methoden wird der Einfluss mehrerer Einflussgrößen
auf eine Zielgröße simultan untersucht. Diese Verfahren ermögli-
chen eine wesentlich effizientere Analyse als einfache Methoden,
bei denen nur eine Einflussgröße berücksichtigt wird.
• Zwei- oder mehrfaktorielle Varianzanalyse. Möglicherweise
„
hängt die Zielgröße nicht nur von einer Gruppierungsvariablen (z. B.
der Therapieform), sondern darüber hinaus von weiteren qualitati-
ven Faktoren (Geschlecht, Diagnose, Schweregrad der Krankheit
226 Kapitel 11 · Lagetests

etc.) ab. Für derlei Fragestellungen eignen sich mehrfaktorielle Vari-


anzanalysen.
„• Varianzanalyse mit Messwiederholungen. Auch bei diesem
Verfahren können mehrere Gruppierungs- und Messwiederho-
lungsfaktoren involviert werden.
„• Multiple Regressionsanalyse. Diese Methode wird verwendet,
wenn die quantitative Zielgröße von mehreren quantitativen Ein-
flussgrößen bestimmt wird.
„• Allgemeines lineares Modell. Damit ist es möglich, den Einfluss
mehrerer Faktoren, die sowohl quantitativ als auch qualitativ sein
können, zu untersuchen. Am Ende wird eine lineare Gleichung er-
stellt, mit der ein Wert für die Zielgröße in Abhängigkeit der signi-
fikanten Einflussfaktoren geschätzt werden kann. Diese Gleichung
hat die Form:
y = a0 + a1 x1 + a 2 x2 + ... + ak xk (11.10)

Bei diesem Ansatz werden qualitative Merkmale durch so genannte


Dummy-Variable ersetzt (z › Beispiel 2.5); Alternativmerkmale lassen
sich einfach durch die Ziffern 0 und 1 codieren. Eine leistungsfähige
Software unterstützt den Anwender bei der Wahl der Variablen, die
in das Modell aufgenommen werden, und bei der Bestimmung der
Regressionskoeffizienten.
i Bei allen Varianz- und Regressionsanalysen ist das bereits erwähnte
z
Bestimmtheitsmaß r 2 (z› Abschnitt 5.3.3) geeignet, um die Güte des Modells
11 zu quantifizieren. Dieses Maß ist der prozentuale Anteil der durch das
Modell erklärten Varianz bezogen auf die Gesamtvarianz der y-Werte. Je
größer da Bestimmtheitsmaß, desto besser ist das Modell.

Es sei hinzugefügt, dass die technische Anwendung dieser Verfahren


mit einer geeigneten Software (z. B. mit SAS) kein nennenswertes
Problem darstellt. Dennoch sollte der Anwender dieser Methoden
über den mathematischen Hintergrund und auch über deren Gren-
zen zumindest in Grundzügen Bescheid wissen, um sie sinnvoll an-
zuwenden und die Ergebnisse interpretieren zu können. Wer sich
dafür interessiert, möge auf geeignete Literatur zurückgreifen ([2],
[4] oder [10]).
12

Tests zum Vergleich von


Häufigkeiten
12.1 Der Binomialtest für eine Stichprobe 229

12.2 Chi2-Tests 231


12.2.1 Der Chi2-Vierfelder-Test 231
12.2.2 Der Median-Test 235
12.2.3 Der Chi2-Test für k ⋅ A Felder 236
12.2.4 Assoziationsmaße für qualitative Merkmale 237
12.2.5 Der McNemar-Test 238
12.2.6 Der Chi2-Anpassungstest 240
12.2.7 Der Logranktest 242

12.3 Der exakte Test nach Fisher 243

12.4 Ausblick auf die logistische Regression 245


229 12
12.1 Der Binomialtest für eine Stichprobe

12.1 Der Binomialtest für eine Stichprobe

Die Geschichte dieses Tests begann in den Jahren 1710-1712, als der
englische Wissenschaftler John Arbuthnot beim Studium von Kir-
chenbüchern feststellte, dass bei 82 Jahrgängen Knabengeburten
häufiger eingetragen waren als Mädchengeburten. Aufgrund des ho-
hen Stichprobenumfangs kam er zu dem Schluss: Das kann kein Zu-
fall sein! Der Binomialtest ist die geeignete Methode, um eine solche
Vermutung objektiv zu überprüfen. Arbuthnot hätte dazu folgende
Hypothesen aufstellen müssen:
H0 : Die Wahrscheinlichkeit p für eine Knabengeburt ist gleich
der Wahrscheinlichkeit für eine Mädchengeburt, oder for-
mal: p = 1 / 2
H1 : Die Wahrscheinlichkeiten sind unterschiedlich. Es gilt also:
p ≠ 1/ 2 .
Ein Binomialtest basiert auf sehr einfachen Annahmen:
ŷ Es liegt eine Stichprobe mit n Beobachtungseinheiten vor;
ŷ die Stichprobenwerte sind Ausprägungen eines Alternativmerk-
mals.
Der Test überprüft, ob die relative Häufigkeit der Ausprägung A mit
einer vorgegebenen Wahrscheinlichkeit p0 vereinbar ist. Die Hypo-
thesen lauten also:
H0 : p = p0
H1 : p ≠ p0 (bei zweiseitiger Fragestellung)

Zur Testentscheidung gelangt man folgendermaßen:


ŷ Zunächst werden in der Stichprobe die Beobachtungseinheiten
mit der Ausprägung A gezählt; deren Anzahl sei X. Die relative
Häufigkeit pˆ = X / n ist ein Schätzwert für die Wahrscheinlich-
keit p der Grundgesamtheit.
ŷ Unter der Nullhypothese ist diese Anzahl X binomialverteilt mit
dem Erwartungswert np0 . Mit der Formel (7.16) lassen sich nun
die Wahrscheinlichkeiten P ( X = k ) berechnen. Damit lässt sich
dann ein Bereich konstruieren, in den X bei Gültigkeit der
Nullhypothese mit einer Wahrscheinlichkeit von 1 − α = 95%
fallen würde. Bei einem nicht allzu hohen Stichprobenumfang
genügt dazu ein Taschenrechner.
230 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

Falls n hinreichend groß ist mit np0 (1 − p0 ) ≥ 9 , lässt sich die Bi-
nomialverteilung von X durch eine Normalverteilung mit dem Er-
wartungswert np0 und der Varianz np0 (1 − p0 ) approximieren.
Dann ist auch pˆ = X / n normalverteilt mit dem Erwartungswert p0
und der Varianz p0 (1 − p0 ) / n . Daraus folgt, dass die Prüfgröße

pˆ − p0
Z= (12.1)
p0 (1 − p0 )
n

einer Standardnormalverteilung folgt. Der kritische Punkt ist 1,96


(für α = 5% , zweiseitige Fragestellung). Bei einer anderen Irrtums-
wahrscheinlichkeit Į ist dieser Wert durch z1−α / 2 entsprechend
anzupassen; bei einseitiger Fragestellung ist er durch ± z1−α zu erset-
zen (z› Tabelle A, Anhang).

Beispiel 12.1
Von n = 71 Studenten sind k = 48 weiblichen Geschlechts. Ist diese Häufig-
keit vereinbar mit der Hypothese, dass gleich viele Männer und Frauen Medi-
zin studieren? Die Nullhypothese lautet: p = 0,5 . Der Schätzwert ist
pˆ = 48 / 71 = 0,68 . Da np0 (1 − p0 ) = 71 ⋅ 0,5 ⋅ 0,5 = 17,75 ≥ 9 , kann man die
Binomialverteilung von X durch eine Normalverteilung mit dem Erwartungs-
wert µ = 71 ⋅ 0,5 = 35,5 und der Varianz 17,75 approximieren. Für die Prüf-
größe nach (12.1) berechnet man mit p0 = 0,5 :
48 / 71 − 0, 5
z= = 2, 9670
0, 25 / 71
Dieser Wert ist größer als 1,96 – also wird die Alternativhypothese angenom-
men. Der p-Wert ist 0,0030. Während dieser p-Wert besagt, dass das Ergebnis
› Beispiel 9.2) dar-
signifikant ist, informiert das Konfidenzintervall für p̂ (z
12 über, in welcher Größenordnung der Anteil weiblicher Studenten angenom-
men werden kann.

Der Binomialtest ist vielseitig anwendbar: Durch Reduktion des


Skalenniveaus lässt sich nämlich jedes Merkmal als ein Alternativ-
merkmal auffassen.
231 12
12.2 Chi2-Tests

12.2 Chi2-Tests

Chi2-Tests dienen zur Analyse von Häufigkeitsunterschieden. Da


sich Häufigkeiten bei jeder Merkmalsart und jedem Skalenniveau er-
mitteln lassen, sind diese Tests sehr vielseitig anwendbar.

12.2.1 Der Chi2-Vierfelder-Test


Im einfachsten Fall untersucht der Chi2-Test die Unabhängigkeit
zweier Alternativmerkmale. Er wird deshalb auch als Chi2-Unabhän-
gigkeitstest bezeichnet. Diesem Test liegt zugrunde
ŷ eine Stichprobe des Umfangs n und den Häufigkeiten, die sich
aus der Betrachtung zweier Alternativmerkmale ergeben.
Die Ausprägungen der beiden Merkmale seien A und A bzw. B
und B . Insgesamt gibt es dann vier Kombinationsmöglichkeiten mit
den Häufigkeiten a , b , c und d , die sich anschaulich in einer
› Tabelle 12.1).
Vierfeldertafel darstellen lassen (z

Tabelle 12.1 Vierfeldertafel beim Chi2-Vierfelder-Test

A A Randsummen
B a b n1 = a + b
B c d n2 = c + d
Randsummen a+c b+d n = a+b+c+d

Unter der Nullhypothese sind die relevanten Ereignisse unabhängig


voneinander; deshalb gilt nach dem Multiplikationssatz:
H0 : P ( A | B ) = P ( A)

Unter der Nullhypothese müsste also annähernd gelten:

a a+c
= (12.2)
a+b n
Dagegen besagt die Alternativhypothese H1 , dass eine Abhängigkeit
besteht. Die wesentliche Idee eines Chi2-Tests ist folgende: Die beob-
achteten Häufigkeiten a , b , c und d werden verglichen mit den
Häufigkeiten, die unter der Nullhypothese zu erwarten sind. Dazu
berechnet man für jede Häufigkeit den Quotienten
232 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

( beobachtete Häufigkeit - erwartete Häufigkeit) 2 ( B − E ) 2


=
erwartete Häufigkeit E

Die Summe dieser vier Quotienten bildet die Prüfgröße. Die unter
H0 zu erwartende Häufigkeit für a ergibt sich aus Formel (12.2) aus
den Randsummen (a + b) , (a + c) und n; die anderen Erwar-
tungshäufigkeiten leitet man analog her und erhält die Häufigkeiten
in Tabelle 12.2.

Tabelle 12.2 Beobachtete und erwartete Häufigkeiten beim Vierfelder-Test

beobachtete unter H0 erwartete


( B − E )2 / E
Häufigkeit B Häufigkeit E
( ad − bc ) 2
a (a + b)(a + c) / n
n ⋅ ( a + b)( a + c)
(ad − bc ) 2
b (a + b)(b + d ) / n
n ⋅ ( a + b)(b + d )
(ad − bc) 2
c (c + d )(a + c) / n
n ⋅ (c + d )(a + c)
(ad − bc ) 2
d (c + d )(b + d ) / n
n ⋅ ( c + d )(b + d )
Summe n n χ2

Die Prüfgröße ist annähernd χ 2 -verteilt mit einem Freiheitsgrad.


Sie berechnet sich beim Vierfelder-Test als:

n ⋅ ( ad − bc ) 2
12 χ2 =
( a + b)( a + c )( c + d )(b + d )
(12.3)

Unter der Nullhypothese erwartet man, dass alle beobachteten Häu-


figkeiten mit den erwarteten übereinstimmen; in diesem Extremfall
wäre χ2 = 0. In der Praxis ist natürlich immer damit zu rechnen, dass
χ2 > 0. Kleinere Abweichungen von 0 sind mit der Nullhypothese
durchaus noch vereinbar; hohe Werte der Prüfgröße sprechen gegen
die Nullhypothese. Die Prüfgröße ist umso größer, je mehr die beob-
achteten von den erwarteten Häufigkeiten abweichen. Das Testver-
fahren wird wie folgt durchgeführt:
ŷ Aus den absoluten Häufigkeiten wird nach (12.3) die Prüfgröße
χ2 berechnet.
233 12
12.2 Chi2-Tests

ŷ Falls der Wert der Prüfgröße innerhalb des Intervalls [0, χ12;1−α ]
liegt, wird die Nullhypothese auf dem α -Niveau beibehalten.
› Tabelle E, Anhang).
Für α = 5% ist χ12;0,95 = 3,841 (z

Beispiel 12.2
Bei der Stichprobe unserer n = 71 Studenten betrachten wir die Alternativ-
merkmale Rauchen und Geschlecht. Es ergeben sich folgende Werte:
beobachtete Häufigkeiten erwartete Häufigkeiten
Raucher Nichtraucher Raucher Nichtraucher
Männer a=4 b = 19 23 4,2 18,8 23
Frauen c=9 d = 39 48 8,8 39,2 48
13 58 71 13 58 71
Es ist nicht erstaunlich, dass die erwarteten Häufigkeiten keine ganzen Zahlen
sind. Es handelt sich um theoretische Häufigkeiten, die aus den Randsummen
berechnet werden (Tabelle 12.2) und zum Vergleich mit den beobachteten
Häufigkeiten dienen. Von den Männern rauchen 17%, von den Frauen 19%.
Ist der Unterschied nun so gravierend, dass man die Nullhypothese („Es be-
steht kein Zusammenhang zwischen Rauchen und Geschlecht“) verwerfen
kann? Die Prüfgröße ist nach (12.3):
71 ⋅ (4 ⋅ 39 − 19 ⋅ 9) 2
χ2 = = 0,0192
23 ⋅13 ⋅ 48 ⋅ 58
Dieser Wert ist kleiner als der kritische Wert 3,841 – d. h. anhand der Stich-
probe ist kein Zusammenhang zwischen den beiden Merkmalen nachzuwei-
sen. Der p-Wert beträgt 0,8898; das Konfidenzintervall für die Differenz (An-
teil Frauen - Anteil Männer) ist [-0,18 ; 0,20]. Der Raucheranteil der Frauen
könnte also um 20 % über dem der Männer liegen; er könnte ebenso gut 18 %
geringer sein.

Man kann den Vierfelder-Test auch dahingehend interpretieren,


dass er bei zwei unabhängigen Stichproben relative Häufigkeiten
vergleicht (er überprüft, ob ein bestimmtes Merkmal in den beiden
Stichproben gleich verteilt ist). So lässt sich etwa die Situation in
Beispiel 12.2 auch so beschreiben: Es werden zwei unverbundene
Stichproben (bestehend aus männlichen bzw. weiblichen Studenten)
hinsichtlich des Merkmals „Rauchgewohnheiten“ verglichen. Dies
ist ein anderer Ansatz, der jedoch formal mit demselben Testverfah-
ren untersucht wird. Man spricht in diesem Fall vom Chi2-Homoge-
nitätstest.
• Einseitiges Testen. Bisher wurde stillschweigend vorausgesetzt,
„
dass beim Vierfelder-Test zweiseitig geprüft wird. Nun sind auch
einseitige Fragestellungen denkbar wie etwa: „Rauchen mehr Frauen
als Männer (oder umgekehrt)?“. Einseitige Testverfahren sind bei
234 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

Chi2-Tests allerdings problematisch, weil die Richtung eines Unter-


schieds durch das Quadrieren der Abstände (B–E) eliminiert wird.
Dennoch ist beim Vierfelder-Test eine einseitige Prüfung möglich,
indem man als kritischen Wert χ12;1−2α zugrunde legt. Man geht bei
diesem Ansatz davon aus, dass – grob formuliert – bei die Hälfte der
Werte, die die Prüfgröße unter der Nullhypothese annehmen kann,
die beobachtete Häufigkeit a kleiner ist als die dazugehörende Er-
wartungshäufigkeit (und bei der anderen Hälfte größer). Bei den
Werten, die größer sind als χ12;1−2α , entspricht die Hälfte dem Wert
α. Ein einseitiger Test ist allerdings nur dann statthaft, wenn man
aufgrund von Vorkenntnissen die Richtung eines möglichen Unter-
schiedes genau kennt – ansonsten hat man eine Irrtumswahrschein-
lichkeit von 2α. Theoretisch ist der einseitige Vierfelder-Test inter-
essant; praktisch sollte man ihn meiden.
„• Zu den Voraussetzungen. Beim Vierfelder-Test sollte jede der er-
warteten Häufigkeit mindestens 5 betragen; keine der beobachteten
Häufigkeiten darf 0 sein. Falls diese Anforderungen nicht erfüllt
sind, kann man als Alternative Fisher’s exakten Test verwenden (z›
Abschnitt 12.3).

Mathematische Betrachtung der Chi2-Prüfgröße beim Vierfelder-Test


Die Berechnung der Prüfgröße aus der Summe aller ( B − E ) 2 / E erscheint
plausibel. Je mehr eine beobachtete Häufigkeit B von der erwarteten Häufig-
keit E abweicht, umso größer wird dieser Quotient und damit auch die Prüf-
größe. Die Division durch E erfolgt, um der Tatsache Rechnung zu tragen,
dass dieselbe Abweichung ( B − E ) umso schwerer wiegt, je kleiner die Erwar-
tungshäufigkeit E ist. Mit elementaren Rechenregeln lassen sich dann die
Häufigkeiten und deren Summe in Tabelle 12.2 herleiten. Wieso ist unter der
Nullhypothese die Summe der ( B − E ) 2 / E χ 2 -verteilt? Dazu betrachten wir
12 die Häufigkeiten a und c . a ist unter H 0 binomialverteilt mit dem Er-
wartungswert n1 p und der Varianz n1 p(1 − p) . Auch c ist binomialverteilt mit
dem Erwartungswert n2 p und der Varianz n2 p(1 − p) . Unter H 0 hat die Diffe-
renz D = a / n1 − c / n2 den Erwartungswert 0 und s D2 = p(1 − p)(1 / n1 + 1 / n2 ) als
Varianz. Folglich ist D / sD standardnormalverteilt. Demnach folgt ( D / sD ) 2
› Abschnitt 8.5.2). Wenn man
einer χ 2 -Verteilung mit einem Freiheitsgrad (z
in ( D / sD ) 2 einsetzt: p = (a + c) / n , n1 = a + b und n2 = c + d , erhält man nach
einigen Umrechnungen die Prüfgröße nach (12.3).
235 12
12.2 Chi2-Tests

12.2.2 Der Median-Test


Die Anwendung des Vierfelder-Tests ist nicht beschränkt auf Alter-
nativmerkmale. Mit diesem Test lassen sich auch zwei unabhängige
Stichproben bezüglich eines ordinal skalierten oder eines quantitati-
ven Merkmals vergleichen. Die Nullhypothese lautet in diesem Fall:
H0 : ~ =µ
µ ~
1 2

Das Testverfahren lässt sich wie folgt beschreiben:


ŷ Man bildet aus den Daten beider Stichproben den gemeinsamen
empirischen Median ~ x.
ŷ Dann ermittelt man die Häufigkeiten entsprechend der folgen-
den Vierfeldertafel (Tabelle 12.3).
ŷ Die Prüfgröße berechnet man nach (12.3).
ŷ Falls der Wert der Prüfgröße innerhalb [0, χ12;1−α ] liegt, wird die
Nullhypothese beibehalten.

Tabelle 12.3 Vierfeldertafel beim Median-Test

≤~
x >~
x
Stichprobe 1 a b n1 = a + b
Stichprobe 2 c d n2 = c + d
a+c b+d n = a+b+c+d

Beispiel 12.3
Es soll getestet werden, ob sich die Klausurergebnisse von n1 = 23 männlichen
und n2 = 48 weiblichen Studenten unterscheiden (Daten in Tabelle 2.1). Von
allen n = 71 Werten ergibt sich der Median ~ x = 8 (z› Abbildung 3.2). Unter
Berücksichtigung des Geschlechts erhält man folgende Vierfeldertafel:
≤~x >~ x ƶ
Männer 12 11 23
Frauen 24 24 48
ƶ 36 35 71
Aus diesen Häufigkeiten ergibt sich eine Prüfgröße von
71 ⋅ (12 ⋅ 24 − 11 ⋅ 24) 2
χ2 = = 0,029
23 ⋅ 48 ⋅ 36 ⋅ 35
Dieser Wert ist wesentlich kleiner als χ12;0,95 = 3,841 – ein Unterschied ist
nicht nachzuweisen. Wer hätte etwas Anderes erwartet? Der p-Wert ist
0,8639. Übrigens: Man könnte diese Fragestellung auch mit dem U-Test von
Mann und Whitney überprüfen; damit ergibt sich p = 0,8770.
236 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

Der Median-Test hat gegenüber dem t-Test und dem U-Test den
Vorteil, dass er gleiche Verteilungsformen der Zufallsvariablen nicht
voraussetzt. Der Median-Test kann auch dann benutzt werden,
wenn die Verteilungen der Stichproben ungleich oder unbekannt
sind. Wenn jedoch die Voraussetzungen des t-Tests oder des U-Tests
erfüllt sind, sollte man diese wegen der höheren Power bevorzugen.

12.2.3 Der Chi2-Test für k ⋅ A Felder


Dies ist eine Verallgemeinerung des Vierfelder-Unabhängigkeitstests
dahingehend, dass die beiden betrachteten Merkmale nicht nur je-
weils zwei, sondern k Ausprägungen A1 ,..., Ak bzw. A Ausprägun-
gen B1 ,..., BA aufweisen. Dann erhält man bei der Darstellung der
Häufigkeiten eine Kontingenztafel mit k ⋅ A Feldern im Innern. Die
Nullhypothese besagt, dass kein Zusammenhang zwischen den bei-
den Merkmalen besteht.
Dieser Test funktioniert nach dem bereits beschriebenen Prin-
zip: Es werden die beobachteten mit den erwarteten Häufigkeiten
verglichen. Seien nij die Anzahl der Stichprobenelemente mit der
Ausprägungskombination Ai und B j und eij die unter H0 erwarte-
ten Häufigkeiten. Dann berechnet sich die Prüfgröße als
k A
( nij − eij ) 2
χ2 = ¦¦ (12.4)
i =1 j =1
eij

Sie hat (k − 1) ⋅ (A − 1) Freiheitsgrade (dies bedeutet, dass man im In-


nern der Kontingenztafel (k − 1) ⋅ (A − 1) Häufigkeiten unter Beibehal-
tung der Randsummen ändern kann). Die erwarteten Häufigkeiten
eij berechnet man aus den Randsummen. Kritische Werte in
12 Abhängigkeit der Anzahl der Freiheitsgrade findet man in Tabelle E
(z› Anhang).
Dieser Test lässt sich auch auffassen als ein Homogenitätstest: Er
überprüft, ob ein Merkmal mit A Ausprägungen in k Stichproben
homogen verteilt ist. In jedem Fall wird vorausgesetzt, dass die er-
warteten Häufigkeiten mindestens 5 betragen (oder dass zumindest
der Anteil der erwarteten Häufigkeiten, die kleiner als 5 sind, 20 %
nicht überschreitet). Wenn diese Bedingung nicht erfüllt ist, kann
man versuchen, dies durch Zusammenlegen von mehreren Ausprä-
gungen oder Klassen zu erreichen. Ersatzweise kann man den exak-
ten Test nach Fisher anwenden (z › Abschnitt 12.3).
237 12
12.2 Chi2-Tests

i Es gibt eine Variante dieses Tests (Mantel-Haenszel-Test), die sich eignet,


z
› [10]).
wenn eines der beiden Merkmale ordinal skaliert ist (z

12.2.4 Assoziationsmaße für qualitative Merkmale


Mit dem Chi2-Unabhängigkeitstest lässt sich die Existenz einer Asso-
ziation zwischen zwei nominal skalierten Merkmalen nachweisen.
Über dessen Stärke macht das Testergebnis jedoch keine Angaben. Es
wurden mehrere Assoziationskoeffizienten entwickelt, um die
Stärke eines solchen Zusammenhangs zu quantifizieren.
• Phi-Koeffizient. Er eignet sich, um den Zusammenhang zwischen
„
zwei Alternativmerkmalen zu beschreiben und ist definiert als:

χ2
φ= (12.5)
n
Dieser Koeffizient ist 0 bei vollkommener Unabhängigkeit der
Merkmale. Falls b = c = 0 , nimmt φ den Wert 1 an (wie sich leicht
anhand der Formel (12.3) nachvollziehen lässt). In diesem Fall kann
man nämlich aufgrund eines Merkmals das andere präzise vorhersa-
gen. Ansonsten ist φ kleiner als 1. Der Phi-Koeffizient ist signifikant
größer als 0, falls das Ergebnis des Vierfeldertests signifikant ist.

Beispiel 12.4
In einer klinisch-kontrollierten Studie werden jeweils 50 Patienten mit einem
neuen Medikament bzw. mit dem herkömmlichen Standardmedikament be-
handelt. Die Therapien sind in a = 35 (neu) bzw. c = 25 (Standard) Fällen er-
folgreich und demnach in b = 15 bzw. d = 25 Fällen nicht erfolgreich. Mit
einem Chi2-Test erhält man: χ 2 = 4,1667 und p = 0, 0412 . Die Stärke des Zu-
sammenhangs wird quantifiziert durch φ = 4,1667 /100 = 0,204 . Der

Yule’sche Assoziationskoeffizient beträgt Q = 0,40 ; die Odds Ratio ist 2,33 (z
Abschnitt 3.4.2). Der Zusammenhang ist zwar signifikant, aber eher schwach.
Die Differenz der Erfolgsraten beträgt 20 %; das 95%-Konfidenzintervall liegt
zwischen 1,2 % und 38,8 %.

• Cramérs Index. Dieses Maß (vorgestellt im Jahre 1946) ist eine


„
Verallgemeinerung von φ für k ⋅ A -Kontingenztafeln:

χ2
CI = (12.6)
n ⋅ ( R − 1)
238 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

wobei R = min(k , A) . Es ist leicht nachvollziehbar, dass dieser Index


für R = 2 mit φ identisch ist.
„• Kontingenzkoeffizient von Pearson. Dieser im Jahre 1904 vorge-
stellte Koeffizient ist das älteste und bekannteste Assoziationsmaß:

χ2
CC = (12.7)
n + χ2

Es lässt sich nachweisen, dass der Maximalwert von CC gleich


Cmax = ( R − 1) / R ist. Ein Nachteil dieses Koeffizienten ist, dass er 1
nie erreichen kann und deshalb schwer zu interpretieren ist.

12.2.5 Der McNemar-Test


Dies ist ein Häufigkeitstest für zwei verbundene Stichproben, die
hinsichtlich eines Alternativmerkmals zu vergleichen sind. Diese
treten beispielsweise dann auf, wenn Patienten mit zwei verschiede-
nen Therapien nacheinander behandelt werden und das Merkmal
„Therapieerfolg“ mit den Ausprägungen „ja“ und „nein“ untersucht
wird. Der Stichprobenumfang n lässt sich folgendermaßen aufteilen:

Tabelle 12.4 Vierfeldertafel beim McNemar-Test

Stichprobe 1
A A
A a b
Stichprobe 2
A c d

12 Die Nullhypothese besagt: Die Stichproben stimmen bezüglich der


Häufigkeitsverteilung überein. Das bedeutet, dass a + b = a + c oder
einfacher: b = c . Die Häufigkeiten, die für die Gleichheit der Stich-
proben sprechen, sind a und d. Die Häufigkeiten b und c repräsentie-
ren Unterschiede. Je mehr diese vom Durchschnittswert (b + c) / 2
abweichen, desto mehr spricht für die Alternativhypothese. Der Test
wird nach folgendem Prinzip durchgeführt:
ŷ Zunächst werden die Häufigkeiten der Vierfeldertafel ermittelt.
ŷ Danach berechnet man die Prüfgröße nach:
(b − c ) 2
χ2 = (12.8a)
b+c
239 12
12.2 Chi2-Tests

ŷ Falls der Wert der Prüfgröße mehr als χ12;1−α beträgt, wird die
Alternativhypothese angenommen.
Die Prüfgröße nach (12.8a) wird für b + c ≤ 30 durch eine
Stetigkeitskorrektur etwas verkleinert:

( b − c − 1) 2
χ2 = (12.8b)
b+c
Im Übrigen setzt auch dieser Test voraus, dass die erwartete Häufig-
keit (b + c ) / 2 mindestens 5 beträgt.
i Die Stetigkeitskorrektur ist erforderlich, weil die Häufigkeiten b und c
z
diskrete Werte darstellen, während χ2 eine stetige Variable ist. In der Li-
teratur werden unterschiedliche Stetigkeitskorrekturen vorgeschlagen. In
jedem Fall wird dadurch die Prüfgröße etwas verkleinert, um zu ver-
hindern, dass man allzu leichtfertig die Nullhypothese ablehnt.

Beispiel 12.5
Bei 20 Patienten wird ein schmerzstillendes Präparat (Verum) mit einem Pla-
cebo verglichen. Jeder Patient wird mit beiden Therapien behandelt, wobei
zwischen den Behandlungsphasen eine längere, therapiefreie Phase liegt. Die
Patienten wissen nicht, wann sie mit dem Placebo bzw. dem Verum behandelt
werden. Sie beurteilen die Wirkung folgendermaßen:
Wirkung des Placebos
schwach stark
Wirkung schwach a=3 b=2
des Verums stark c = 11 d =4
( 2 − 11 − 1) 2
Als Prüfgröße berechnet man: χ 2 = = 4,923 > 3,841 .
2 + 11
Der p-Wert ist 0,0265. Deshalb wird die Alternativhypothese angenommen.
Das Verum zeigt in 15 von 20 Fällen eine starke Wirkung, das Placebo nur 6
Mal. Das Konfidenzintervall für diese Wirkungsdifferenz ist [0,17 ; 0,73].

Mathematische Herleitung der Chi2-Prüfgröße beim McNemar-Test


Unter der Nullhypothese wird für jede der beiden Häufigkeiten b und c der
Wert (b + c ) / 2 erwartet. Dann berechnet man die Prüfgröße nach (12.3) als:
2 2
§ b+c· § b+c·
¨b − ¸ + ¨c − ¸
2 © 2 ¹ © 2 ¹
χ =
b+c
2
Nach Ausmultiplizieren und Addieren erhält man die Formel (12.8a).
240 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

Abschließend noch einige Hinweise zum McNemar-Test:


„• Nullhypothese: Es wird nicht behauptet, dass es überhaupt keine
Unterschiede zwischen den Stichproben gibt (in diesem Fall wäre zu
erwarten, dass die Häufigkeiten b und c gleich 0 sind). Die Null-
hypothese besagt lediglich, dass unterschiedliche Beurteilungen in
beiden Richtungen (Verum besser bzw. Placebo besser) gleich häufig
sind, sodass man unter der Nullhypothese b = c erwarten würde.
• Stichprobenumfang: In die Berechnung der Prüfgröße fließt
„
nicht der volle Stichprobenumfang ein, sondern lediglich die Häufig-
keiten b und c. Allerdings kommt im Konfidenzintervall für die
Differenz (z› Beispiel 12.5) der gesamte Umfang n zur Geltung.
• Verallgemeinerung auf qualitative Merkmale: Der McNemar-
„
Test setzt ein Alternativmerkmal voraus. Bei einem Merkmal mit
mehr als zwei Ausprägungen entsteht anstelle der Vierfeldertafel
eine Matrix. Der Symmetrietest von Bowker [5] überprüft, ob diese
Matrix symmetrisch ist.
• Verallgemeinerung auf mehrere verbundene Stichproben: Wenn
„
Patienten mehrfach nacheinander auf ein Alternativmerkmal hin
untersucht werden, bietet sich der Q-Test von Cochran an [5].

12.2.6 Der Chi2-Anpassungstest


Mit einem Anpassungstest wird überprüft, ob die empirische Ver-
teilung einer Stichprobe vereinbar ist mit einer vermuteten, theore-
tischen Verteilung. Dabei kann jede Verteilung, die dem inhaltli-
chen Problem angemessen ist, vorgegeben werden. Wie bei allen
Chi2-Tests werden auch bei einem Anpassungstest die beobachteten
12 mit den erwarteten Häufigkeiten verglichen.
Die erwarteten Häufigkeiten werden berechnet, indem man –
unter Annahme einer theoretischen Verteilung – für jede Ausprä-
gung (Klasse oder Gruppe) die entsprechende Wahrscheinlichkeit
bestimmt und diesen Wert mit dem Stichprobenumfang multipli-
ziert. Die Anzahl der Freiheitsgrade beträgt f = k − 1 − r . Dabei ist k
die Anzahl der gegebenen Klassen. Diese Anzahl wird um 1 redu-
ziert, weil generell eine Restriktion durch den Stichprobenumfang
gegeben ist. Außerdem wird die Anzahl der Freiheitsgrade einge-
schränkt durch die Anzahl r der Parameter, die zur Berechnung der
erwarteten Häufigkeiten erforderlich sind. Die Anzahl der Freiheits-
grade ist also auch abhängig von der Verteilung, die man unter der
Nullhypothese zugrunde legt:
241 12
12.2 Chi2-Tests

ŷ Gleichverteilung: f = k −1
ŷ Poissonverteilung: f = k −2
Hier wird ein Parameter – nämlich der Erwartungswert λ –
über den Mittelwert der Stichprobe geschätzt; daher ist r = 1 .
ŷ Normalverteilung: f = k −3
Diese Verteilung ist durch r = 2 Parameter – nämlich den
Erwartungswert und die Varianz – charakterisiert.

Beispiel 12.6
Wir greifen zurück auf das Beispiel 7.6, in dem Erythrozyten unter dem Mik-
roskop gezählt werden. Bei 80 Versuchen werden zwischen 0 und 12 Erythro-
zyten pro Zählkammer gefunden. In der folgenden Tabelle sind für jede An-
zahl k mit 0 ≤ k ≤ 12 die beobachteten Häufigkeiten angegeben. Es soll ge-
prüft werden, ob diese Werte mit der Annahme einer Poissonverteilung ver-
einbar sind. Zunächst wird aus den gegebenen Häufigkeiten ein Mittelwert
berechnet, der als Schätzer für den Erwartungswert λ = 5,9125 dient. Mit der
Formel (7.21) lassen sich für alle k die theoretischen Wahrscheinlichkeiten be-
rechnen. Daraus ergeben sich (indem man sie mit 80 multipliziert) die erwar-
teten Häufigkeiten. Da diese mindestens 5 betragen müssen, werden die drei
ersten und die drei letzten Klassen zusammengefasst, so dass insgesamt 9
Klassen resultieren. Die Nullhypothese lautet: Die Anzahl der Erythrozyten in
einer Zählkammer folgt einer Poisson-Verteilung.

beobachtete erwartete
k ( B − E )2 / E Die Anzahl der
Häufigkeit B Häufigkeit E
Freiheitsgrade ist
0–2 5 5,28 0,01475
9 − 2 = 7 . Es gilt
3 7 7,46 0,02785
χ72;0,90 = 12,017
4 11 11,02 0,00004
(Tab. E, Anhang).
5 12 13,03 0,08167
Da die berechnete
6 16 12,84 0,77682
Prüfgröße kleiner
7 10 10,85 0,06607
ist, wird die Null-
8 7 8,02 0,12884
hypothese beibe-
9 5 5,27 0,01346
halten. Der p-Wert
10 – 11 7 5,61 0,34337
beträgt 0,99318.
Summe 80 79,37 χ 2 = 1,45287

Ein Anpassungstest wird in der Regel verwendet, um zu überprüfen,


ob man eine bestimmte Verteilung annehmen darf. Häufig wird ein
solcher Test vor der Anwendung des t-Tests eingesetzt, um empiri-
sche Daten dahingehend zu überprüfen, ob sie aus einer normalver-
teilten Grundgesamtheit entstammen. In diesen besonderen Fällen
ist man daran interessiert, die Nullhypothese beizubehalten. Also ist
man bemüht, den β-Fehler möglichst klein zu halten. Dieser ist je-
242 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

doch im Gegensatz zum α-Fehler schwer abschätzbar. Eine Möglich-


keit, indirekt Einfluss auf den β-Fehler zu nehmen, besteht darin,
den α-Fehler zu vergrößern. Deshalb ist es üblich, bei einem Anpas-
sungstest α = 0,10 festzulegen und die Alternativhypothese erst für
p > 0,10 anzunehmen. Man muss sich immer wieder klar machen,
dass das Testergebnis eines Anpassungstests auf Normalverteilung,
das zur Beibehaltung der Nullhypothese führt, keinesfalls als Beweis
zu werten ist, dass die Grundgesamtheit tatsächlich normalverteilt
ist. Man sollte hier nur vorsichtige Formulierungen verwenden wie
etwa: „Nichts spricht gegen die Normalverteilung der Grundgesamt-
heit“.
i Bei stetigen Verteilungen bietet sich als Alternative zum Chi2-Anpas-
z
sungstest der Kolmogoroff-Smirnov-Test an. Er beruht auf dem Vergleich
einer empirischen Verteilungsfunktion mit der Verteilungsfunktion einer
theoretischen Verteilung (z. B. der Normalverteilung). Für kleine Stich-
proben ist der Kolmogoroff-Smirnov-Test besser geeignet als der Chi2-
Anpassungstest (z› [10]).

12.2.7 Der Logranktest


Schließlich sei noch der ebenfalls auf der Chi2-Verteilung basierende
Logrank-Test erwähnt, der zum Vergleich von Überlebenszeiten an-
gewandt wird. Dabei werden die Überlebensfunktionen S1 (t ) und
S2 (t ) zweier (oder mehrerer) unverbundener Stichproben vergli-
chen. Das Besondere an diesem Test ist, dass auch zensierte Daten
(die häufig bei Überlebenszeitstudien auftreten; z › Abschnitt 2.4) an-
gemessen berücksichtigt werden.
Mit dem Logranktest wird beispielsweise überprüft, ob sich eine
Therapie oder ein prognostischer Faktor auf die Überlebenszeit oder
12 allgemein auf die Zeit bis zum Eintreten eines bestimmten Ender-
eignisses auswirkt. Ein Beispiel für die Darstellung einer Überlebens-
zeitkurve findet man in Abschnitt 16.2.3 (z › Abbildung 16.1). Um
zwei Kurven zu vergleichen, ermittelt man zunächst die Anzahl der
aufgetretenen Endereignisse b1 und b2 in den Stichproben; außer-
dem berechnet man die Anzahl der Endereignisse e1 und e2 , die
man erwarten würde, wenn die beiden Kurven identisch wären. Die
Teststatistik für den Logranktest ist:

(b1 − e1 ) 2 (b2 − e2 ) 2
χ2 = + (12.9)
e1 e2
243 12
12.3 Der exakte Test nach Fisher

Die Häufigkeiten b1 und b2 werden durch einfaches Zählen ermit-


telt. Die Berechnung der Erwartungshäufigkeiten ist komplizierter.
Dazu betrachtet man beide Stichproben gemeinsam und notiert die
Zeitpunkte ti ( i = 1,..., k ), zu denen in einer der beiden Stichproben
ein Endereignis stattfindet und die Anzahl der dazugehörenden
Ereignisse d i . Dann ist
k k
n1i n 2i
e1 = ¦ d i ⋅ e2 = ¦ d i ⋅ (12.10)
i =1 n1i + n2i i =1 n1i + n2i

n1i und n2i sind die Beobachtungseinheiten der 1. bzw. der 2. Stich-
probe, die zum Zeitpunkt ti noch leben. Die Quotienten
n1i /( n1i + n2i ) und n2i /( n1i + n2i ) entsprechen den Anteilen in der je-
weiligen Stichprobe.
Der Logranktest ist auch anwendbar auf mehr als zwei Überle-
benskurven. Detaillierte Erläuterungen dazu findet man in [11].

12.3 Der exakte Test nach Fisher

Wenn die Voraussetzungen des Vierfelder-Tests oder auch des Chi2-


Tests für k ⋅ A Felder nicht erfüllt sind (wenn die erwarteten Häufig-
keiten zu klein sind), kann man alternativ Fisher’s exakten Test ver-
wenden. Dieser Test heißt „exakt“, weil der p-Wert als Prüfgröße
direkt berechnet wird. Er funktioniert im Vierfelderfall nach folgen-
dem Prinzip:
ŷ Man ordnet die Vierfeldertafel so an, dass die kleinste Häufigkeit
oben links steht (sie entspricht dann der Häufigkeit a). Die
Wahrscheinlichkeit für diese Situation berechnet sich nach:

( a + b)!( c + d )!( a + c )!(b + d )!


P= (12.11)
n !⋅ a !⋅ b !⋅ c !⋅ d !

ŷ Falls diese Wahrscheinlichkeit größer ist als α, ist der Test been-
det – die Nullhypothese wird beibehalten.
ŷ Ansonsten bildet man für noch extremere Situationen weitere
Vierfeldertafeln, indem man unter Beibehaltung der Randsum-
men die Häufigkeit a schrittweise jeweils um 1 reduziert, bis
man a = 0 erhält. Für jede dieser Situationen berechnet sich die
Einzelwahrscheinlichkeit nach (12.11).
244 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

ŷ Die so berechneten Einzelwahrscheinlichkeiten werden aufad-


diert. Deren Summe gibt an, wie groß die Wahrscheinlichkeit
ist, die Ausgangssituation oder eine noch extremere Situation zu
erhalten. Bei der einseitigen Fragestellung entspricht dies dem p-
Wert.
ŷ Bei einer zweiseitigen Fragestellung wird der p-Wert der
einseitigen Fragestellung verdoppelt. Ein anderer Ansatz besteht
darin, die Einzelwahrscheinlichkeiten für jede Tabelle, die theo-
retisch unter Beibehaltung der Randhäufigkeiten möglich ist, zu
berechnen und dann alle Einzelwahrscheinlichkeiten, die ma-
ximal so groß sind wie die Wahrscheinlichkeit der gegebenen
Tabelle, aufzuaddieren.
ŷ Falls der berechnete p-Wert kleiner ist als α, wird die Nullhypo-
these zugunsten der Alternativhypothese abgelehnt.

Beispiel 12.7
Zwei Gruppen von Patienten werden bezüglich einer neuen Therapie vergli-
chen. Es soll getestet werden, ob sich die Misserfolgsquoten der beiden Thera-
pien unterscheiden (zweiseitige Fragestellung). Es ergeben sich folgende
Häufigkeiten:
Misserfolg Erfolg
Therapie 1 a=0 b=8 8
8!⋅ 8!⋅ 5!⋅ 11!
Therapie 2 c=5 d =3 8 P( a = 0) = = 0,0128
16!⋅ 0!⋅ 8!⋅ 5!⋅ 3!
5 11 16
Eine ebenso extreme Situation wäre gegeben, wenn a = 5 und c = 0 ; auch in
diesem Fall wäre P( a = 5) = 0,0128 . Die Summe dieser beiden Wahrschein-
lichkeiten ergibt 0,0256 < 0,05 . Also wird die Nullhypothese für α = 5%
abgelehnt.

i Bei der zweiseitigen Fragestellung kann man den p-Wert nach zwei
12 z
Ansätzen ermitteln (siehe oben); diese Werte werden sich in aller Regel
nur marginal unterscheiden.

Fisher’s exakter Test kann nicht nur für Vierfeldertafeln, sondern


theoretisch für beliebig große k ⋅ A -Kontingenztafeln angewandt
werden. Allerdings ist er dann rechnerisch sehr aufwendig, sodass
selbst ein leistungsstarkes Statistikprogramm mitunter lange Zeit be-
nötigt, um den p-Wert zu ermitteln.
245 12
12.4 Ausblick auf die logistische Regression

Mathematische Herleitung der Wahrscheinlichkeiten bei Fisher’s exaktem


Test
Es sind n Beobachtungseinheiten (z. B. Patienten) gegeben; davon haben
a + c eine bestimmte Eigenschaft (z. B. Therapie nicht erfolgreich). Von n
Patienten werden zufällig a + b (z. B. für Therapie 1) ausgewählt; davon ha-
ben a Patienten einen Misserfolg. Unter der Nullhypothese folgt a einer hy-
pergeometrischen Verteilung HG  ( a + b; n, a + c) . Mit (7.27) berechnet
man:
§ a + c· § n − a − c · § a + c· §b + d ·
¨¨ ¸⋅¨ ¸ ¨ ¸⋅¨ ¸
a ¸¹ ¨© a + b − a ¸¹ ¨© a ¸¹ ¨© b ¸¹
P( X = a) = © =
§ n · § n ·
¨¨ ¸¸ ¨¨ ¸¸
© a + b ¹ © a + b¹
Nach Einsetzen der Binomialkoeffizienten ergibt sich (12.11).

12.4 Ausblick auf die logistische Regression

In Abschnitt 11.4.2 wurde das Allgemeine Lineare Modell vorge-


stellt, mit dem der Einfluss mehrerer qualitativer und quantitativer
Merkmale auf eine quantitative Zielgröße untersucht werden kann.
Bei derlei Zielgrößen handelt es sich meist um Messwerte aus dem
klinischen Alltag, aus dem Labor oder um Zeitmessungen.
In der medizinischen Forschung hat man es häufig jedoch auch
mit qualitativen, oft auch mit einfachen Alternativmerkmalen als
Zielgrößen zu tun. Dies betrifft Fragestellungen, die sich mit „ja“
oder „nein“ beantworten lassen, wie zum Beispiel „Therapie erfolg-
reich“, „Krankheit bricht aus“ oder „Patient überlebt“. Am Ende lie-
gen zwei Gruppen vor, die zu vergleichen sind. Um diese Gruppen
bezüglich eines qualitativen Merkmals zu testen, verwendet man in
der Regel den in diesem Kapitel vorgestellten Chi2-Test oder Fisher’s
exakten Test; bei einem quantitativen Merkmal bietet sich der t-Test
oder der U-Test an (z › Kapitel 11).
Mit diesen Tests lassen sich Unterschiede zwischen den Gruppen
absichern; allerdings können damit keine Wahrscheinlichkeiten für
ein bestimmtes Endereignis berechnet werden. Außerdem handelt es
sich um einfache Tests, die nur den Einfluss eines einzigen Merkmals
berücksichtigen.
Die logistische Regression ist ein multiples Verfahren, mit dem
es möglich ist, die Wahrscheinlichkeit für das Auftreten eines be-
stimmten Endereignisses basierend auf mehreren Einflussgrößen zu
modellieren. Diese Einflussgrößen können sowohl qualitativ als auch
246 Kapitel 12 · Tests zum Vergleich von Häufigkeiten

quantitativ sein. Im einfachsten Fall ist die Zielgröße binär; es ist je-
doch auch möglich, ordinal oder nominal skalierte Zielgrößen mit
mehreren Ausprägungen zu untersuchen. Bei diesem Verfahren wird
eine mathematische Gleichung aufgestellt, mit der die Wahrschein-
lichkeit für das Auftreten eines Ereignisses A (z. B. „Die Therapie ist
erfolgreich“) in Abhängigkeit von mehreren signifikanten Einfluss-
größen für jeden Einzelfall geschätzt werden kann:

exp(a0 + a1 x1 + ... + a k xk )
P ( A) = (12.12)
1 + exp(a0 + a1 x1 + ... + ak xk )

Diese auf den ersten Blick seltsam scheinende Formel gewährleistet,


dass in jedem Fall eine Wahrscheinlichkeit ermittelt wird, die zwi-
schen 0 und 1 liegt. Nominal skalierte Merkmale lassen sich durch
Dummy-Variablen darstellen (z › Beispiel 2.5). Die Güte des Modells
wird wesentlich bestimmt durch die in das Modell aufgenommen
Variablen. Diese Wahl muss sowohl unter statistischen als auch
unter medizinisch-fachlichen Aspekten erfolgen. Die Berechnung
der Regressionskoeffizienten ai ist ohne eine leistungsstarke Sta-
tistiksoftware kaum durchführbar.
Die logistische Regression ist in der medizinischen Forschung sehr
vielseitig verwendbar. Ausführliche Informationen und weitere Hin-
weise zur Analyse von kategorialen Daten findet man in [1] und [2].

12
13

Epidemiologische Studien
13.1 Aufgaben und Ziele der Epidemiologie 249

13.2 Der Inhalt epidemiologischer Studien 250

13.3 Klassifikation nach formalen Aspekten 251


13.3.1 Deskriptiv versus analytisch 251
13.3.2 Transversal versus longitudinal 252
13.3.3 Retrospektiv versus prospektiv 252
13.3.4 Beobachtend versus experimentell 254
13.3.5 Monozentrisch versus multizentrisch 255

13.4 Fehlerquellen 255


13.4.1 Zufällige Fehler 255
13.4.2 Systematische Fehler 256

13.5 Die Studienplanung 258


13.5.1 Die Bedeutung der Planung 258
13.5.2 Komponenten der Planung 259
249 13
13.1 Aufgaben und Ziele der Epidemiologie

13.1 Aufgaben und Ziele der Epidemiologie

Die Epidemiologie ist die Lehre von der Entstehung und der
Verbreitung von Krankheiten und deren Bekämpfung (z › Abschnitt
6.3). Dieser Begriff bezog sich ursprünglich nur auf Infektionser-
krankungen. Mittlerweile befasst sich die Epidemiologie generell mit
allen Erkrankungen, die von allgemeinem Interesse sind (beispiels-
weise mit Diabetes mellitus oder Krebserkrankungen). Die Aufgaben
und Ziele der Epidemiologie sind vielfältig. Sie umfassen:
ŷ das Untersuchen der Verbreitung von Krankheiten in einer
Population;
ŷ das Erkennen der Ursachen und Risikofaktoren einer Krankheit;
ŷ das Untersuchen des natürlichen Verlaufs einer Krankheit und
die Bestimmung relevanter prognostischer Faktoren;
ŷ die Evaluation präventiver, diagnostischer und therapeutischer
Maßnahmen.
Aufgrund der Erkenntnisse, die aus epidemiologischen Studien re-
sultieren, werden Grundlagen für gesundheitspolitische Entschei-
dungen geschaffen. Im Gegensatz zu anderen medizinischen Diszip-
linen ist in der Epidemiologie nicht eine einzelne Person Gegenstand
des Interesses, sondern eine größere Population. Dennoch profitie-
ren sowohl die Ärzte als auch die Patienten von den Ergebnissen
epidemiologischer Studien. Es gehört nämlich zum Berufsbild jedes
praktisch tätigen Arztes, Risiken zu erkennen und die Patienten ent-
sprechend zu beraten, Diagnosen zu stellen, geeignete Therapien an-
zuordnen, Präventionsmaßnahmen durchzuführen und den Verlauf
einer Krankheit zu prognostizieren.
Um die Aussagen epidemiologischer Studien umsetzen zu kön-
nen, ist es wichtig, dass jeder Mediziner deren Struktur, Stärken und
Einschränkungen versteht. Nur so kann er sinnvolle und nachvoll-
ziehbare Entscheidungen treffen.
! Der Inhalt der Kapitel 13 bis 16 bezieht sich nicht nur auf groß angelegte
z
epidemiologische und klinische Studien, sondern ist für kleinere For-
schungsvorhaben (etwa Doktorarbeiten) ebenso relevant.
250 Kapitel 13 · Epidemiologische Studien

Übersicht 9: Studientypen

Studientypus Einflussgrößen Zielgrößen Abschnitt


Risikofaktoren (z. B. Um-
weltfaktoren, genetische Krankheit,
Risikostudie Kap. 14
oder verhaltensbedingte Tod
Faktoren)
Ergebnis eines dia-
Diagnosestudie Krankheitsstatus 15.1
gnostischen Tests
präventive Maßnahme
Präventionsstudie Krankheit 15.2
(Impfen oder Screening)
Therapieform (Arznei, Wirkung einer
Therapiestudie 16.1
chirurg. Eingriff, Diät) Therapie
Endzustand (Hei-
lung, Remission,
Krankheit oder andere Progression, Tod);
Prognosestudie 16.2
prognostische Faktoren Zeit bis zum Ein-
treten eines Ereig-
nisses

13.2 Der Inhalt epidemiologischer Studien

Epidemiologische Studien werden in der Regel als beobachtende


Studien (z› Abschnitt 13.3.4) an einer größeren Population durchge-
führt. Sie lassen sich nach inhaltlichen Aspekten in folgende Grup-
pen einteilen:
„• Risikostudien. Diese Studien haben zum Ziel zu klären, ob ein
ätiologischer Faktor das Auftreten einer Krankheit beeinflusst. Sie
können retrospektiv als Fall-Kontroll-Studie oder prospektiv als
Kohortenstudie durchgeführt werden. Risikostudien können aber
auch als Querschnittstudie oder als Populationsstudie angelegt sein.
13 In jedem Fall handelt es sich um Beobachtungsstudien. In Kapitel 14
wird ausführlich auf die verschiedenen Designs eingegangen.
„• Diagnosestudien. Der Gegenstand dieser Studien sind diagnosti-
sche Tests, die dazu dienen, erkrankte Personen von nicht erkrank-
ten zu trennen. Ziel dieser Studien ist das Ermitteln der Sensitivität
und Spezifität eines diagnostischen Verfahrens. In Abschnitt 15.1
wird dieser Studientypus vorgestellt.
251 13
13.3 Klassifikation nach formalen Aspekten

• Präventionsstudien. Sie haben zum Ziel, den Nutzen einer


„
präventiven Maßnahme (z. B. einer Impfung oder eines Früherken-
nungsprogramms) zu evaluieren. In Abschnitt 15.2 wird dieses
Thema erörtert.
„• Therapiestudien. Im weiteren Sinne zählen zu epidemiologischen
Studien auch Therapiestudien, die allerdings meist nicht als beob-
achtende, sondern als randomisierte klinische Studien durchgeführt
werden. Dabei werden zwei oder mehr Patientengruppen, die un-
terschiedlich therapiert werden, miteinander verglichen. Diese Stu-
dien haben im Gegensatz zu den oben genannten Studientypen ex-
perimentellen Charakter. Detaillierte Erläuterungen findet man in
Abschnitt 16.1.
• Prognosestudien. Auch diese Studien werden – ebenso wie Thera-
„
piestudien – an erkrankten Patienten durchgeführt. Sie sind in der
Regel als Beobachtungsstudien angelegt. Häufig wird dabei der
zeitliche Verlauf einer Krankheit bis zu einem bestimmten Ender-
eignis (z. B. Tod oder Heilung eines Patienten) untersucht. Dieses
Thema ist Gegenstand des Abschnitts 16.2.

13.3 Klassifikation nach formalen Aspekten

Epidemiologische Studien lassen sich formal nach folgenden Aspek-


ten klassifizieren:

13.3.1 Deskriptiv versus analytisch


„• Deskriptive Studien. Diese Studien sind rein beschreibend. Die
zugrunde liegenden Daten werden ausgewertet, ohne dass ein zeitli-
cher oder kausaler Zusammenhang zwischen mehreren Merkmalen
hergeleitet werden kann. Beispiele hierfür sind Register (etwa
Krebsregister, Geburten- oder Sterberegister). Außerdem zählen zu
diesem Studientypus Fallberichte, Fallserien und Querschnittstudien
(z› Abschnitt 14.2).
Deskriptive Studien können nur Hinweise auf Auffälligkeiten
und mögliche Zusammenhänge geben. Diese sollten dann im Rah-
men einer analytischen Studie überprüft werden.
„• Analytische Studien. Wichtige Erkenntnisse der epidemiologi-
schen Forschung basieren auf analytischen Studien (z. B. Fall-Kon-
› Abschnitte 14.3 und 14.4). In
troll-Studien oder Kohortenstudien, z
252 Kapitel 13 · Epidemiologische Studien

derlei Studien geht es darum, einen Zusammenhang zwischen einer


Zielgröße und einer (oder mehreren) Einflussgrößen inhaltlich her-
zuleiten und statistisch abzusichern.
Die Übergänge zwischen deskriptiven und analytischen Studien sind
fließend. Wenn verschiedene Register miteinander verknüpft wer-
den (so genannte ökologische Studien, z› Abschnitt 14.2.4), kann die
deskriptive Studie in eine analytische übergehen. Häufig bilden die
Erkenntnisse aus einer einfachen, deskriptiven Studie die Basis für
eine nachfolgende, analytische Studie.

13.3.2 Transversal versus longitudinal


„• Transversale Studien. Eine transversale Studie (oder Querschnitt-
studie) ist eine Momentaufnahme einer Population, bei der eine oder
mehrere Eigenschaften der Studienteilnehmer erfasst werden. Ein-
fachste Transversalstudien sind etwa Fallserien (z› Abschnitt 14.2.2).
Ein anderes Beispiel für diese Studienform ist eine Prävalenzstu-
die (z› Abschnitt 14.2.3), bei der die Prävalenz einer Krankheit zu
einem bestimmten Zeitpunkt festgestellt wird. Möglicherweise wer-
den dabei noch weitere Merkmale erfasst (z. B. ob die Studienteil-
nehmer einem besonderen Risikofaktor ausgesetzt sind). Man kann
dann zwar versuchen, einen statistischen Zusammenhang zwischen
Krankheit und Risikofaktor herzuleiten; kausale oder zeitliche Zu-
sammenhänge können jedoch nicht nachgewiesen werden.
Transversale Studien eignen sich für Zustandsbeschreibungen,
jedoch nicht, um zeitliche Abläufe zu untersuchen. Sie sind über-
wiegend deskriptiv.
• Longitudinale Studien. Diese Studien (auch Längsschnittstudien
„
genannt) haben zum Ziel, einen zeitlichen Verlauf zu beschreiben
oder einen zeitlichen Zusammenhang herzuleiten. Sie sind insofern
analytisch. Dazu zählen Fall-Kontroll-Studien, Kohortenstudien und
13 › Abschnitte 14.3, 14.4 und 16.1).
klinisch kontrollierte Studien (z
Longitudinale Studien lassen sich außerdem danach unterscheiden,
ob sie retrospektiv oder prospektiv ausgerichtet sind.

13.3.3 Retrospektiv versus prospektiv


• Retrospektive Studien. Retrospektiv heißt „zurückblickend“. Man
„
ermittelt bei einer retrospektiven Studie zunächst die Ausprägungen
einer bestimmten Zielgröße und versucht dann, die Ausprägungen
253 13
13.3 Klassifikation nach formalen Aspekten

einer oder mehrerer Einflussgrößen zu erfassen. Das Paradebeispiel


sind Fall-Kontroll-Studien, bei denen eine Gruppe erkrankter Perso-
nen (Fälle) mit einer Gruppe nicht erkrankter (Kontrollen) dahinge-
hend verglichen wird, ob und welchen Risikofaktoren die Teilneh-
mer in der Vergangenheit ausgesetzt waren (z › Abschnitt 14.3).
Bei retrospektiven Studien sind die relevanten Ereignisse zu
einem Zeitpunkt geschehen, als die konkrete Fragestellung der Stu-
die noch gar nicht vorlag. Die Daten sind entweder dokumentiert
(etwa in Krankenakten) oder müssen durch Befragungen (Inter-
views, Fragebogen) erhoben werden.
Der Vorteil dieser Studienart liegt auf der Hand: Man braucht
nicht auf das Eintreten der interessierenden Endereignisse zu war-
ten, und kann deshalb relativ schnell Ergebnisse erhalten. Dem ste-
hen jedoch mitunter gravierende Nachteile gegenüber, die in erster
Linie die Datenqualität betreffen. Es besteht im Nachhinein keine
Möglichkeit, auf die Auswahl der Beobachtungseinheiten und der zu
erfassenden Merkmale sowie auf die Mess- und Dokumentations-
techniken Einfluss zu nehmen. Unvollständige oder falsche Angaben
in Krankenblättern (z. B. Arzneimittelanamnese, klinische Befunde)
lassen sich in der Regel nicht ergänzen oder korrigieren (oft bleiben
sie gänzlich unbemerkt). Wenn man Personen nach zurückliegen-
den Ereignissen befragt, ist man auf deren Erinnerungsvermögen an-
gewiesen und kann keinesfalls sicher sein, korrekte und vollständige
Informationen zu erhalten.
Retrospektive Studien (insbesondere Fall-Kontroll-Studien) kön-
nen wertvolle Hinweise auf mögliche Zusammenhänge liefern. Ge-
gebenenfalls sind sie der Anlass zu einer nachfolgenden prospektiven
Studie. Sie lassen sich – sofern man sich auf vollständig und richtig
erfasste Daten stützen kann – auch bei der Qualitätskontrolle einset-
zen (z. B. um den Erfolg einer therapeutischen Maßnahme oder die
Häufigkeiten von Komplikationen zu ermitteln).
„• Prospektive Studien. Prospektiv bedeutet „vorausschauend“. Bei
diesen Studien ermittelt man zunächst die Einflussgrößen und war-
tet ab, bis das interessierende Endereignis eintritt. Die Untersu-
chungsrichtung ist somit logischer als bei retrospektiven Studien.
Prospektive Studien sind üblicherweise so angelegt, dass sich die
Daten überwiegend nach Studienbeginn ergeben. Der Versuchsleiter
hat dabei Kontrollmöglichkeiten bezüglich der Stichprobe, der zu er-
fassenden Merkmale, der Messmethoden und der Dokumentation.
Dem Vorteil der hohen Datenqualität steht als Nachteil ein erhöhter
Zeitbedarf gegenüber.
254 Kapitel 13 · Epidemiologische Studien

Kohortenstudien sind die bekanntesten prospektiven Studien. Risiko-


und Prognosestudien werden häufig als Kohortenstudien durchge-
führt (z› Abschnitte 14.4 und 16.2). Auch Experimente und rando-
› Abschnitt 16.1) sind pro-
misierte Studien (z. B. Therapiestudien, z
spektiv angelegt.
! Die Begriffe „prospektiv“ und „retrospektiv“ werden vielfach auch dazu
z
verwendet, die Art der Datenerhebung zu beschreiben. Eine prospektive
Studie bezeichnet dabei ein Design, bei dem die Daten erst nach Studien-
beginn erhoben werden, während bei einer retrospektiven Studie die
Daten zu Studienbeginn bereits erfasst worden sind. Diese unterschiedli-
chen Bedeutungen sind manchmal etwas verwirrend – etwa bei der Be-
zeichnung „retrospektive Kohortenstudie“ (z › Abschnitt 14.4.5). Deren
Untersuchungsrichtung ist prospektiv (da von den Einflussgrößen auf die
Zielgröße geschlossen wird), die Art der Datenerhebung ist jedoch retro-
spektiv.

13.3.4 Beobachtend versus experimentell


„• Beobachtende Studie. Der Versuchsleiter nimmt in Bezug auf die
interessierenden Eigenschaften der Untersuchungseinheiten eine
passive Rolle ein – er beobachtet, dokumentiert und wertet die Da-
ten aus. Er greift aber nicht aktiv in das Geschehen ein, und er ver-
sucht nicht, die Studienteilnehmer zu beeinflussen. Beobachtende
Studien können sehr einfach und rein deskriptiv konzipiert sein
(z. B. als Fallserie). Sie können jedoch auch als Longitudinalstudie
angelegt sein und – wenn mehrere Merkmale erfasst und analysiert
werden – wertvolle Hinweise auf mögliche Zusammenhänge geben
und damit analytischen Charakter annehmen (z. B. Fall-Kontroll-
Studie oder Kohortenstudie). Studien zu Risiken, Diagnose und
Prognose sind in aller Regel als beobachtende Studien angelegt (z ›
Kapitel 14, Abschnitte 15.1 und 16.2).
„• Experimentelle Studie. Bei einem Experiment (oder einer
13 Interventionsstudie) gibt der Versuchsleiter die Ausprägungen der
Einflussgrößen zumindest teilweise vor. Im Mittelpunkt steht dabei
meist eine nicht-menschliche Population (z. B. Tiere oder Zellkultu-
ren). Experimentelle Studien sind in jedem Fall analytisch und pro-
spektiv. Der Versuchsleiter hat optimale Einflussmöglichkeiten auf
die Stichproben, die Datenerhebung und -auswertung.
Experimente in der Humanmedizin sind ethisch nicht unproble-
matisch und werden deshalb selten durchgeführt. Eine Ausnahme
stellen randomisierte klinische Studien dar, bei denen die Art der
Therapie vom Versuchsleiter vorgegeben wird (z › Abschnitt 16.1).
255 13
13.4 Fehlerquellen

13.3.5 Monozentrisch versus multizentrisch


• Monozentrische Studie. Bei monozentrischen Studien werden die
„
Patienten oder Probanden aus einer einzigen Institution (z. B. einer
Klinik) rekrutiert.
„• Multizentrische Studie. Bei seltenen Krankheiten mag es schwie-
rig sein, in einer einzigen Klinik eine ausreichende Zahl von Teil-
nehmern zu gewinnen. In diesen Fällen bieten sich multizentrische
Studien an, bei denen Patienten aus mehreren Einrichtungen zu-
sammengefasst und gemeinsam analysiert werden.

13.4 Fehlerquellen

Sowohl zufällige als auch systematische Fehler können ein Ergebnis


beeinflussen. Systematische Fehler werden auch Bias genannt.

13.4.1 Zufällige Fehler


Zufällige Fehler sind durch die Variabilität der Studienteilnehmer
bedingt:
ŷ Interindividuelle Variabilität. Bei mehreren Beobachtungsein-
heiten erhält man beim Messen eines bestimmten Parameters
(z. B. des Blutdrucks) bekanntlich unterschiedliche Ergebnisse –
auch dann, wenn die zu untersuchende Stichprobe eine weitge-
hend homogene Population darstellt.
ŷ Intraindividuelle Variabilität. Selbst bei einer einzigen Beob-
achtungseinheit ergeben sich beim Messen einer Größe unter
ähnlichen Bedingungen (etwa zu verschiedenen Zeitpunkten)
unterschiedliche Werte.
Da sich diese Variabilitäten nicht eliminieren lassen, sind zufällige
Fehler generell nicht vermeidbar. Sie lassen sich aber bei einer sorg-
fältigen Versuchsplanung kontrollieren und reduzieren.
Bei der Behandlung der Schätzmethoden in Kapitel 9 wurde da-
rauf hingewiesen, dass ein hoher Stichprobenumfang und eine ge-
ringe Streuung der Daten dazu beitragen, den zufälligen Fehler klein
zu halten. Man sollte deshalb darauf achten, dass die Stichproben be-
züglich wichtiger Einflussgrößen homogen sind. Dies lässt sich errei-
chen durch:
256 Kapitel 13 · Epidemiologische Studien

• Selektion. Man wählt die Stichprobe nur aus einem bestimmten


„
Teil der Grundgesamtheit aus. Die Ergebnisse sind dann allerdings
nur eingeschränkt auf diese spezielle Population übertragbar.
„• Stratifizierung (Schichten oder Blockbildung). Man fasst mehrere
Beobachtungseinheiten, die sich bezüglich eines oder mehrerer
Merkmale ähneln, in einer Schicht zusammen (etwa nach Ge-
schlecht oder Alter). Innerhalb einer solchen homogenen Schicht ist
der zufällige Fehler reduziert; Unterschiede in der Zielgröße sind
dann klarer erkennbar.
Der zufällige Fehler lässt sich anhand eines Konfidenzintervalls kon-
trollieren. Während der p-Wert die Irrtumswahrscheinlichkeit
quantifiziert (also die Wahrscheinlichkeit dafür, dass ein nachge-
wiesener Effekt nur zufällig zustande gekommen ist), informiert das
Konfidenzintervall über die Größe dieses Effekts. Je heterogener die
Stichprobe ist, desto ungenauer ist die Schätzung und desto breiter
ist das Konfidenzintervall (z › Abschnitt 9.4.1). Es ist günstig, wenn
die Zielgröße exakt messbar ist und eine geringe Streuung aufweist.

13.4.2 Systematische Fehler


Während zufällige Fehler das Ergebnis einer Studie unsicher ma-
chen, verfälschen systematische Fehler (Bias) ein Versuchsergebnis
in eine bestimmte Richtung und verleiten zu fehlerhaften Schlüssen.
Es gibt eine Vielzahl von Bias-Quellen. Die meisten davon lassen
sich jedoch einer der folgenden Kategorien zuordnen:
„• Systematische Erfassungsfehler. Es versteht sich von selbst, dass
die Messgeräte einwandfrei funktionieren müssen, die Messverfah-
ren valide und die messende Person in der Lage sein sollte, mit dem
Gerät umzugehen.

13 „• Selektionsbias. Dieser Bias tritt auf, wenn sich mehrere zu


vergleichende Gruppen in wesentlichen Charakteristika unterschei-
den, die relevant für das Studienergebnis sind. Dieser Fall liegt bei-
spielsweise dann vor, wenn zwei Therapiegruppen verglichen wer-
den, wobei die Patienten der einen Gruppe nur leicht erkrankt sind
(z. B. ambulante Patienten), während die Patienten der anderen
Gruppe schwer erkrankt sind (z. B. stationäre Patienten). Da der
Schweregrad der Krankheit eine wichtige Determinante für die
Wirkung einer Therapie ist, könnte ein Vergleich der beiden Grup-
pen zu falschen Schlussfolgerungen verleiten.
257 13
13.4 Fehlerquellen

Ein Vergleich ist nur dann sinnvoll, wenn die Gruppen zu Beginn
der Studie strukturgleich sind. Bei Fall-Kontroll-Studien ist die
paarweise Zuordnung (Matchen), bei klinisch kontrollierten Studien

die Randomisation geeignet, strukturgleiche Gruppen zu erhalten (z
Abschnitte 14.3.3 und 16.1.3).
„• Informationsbias. Dieser Bias liegt vor, wenn die Methoden zur
Informationsgewinnung uneinheitlich sind. Er kann kontrolliert
werden, indem auf Beobachtungsgleichheit geachtet wird: Alle Un-
tersuchungseinheiten müssen von denselben Personen, im selben
Zeitraum und mit denselben Methoden beobachtet werden.
Bei klinischen Studien ist die Blindung das Mittel der Wahl.
Optimal ist eine doppelblinde Studie, bei der weder der untersu-
chende Arzt noch die Patienten über die Therapie im Einzelfall in-
formiert sind (z› Abschnitt 16.1.4). Dadurch sollen autosuggestive
Einflüsse auf beiden Seiten ausgeschaltet werden. Es ist ein Manko
multizentrischer Studien, dass die Beobachtungsgleichheit nur ein-
geschränkt gewährleistet werden kann.
„• Bias durch Confounder. Confounder sind verzerrende Störgrößen,
die den Zusammenhang zwischen der Einflussgröße und der Ziel-
größe verfälschen und somit adäquate Maßnahmen verhindern oder
fehlleiten können. Verzerrende Störgrößen stehen in Zusammen-
hang mit der Einflussgröße und wirken sich damit indirekt auch auf
die Zielgröße aus.
Ein einfaches Beispiel mag dies verdeutlichen: Innerhalb einer
Patientenkohorte mit einer hohen Letalität sollen Faktoren evaluiert
werden, die das Risiko zu sterben (Zielgröße) beeinflussen. Ziel der
Studie ist es, Präventionsmaßnahmen zu formulieren. Das Risiko zu
sterben ist bekanntlich auch vom Alter abhängig. Innerhalb einer
Kohorte sterben jedoch auch mehr nicht-verheiratete Patienten als
verheiratete. Da der Partnerstatus sowohl mit der Zielgröße „Tod“
als auch mit der Einflussgröße „Alter“ assoziiert ist (Patienten im
höheren Alter sind eher verwitwet und sterben früher), handelt es
sich um eine verzerrende Störgröße. Würde der Partnerstatus als
eine kausale Einflussgröße falsch gedeutet werden, könnte eine fehl-
geleitete Präventionsmaßnahme sein, bei Diagnose der Erkrankung
zu heiraten bzw. sich wieder zu verheiraten.
Systematische Fehler sind bei einer guten Versuchsplanung weitge-
hend vermeidbar. Insbesondere muss – wenn mehrere Gruppen zu
vergleichen sind – unbedingt auf Struktur- und Beobachtungs-
gleichheit geachtet werden.
258 Kapitel 13 · Epidemiologische Studien

13.5 Die Studienplanung

13.5.1 Die Bedeutung der Planung


Studien in der epidemiologischen und klinischen Forschung sind in
der Regel mit einem hohen organisatorischen, zeitlichen und finan-
ziellen Aufwand verbunden. Dies trifft auch – wenngleich in gerin-
gerem Maße – für Doktorarbeiten zu. Die Ergebnisse dieser Studien
werden in der Regel publiziert und dienen anschließend zahlreichen
Ärzten als Entscheidungshilfen bei der Behandlung ihrer Patienten.
Es ist daher essenziell wichtig, dass die Ergebnisse valide sind. Die
Güte und praktische Relevanz einer Studie lassen sich anhand von
zwei Kriterien beurteilen:
„• Interne Validität. Eine Studie ist intern valide, wenn deren
Ergebnisse und die daraus gezogenen Schlussfolgerungen für die Pa-
tienten, die an der Studie partizipierten, korrekt sind. Die interne
Validität ist unbedingt notwendig, aber nicht hinreichend dafür, dass
die Studie sinnvoll ist.
„• Externe Validität. Darunter versteht man die Generalisierbarkeit
oder die Verallgemeinerbarkeit der Studienergebnisse. Ein Arzt, der
die Ergebnisse einer Studie zur Kenntnis nimmt, möchte natürlich
wissen, ob und inwieweit diese auf seine Patienten übertragbar sind.
Eine Studie mit hoher interner Validität kann völlig in die Irre füh-
ren, wenn deren Ergebnisse auf die falschen Patienten übertragen
werden. Daher stellt sich die Frage: Für welches Patientenkollektiv
sind die Ergebnisse gültig? Kann man von der untersuchten Stich-
probe (z. B. Patienten mit Psoriasis in einer bestimmten Klinik) auf
die interessierende Grundgesamtheit schließen, und wie ist diese
beschaffen (etwa Psoriasis-Patienten in ganz Deutschland, Europa
oder gar weltweit)? Bei solchen Schlussfolgerungen muss man sehr
13 vorsichtig sein.
Die interne und die externe Validität und damit die Anwendbarkeit
einer Studie werden in hohem Maße von einer sorgfältigen und de-
taillierten Planung bestimmt.
! Der Imperativ einer guten Planung wird gerne vergessen, wenn es darum
z
geht, schnell Ergebnisse für eine Dissertation oder eine attraktive wissen-
schaftliche Tagung zu bekommen. Es ist sicherlich einfach, eine bekannte
Labormethode mechanisch an einer kleinen Stichprobe einzusetzen oder
für eine so genannte „klinische Doktorarbeit“ ohne wesentliche Vorbe-
reitungen staubige Krankenakten zu ziehen. Bei derlei Vorgehen kom-
259 13
13.5 Die Studienplanung

men jedoch zumeist nur schlechte Studien heraus. Auch spektakuläre Er-
gebnisse einer neuen Labormethode können nur kurz über ein mangel-
haftes Studiendesign hinwegtäuschen. Was nutzt es beispielsweise, Zyto-
kinpolymorphismen zu untersuchen, wenn keine Klarheit über die Re-
präsentativität der gewählten Stichprobe besteht? Was nutzen Unmengen
von aus Patientenakten entnommenen Daten, wenn keine Fragestellung
vorgegeben ist oder sich die vorgegebene Fragestellung damit nicht be-
antworten lässt?

13.5.2 Komponenten der Planung


Das Ziel einer Studie besteht im Allgemeinen darin, auswertbare
Daten zu gewinnen, die dazu dienen, eine vorgegebene Fragestellung
zu beantworten. Zu Beginn stehen folgende Überlegungen:
„• Ziel der Studie. Zunächst ist zu klären: Wie lautet die
Hauptfragestellung? Keine Studie sollte begonnen werden, wenn die
exakte Fragestellung nicht bekannt ist. Aufbauend auf eigenen oder
fremden Vorstudien muss dann die Fragestellung als Hypothese for-
muliert werden und theoretisch abgesichert werden.
„• Ziel- und Einflussgrößen. Die Ziel- und Einflussgrößen ergeben
sich inhaltlich aus der Fragestellung. Da die Einflussgrößen in funk-
tionalem Zusammenhang zur Zielgröße stehen, resultieren Erkennt-
nisse bezüglich der Zielgröße(n) aus den Einflussgrößen. Wenn
beispielsweise im Rahmen einer Kohortenstudie das Auftreten einer
bestimmten Erkrankung als Zielgröße untersucht wird, ist es sinn-
voll, relevante Risikofaktoren wie z. B. das Alter bei Eintritt in die
Kohorte oder die Familienanamnese mit zu berücksichtigen.
Natürlich ist es unmöglich, alle denkbaren Einflussgrößen zu er-
fassen. Bei deren Auswahl muss man abwägen zwischen dem, was
wünschenswert ist und dem, was praktisch realisierbar erscheint. Je
mehr Merkmale berücksichtigt werden, desto aufwendiger wird die
Studie, desto komplexer sind die Analysemethoden und desto
schwieriger gestaltet sich die Interpretation der Ergebnisse. Es ist
deshalb sinnvoll, sich zunächst auf wenige Faktoren zu konzentrie-
ren. Außerdem ist es wichtig, alle Ziel- und Einflussgrößen und
deren Eigenschaften (u. a. die Skalenniveaus) genau anzugeben.
Antworten auf all diese Fragen sind nicht zuletzt abhängig davon, ob
die Daten bereits vorliegen (wie bei retrospektiven Studien) oder erst
nach Studienbeginn erhoben werden (wie bei den meisten
prospektiven Studien).
260 Kapitel 13 · Epidemiologische Studien

„• Wahl eines statistischen Modells. Jede Analysemethode ist nur


unter einschränkenden Voraussetzungen anwendbar; es werden also
bestimmte Eigenschaften der zu untersuchenden Merkmale ange-
nommen. Ein statistisches Modell kann die Wirklichkeit zwar nie-
mals vollständig widerspiegeln; es sollte sie aber unter bestmöglicher
Ausnutzung aller zur Verfügung stehenden Informationen optimal
beschreiben. Der Anwender eines statistischen Verfahrens muss sich
im Vorfeld überlegen, ob dessen Voraussetzungen erfüllt sind und ob
die Hypothesen der inhaltlichen Fragestellung angemessen sind.
Ein multiples Modell, bei dem mehrere Einflussgrößen simultan
ausgewertet werden, ermöglicht eine effizientere Datenanalyse und
liefert weit mehr Erkenntnisse als zahlreiche einfache Tests, die le-
diglich den Zusammenhang zwischen zwei Merkmalen überprüfen.
Bei der technischen Umsetzung einer komplexen Methode ist ein
leistungsstarkes Statistikprogramm notwendig und sinnvoll. Es emp-
fiehlt sich, frühzeitig den Rat eines Biomathematikers einzuholen.
Bei der Datenanalyse und der Interpretation der Ergebnisse sind so-
wohl medizinische als auch biomathematische Fachkenntnisse ge-
fragt.
„• Ethik. Nicht alles, was unter statistischen Gesichtspunkten sinn-
voll und machbar ist, ist auch ethisch vertretbar. Deshalb müssen
Studien, bei denen Patienten oder gesunde Probanden involviert
sind (insbesondere randomisierte Therapiestudien), von einer Ethik-
kommission begutachtet werden.
• Logistische Überlegungen. Ist die Studie unter den vorgegebenen
„
Bedingungen durchführbar? Stehen genügend Ressourcen an Zeit,
Geld, Personal etc. zur Verfügung? Kann die Anzahl der benötigten
Patienten in absehbarer Zeit rekrutiert werden? Sind die notwendi-
gen Messgeräte vorhanden und funktionieren sie einwandfrei?
Planungsfehler können zu einem späteren Zeitpunkt kaum noch
korrigiert werden. Deshalb ist es extrem wichtig, die oben angespro-
13 chenen Fragen im Vorfeld zu beantworten.
! Diese Tipps mögen sich bitte auch Doktoranden zu Herzen nehmen. Es
z
kommt leider immer wieder vor, dass Studenten mit großem Eifer eine
Dissertation beginnen und dann nach etlichen Monaten oder sogar Jah-
ren feststellen, dass die Arbeit so wie vorgesehen nicht durchzuführen
ist. Nur mit einer guten Versuchsplanung (und einem kompetenten Be-
treuer) lässt sich ein solches Desaster vermeiden. Detaillierte und nützli-
che Informationen zu diesem Thema findet man in [12].
14

Risikostudien
14.1 Einleitung 263
14.1.1 Die Bedeutung von Risikostudien 263
14.1.2 Wichtige Begriffe 264

14.2 Deskriptive Studien 264


14.2.1 Fallberichte 264
14.2.2 Fallserien 265
14.2.3 Prävalenzstudien 266
14.2.4 Populationsstudien 266

14.3 Fall-Kontroll-Studien 267


14.3.1 Grundlagen 267
14.3.2 Auswahl der Fälle und der Kontrollen 267
14.3.3 Matchen 268
14.3.4 Biasquellen 269
14.3.5 Die Odds Ratio 271
14.3.6 Anwendungen und Grenzen 272

14.4 Kohortenstudien 272


14.4.1 Grundlagen 272
14.4.2 Effektmaße 273
14.4.3 Inzidenzmaße 275
14.4.4 Biasquellen 276
14.4.5 Spezielle Kohortenstudien 276

14.5 Der Nachweis einer Kausalität 277


263 14
14.1 Einleitung

14.1 Einleitung

14.1.1 Die Bedeutung von Risikostudien


Viele Menschen haben ein großes Interesse daran zu erfahren, wel-
chen potentiellen Risikofaktoren sie ausgesetzt sind und wie hoch
gegebenenfalls ihr persönliches Risiko ist, eine bestimmte Krankheit
zu entwickeln. Für den Arzt kann die Kenntnis möglicher Risiko-
faktoren eines Patienten in mehrfacher Weise von Nutzen sein:
ŷ Vorhersage. Falls ein gesicherter Zusammenhang zwischen
einer Krankheit und einem ätiologischen Faktor besteht, lässt
sich im Einzelfall die Wahrscheinlichkeit für das Eintreten einer
Krankheit abschätzen.
ŷ Prävention. Sollte es sich um ein vermeidbares Risiko handeln
(z. B. Rauchen), kann der Arzt dem Patienten raten, seine Le-
bensweise zu ändern. Andernfalls (z. B. bei einem genetisch be-
dingten Faktor) kann er Vorsorgemaßnahmen treffen, um des-
sen Auswirkungen zu kontrollieren oder abzuschwächen.
ŷ Diagnose. Die Kenntnis, welcher Risikogruppe ein Patient ange-
hört, kann in einem diagnostischen Prozess sehr wichtig sein (z ›
Beispiel 6.16).
Das Wissen um Faktoren, die mit einer Krankheit assoziiert sind, ist
nicht zuletzt von gesundheitspolitischem Interesse. Falls eine grö-
ßere Population einem Risikofaktor ausgesetzt ist, kann dessen Be-
seitigung maßgeblich dazu beitragen, das Auftreten neuer Krank-
heitsfälle zu verhindern. Ignaz Philipp Semmelweis gelang es bei-
spielsweise um die Mitte des 19. Jahrhunderts, durch hygienische
Maßnahmen (das Personal musste sich mit Chlorkalk die Hände
desinfizieren) die durch Kindbettfieber verursachte Mortalität dras-
tisch zu senken. John Snow sorgte um das Jahr 1850 durch die
Schließung eines Brunnens dafür, dass die Bewohner eines Londoner
Bezirks nicht mehr an Cholera erkrankten.
Der Zusammenhang zwischen einer Erkrankung und einem
Risikofaktor ist jedoch meist nicht so klar und eindeutig. Viele
Krankheiten haben multiple Ursachen, und ein einzelner Faktor
(z. B. Rauchen) begünstigt nicht nur das Auftreten einer, sondern di-
verser Krankheiten. Andere Gründe liegen in der langen Latenzzeit
vieler Krankheiten (z. B. Krebs) oder deren geringer Inzidenz. Ein
praktisch tätiger Arzt ist daher auf Studien angewiesen, in denen der
Einfluss eines Risikofaktors untersucht und beschrieben wird.
264 Kapitel 14 · Risikostudien

14.1.2 Wichtige Begriffe


Zunächst soll die Bedeutung einiger häufig verwendeter Begriffe
dargelegt werden.
„• Risiko. Darunter versteht man die Wahrscheinlichkeit eines
unerwünschten Ereignisses. Häufig benutzte Risiken in der Medizin
› Abschnitt 6.3).
sind die Inzidenz und die Mortalität (z
„• Risikofaktoren oder ätiologische Faktoren. Dies sind Merkmale,
die mit einem erhöhten Erkrankungsrisiko assoziiert sind. Risiko-
faktoren können erblich sein oder aus dem Umfeld stammen (etwa
Erreger von Infektionskrankheiten oder Umweltgifte). Andere sind
sozial geprägt (z. B. psychische Belastungen) oder verhaltensbedingt
(z. B. Rauchen, Alkoholkonsum).
„• Exposition. Eine Person gilt als exponiert, wenn sie mit einem
Risikofaktor in Kontakt gekommen ist oder mit ihm behaftet ist. Die
Exposition kann zu einem einzelnen Zeitpunkt stattfinden (z. B.
Kontakt mit einem Infektionserreger); sie kann sich aber auch über
einen längeren Zeitraum oder die gesamte Lebenszeit eines Men-
schen erstrecken. Beispiele hierfür sind Jahre langer Zigarettenkon-
sum oder die Expression eines Gens, die das Auftreten einer be-
stimmten Krankheit begünstigt.
Im Folgenden werden diverse Studientypen vorgestellt, mit denen
sich Zusammenhänge zwischen Risikofaktoren und Krankheitsbil-
dern nachweisen lassen – angefangen bei Fallberichten einfachster
Art bis hin zu groß angelegten, aufwendigen Kohortenstudien.

14.2 Deskriptive Studien

14.2.1 Fallberichte
Ein Fallbericht ist eine ausführliche Beschreibung eines interessan-
14 ten Einzelfalls oder einiger weniger Fälle. Er eignet sich:
ŷ um Krankheitsbilder, die erstmals beobachtet werden, einer aka-
demischen Öffentlichkeit vorzustellen,
ŷ um einen Hinweis auf einen möglichen Risikofaktor der
beschriebenen Erkrankung zu geben,
ŷ um ungewöhnliche oder typische Manifestationen einer Krank-
heit zu beschreiben.
265 14
14.2 Deskriptive Studien

Fallberichte beinhalten bedingt durch die niedrige Patientenanzahl


keine statistische Analyse. Dem Leser eines solchen Berichts fällt es
mitunter schwer zu beurteilen, ob hier eine relevante Neuentde-
ckung (etwa ein bislang unbekannter Zusammenhang zwischen
einem ätiologischen Faktor und einer Krankheit) oder nur ein zufäl-
liges Zusammentreffen mehrerer seltener Ereignisse beschrieben
wird.
Diverse Krankheitsbilder wurden aufgrund eines Fallberichts be-
kannt. So gab es in den 1980er Jahren aufgrund eines Berichtes über
das Auftreten von Kaposisarkomen bei jungen männlichen Homo-
sexuellen in New York erste Hinweise auf eine neue Infektion.
Demnach können Fallberichte Anhaltspunkte auf mögliche Zu-
sammenhänge zwischen einem Krankheitsbild und einem potentiel-
len Risikofaktor liefern – insbesondere dann, wenn aufgrund eines
solchen Berichts weitere, ähnlich gelagerte Fälle bekannt werden.
Der vermutete Zusammenhang muss dann im Rahmen einer größe-
ren, nachfolgenden Studie überprüft werden.

14.2.2 Fallserien
Eine Fallserie unterscheidet sich von einem Fallbericht durch die
Anzahl der involvierten Patienten. Es handelt sich um eine einfache
deskriptive Studie an einer größeren Gruppe von Personen, die an
einer bestimmten Krankheit leiden und darüber hinaus einige Be-
sonderheiten aufweisen. So hat beispielsweise im Jahre 1941 ein Chi-
rurg aus New Orleans namens Alton Ochsner (1896-1981) eine Fallse-
rie veröffentlicht, in der er nachwies, dass fast alle in den USA an
Lungenkrebs operierten Patienten Raucher waren. Er stellte darauf-
hin die Hypothese auf, dass Rauchen mit Lungenkrebs assoziiert sei.
Dies war damals eine umstrittene Hypothese, die mittlerweile auf-
grund weiterer Studien eindrucksvoll bestätigt wurde. Das Beispiel
zeigt, dass Fallserien durchaus in der Lage sind, Hypothesen zu gene-
rieren. Es ist auch möglich, einfache statistische Maßzahlen zu er-
mitteln.
Das große Manko von Fallserien ist das Fehlen einer Vergleichs-
gruppe. Ochsner konnte nur aufgrund der ihm bekannten Tatsache,
dass andere Leute weit weniger rauchen als die von ihm beschriebe-
nen Patienten, seine Hypothese aufstellen. Allerdings reichen zu
deren Bestätigung Fallserien nicht aus.
266 Kapitel 14 · Risikostudien

14.2.3 Prävalenzstudien
Eine Prävalenzstudie ist eine Querschnittstudie, in der bei jedem
Teilnehmer erfasst wird, ob er an einer bestimmten Erkrankung lei-
det und ob er exponiert ist. Ein Beispiel bestünde darin, die Mitglie-
der einer Population danach zu untersuchen, ob sie eine koronare
Herzkrankheit haben und ob gleichzeitig ihr Blutdruck erhöht ist.
Der Anteil der Erkrankten entspricht der Prävalenz. Man kann mit
einer geeigneten Analysemethode (z. B. einem Chi2-Test) untersu-
chen, ob ein statistischer Zusammenhang zwischen der Exposition
und der Krankheit besteht und diesen mittels eines Assoziations-
maßes wie der Odds Ratio quantifizieren (z › Abschnitt 3.4.2). Wenn
eine Assoziation nachgewiesen wird, sollte dieses Ergebnis jedoch
vorsichtig interpretiert werden:
ŷ Die Prävalenz ist kein Maß für das Risiko, die Krankheit zu
entwickeln.
ŷ Es werden nur Personen erfasst, die die Krankheit überlebt ha-
ben. Todesfälle bleiben unberücksichtigt. Fälle, bei denen ein
schneller Heilerfolg eintritt, sind meist unterrepräsentiert.
ŷ Mit dieser Studienform lässt sich nicht direkt nachweisen, dass
die Exposition der Krankheit vorausging.
Prävalenzstudien sind überwiegend deskriptiv. Sie sind keineswegs
ausreichend, zeitliche oder kausale Zusammenhänge abzusichern; sie
können allenfalls Hinweise liefern. In erster Linie eignen sie sich zur
Erfassung von chronischen Krankheiten.

14.2.4 Populationsstudien
Populationsstudien unterscheiden sich von anderen Risikostudien
dadurch, dass nicht Individuen untersucht, sondern Gruppen oder
Länder zugrunde gelegt werden. Andere Bezeichnungen sind aggre-
gative, ökologische oder Korrelationsstudien. Ein Beispiel stellt eine
Studie dar, in der nachgewiesen wurde, dass eine gegensinnige Kor-
relation zwischen dem Weinkonsum eines Landes und der kardialen
14 Mortalität besteht. In Italien und in Frankreich, wo traditionsgemäß
viel Wein getrunken wird, ist diese Mortalität wesentlich niedriger
als etwa in Australien und den USA, wo der Weinkonsum deutlich
geringer ist.
Populationsstudien können Hinweise auf mögliche Zusam-
menhänge geben. Es ist jedoch problematisch, dass ein Bias durch
Confounding nicht ausgeschlossen werden kann.
267 14
14.3 Fall-Kontroll-Studien

14.3 Fall-Kontroll-Studien

14.3.1 Grundlagen
Bei diesem Studientypus werden Fälle (Patienten, die an einer be-
stimmten Krankheit leiden) und Kontrollen (Personen, die von die-
ser Krankheit nicht betroffen sind) bezüglich eines oder mehrerer
ätiologischer Faktoren miteinander verglichen. Fall-Kontroll-Stu-
dien sind retrospektiv und analytisch. Die Untersucher eruieren
durch Befragungen, anhand von Patientenakten oder dokumentier-
ten Laborbefunden für jeden Fall und für jede Kontrolle, ob die
betreffende Person in der Vergangenheit exponiert war. Es bietet
sich an, nicht nur einen, sondern mehrere potentielle Risikofaktoren
zu untersuchen.

14.3.2 Auswahl der Fälle und der Kontrollen


Die Fälle werden meist aus Kliniken oder aus Arztpraxen rekrutiert.
Es ist sinnvoll, neu diagnostizierte Fälle in die Studie aufzunehmen
(Inzidenzfälle). Wenn die Patienten bereits seit längerer Zeit er-
krankt sind (Prävalenzfälle), besteht die Gefahr, dass überwiegend
Langzeitüberlebende berücksichtigt werden. Es ist ferner wichtig,
darüber nachzudenken, für welche Population die Fallgruppe reprä-
sentativ ist.
Die Auswahl der Kontrollen ist weitaus schwieriger. Einerseits
sollten die Kontrollen den Fällen ähneln, damit Vergleiche zwischen
den Gruppen sinnvoll erscheinen. Andererseits sollte die Kontroll-
gruppe repräsentativ für alle nicht erkrankten Personen der Popula-
tion sein, um Rückschlüsse zu ermöglichen. Selbstverständlich darf
unter den Kontrollen niemand an der zu untersuchenden Krankheit
leiden. Es wurden mehrere Strategien entwickelt, um Kontrollen zu
rekrutieren:
ŷ Populationsbasierter Ansatz. Die Kontrollen wählt man aus der
Allgemeinbevölkerung. Im Idealfall geschieht dies in Form einer
Zufallsstichprobe, etwa anhand zufällig ausgewählter Telefon-
nummern. Problematisch ist jedoch, dass diese Personen im All-
gemeinen wenig Interesse an der Studie haben und daher häufig
nicht kooperativ sind. Ferner ist zu bedenken, dass diese Kon-
trollen zwar repräsentativ für die Allgemeinbevölkerung sein
mögen, dass sie aber nicht ohne weiteres mit den Fällen ver-
gleichbar sind.
268 Kapitel 14 · Risikostudien

ŷ Krankenhausbasierter Ansatz. Diese Form bietet sich an, wenn


es sich bei den Fällen um Patienten eines Krankenhauses han-
delt. Die Kontrollen werden in der Regel nicht zufällig aus den
Krankenhaus-Patienten ausgewählt. Man versucht vielmehr
durch Matchen (z › Abschnitt 14.3.3) zu erreichen, dass sich die
Gruppen der Fälle und der Kontrollen bezüglich wichtiger Ein-
flussfaktoren ähneln. Bei diesem Ansatz ist darauf zu achten,
dass die Diagnose der Kontrollen mit dem zu untersuchenden
Risikofaktor nicht assoziiert sein sollte. Wenn etwa ein Zusam-
menhang zwischen einer Krebsart und Rauchen nachgewiesen
werden soll und als Kontrollgruppe Patienten mit koronarer
Herzkrankheit gewählt würden, könnten sich unter den Kon-
trollen (ebenso wie unter den Fällen) überdurchschnittlich viele
Raucher befinden. Es wäre dann schwierig, den interessierenden
Zusammenhang abzusichern. Allerdings stellt sich beim Kran-
kenhaus-basierten Ansatz das Problem, dass die Kontrollen nicht
unbedingt repräsentativ für die Allgemeinbevölkerung sind.
Eine weitere Schwierigkeit entsteht mitunter dadurch, dass
nicht alle Krankenhausärzte motiviert sind, ihre Patienten als
Kontrollen zur Verfügung zu stellen und die Kontrollen selbst
ebenfalls nicht immer großes Interesse an der Studie haben.
ŷ Kontrollen aus dem Umfeld der Fälle. Manchmal ist es sinnvoll,
zu jedem Fall den Partner, ein Geschwister oder einen Freund
als Kontrollperson heranzuziehen. Es ist anzunehmen, dass diese
Kontrollen in vielen Eigenschaften mit dem passenden Fall
übereinstimmen (z › paarweises Matching, Abschnitt 14.3.3).
ŷ Mehrere Kontrollgruppen. Eine andere Strategie besteht darin,
mehrere Kontrollgruppen unterschiedlicher Herkunft zu wählen
und diese Kontrollen miteinander zu vergleichen. Systematische
Fehler aufgrund der Auswahl der Kontrollen sind dann eher er-
kennbar. Diese Vorgehensweise ist freilich entsprechend auf-
wendig.

14.3.3 Matchen
14 Eine potentielle Schwierigkeit bei Fall-Kontroll-Studien ist gegeben,
wenn sich die beiden Gruppen – Fälle und Kontrollen – außer be-
züglich der zu untersuchenden Risikofaktoren in anderen wichtigen
Eigenschaften unterscheiden. Wenn beispielsweise die Fälle im
Durchschnitt wesentlich älter sind als die Kontrollen und außerdem
mehr Fälle einer Exposition ausgesetzt waren, lässt sich nicht zwei-
felsfrei erkennen, ob die Krankheit durch die Exposition oder durch
269 14
14.3 Fall-Kontroll-Studien

das höhere Alter verursacht wurde. Dieses Problem kann dadurch


gelöst werden, dass nach wichtigen Kriterien (z. B. dem Alter) ge-
matcht wird. Man unterscheidet:
„• Paarweises (individuelles) Matching. Dabei wird für jeden
Einzelfall eine passende Kontrolle gesucht, die mit dem Fall in eini-
gen relevanten Merkmalen übereinstimmt. Auf diese Weise erhält
man strukturgleiche Gruppen bezüglich der gematchten Merkmale.
Diese Methode wird üblicherweise angewandt, wenn die Kontrollen
aus Krankenhauspatienten ausgewählt werden. Häufig erfolgt die
paarweise Zuordnung nach Geschlecht und Alter. Wenn Geschwis-
ter als Kontrollen herangezogen werden, wird automatisch nach ge-
netischen Faktoren gematcht. Bei Partnern als Kontrollen wird nach
sozio-ökonomischen Status gematcht.
„• Gruppen-Matching. Bei diesem Ansatz wird die Kontrollgruppe
so zusammengestellt, dass die Häufigkeitsverteilungen eines be-
stimmten Merkmals bei den Fällen und den Kontrollen annähernd
identisch sind. Wenn beispielsweise die Gruppe der Fälle aus 70 %
Männern besteht, versucht man, eine Kontrollgruppe zu rekrutieren,
bei denen der Anteil der Männer ebenso hoch ist.
Die Faktoren, nach denen sinnvollerweise gematcht wird, sind ab-
hängig von der Fragestellung. Folgendes ist zu beachten:
ŷ Praktische Probleme entstehen, wenn nach zu vielen Faktoren
gematcht werden soll. Es ist dann schwierig oder gar vollkom-
men unmöglich, passende Kontrollen zu rekrutieren.
ŷ Konzeptionelle Probleme ergeben sich dadurch, dass ein Merk-
mal, nach dem gematcht wurde, nicht mehr als potentieller Risi-
kofaktor evaluiert werden kann. Wenn beispielsweise in der
Fall- und der Kontrollgruppe die Altersverteilung identisch ist,
kann nicht mehr überprüft werden, ob das Alter in Zusammen-
hang mit der Krankheit steht. Deshalb sollte nur nach bereits
bekannten Risikofaktoren gematcht werden.

14.3.4 Biasquellen
Fall-Kontroll-Studien sind anfällig für diverse systematische Fehler:
ŷ Selektionsbias. Dieser Fehler tritt auf, wenn sich die Fall- und
die Kontrollgruppe in wesentlichen Eigenschaften (außer der zu
untersuchenden Krankheit) unterscheiden. Dies könnte das
Endresultat der Studie entscheidend beeinflussen. Matching ist
270 Kapitel 14 · Risikostudien

eine Methode, diesem Bias zu begegnen. Falls dies nicht möglich


ist, sollte man versuchen, diesen Bias durch eine geschickte sta-
tistische Analyse (z. B. eine logistische Regression) aufzudecken.
ŷ Informations-Bias 1. Eine Fall-Kontroll-Studie birgt in sich die
Gefahr eines Recall-Bias, eine besondere Form des Informati-
onsbias. Fälle, die von der Krankheit unmittelbar betroffen sind,
können sich an zurückliegende Ereignisse oft besser erinnern als
Kontrollen. Eine Mutter, die ein krankes Kind zur Welt gebracht
hat (z › Beispiel 14.2), wird sich an außergewöhnliche Ereignisse
zu Beginn ihrer Schwangerschaft wesentlich besser entsinnen als
eine Mutter mit einem gesunden Baby, die derlei Vorkommnisse
möglicherweise längst vergessen hat. Dies könnte zu einer Über-
schätzung eines Risikofaktors führen und zu falschen Schlussfol-
gerungen verleiten.
ŷ Informations-Bias 2. Eine andere Art von Informationsbias liegt
vor, wenn Partner oder Freunde als Kontrollen fungieren oder
anstelle der Fälle (z. B. nach deren Tod) befragt werden. Sie ten-
dieren häufig dazu, negative Eigenschaften „ihres Falles“ zu
verschweigen oder zu verharmlosen. Auch betroffene Fälle ge-
ben nicht immer uneingeschränkt die Wahrheit preis – etwa
wenn ihnen Fragen gestellt werden, die sie als peinlich empfin-
den.
ŷ Bias durch Confounder. Diese Gefahr ist bei Fall-Kontroll-Stu-
dien besonders groß. Wenn ein statistischer Zusammenhang
zwischen einer Krankheit und einem ätiologischen Faktor nach-
gewiesen wird, folgt daraus nicht notwendigerweise, dass dieser
Zusammenhang kausal ist. Es könnte sich auch um einen Con-
founder handeln. Ein solcher Einflussfaktor wird auch als Risi-
koindikator bezeichnet. Er weist auf ein erhöhtes Risiko hin, ist
aber selbst nicht für das Entstehen einer Krankheit verantwort-
lich.
Beispiel 14.1
Alkohol ist als Risikofaktor für das Auftreten einer Psoriasis (Schuppenflechte)
identifiziert. Ein mit dem Alkoholkonsum assoziierter Faktor ist der Nikotin-
14 konsum. Wenn in einer Fall-Kontroll-Studie nachgewiesen wird, dass Niko-
tinkonsum in Zusammenhang mit Psoriasis steht, mag es nahe liegend er-
scheinen, diese Assoziation als kausal anzusehen. In Wirklichkeit ist das Rau-
chen jedoch ein Confounder oder Risikoindikator. Präventionsmaßnahmen,
die auf eine Verringerung des Nikotinkonsums ausgelegt wären, würden nicht
zu einer Reduktion der Neuerkrankungen an Psoriasis führen.
271 14
14.3 Fall-Kontroll-Studien

14.3.5 Die Odds Ratio


„• Statistische Analyse. Im einfachsten Fall untersucht man den Zu-
sammenhang zwischen zwei Alternativmerkmalen (z › Beispiel 14.2).
Geeignete Methoden, um einen solchen Zusammenhang abzusi-
chern, sind der Chi2-Vierfeldertest oder Fisher’s exakter Test (z› Ab-
schnitte 12.2.1 und 12.3). Bei Fall-Kontroll-Studien ist es üblich,
zusätzlich die Odds Ratio als Annäherung für das relative Risiko an-
gegeben. Diese Maßzahl berechnet sich basierend auf den Häufig-
› Abschnitt 3.4.2):
keiten der Vierfeldertafel als (z

ad
OR =
bc
Die Odds Ratio ist 1, falls kein Zusammenhang zwischen der Er-
krankung und der Exposition besteht. Sie ist größer als 1, wenn
mehr Fälle als Kontrollen exponiert sind. Um beurteilen zu können,
ob der Zusammenhang signifikant ist, sollte zusätzlich ein Konfi-
denzintervall angeben werden.
Beispiel 14.2
Wir betrachten eine (hypothetische) Studie, in der 50 Frauen, die ein missge-
bildetes Baby zur Welt gebracht hatten (Fälle), befragt wurden, ob sie zu Be-
ginn ihrer Schwangerschaft ein bestimmtes Medikament eingenommen hat-
ten. Ihnen wurden 50 Frauen gegenübergestellt, die ein gesundes Baby gebo-
ren hatten (Kontrollen) und ebenfalls befragt. Es ergab sich folgendes Bild:
Medikament Daraus berechnet man: OR = 9,333 .
Fälle Kontrollen Dies impliziert, dass Frauen, die dem
genommen
ja a = 35 b = 10 Risikofaktor ausgesetzt waren, ein
nein c = 15 d = 40 9,3-fach erhöhtes Risiko hatten.
Das Konfidenzintervall erstreckt sich zwischen 3,72 und 23,42. Mit dem Chi2-
Vierfeldertest erhält man p < 0,0001 . Damit ist der Zusammenhang zumin-
dest statistisch abgesichert.

i Die Odds Ratio quantifiziert das Verhältnis zwischen zwei Odds. Der
z
englische Begriff „Odds“ hat die Bedeutung von Gewinnchancen bei
Wetteinsätzen. Die „Chance“ der Fallgruppe, einem Risiko ausgesetzt ge-
wesen zu sein, ist a / c ; bei den Kontrollen ist diese „Chance“ b / d . Der
Quotient dieser beiden Odds ist die Odds Ratio.

Bei paarweisem Matchen verwendet man anstelle des Vierfeldertests


den McNemar-Test (z › Abschnitt 12.2.5). Die Odds Ratio wird in
diesem Fall als der Quotient b / c bestimmt (wobei b die Anzahl der
Paare, bei denen der Fall exponiert und die Kontrolle nicht expo-
272 Kapitel 14 · Risikostudien

niert ist und c die Anzahl der Paare, bei denen es umgekehrt ist).
Wenn mehr als ein potentieller Risikofaktor zu analysieren ist, bietet
sich die Logistische Regression an. Diese multiple Methode ist ins-
besondere bei Fall-Kontroll-Studien sehr mächtig:
ŷ Mehrere Einflussgrößen (qualitative und auch quantitative wie
etwa das Alter) können simultan analysiert werden;
ŷ die Wirkung einer Einflussgröße lässt sich adjustieren (so kön-
nen mögliche Confounder erkannt werden);
ŷ für jede Einflussgröße lässt sich die dazugehörende Odds Ratio
mit Konfidenzintervall berechnen.

14.3.6 Anwendungen und Grenzen


Fall-Kontroll-Studien sind unverzichtbar für die Erforschung von
Risikofaktoren. Ein immenser Vorteil liegt darin, dass man nicht
Jahre oder Jahrzehnte lang warten muss, bis man genügend „Fälle“
rekrutiert hat, sondern auf bereits erkrankte Personen zurückgreifen
kann. Ergebnisse liegen deshalb relativ schnell vor. Dies ist beson-
ders wichtig bei Krankheiten mit langer Latenzzeit oder geringer In-
zidenz. Die Nachteile liegen wie bei allen retrospektiven Studien in
der eventuell mangelhaften Datenqualität. Außerdem sind Fall-
Kontroll-Studien sehr anfällig für Bias verschiedener Art. Ein-
schränkend ist hinzuzufügen, dass absolute Risiken (etwa Inziden-
zen) für Exponierte oder Nicht-Exponierte nicht ermittelt werden
können; lediglich das Odds Ratio kann bestimmt werden. Dieses
Maß ist eine Annäherung für das relative Risiko – allerdings nur
dann, wenn die Inzidenz der Erkrankung gering ist (maximal 1 %).
Diese Bedingung ist glücklicherweise bei vielen Krankheiten, die mit
Fall-Kontroll-Studien untersucht werden, erfüllt.

14.4 Kohortenstudien

14 14.4.1 Grundlagen
Eine Kohortenstudie ist eine prospektive, longitudinale Studie (auch
Follow-Up-Studie genannt), bei der große Gruppe (Kohorte) von
Personen, die in unterschiedlicher Weise exponiert und nicht er-
krankt sind, eine Zeit lang beobachtet werden.
273 14
14.4 Kohortenstudien

Beispiel 14.3
Ein bekanntes Beispiel ist die so genannte Framingham-Studie bezüglich kar-
diovaskulärer Krankheiten. Sie wurde im Jahr 1948 in der Stadt Framingham
(USA) begonnen und umfasste etwa 5.100 Einwohner, die zu Beginn der Stu-
die zwischen 30 und 60 Jahre alt waren und keine kardiovaskulären Krank-
heiten hatten. Die Studie dauerte mehr als 30 Jahre; die Studienteilnehmer
wurden regelmäßig alle zwei Jahre bis zum Auftreten einer kardiovaskulären
Erkrankung, Tod des Teilnehmers bzw. Studienende untersucht. Dabei wur-
den mehrere potentielle Einflussfaktoren studiert: Rauchen, Adipositas, Blut-
hochdruck, erhöhte Cholesterinwerte, Alter u. a. Es wurde nachgewiesen, dass
das Risiko, eine koronare Herzkrankheit zu entwickeln, mit zunehmendem
Alter, erhöhtem Blutdruck, erhöhtem Cholesterinspiegel, Zigaretten- und
Alkoholabusus sowie Übergewicht assoziiert ist.

• Vorteile. Anhand des Beispiels 14.3 werden die Vorteile einer Ko-
„
hortenstudie unmittelbar deutlich:
ŷ Man kann die Inzidenzen für exponierte und nicht-exponierte
Personen direkt ermitteln und vergleichen. Deshalb werden
diese Studien auch als Inzidenzstudien bezeichnet.
ŷ Die Studie folgt derselben Logik wie die klinische Fragestellung:
Man geht von den Einflussgrößen aus, wartet ab und analysiert
schließlich, bei welchen Personen und zu welchem Zeitpunkt
die Krankheit eintritt.
ŷ Die Studienteilnehmer werden kontinuierlich beobachtet. Die
Gefahr eines Recall-Bias aufgrund mangelnden Erinnerungsver-
mögens der Teilnehmer (wie bei Fall-Kontroll-Studien) besteht
daher nicht.
• Nachteile. Im Vergleich zu Fall-Kontroll-Studien gibt es auch
„
deutliche Nachteile:
ŷ Es dauert unter Umständen sehr lange, bis hinreichend viele
Krankheitsfälle eingetreten sind. Dies gilt insbesondere bei
Krankheiten mit langer Latenzzeit.
ŷ Die Studie erfordert – speziell bei Krankheiten mit geringer
Inzidenz – extrem viele Teilnehmer.
ŷ Sie kann daher sehr aufwendig und teuer sein, da oft Tausende
von Personen etliche Jahre lang in regelmäßigen Abständen
untersucht werden müssen.

14.4.2 Effektmaße
Um zu eruieren, ob ein bestimmter Faktor tatsächlich mit einem
erhöhten Erkrankungsrisiko assoziiert ist, erscheint es sinnvoll, die
274 Kapitel 14 · Risikostudien

Gruppen der Exponierten und der Nicht-Exponierten miteinander


zu vergleichen. Das Erkrankungsrisiko bei Vorliegen eines Faktors R
entspricht der Wahrscheinlichkeit P( K | R ) . P( K | R ) ist also die
Wahrscheinlichkeit, dass bei Nicht-Vorhandensein des Faktors R die
Krankheit entsteht. Es lassen sich folgende Effektmaße berechnen:
ŷ Absolute Risikoreduktion (zuschreibbares oder attributables
Risiko). Dies ist die Differenz

ARR = P( K | R) − P( K | R ) (14.1)

Die ARR gibt an, in welchem Maß die Erkrankungswahr-


scheinlichkeit durch den Risikofaktor erhöht wird.
ŷ Number Needed to Treat (NNT). Diese Anzahl wird sehr ein-
fach berechnet nach:
NNT = 1 / ARR (14.2)
Die NNT wurde ursprünglich für Therapiestudien entwickelt,
um darzustellen, wie viele Personen durchschnittlich behandelt
werden müssen, damit eine von der Behandlung profitiert. Bei
Risikostudien quantifiziert die NNT die Anzahl der Personen, die
vom Risikofaktor befreit werden müssen, damit eine profitiert.
ŷ Relatives Risiko. Darunter versteht man den Quotienten
P( K | R)
RR = (14.3)
P( K | R )

Wenn es sich bei R tatsächlich um einen Risikofaktor handelt,


ist das relative Risiko größer als 1. Um dies beurteilen zu kön-
nen, ist die Angabe eines Konfidenzintervalls sinnvoll.
ŷ Relative Risikoreduktion. Dieses Maß ist definiert als:

14 P( K | R) − P( K | R )
RRR = (14.4)
P( K | R)

! Bei der Interpretation eines relativen Risikos ist zu beachten, dass durch
z
die Quotientenbildung die absoluten Risiken nicht mehr erkennbar sind.
Die relativen Risiken in Beispiel 14.4 sind sehr hoch. Sie verschweigen
jedoch, dass das Risiko an Lungenkrebs zu erkranken generell gering ist
(auch für Raucher).
275 14
14.4 Kohortenstudien

Beispiel 14.4
In der Kohortenstudie von Doll und Hill (Doll, R.; Hill, A.B.: Mortality in
relation to smoking: ten years’ observations of British doctors. Brit. Med. J.
1964; 1: 1399 – 1410) wurde bei 40.000 britischen Ärzten die Auswirkung des
Faktors „Rauchen“ auf die Mortalitätsrate bei Lungenkrebs untersucht. Seien
R das Ereignis, dass eine Person mindestens 25 Zigaretten pro Tag raucht und
T das Ereignis, innerhalb eines Jahres an Lungenkrebs zu sterben. Die Autoren
ermittelten P(T | R) = 2,27 ‰ für Raucher und P(T | R ) = 0,07 ‰, für
Nichtraucher. Demnach beträgt das zuschreibbare Risiko ARR = 2,2 ‰. Die
Mortalität setzt sich zusammen aus dem Anteil 2,20‰, der dem Rauchen
zuzurechnen ist, und dem kleineren Anteil 0,07‰, der auf andere Ursachen
zurückzuführen ist. Daraus ergibt sich: NNT = 1 / 0,0022 ≈ 455 . Wenn 455
starke Raucher das Rauchen aufgeben würden, würde durchschnittlich einer
pro Jahr weniger an Lungenkrebs sterben. Das relative Risiko berechnet sich
nach (14.3) als 32. Also ist für einen Raucher das Risiko, innerhalb eines Jahres
an Lungenkrebs zu sterben, etwa 32mal so groß wie für einen Nichtraucher.
Die relative Risikoreduktion nach (14.4) beträgt 97%. Das Risiko, an Lungen-
krebs zu sterben, kann demnach um 97 % gesenkt werden, falls das Rauchen
aufgeben wird. Oder anders formuliert: Wenn ein Mensch an Lungenkrebs
stirbt, dann ist dies zu 97 % auf das Rauchen zurückzuführen.

Die Wahrscheinlichkeit des Auftretens einer Krankheit kann durch


die Logistische Regression ermittelt werden. Dieses multiple Verfah-
ren ermöglicht es, mehrere Faktoren zu berücksichtigen und deren
komplexe Wechselwirkungen zu untersuchen. Anhand der Merk-
male, die einen statistisch signifikanten Einfluss auf die Zielgröße
haben, lässt sich dann im Einzelfall die Wahrscheinlichkeit berech-
nen, dass die Krankheit eintritt.

14.4.3 Inzidenzmaße
Die im vorigen Abschnitt erwähnte Wahrscheinlichkeit P( K | R)
wird als „kumulative Inzidenz“ bezeichnet (weil sich die neuen Fälle
über die Zeit kumulieren). Deren Bestimmung erfordert eine gewisse
Stabilität der beobachteten Population. Normalerweise ist jedoch da-
von auszugehen, dass die Population dynamischen Prozessen unter-
liegt. Nicht jedes Individuum kann über denselben Zeitraum be-
obachtet werden. Außerdem muss quasi bei jeder prospektiven Stu-
die einkalkuliert werden, dass einige Teilnehmer vorzeitig ausschei-
den (so genannte Studienabbrecher oder Drop Outs).
Dann mag die Inzidenzdichte eine Alternative darstellen: Der
Zähler dieses Maßes enthält die Anzahl aller während der Beobach-
tungszeit neu aufgetretenen Krankheitsfälle. Den Nenner bildet die
276 Kapitel 14 · Risikostudien

so genannte Personenzeit – das ist die Summe der Beobachtungszei-


ten aller Individuen. Jedes Individuum wird so lange beobachtet, bis
das interessierende Endereignis (Krankheit oder Tod) festgestellt
wird. Falls dieses Ereignis nicht eintritt, endet die Beobachtungszeit
am Ende der Studie bzw. zu dem Zeitpunkt, an dem die betreffende
Person vorzeitig ausscheidet.
Die Inzidenzdichte ist – im Gegensatz zur kumulativen Inzidenz
– keine Wahrscheinlichkeit. Sie gibt an, wie viele Neuerkrankungen
in einer bestimmten Zeiteinheit eintreten und ist insofern vergleich-
bar mit einer Erkrankungs-Geschwindigkeit oder mit der Hazard-
Rate (z› Abschnitt 8.4.1). Dabei spielt die Zeit eine besondere Rolle.
Für derlei Fragestellungen stehen spezielle Auswertemechanismen
zur Verfügung (z › Abschnitt 16.2.3).

14.4.4 Biasquellen
Studienabbrecher (Drop Outs) können zu einem Selektionsbias füh-
ren, wenn die Gründe des Ausscheidens mit der Zielgröße in Zu-
sammenhang stehen. Ferner kann es passieren, dass Teilnehmer ihre
Gewohnheiten im Laufe der Zeit ändern (wenn etwa aus einem
ehemals starken Raucher ein Nichtraucher wird). Dies sollte bei der
Auswertung unbedingt berücksichtigt werden.
Eine besondere Art von Informationsbias tritt auf, wenn Stu-
dienteilnehmer, die stark exponiert sind, häufiger oder gründlicher
untersucht werden als andere Personen, bei denen das Eintreten
einer Krankheit weniger erwartet wird. Dies kann zu verzerrten
Ergebnissen führen. Probleme können auch dadurch entstehen, dass
sich die Diagnosetechniken im Laufe der Zeit ändern oder dass die
ursprüngliche Fragestellung an Relevanz verliert.
Ein letzter Hinweis: Nicht jede Kohortenstudie muss Jahrzehnte
dauern, ehe Ergebnisse vorliegen. Wenn die Zeitspanne zwischen
Exposition und dem Auftreten einer Erkrankung kurz ist (z. B. Er-
krankung eines Neugeborenen infolge einer mütterlichen Infektion
während der Schwangerschaft), kann die Studie nach wenigen Mo-
naten beendet sein. Dennoch bleibt festzuhalten, dass der zeitliche
14 Aufwand wesentlich höher ist als bei einer Fall-Kontroll-Studie.

14.4.5 Spezielle Kohortenstudien


Die Population, die bei Kohortenstudien untersucht wird, wird meist
in der Gegenwart zusammengestellt und dann über einen längeren
Zeitraum beobachtet („begleitende Kohortenstudie“). Auf die damit
277 14
14.5 Der Nachweis einer Kausalität

verbundenen Problematiken (die insbesondere bei Krankheiten mit


langer Latenzzeit und geringer Inzidenz auftreten) wurde bereits
hingewiesen. Bei Studien, die auf eine sehr lange Zeit geplant sind,
weiß der Versuchsleiter häufig nicht, ob er das Ende der Studie
überhaupt erleben wird.
Es ist aber auch denkbar, Kohortenstudien „mit Verspätung“
durchzuführen: Man startet in der Vergangenheit und greift zur Er-
fassung der Exposition und der Zielgröße auf bereits dokumentierte
Daten zurück. Diese wertet man dann prospektiv aus (die Art der
Datenerfassung ist jedoch retrospektiv). Dieses Design nennt man
historische Kohortenstudie. Andere Bezeichnungen sind retrospektive
oder konkurrierende Kohortenstudie oder Kohortenstudie mit zu-
rückverlegtem Ausgangspunkt. Dieser Studientyp wird gerne in der
Arbeitsmedizin verwendet (wenn z. B. Bergwerksarbeiter und Büro-
angestellte auf das Vorhandensein einer Silikoselunge untersucht
werden). Der Vorteil besteht darin, dass die Zeit zwischen der Ex-
position und dem Auftreten der Krankheit nicht abgewartet werden
muss. Andererseits ist auf die Qualität der Daten nicht immer Ver-
lass.
Eine weitere Besonderheit stellen die so genannten eingebetteten
(nested) Fall-Kontroll-Studien dar. Ein solche Studie beginnt wie
eine Kohortenstudie in der Gegenwart. Zu Beginn werden von allen
Studienteilnehmern Daten erhoben, Blut- oder Urinproben ent-
nommen und in geeigneter Weise aufbewahrt. Wenn nach einiger
Zeit genügend Krankheitsfälle aufgetreten sind, werden diese zu
einer „Fallgruppe“ zusammengefasst; aus den nicht erkrankten Teil-
nehmern wird eine überschaubare Kontrollgruppe gebildet. Erst
wenn diese beiden Gruppen definiert sind, werden deren Daten und
Laborproben analysiert. Dieses Studiendesign ist wesentlich weniger
aufwendig als eine begleitende Kohortenstudie, bei der alle Teil-
nehmer untersucht werden. Außerdem ist die Datenqualität besser
als bei Fall-Kontroll-Studien, da die Daten erhoben und die Proben
entnommen werden, ehe die Krankheit eingetreten ist.

14.5 Der Nachweis einer Kausalität

Eine kausale Beziehung zwischen einem Risikofaktor und einer


Krankheit kann am ehesten durch ein Experiment nachgewiesen
werden, bei dem die Hälfte der Teilnehmer nach Randomisation
einem Risiko ausgesetzt wird und die andere Hälfte nicht. Aus ethi-
schen Gründen ist dies jedoch nicht vertretbar. Laborexperimente
278 Kapitel 14 · Risikostudien

(z. B. mit Ratten) können hier, obwohl sie in einem anderen biologi-
schen System arbeiten, Hinweise zur Kausalität geben.
Ansonsten ist man auf Beobachtungsstudien angewiesen. Den
höchsten Level nach den Richtlinien der Evidenzbasierten Medizin
haben dabei Kohortenstudien. Diese sind – wenn sie sorgfältig ge-
plant und durchgeführt werden – am wenigsten anfällig für syste-
matische Fehler (Bias) und lassen am ehesten Schlussfolgerungen be-
züglich Kausalitäten zu.
Das bedeutet jedoch nicht, dass die anderen Studienformen
überflüssig oder generell minderwertig wären. Kohortenstudien sind
in der Regel sehr aufwendig. Sie werden deshalb erst dann durch-
geführt, wenn – etwa aufgrund von Fall-Kontroll-Studien – gesi-
cherte Hinweise auf eine Assoziation zwischen einer Krankheit und
einer Exposition vorliegen. Im Jahre 1939 brachte der bereits er-
wähnte Alton Ochsner eine Lawine ins Rollen, als er einen Fallbe-
richt veröffentlichte, in dem er einen Zusammenhang zwischen
Lungenkrebs und Rauchen vermutete und zwei Jahre später eine
Fallserie zum selben Thema publizierte. Dies war der Anlass für Doll
und Hill, eine Fall-Kontroll-Studie durchzuführen (1952 publiziert).
Diese wiederum war die Basis für eine extrem aufwendige Kohorten-
studie (z› Beispiel 14.4, erstmals 1964 publiziert).
Man kann zwar mit Beobachtungsstudien nicht zweifelsfrei eine
Kausalität nachweisen. Es gibt jedoch Argumente, die für einen
kausalen Zusammenhang sprechen und Richtlinien, an denen man
sich orientieren kann:
ŷ Die Exposition muss der Krankheit zeitlich vorausgehen.
ŷ Je stärker ein statistischer Zusammenhang ist, desto mehr spricht
für eine kausale Beziehung.
ŷ Eine Dosis-Wirkungs-Beziehung ist ebenfalls ein Hinweis auf
eine Kausalität.
ŷ Die Ergebnisse der Studie müssen wiederholbar sein (auch in
anderen Populationen).
ŷ Der Zusammenhang muss biologisch plausibel sein.
ŷ Das Risiko einer Erkrankung sinkt, wenn die Exposition entfällt.
14
Bei einfachen deskriptiven Studien mag die Überprüfung dieser
Richtlinien schwierig sein. Bei Fall-Kontroll- und insbesondere bei
Kohortenstudien sind sie jedoch sehr nützlich bei der Beurteilung,
ob ein Faktor kausal für eine Krankheit verantwortlich ist oder ob es
sich allem Anschein nach um einen Confounder handelt.

i Ausführliche Informationen zu Risikostudien findet man in [6].


z
15

Studien zu Diagnostik
und Prävention
15.1 Diagnosestudien 281
15.1.1 Einleitende Bemerkungen 281
15.1.2 Die Validität eines diagnostischen Tests 281
15.1.3 Die ROC-Analyse 282
15.1.4 Reproduzierbarkeit 285
15.1.5 Die Anwendung eines diagnostischen Tests in
der Praxis 287

15.2 Präventionsstudien 288


15.2.1 Formen der Prävention 288
15.2.2 Evaluation des Nutzens 289
15.2.3 Biasquellen 291
281 15
15.1 Diagnosestudien

15.1 Diagnosestudien

15.1.1 Einleitende Bemerkungen


Die Diagnosestellung gehört zu den wichtigsten Aufgaben eines
Arztes. Dazu bedient er sich außer seiner Fachkenntnisse und seiner
persönlichen Erfahrung eines oder mehrerer diagnostischer Test-
verfahren. Dies kann ein technisch aufwendiger Labortest sein; es
kann sich jedoch auch um eine klinische Untersuchung, ein bildge-
bendes Verfahren, um Informationen aus der Anamnese oder aus
einem Gespräch mit dem Patienten handeln.
Diagnosestudien sind für die epidemiologische Forschung und
die medizinische Praxis sehr wichtig. Letzten Endes basieren die Er-
gebnisse fast aller Studien auf diagnostischen Verfahren, da diese ja
die Voraussetzung für das Erkennen einer Krankheit sind.
Zu den Gütekriterien eines diagnostischen Verfahrens zählen die
Validität und die Reliabilität. Die Validität ist die Fähigkeit, zwi-
schen Kranken und Gesunden zu unterscheiden (z › Abschnitt
15.1.2). Die Reliabilität ist ein Maß für die Reproduzierbarkeit der
Testergebnisse unter ähnlichen Bedingungen (z › Abschnitt 15.1.4).

15.1.2 Die Validität eines diagnostischen Tests


Die Validität eines diagnostischen Tests wird durch die Sensitivität
und die Spezifität bestimmt (z › Abschnitt 6.5.1). Es ist das Ziel einer
Diagnosestudie, diese Komponenten zu quantifizieren.
In der Regel ist ein aufwendiges, teures oder kompliziertes Ver-
fahren (z. B. eine Biopsie) notwendig, um Gewissheit bezüglich des
Krankheitsstatus einer Person zu erhalten. Ein solches Verfahren
nennt man Goldstandard. Im medizinischen Alltag ist man öfter be-
müht, Ersatzverfahren zu benutzen – wohl wissend, dass diese weni-
ger genau, dafür aber einfacher in der Anwendung und mitunter
weniger riskant sind als der Goldsstandard. Bei einer Diagnosestudie
ist ein Goldstandard notwendig, um den wahren Krankheitsstatus
der Testpersonen feststellen zu können.
Um die Sensitivität und die Spezifität zu ermitteln, müssen
hinreichend viele kranke und nicht-erkrankte Personen durch den
zu evaluierenden Test diagnostiziert werden. Der Arzt, der die Be-
funde interpretiert, sollte verblindet sein. Das heißt: Er darf den
wahren Krankheitsstatus und andere klinische Informationen der
Testteilnehmer nicht kennen. Nur dann ist gewährleistet, dass die
282 Kapitel 15 · Studien zu Diagnostik und Prävention

Befunde unvoreingenommen und objektiv beurteilt werden. Beide


Kenngrößen – Sensitivität und Spezifität – sollten zusammen mit
einem Konfidenzintervall angegeben werden, damit die Genauigkeit
der Schätzungen beurteilt werden kann.
Manchmal werden auch Likelihood-Quotienten benutzt, um die
Güte eines diagnostischen Tests zu beschreiben. Der positive Likeli-
hood-Quotient ist die Wahrscheinlichkeit, dass eine kranke Person
einen positiven Befund erhält, dividiert durch die Wahrscheinlich-
keit, dass sich dieser Befund bei einer gesunden Person ergibt:

P(T+ K ) Sensitivität
LH + = = (15.1)
P(T+ K ) 1 − Spezifität

Analog ist der negative Likelihood-Quotient definiert als:

P(T− K ) 1 − Sensitivität
LH − = = (15.2)
P(T− K ) Spezifität

Wenn ein Likelihood-Quotient einen Wert nahe bei 1 annimmt, ist


der Test unbrauchbar. Je größer der positive Likelihood-Quotient
und je kleiner der negative, desto leistungsfähiger ist der Test.
Bei einem Likelihood-Quotienten sind die Sensitivität und die
Spezifität in einer Kenngröße zusammengefasst. Daher eignen sich
diese Quotienten, um die Güte mehrerer Tests miteinander zu
vergleichen.

15.1.3 Die ROC-Analyse


Die meisten Testergebnisse beruhen auf physikalischen Messungen
im Labor. Bei solchen Größen handelt es sich in der Regel um stetige
Merkmale – und nicht, wie bisher angenommen wurde, um Alter-
nativmerkmale mit den Ausprägungen „positiv“ und „negativ“. Um
eine binäre Testentscheidung zu ermöglichen, wird eine Trenngröße
τ (griechischer Buchstabe tau) festlegt – das ist ein Schwellenwert,
der den pathologischen vom physiologischen Bereich trennt. Der
Messwert einer Person, die sich dem Test unterzieht, wird mit die-
sem Schwellenwert verglichen. Ist er größer als τ, spricht man von
15 einem positiven, ansonsten von einem negativen Befund. Der Wert
von τ beeinflusst die Sensitivität, die Spezifität und damit auch die
Vorhersagewerte.
283 15
15.1 Diagnosestudien

Jedem Schwellenwert sind eindeutige Werte für die Sensitivität und


die Spezifität zugeordnet. Wenn man nun für jeden Schwellenwert
den Anteil der falsch positiven (also die Differenz „1 – Spezifität“)
gegen den Anteil der richtig positiven (also die Sensitivität) in ein
Koordinatensystem einträgt und diese Punkte miteinander verbin-
det, entsteht die ROC-Kurve (z › Abbildung 15.1). ROC ist die
Abkürzung für „Receiver Operating Characteristic“. Dieser Begriff
stammt aus der Nachrichtentechnik und bedeutet Signalerkennung.
Aus dem Beispiel 15.1 und der ROC-Kurve in Abbildung 15.1
geht hervor: Je höher die Sensitivität, desto geringer ist die Spezifi-
tät. Dies ist leicht nachvollziehbar. Bei einem geringen Schwellen-
wert erhalten zahlreiche Personen ein positives Testergebnis. Da-
durch werden einerseits viele Kranke (richtig) positiv und anderer-
seits zahlreiche Gesunde (falsch) positiv klassifiziert. Dies ist gleich-
bedeutend mit einer hohen Sensitivität und einer hohen Wahr-
scheinlichkeit für falsch positive Ergebnisse, was wiederum mit einer
niedrigen Spezifität einhergeht. Ein hoher Schwellenwert ergibt da-
gegen für die meisten gesunden und für relativ viele kranke Perso-
nen einen negativen Befund (hohe Spezifität, hohe Wahrscheinlich-
keit für falsch negative Ergebnisse und geringe Sensitivität).
Schwellenwerte, die gut zwischen Kranken und Gesunden diskrimi-
nieren, findet man in der oberen linken Ecke der ROC-Kurve.
Die Frage nach dem optimalen Schwellenwert lässt sich nicht
allgemein beantworten. Er ist abhängig von den Konsequenzen, die
sich aus falschen Testbefunden ergeben. Ein falsch negativer Befund
kann fatale Folgen für den Patienten haben (dieser wähnt sich zu-
nächst gesund und wird möglicherweise zu spät oder gar nicht the-
rapiert). Falsch positive Befunde belasten zunächst die betreffenden
Personen und führen zu nachfolgenden Behandlungen, die unnötig,
teuer und mitunter gefährlich sind.
Auf eine hohe Sensitivität legt man Wert, wenn
ŷ es sich um eine Krankheit mit schweren (oder gar lebensbedroh-
lichen) Folgen für den Patienten handelt,
ŷ eine Erfolg versprechende Therapie zur Verfügung steht,
ŷ falsch positive Befunde mit vertretbarem Aufwand und ohne
allzu große Belastungen für die betreffende Person geklärt wer-
den können.
Eine hohe Spezifität ist anzustreben, wenn
ŷ keine Therapie mit Aussicht auf Besserung bekannt ist,
ŷ die Therapie zu unverhältnismäßig hohen finanziellen Belastun-
gen für den Patienten oder das Gesundheitswesen führt,
284 Kapitel 15 · Studien zu Diagnostik und Prävention

ŷ die Therapie mit schweren Nebenwirkungen behaftet ist,


ŷ die Nachfolgeuntersuchungen mit erheblichen Risiken oder psy-
chischen Belastungen für den Patienten verbunden sind.
Ein optimaler Schwellenwert beruht also nicht nur auf wahrschein-
lichkeitstheoretischen, sondern auch auf medizinischen, ökonomi-
schen und ethischen Überlegungen. Ein Arzt muss bei der Interpre-
tation eines Testbefundes in jedem Fall berücksichtigen, dass dieses
unter Umständen auch von einem mehr oder weniger willkürlich
festgelegten Schwellenwert abhängt.
Die Gesamtgenauigkeit eines Tests lässt sich durch die Fläche unter
der ROC-Kurve (im englischen Sprachgebrauch als AUC = „area
under the curve“ bezeichnet) quantifizieren. Nur bei einem Test, bei
dem falsche Befunde ausgeschlossen sind, ist diese Fläche gleich 1.
Eine Fläche der AUC von 0,5 besagt, dass der diagnostische Test
nicht besser ist als zufällige Zuweisungen „krank“ oder „gesund“. In
diesem Fall entspricht die ROC-Kurve der Diagonalen, die sich von
der linken unteren bis zur rechten oberen Ecke erstreckt.

Beispiel 15.1
Ist der Kreatininkinase-Wert zur Diagnose eines akuten Myokardinfarkts ge-
eignet? In einer Studie ergaben sich bei Infarkt-Patienten Werte zwischen 90
und 10280, während Patienten mit anderen Herzbeschwerden Werte zwi-
schen 25 und 370 aufwiesen. Die Sensitivität und die Spezifität sind abhängig
von unterschiedlichen Schwellenwerten:
Sensitivität Spezifizität
τ Summe
in % in % Wenn man die
80 100 48 148 Sensitivität und
90 100 57 157 die Spezifität als
100 96 62 158 gleich wichtig er-
120 96 75 171 achtet, wäre
150 96 84 180 τ = 300 der opti-
200 93 91 184 male Schwellen-
250 93 94 187 wert. Die Fläche
300 93 97 190 unter der ROC-
320 85 98 183 Kurve (AUC)
350 70 99 169 beträgt 0,94
15 380 63 100 163 (z› Abb. 15.1).
400 55 100 155
285 15
15.1 Diagnosestudien

Abb. 15.1
ROC-Kurve für
einen Test zur Diag-
nose eines Myo-
kardinfarkts
(Beispiel 15.1).
Eingezeichnet sind
(1–Spezifität) auf der
x–Achse und die
Sensitivität auf der
y–Achse für unter-
schiedliche Schwel-
lenwerte.

Merke
Die ROC-Kurve kann genutzt werden,
ŷ um einen optimalen Schwellenwert zu finden. Falls Sensitivität und
Spezifität als gleich wichtig erachtet werden, ist dies der Schwellen-
wert, der am nächsten am Punkt (0|1) des Koordinatensystems liegt.
ŷ um konkurrierende Tests miteinander zu vergleichen. Je größer die
AUC, desto besser ist der Test.

15.1.4 Reproduzierbarkeit
Ein weiterer Aspekt bei der Bewertung eines diagnostischen Tests
betrifft die Reproduzierbarkeit (Reliabilität) – also die Frage: Inwie-
weit ist der Test zuverlässig und wiederholbar?
Viele Testbefunde sind durch subjektive Einschätzungen des je-
weiligen Untersuchers geprägt oder hängen von anderen Rahmen-
bedingungen ab. Beispiele hierfür stellen klinische Schweregrad-
scores wie etwa der PASI (Psoriasis Area and Severity Index) dar. Es
ist keineswegs selbstverständlich, dass wiederholte Beurteilungen
desselben Zustands durch unterschiedliche Beobachter jeweils zum
selben Ergebnis führen. Es ist auch nicht garantiert, dass derselbe
Beobachter, der einen Patienten zu verschiedenen Zeitpunkten un-
tersucht, jedes Mal denselben Befund erhält.
Der κ-Koeffizient nach Cohen (lj: griechischer Buchstabe Kappa)
findet Verwendung, um – wie in Beispiel 15.2 – den Grad der Über-
einstimmung zwischen zwei verschiedenen Beobachtern (interindi-
viduelle Variabilität) zu quantifizieren. Er kann auch verwendet
werden, um den Grad der Übereinstimmung der Beurteilungen des-
selben Beobachters zu zwei verschiedenen Zeitpunkten (intraindivi-
duelle Variabilität) zu messen. Er ist folgendermaßen definiert:
286 Kapitel 15 · Studien zu Diagnostik und Prävention

p o − pe
κ= (15.3)
1 − pe

Dabei sind po und pe die Anteile der übereinstimmenden Urteile,


die man beobachtet hat bzw. die man rein zufällig erwarten würde
(o und e stehen für „observed“ bzw. „expected“). Dieser Koeffizient
quantifiziert demnach den Anteil von Übereinstimmungen, der über
das hinausgeht, was man unter dem Zufall erwarten würde. Wenn
zwei Beobachter in allen Urteilen übereinstimmen, ist κ = 1 . Falls
die Anzahl der Übereinstimmungen der Zufallserwartung entspricht,
ist κ = 0 . Theoretisch kann κ auch negative Werte annehmen (die-
ser Fall ist aber praktisch bedeutungslos). κ > 0,60 zeigt eine gute,
κ > 0,80 eine exzellente Übereinstimmung jenseits des Zufalls an.

Beispiel 15.2
100 Röntgenbilder werden von zwei Radiologen unabhängig voneinander
bewertet. Es ergeben sich folgende Beurteilungen (in Klammer die Häufig-
keiten, die rein zufällig zu erwarten sind):
Beobachter A erwartete Häufigkeiten
Beobachter B normal pathologisch Σ
normal 40 (30) 10 (20) 50 e11 = e21 = 50 ⋅ 60 / 100 = 30
pathologisch 20 (30) 30 (20) 50 e12 = e22 = 50 ⋅ 40 / 100 = 20
Σ 60 40 100
Daraus ergibt sich: po = (40 + 30) / 100 = 0,70 , pe = (30 + 20) / 100 = 0,50 . Die
Untersucher haben also in 70 % der Fälle übereinstimmend geurteilt; der
Anteil der rein zufällig zu erwartenden Übereinstimmungen beträgt 50 %.
0,70 − 0,50
Daraus resultiert nach Formel (15.3) κ = = 0, 40 . Der Grad der
1 − 0,50
Übereinstimmung ist also recht schwach.

Es gibt außerdem einen erweiterten lj-Koeffizienten, der sich eignet,


um mehr als zwei Beobachter zu vergleichen. Außerdem wurde ein
gewichteter κ-Koeffizient entwickelt, mit dem Abweichungen je
nach ihrem Schweregrad unterschiedlich gewichtet werden können.

15 i Diese Maßzahlen sind ausführlich in [5] beschrieben. Zur weiteren Lek-


z
türe sei das Handbuch [6] empfohlen.
287 15
15.1 Diagnosestudien

15.1.5 Die Anwendung eines diagnostischen Tests in der Praxis


Die Sensitivität und die Spezifität beschreiben die Güte eines diag-
nostischen Verfahrens aus der Sicht des Forschers, der den Test ent-
wickelt. Mitunter erweist sich ein diagnostisches Verfahren in der
Praxis als ungeeignet – trotz hoher Werte für Sensitivität und Spezi-
fität. Dies kann vielfältige Gründe haben:
ŷ Interpretation des Testbefundes. Es ist bekannt, dass ein Testbe-
fund nicht immer den korrekten Krankheitsstatus anzeigt. Die
Vorhersagewerte informieren darüber, inwieweit man sich auf
einen Befund verlassen kann (z › Abschnitt 6.5.2). Wenn die Prä-
valenz gering ist, kann der positive Vorhersagewert – trotz
hoher Werte für Sensitivität und Spezifität – extrem gering sein
(z› Beispiel 6.16). Ohne die Kenntnis, ob der Patient einer
Risikogruppe angehört und wie hoch deren Prävalenz ist, ist ein
Testbefund kaum zu interpretieren.
ŷ Patientenspektrum. Die Sensitivität und die Spezifität sind
unabhängig von der Prävalenz. Andererseits bleibt festzuhalten,
dass die Beurteilung der Testbefunde teilweise subjektiven Ein-
flüssen der behandelnden Ärzte unterliegt, und dass die Patien-
ten, bei denen ein diagnostisches Verfahren in der Praxis einge-
setzt wird, andere Charakteristika aufweisen als Personen, die an
einer diagnostischen Studie teilnehmen. Dies gilt sowohl für die
Patienten, die an der Krankheit leiden, als auch für nicht-
erkrankte Personen. Davon werden wiederum die Sensitivität,
die Spezifität und damit auch die Vorhersagewerte beeinflusst.
ŷ Informationsbias. Wenn ein Arzt aufgrund einer klinischen
Untersuchung den Eindruck gewinnt, dass der Patient erkrankt
ist, wird er versuchen, diesen Eindruck anhand des Testbefundes
zu bestätigen. Umgekehrt wird er, wenn er glaubt der Patient sei
nicht erkrankt, den Testbefund eventuell weniger aufmerksam
begutachten. Aus diesen Gründen sollten die Beurteiler bei einer
› Abschnitt 15.1.2).
diagnostischen Studie verblindet sein (z
Diese Überlegungen zeigen, dass ein einzelnes Testergebnis norma-
lerweise nicht ausreicht, um sich auf eine Diagnose festzulegen. Um
den Diagnoseprozess effizienter zu gestalten, werden in der Praxis
häufig mehrere Tests durchgeführt (multiples Testen). Dabei sind
grundsätzlich zwei Vorgehensweisen denkbar:
288 Kapitel 15 · Studien zu Diagnostik und Prävention

„• Parallele Tests. Im klinischen Bereich oder bei Notfallpatienten


werden oft mehrere Tests gleichzeitig (genauer: innerhalb einer kur-
zen Zeitspanne) angewandt. Ein Patient gilt als testpositiv, wenn be-
reits ein einziger Test einen positiven Befund ergibt. Dies führt zu
einer hohen Sensitivität. Die Wahrscheinlichkeit, eine Krankheit zu
übersehen, ist bei diesem Prozedere gering. Allerdings ergeben sich
dabei auch einige falsch positive Befunde.
„• Sequenzielle (oder serielle) Tests. Diese Strategie wird verwendet,
wenn eine schnelle Diagnosestellung nicht erforderlich ist. Man be-
ginnt mit einem einfachen, leicht anwendbaren Test. Nur wenn
dessen Ergebnis positiv ist, führt man einen weiteren, aufwendigeren
Test durch. Wenn das zweite Ergebnis negativ ist, gilt der Patient als
testnegativ. Ansonsten wird eventuell ein zusätzlicher Test herange-
zogen. Dieses Prozedere ist zeitintensiver als das parallele Testen;
andererseits beansprucht es weniger Laborkapazität. Es führt zu
einer größeren Spezifität und zu einer geringeren Sensitivität.
Schließlich sollte ein Arzt bei seiner Entscheidungsfindung sich
nicht ausschließlich auf die Ergebnisse diagnostischer Tests verlas-
sen, sondern auch seine individuelle Erfahrung, sein persönliches
Urteilsvermögen sowie seine fachspezifischen Kenntnisse mit ein-
› Abschnitt 16.3).
fließen lassen (z

15.2 Präventionsstudien

15.2.1 Formen der Prävention


Im allgemeinen Sprachgebrauch versteht man unter Prävention eine
Maßnahme, die einer unerwünschten Entwicklung zuvorkommen
soll. In diesem Sinne ist nahezu jede Tätigkeit eines Arztes als Prä-
vention aufzufassen. In einem engeren Sinne werden unter diesem
Begriff ärztliche oder gesundheitspolitische Maßnahmen zusam-
mengefasst, die der Verhütung oder Früherkennung von Krankhei-
ten dienen. Man unterscheidet drei Ebenen der Prävention:
ŷ Primäre Prävention. Mit diesen Maßnahmen soll das Auftreten
15 einer Krankheit durch das Ausschalten der Ursachen verhindert
werden. Ein Arzt betreibt beispielsweise primäre Prävention,
wenn er einen Patienten ermahnt, auf eine gesunde Lebensweise
zu achten, oder wenn er jemanden gegen eine Krankheit impft.
Ein Beispiel stellt die Impfung eines jungen Mädchens gegen
289 15
15.2 Präventionsstudien

HPV 16 oder 18 dar mit dem Ziel, das Auftreten von Gebär-
mutterhalskrebs zu verhindern. Auch kommunale Einrichtun-
gen leisten primäre Prävention, etwa wenn sie für sauberes
Trinkwasser oder hygienisch einwandfreie Lebensmittel sorgen.
Aufklärungskampagnen, die Menschen zum verantwortungsbe-
wussten Umgang mit Genussmitteln sensibilisieren sollen, fallen
ebenfalls unter diese Kategorie.
ŷ Sekundäre Prävention. Diese Form der Prävention hat zum Ziel,
eine Entwicklungsstörung oder eine Krankheit im Frühstadium
zu erkennen, sodass rechtzeitig interveniert werden kann, um
die Progression oder den Tod zu verhindern. Dazu werden
Screening-Untersuchungen durchgeführt, meist in Arztpraxen
oder anderen medizinischen Institutionen. Anders als bei der
primären Prävention wird jeder Teilnehmer gezielt auf das Vor-
handensein einer Krankheit oder einer Störung untersucht.
Beispiele sind Krebsfrüherkennungsuntersuchungen wie etwa
die Mammographie oder der PAP-Abstrich, durch den Vorstu-
fen des Gebärmutterhalskrebses erkannt werden sollen. Auch
Früherkennungsuntersuchungen, die bei Kindern durchgeführt
werden, sind eine Form der sekundären Prävention.
ŷ Tertiäre Prävention. Dieser Begriff bezieht sich auf manifest ge-
wordene Krankheiten. Er umfasst Maßnahmen, mit denen deren
Folgeerscheinungen begrenzt werden sollen. Wichtig ist dies vor
allem bei letalen Krankheiten wie Krebs oder AIDS. Der Tod
kann durch diese Form der Prävention in aller Regel zwar nicht
verhindert werden. Durch eine adäquate medizinische Betreu-
ung können jedoch die Lebensqualität verbessert und eventuell
der Todeszeitpunkt hinausgezögert werden.

15.2.2 Evaluation des Nutzens


Im Allgemeinen wird die Notwendigkeit präventiver Maßnahmen
kaum in Frage gestellt. Dies betrifft insbesondere die Formen der
primären Prävention, die im Laufe der vergangenen Jahre und Jahr-
zehnte dazu geführt haben, dass viele Krankheiten nunmehr ausge-
rottet sind oder zumindest rückläufige Fallzahlen aufweisen. Ebenso
wenig wird über tertiäre Prävention diskutiert. Niemand bestreitet,
dass die bestmögliche Unterstützung manifest erkrankter Menschen
ethisch geboten erscheint. Studien, die den Nutzen primärer oder
tertiärer Präventionsmaßnahmen untersuchen sollen, erscheinen vor
diesem Hintergrund nicht notwendig.
290 Kapitel 15 · Studien zu Diagnostik und Prävention

Auch bei sekundären Präventionsmaßnahmen, insbesondere bei


Screening-Untersuchungen, wird weithin die Meinung vertreten,
dass sie in keinem Fall schaden können. Die zugrunde liegende Idee
ist einleuchtend: Krankheiten sollen bereits in der präklinischen
Phase entdeckt werden, ehe der Patient die ersten klinischen Sym-
ptome bemerkt. Zu diesem Zeitpunkt kann durch eine therapeuti-
sche Intervention eventuell verhindert werden, dass die Krankheit
sich weiter ausbreitet und in ein Stadium gelangt, in dem eine Hei-
lung nicht mehr möglich ist. Dies klingt so überzeugend, dass eine
genaue Überprüfung der Effizienz eines Screenings überflüssig er-
scheint.
Andererseits haben Screening-Untersuchungen offensichtliche
Nachteile: Man denke nur an falsch positive oder falsch negative
Befunde und deren Konsequenzen (z › Abschnitt 6.5), an die mit
manchen Untersuchungen verbundenen Risiken, Unannehmlich-
keiten oder an die Kosten. Aus diesen Gründen erscheinen Studien,
die durchgeführt werden, um die Validität und die Effizienz einer
Screening-Maßnahme objektiv zu beurteilen, geboten.

Beispiel 15.3
Die Bedeutung der Maßzahlen in Abschnitt 14.4.2 in Zusammenhang mit
Screening-Methoden sei an folgendem Beispiel verdeutlicht. Zugrunde liegen
die Ergebnisse von 10 randomisierten Studien, die durchgeführt wurden, um
zu ermitteln, ob die regelmäßige Teilnahme am Mammographie-Screening das
Risiko verringert, an Brustkrebs zu sterben (Kerlikowske K: Efficacy of scree-
ning mammography among women aged 40 to 49 years and 50 to 59 years:
Comparision of relative and absolute benefit, Journal of the National Cancer
Institute Monographs, 22, 79-86, 1997). Insgesamt hatten 500.000 Frauen in
Europa und Nord-Amerika teilgenommen. Das Risiko, innerhalb des Beob-
achtungszeitraums von 10 Jahren an Brustkrebs zu versterben, betrug 3,6 /
1000 (ohne Screening) bzw. 2,9 / 1000. Daraus ergibt sich: ARR = 0,0007 ;
NNT = 1.429 ; RR = 1,24 und RRR = 0,19 . Welches Maß eignet sich zur Dar-
stellung des Nutzens? Die ARR macht deutlich, dass das Risiko durch Scree-
ning nur minimal gesenkt werden kann. Noch prägnanter kommt dies in der
NNT zum Ausdruck: Wenn sich 1.429 Frauen regelmäßig screenen lassen,
wird durchschnittlich eine profitieren und vom Tod durch Brustkrebs be-
wahrt bleiben. Das RR zeigt, dass dieses Risiko für Frauen ohne Screening
15 etwa 1,24 mal so hoch ist wie für Frauen in der Screening-Gruppe – allerdings
kommt nicht zum Ausdruck, dass diese Risiken generell sehr gering sind.
Gänzlich irreführend ist die RRR. Sie suggeriert, dass 19 % aller Frauen vom
Screenen profitieren – in Wirklichkeit beziehen sich die 19 % nur auf die
Frauen, die ohne Screening an Brustkrebs sterben.
291 15
15.2 Präventionsstudien

Die Validität eines Screenings wird durch die Sensitivität und die
› Abschnitt 6.5.1). In der Praxis sind jedoch
Spezifität beschrieben (z
die Vorhersagewerte die Parameter des wesentlichen Interesses: Sie
geben an, inwieweit man sich auf einen Testbefund verlassen kann.
Dabei ist zu bedenken, dass die Prävalenz der untersuchten Popula-
tion in der Regel sehr gering ist. Daher ist der positive Vorhersage-
wert sehr klein, was wiederum problematisch bei der Interpretation
eines Befundes ist.
Die Effizienz lässt sich beschreiben, indem man die Effektmaße aus
Abschnitt 14.4.2 berechnet. An Beispiel 15.3 wird deutlich, dass der
Nutzen oft kleiner ist als vielfach angenommen wird. Weitere Bei-
spiele zu diesem Thema findet man in [7].
! Die NNT (Number Needed to Treat) wird bei Screeningprogrammen auch
z
als NNS (Number Needed to Screen) bezeichnet.

15.2.3 Biasquellen
Bei Studien zu Präventionsmaßnahmen gibt es eine Reihe spezifi-
scher, systematischer Fehler (Bias):
„• Freiwilligenbias. Dies ist eine besondere Form des Selektionsbias.
Er kann auftreten, wenn ein Vergleich durchgeführt wird zwischen
Personen, die sich freiwillig einer Impfung oder einer Früherken-
nungsmaßnahme unterziehen, und einer Gruppe von Personen, die
dies nicht tun. Die Individuen der beiden Gruppen unterscheiden
sich möglicherweise – sei es bezüglich ihres Lebensstils oder des fa-
miliären Risikos oder aus anderen Gründen. Verzerrte Ergebnisse
wären dabei vorprogrammiert.
Um diesen Bias zu vermeiden, sollte der Nutzen einer präventiven
Maßnahme im Rahmen einer randomisierten Studie evaluiert wer-
den (z› Abschnitt 16.1.3). Bei diesem Studiendesign entscheidet al-
lein der Zufall, ob ein Teilnehmer an einem Früherkennungspro-
gramm teilnimmt oder nicht (z › Beispiel 15.3). Reine Beobachtungs-
studien könnten zu unzulässigen Schlussfolgerungen führen.
„• Lead Time Bias. Bei Patienten mit nicht heilbaren Tumoren, die
sich einem Screening-Test unterziehen, werden die Tumore eher
entdeckt als bei anderen Patienten. Die Diagnose wird also vor-
verlegt. Die Überlebenszeit hat sich aufgrund des Screenings nicht
verlängert, wohl aber die Zeit zwischen Diagnose und Tod. Dies darf
aber in keinem Fall als Verlängerung der Lebenszeit interpretiert
292 Kapitel 15 · Studien zu Diagnostik und Prävention

werden. In Wirklichkeit hat das Screening eher geschadet, da


dadurch ein Teil unbeschwerter Lebenszeit verloren gegangen ist.
„• Length Time Bias. Durch Screening-Untersuchungen werden vor
allem langsam wachsende, wenig aggressive Tumore mit langer prä-
klinischer Phase und guten Chancen auf Heilung aufgespürt. Aggres-
sive Tumore mit schlechter Prognose werden dagegen häufig von
den Patienten selbst entdeckt. Dies könnte zu der falschen Schluss-
folgerung verleiten, die höhere Erfolgsrate bei den langsam wach-
senden Tumoren sei dem Screening zu verdanken.
• Bias durch Überdiagnose. Dies ist eine extreme Form des Length
„
Time Bias. Er entsteht dadurch, dass Erkrankungen bekannt werden,
die ohne Screening niemals diagnostiziert worden wären. Dieser Fall
kann eintreten, wenn Karzinome erkannt werden, die zu Lebzeiten
des Patienten gar nicht symptomatisch werden würden (weil der
Patient vorher an einer anderen Ursache stirbt) oder wenn Tumore
erfasst werden, die sich ohne Screening zurückbilden würden.
Zusammenfassend ist festzuhalten: Der Nutzen eines Screenings ist
abhängig von der Prävalenz und der Art der Erkrankung sowie von
den zur Verfügung stehenden gesundheitsökonomischen Ressour-
cen. Darüber hinaus spielen Kriterien wie Sicherheit, Kosten, einfa-
che Anwendung und Akzeptanz eine wichtige Rolle. Leider ist die
Durchführung von randomisierten Studien, die den Nutzen belegen
könnten, aus verschiedenen Gründen problematisch: Diese Studien
müssten sehr viele Teilnehmer umfassen und etliche Jahre dauern,
um verlässliche Ergebnisse zu erhalten. Nicht jeder Proband wird
gerne den Zufall entscheiden lassen, ob er regelmäßig gescreent
werden soll oder nicht. Da die Nützlichkeit eines Screenings von den
meisten potentiellen Teilnehmern kaum in Zweifel gezogen wird,
mag es schwierig sein, sie von der Notwendigkeit solcher Studien zu
überzeugen.

15
16

Studien zu Therapie
und Prognose
16.1 Therapiestudien 295
16.1.1 Einleitende Bemerkungen 295
16.1.2 Die Phasen einer Arzneimittelstudie 296
16.1.3 Randomisation 296
16.1.4 Verblindung 298
16.1.5 Vergleichsgruppen 300
16.1.6 Das Studienprotokoll 300
16.1.7 Protokollverletzungen 301
16.1.8 Die statistische Analyse 303
16.1.9 Studien zur Nicht-Unterlegenheit 304
16.1.10 Alternative Designs 304

16.2 Prognosestudien 306


16.2.1 Einleitende Bemerkungen 306
16.2.2 Die Beschreibung einer Prognose 307
16.2.3 Die Kaplan-Meier-Methode 307
16.2.4 Die Evaluierung prognostischer Faktoren 309

16.3 Evidenzbasierte Medizin 310


16.3.1 Grundlagen 310
16.3.2 Evidenzbasierte Fallberichte 311
16.3.3 Die Cochrane Collaboration 313
16.3.4 Die Zukunft der evidenzbasierten Medizin 314
295 16
16.1 Therapiestudien

16.1 Therapiestudien

16.1.1 Einleitende Bemerkungen


Wenn bei einem Patienten eine Krankheit diagnostiziert wird, stellt
sich fast immer die Frage nach einer wirksamen und sicheren Thera-
pie. Dies ist eine Maßnahme, die den Gesundheitszustand des Pati-
enten verbessern soll: ein Medikament, ein chirurgischer Eingriff
oder eine Diät. Bei der Verordnung einer Therapie stützt sich der
Arzt zumeist auf die Ergebnisse von Studien, in denen deren Nutzen
nachgewiesen wurde.
Manche Therapien wurden entwickelt aufgrund von theoreti-
schen Überlegungen zu den Krankheitsmechanismen, andere Thera-
pien basieren auf zufälligen Beobachtungen oder langjährigen Erfah-
rungen eines Arztes. In jedem Fall müssen die Wirksamkeit und die
Sicherheit einer formalen Prüfung unterzogen und mittels einer
Therapiestudie untersucht werden.
Wenn eine neue Therapie an Menschen getestet wird, kann dies
mit Risiken verbunden sein – insbesondere dann, wenn nicht genü-
gend Erfahrungen über Wirkung und Nebenwirkungen vorliegen.
Andererseits ist es nicht weniger problematisch, unter dem Deck-
mantel der Ethik Patienten Arzneimittel zukommen zu lassen, deren
Wirksamkeit und Sicherheit nicht vorher untersucht worden sind.
Die Voraussetzungen zur Durchführung einer Therapiestudie
sind daher sehr streng und in mehreren Gesetzesvorlagen verankert,
u. a. im Arzneimittelgesetz (AMG). In die neusten Fassungen des
AMG sind die Leitlinien zur Durchführung von Therapiestudien
nach der „Good Clinical Practice“ (GCP) mit aufgenommen worden.
Damit müssen diese international anerkannten Qualitätsanforderun-
gen bei der Durchführung von Therapiestudien zur Anwendung
kommen. In jedem Fall muss eine Therapiestudie (egal ob es sich um
ein Arzneimittel oder ein Medizinprodukt handelt) vor Beginn von
einer Ethikkommission begutachtet werden. Studien, die eine Zu-
lassung eines Arzneimittels beinhalten, müssen zudem der zuständi-
gen Landesbehörde (Regierungspräsidium) und dem Bundesinstitut
für Arzneimittel und Medizinprodukte (BfArM) gemeldet werden.
Das Wohl der Patienten und der Probanden hat dabei immer
Priorität. Der verantwortliche Arzt oder Versuchsleiter ist ver-
pflichtet, jeden Teilnehmer über das Ziel der Studie aufzuklären und
vor Studienbeginn dessen Einverständnis einzuholen. Niemand darf
gegen seinen Willen gezwungen werden, an einer solchen Studie
296 Kapitel 16 · Studien zu Therapie und Prognose

teilzunehmen. Jeder Patient hat auch das Recht, nach Studienbeginn


ohne Angabe von Gründen sein Einverständnis zurückzuziehen.

16.1.2 Die Phasen einer Arzneimittelstudie


Bei der Entwicklung eines Arzneimittels sind mehrere Phasen zu
durchlaufen:
ŷ Präklinische Phase. Im Tierversuch werden Hinweise auf den
Wirkmechanismus ermittelt und Informationen bezüglich Akut-
und Langzeittoxikologie erhoben.
ŷ Phase I. Gesunde Probanden werden mit dem neuen Arzneimit-
tel behandelt, um Fragen zur Pharmakokinetik, zur Verträglich-
keit, zur Wirkung und zu Nebenwirkungen zu klären.
ŷ Phase II. Danach wird das Arzneimittel an einzelnen Patienten
eingesetzt. Ziel dieser Phase ist es, Informationen zur Wirksam-
keit (u. a. von verschiedenen Dosierungen) und Nebenwirkun-
gen bei kranken Personen zu erhalten.
ŷ Phase III. In dieser Phase wird eine größere Patientengruppe,
die die neue Therapie erhält, mit einer Kontrollgruppe vergli-
chen. Wenn alle Phasen I bis III erfolgreich abgeschlossen sind,
kann die Zulassung des Arzneimittels beantragt werden.
ŷ Phase IV. Sie beginnt mit der Zulassung und besteht, solange die
Therapie auf dem Markt ist. Sie dient der Dokumentation selte-
ner Nebenwirkungen und der Abgrenzung der Indikation. Es ist
die Aufgabe der Pharmakoepidemiologie, diese Nebenwirkungen
zu erfassen und zu analysieren.
Die Phasen I und II werden als prospektive Beobachtungsstudien
durchgeführt. Auch die Erkenntnisse, die in Phase IV gewonnen
werden, basieren auf Beobachtungen. Bei der Phase III handelt es
sich dagegen um eine klinisch kontrollierte Studie mit experimen-
tellem Design (auch Interventionsstudie genannt).

16.1.3 Randomisation
Klinisch kontrollierte Studien sind quasi auf Patientenpopulationen
beruhende Experimente, deren Ziel darin besteht, die Wirksamkeit
oder die Sicherheit einer neuen Therapie durch einen direkten Ver-
gleich (z. B. mit der bisherigen Standardtherapie oder einem Pla-
16 cebo) nachzuweisen. Diese Studien sind analytisch, longitudinal und
prospektiv. Die zu vergleichenden Gruppen werden nach einem Zu-
fallsverfahren gebildet, sodass ausschließlich der Zufall (z. B. ein
297 16
16.1 Therapiestudien

Zufallszahlengenerator) in jedem Einzelfall entscheidet, welcher Be-


handlungsgruppe der Patient zugewiesen wird. Dieses Verfahren be-
zeichnet man als Randomisation. Damit soll erreicht werden, dass
die Gruppen strukturgleich sind – und zwar nicht nur bezüglich be-
kannter, sondern auch bezüglich unbekannter Einflussfaktoren.
Hierin liegt ein wesentlicher Unterschied zu einer Kohortenstudie,
bei der die Zuordnung zu einer Gruppe von bestimmten Eigen-
schaften des individuellen Patienten abhängig ist (z. B. ob er Rau-
cher oder Nichtraucher ist) und nicht von einem Zufallsverfahren
bei Studienbeginn.
Die Randomisation bietet den Vorteil, dass ein Selektionsbias
vermieden wird. Dieser könnte leicht entstehen, wenn Patienten
durch den behandelnden Arzt bewusst oder unbewusst – etwa auf-
grund ihrer Prognose – einer bestimmten Therapiegruppe zugeord-
net werden würden. Darüber hinaus gewährleistet die Randomisa-
tion eine hohe interne Validität: Bei strukturgleichen Gruppen zu
Beginn der Studie ist klar, dass Unterschiede zwischen den Gruppen,
die am Ende der Studie nachgewiesen werden, tatsächlich durch die
Therapien bedingt sind. Folgendes ist zu jedoch bedenken:
ŷ Randomisation führt nicht automatisch zu gleich großen Grup-
pen. Dies kann insbesondere bei kleinen Studien problematisch
werden.
ŷ Es ist keineswegs garantiert, dass die zu vergleichenden Gruppen
bezüglich aller Einflussfaktoren strukturgleich sind.
Es gibt einige Sonderformen, um dem entgegenwirken:
„• Blockbildung. Dabei werden die Patienten in kleine Blöcke einer
fixen Größe eingeteilt – und zwar so, dass innerhalb jedes Blocks
gleich viele Patienten auf die einzelnen Therapiegruppen verteilt
sind. Wenn etwa die beiden Therapien A und B zu vergleichen sind,
kann man mit 6er-Blöcken arbeiten, in denen jeweils 3 Patienten
einer der beiden Therapien zugeordnet werden. Jeder Block wird
vorab zufällig ausgewählt (z. B. BAABBA). Durch die Blockbildung
erreicht man, dass die beiden Therapiegruppen am Ende der Studie
den gleichen Umfang haben. Außerdem werden Zwischenauswer-
tungen erleichtert.
• Stratifizierung. Bei der stratifizierten Randomisation werden die
„
Patienten zunächst in homogene Schichten (oder Strata) eingeteilt.
Eine Schicht besteht aus Patienten, die sich bezüglich wichtiger
Einflussfaktoren gleichen oder zumindest ähneln. Bei klinischen
Studien ist es oft angebracht, Schichten nach der speziellen Diag-
298 Kapitel 16 · Studien zu Therapie und Prognose

nose, dem Alter oder dem Geschlecht zu bilden. Dann wird inner-
halb jeder Schicht blockweise randomisiert. Dadurch erreicht man,
dass die Therapiegruppen weitgehend homogen sind bezüglich der
Merkmale, nach denen stratifiziert wurde. Es ist sinnvoll, die Daten-
analyse für jede Schicht getrennt durchzuführen und danach zu ver-
gleichen. Dieses Verfahren wird häufig bei multizentrischen Studien
angewandt, wobei die Strata mit den einzelnen Zentren identisch
sind.
„• Minimisation. Diese Methode eignet sich eher für kleine Studien.
Die Zuweisung erfolgt nur beim ersten Patienten rein zufallsbedingt.
Jeder nachfolgende Patient wird dann so zugeordnet, dass die Grup-
pen bestmöglich hinsichtlich vorab festgelegter Merkmale ausbalan-
ciert werden. Um dem Zufall weiterhin eine Chance zu geben, wird
hin und wieder die gewichtete Randomisation verwendet: Dabei
wird jeder Patient mit einer vorab festgelegten Wahrscheinlichkeit
(die größer ist als 0,5) der Gruppe mit der größten Imbalance zuge-
ordnet. Details zu diesem Design findet man in [11].
Randomisierte Studien sind für wissenschaftliche Fragestellungen
sehr wichtig und beobachtenden Studien überlegen. Nur dieser Stu-
dientypus ist geeignet, um die Frage nach kausalen Zusammenhän-
gen zuverlässig zu beantworten. Englische Bezeichnungen für diesen
Studientypus sind „randomized clinical trial“ oder auch „randomized
controlled trial“ mit der Abkürzung RCT.
i Die erste randomisierte, doppelblinde Studie wurde 1948 in England
z
durchgeführt. Dabei wurden die beiden Therapien „Streptomycin“ und
„Bettruhe“ zur Behandlung der Lungentuberkulose miteinander vergli-
chen. Diese Studie ist eng mit dem Namen des englischen Epidemiologen
Sir Austin Bradford Hill (1897-1991) verbunden. Hill hatte die Randomi-
sation als Basiselement des Therapievergleichs als erster erkannt.

16.1.4 Verblindung
Ein Arzt, der eine bestimmte Therapie favorisiert, hat eine Erwar-
tungshaltung und könnte deshalb – wenn auch unbewusst – die
Zielgrößen manipulieren, wenn er die Therapieform im Einzelfall
kennt. Ebenso ist ein Patient in seiner Wertung möglicherweise be-
einflusst, wenn er weiß, wie er therapiert wird.
Um derartige Fehlerquellen zu vermeiden, sollte – wann immer
16 dies möglich ist – die Studie verblindet werden. Idealerweise kennen
weder der Patient noch der behandelnde Arzt die Therapie, die im
Einzelfall verwendet wird. Ein solches Design heißt doppelblind.
299 16
16.1 Therapiestudien

Diese Vorgehensweise gewährt eine objektive und unvoreingenom-


mene Beurteilung einer Therapie und trägt damit zur Beobachtungs-
gleichheit bei. Dies bedeutet: Jeder Patient wird in gleicher Weise
behandelt und beobachtet (abgesehen von den unterschiedlichen
Therapieformen). Gelegentlich wird eine Studie sogar dreifachblind
durchgeführt. Dann hat auch die mit der Datenanalyse befasste
Person keine Kenntnis bzgl. der einzelnen Therapieformen.
Leider sind manche Studien schwer oder gar nicht doppelblind
durchführbar – z. B. wenn ein chirurgischer Eingriff mit einer kon-
servativen Therapie verglichen wird. Studien, bei denen nur der
Arzt (aber nicht der Patient) die Therapieform kennt, heißen ein-
fachblind. Einfachblind kann auch bedeuten, dass der Patient (aber
nicht der Arzt) über die Behandlungsform informiert ist. Dieser Fall
mag eintreten, wenn verschiedene Diäten verglichen werden. Eine
Studie, bei der sowohl der behandelnde Arzt als auch die Patienten
wissen, welche Therapieform angewandt wird, heißt offen.
Der Versuchsleiter sollte sich bemühen, eine Therapiestudie
doppelblind zu planen, wann immer dies realisierbar erscheint –
auch wenn eine blinde Studie organisatorisch wesentlich schwieriger
durchzuführen ist als eine offene Studie. Die so genannte Double-
Dummy-Technik ermöglicht ein doppelblindes Design auch dann,
wenn zwei Medikamente in unterschiedlicher Applikation (z. B. oral
und subkutan) gegeben werden: Dann wird in jeder Gruppe eines
der beiden Medikamente als Placebo verabreicht.
Bei einer doppelblinden Studie muss sichergestellt sein, dass sich
der behandelnde Arzt im Notfall umgehend über die spezielle Thera-
pie eines Patienten informieren kann. Dafür wird ein versiegelter
Notfallumschlag mit dem Namen des Patienten und Informationen
über dessen Therapie bereitgelegt.
Einschränkend muss hinzugefügt werden, dass eine vollständige
Verblindung bis zum Ende der Studie nicht immer realisierbar ist.
Häufig treten im Laufe einer Studie Therapieeffekte oder Nebenwir-
kungen auf, die beim Arzt oder beim Patienten zu einem Verdacht
führen können. Dennoch sollten eine Verblindung und eine objek-
tive Auswertung der erhobenen Daten angestrebt werden. Notfalls
sollte wenigstens ein verblindeter Beobachter eingeschaltet werden,
um den Therapieerfolg am Ende der Studie zu beurteilen.
300 Kapitel 16 · Studien zu Therapie und Prognose

16.1.5 Vergleichsgruppen
Wenn sich nach einer therapeutischen Maßnahme der Zustand eines
Patienten verbessert hat, ist dies nicht unbedingt allein auf den Ein-
fluss der Therapie zurückzuführen. Auch unspezifische Effekte
könnten dafür maßgebend sein: etwa der natürliche Krankheitsver-
lauf oder der Hawthorne-Effekt, der dadurch entsteht, dass sich die
Patienten besser fühlen, wenn ihnen Aufmerksamkeit geschenkt
wird. Nicht zuletzt kann der Placebo-Effekt wesentlich zur Verbes-
serung des Befindens beitragen.
Der Nutzen einer Therapie kann daher nur im direkten Ver-
gleich ermessen werden. Die Qualität einer Studie wird nicht zuletzt
durch die Vergleichsgruppe bestimmt. Theoretisch sind denkbar:
ŷ Standardtherapie. Falls eine Standardtherapie bereits etabliert
ist, sind andere Vergleichsgruppen wissenschaftlich und ethisch
nicht vertretbar.
ŷ Placebo. Ein Placebo (Scheinmedikament, das sich im Aussehen,
Geschmack und Geruch nicht von der wirksamen Substanz un-
terscheidet) als Vergleich sollte nur dann verwendet werden,
wenn dies ethisch zu vertreten ist und keine Standardtherapie
zur Verfügung steht.
ŷ Historische Kontrolle. Auf eine historische Kontrolle (also eine
Gruppe, die in der Vergangenheit behandelt wurde) greift man
zurück, wenn keine Standardtherapie existiert und ein Placebo-
vergleich ethisch nicht zu rechtfertigen ist. Diese Vorgehens-
weise ist angebracht bei Krankheiten, die ohne Behandlung un-
weigerlich zum Tod oder zu einer dramatischen Verschlechte-
rung des Zustands der betroffenen Patienten führen würden.
Historische Kontrollen sind jedoch problematisch, vor allem
dann, wenn sich auch andere Faktoren im Laufe der Zeit ändern
(z. B. durch verfeinerte Diagnostik oder verbesserte Begleitthe-
rapien). Beobachtungsgleichheit ist dann nicht mehr gegeben.
Historische Kontrollen tendieren dazu, den Wirkungseffekt der
neuen Therapie zu überschätzen.

16.1.6 Das Studienprotokoll


Wegen der hohen Qualitätsansprüche und der strengen Vorausset-
zungen sollte ein ausführliches Studienprotokoll mit folgendem In-
halt angefertigt werden:
16
301 16
16.1 Therapiestudien

ŷ Name und Ziel der Studie


ŷ Studiendesign (z. B. Angaben zu Randomisation und Verblin-
dung sowie beteiligte Kliniken oder Institutionen)
ŷ Zeitplan (Beginn, Rekrutierungs- und Untersuchungszeitraum
sowie geplantes Ende der Studie)
ŷ Behandlung. Die zu evaluierende Therapie und die Vergleichs-
behandlung müssen vollständig beschrieben werden. Dazu zäh-
len auch die Dauer und Dosierung der Anwendungen.
ŷ Einschlusskriterien. Sie legen fest, unter welchen Voraussetzun-
gen Patienten in die Studie aufgenommen werden. Es ist ferner
wichtig, deren Einverständnis zur Teilnahme zu dokumentieren.
ŷ Ausschlusskriterien. Sie beziehen sich auf Patienten, die zwar
alle Einschlusskriterien erfüllen, aber dennoch von der Studie
ausgeschlossen werden müssen (etwa weil ein erhöhtes Risiko
besteht oder eine weitere Krankheit vorliegt).
ŷ Abbruchkriterien. Sie geben an, unter welchen Bedingungen
einzelne Patienten von der laufenden Studie ausgeschlossen
werden oder die Studie vorzeitig abgebrochen wird. Dieser Fall
könnte eintreten, wenn unerwartete, gravierende Nebenwir-
kungen beobachtet werden.
ŷ Angaben zur Biometrie. Diese beinhalten die primären und
sekundären Zielgrößen, die zu überprüfende Hypothese, Anga-
ben zu den Stichproben, die statistischen Analysemethoden so-
wie die benötigte Anzahl von Patienten oder Probanden.
ŷ Mögliche Mängel der Studie. Falls nicht alle Qualitätskriterien
optimal erfüllt sind (z. B. Doppelblindheit), muss dies dokumen-
tiert und begründet werden.
ŷ Besondere Angaben (etwa Kostenträger oder Auftraggeber)
ŷ Angaben zur ethischen und rechtlichen Basis. Dazu zählen die
Stellungnahme der Ethikkommission sowie die Beschreibung, in
welcher Weise die Patienten oder Probanden über die Studie
informiert wurden und welche Versicherungen abgeschlossen
werden.
Die Festlegung der Ein- und Ausschlusskriterien soll die interindivi-
duelle Variabilität der Patienten verringern. Anhand dieser Kriterien
lässt sich beurteilen, auf welchen Personenkreis die Ergebnisse der
Studie übertragbar sind (z › externe Validität, Abschnitt 13.5.1).

16.1.7 Protokollverletzungen
Die Randomisation wird durchgeführt, um strukturgleiche Gruppen
zu erhalten. Idealerweise bleiben die Patienten bis zum Studienende
302 Kapitel 16 · Studien zu Therapie und Prognose

in der ihnen anfangs zugewiesenen Gruppe, werden wie vorgesehen


therapiert und stehen bis zur letzten Untersuchung zur Verfügung.
Die Realität sieht jedoch häufig anders aus. Es ist keineswegs si-
chergestellt, dass die Studie mit den anfangs erstellten, strukturglei-
chen Gruppen protokollgemäß zu Ende geführt werden kann. So
kann es passieren, dass Patienten vorzeitig ausscheiden (Drop Outs).
Dies ist nicht allzu problematisch, wenn deren Anzahl gering ist und
der Grund dafür in keinem Zusammenhang mit dem interessieren-
den Endereignis steht. Ein weit größeres Problem ergibt sich, wenn
Patienten ausscheiden oder die Therapiegruppe wechseln aus Grün-
den, die mit der anfangs zugeteilten Therapie assoziiert sind: Wegen
vermeintlicher Wirkungslosigkeit, unangenehmer Nebenwirkungen
oder auf Anraten ihres Arztes. Es wurden mehrere Analysemetho-
den entwickelt, um diese Protokollverletzungen zu handhaben:
ŷ Intention to Treat (ITT). Bei diesem Verfahren werden alle
Patienten in die Analyse einbezogen, und zwar in der Gruppe,
zu der sie anfangs randomisiert worden sind. Dies setzt voraus,
dass auch die Studienabbrecher wenigstens zur Enduntersu-
chung erscheinen.
ŷ As Treated (AT). Dieser Ansatz wertet die Patienten danach aus,
welche Therapie sie – eventuell nach einem Wechsel – zuletzt
erhalten haben. Studienabbrecher werden dabei nicht berück-
sichtigt.
ŷ Per Protocol (PP). Dieses Prinzip verlangt, dass alle nicht proto-
kollgemäß behandelten Patienten (also Abbrecher und Wechs-
ler) von der Analyse ausgeschlossen werden.
Der Vorteil der ITT-Analyse besteht darin, dass die Strukturgleich-
heit der Gruppen bis zum Ende der Studie gewahrt bleibt. Nachteilig
ist jedoch, dass Unterschiede zwischen den Therapien verwässert
werden. Allerdings ist zu bedenken, dass sich normalerweise nicht
alle Patienten an die Therapieempfehlungen halten, wodurch die
durchschnittliche Wirksamkeit abgeschwächt wird. Insofern be-
schreibt die ITT-Analyse einen Effekt, der in der Praxis zu erwarten
ist (im Englischen wird dies „effectiveness of treatment“ genannt).
Mit den AT- und PP-Analysen treten Unterschiede zwischen
den Gruppen deutlicher in Erscheinung. Diese Strategien beschrei-
ben eher die biologische Wirksamkeit (englisch: clinical efficacy).
Allerdings ist bei diesen Ansätzen die durch die Randomisation er-
zielte Strukturgleichheit am Ende der Studie nicht mehr gegeben. Es
16 kann daher keineswegs geschlussfolgert werden, dass ein nachge-
wiesener Unterschied allein durch die Therapie bedingt ist.
303 16
16.1 Therapiestudien

Man sollte versuchen, durch sorgfältige Studienplanung Protokoll-


verletzungen weitestgehend zu vermeiden. Es ist darüber hinaus
empfehlenswert, während der Studie einen intensiven Kontakt zu
den Patienten zu pflegen, um eine gute Compliance (Art, wie die
Patienten den ärztlichen Anweisungen folgen) zu erzielen.

16.1.8 Die statistische Analyse


Die Voraussetzungen für die statistische Analyse sind optimal, wenn
strukturgleiche Gruppen vorliegen, die sich lediglich bezüglich der
Therapie unterscheiden. Geeignete Analysemethoden sind abhängig
von der Zielgröße. Bei einer quantitativen Zielgröße eignet sich
eventuell ein t-Test für zwei unverbundene Stichproben bzw. eine
einfaktorielle Varianzanalyse, wenn mehr als zwei Therapiegruppen
vorliegen. Bei einer binären Zielgröße bietet sich ein Chi2-Test an;
außerdem können die in Abschnitt 14.4.2 vorgestellten Effektmaße
(NNT u. a.) bestimmt werden. Um den Einfluss weiterer Merkmale
zu untersuchen und eventuell vorhandene Unterschiede zwischen
den Gruppen auszugleichen (die auch nach der Randomisation auf-
treten könnten), eignet sich ein multiples Verfahren an (Allgemeines
lineares Modell oder logistische Regression).
Wenn eine Zeitdauer als Zielgröße untersucht wird (z. B. die
Zeit zwischen Beginn der Therapie und Heilung), eignen sich die
Kaplan-Meier-Methode und der Logranktest. Damit lassen sich meh-
rere Gruppen (z. B. unterschiedliche Therapieformen) miteinander
vergleichen. Als multiple Methode bietet sich das Cox-Regressions-
modell an (z › Abschnitte 16.2.3 und 16.2.4).
Bei klinisch kontrollierten Studien werden häufig Surrogatmerk-
male anstelle von klinischen Endzuständen (z › Abschnitt 2.4) unter-
sucht, um Studien schneller abschließen und publizieren zu können.
Surrogatmerkmale werden hin und wieder auch dann verwendet,
wenn die Analyse der primären klinischen Zielgröße den Erwartun-
gen nicht gerecht wird. Der kritische Leser einer Publikation sollte
sich fragen, ob die Verwendung eines Surrogatmerkmals gerechtfer-
tigt ist und ob die Schlussfolgerungen statthaft sind.
! Wenn bei einer neuen Therapie mit schweren Nebenwirkungen zu rech-
z
nen ist, kann – analog zur NNT – die so genannte NNH (Number Needed
to Harm) berechnet werden. Sie gibt an, wie viele Patienten zu behan-
deln sind, damit durchschnittlich einer aufgrund der neuen Therapie
Schaden erleidet. Die NNT sollte möglichst gering, die NNH dagegen
hoch sein.
304 Kapitel 16 · Studien zu Therapie und Prognose

16.1.9 Studien zur Nicht-Unterlegenheit


Beim Vergleich zweier Therapien geht es nicht immer darum, einen
signifikanten Unterschied nachzuweisen. Wenn beispielsweise be-
kannt ist, dass eine neue Therapie weniger Nebenwirkungen hat,
einfacher zu applizieren oder preiswerter ist als eine Vergleichsthe-
rapie, oder dass eine bessere Compliance zu erwarten ist, muss nicht
zusätzlich gefordert werden, dass sie auch in ihrer Wirksamkeit
überlegen ist. Bei derlei Fragestellungen würde der Nachweis genü-
gen, dass die neue Therapie mindestens genauso wirksam ist wie die
Standardtherapie.
Ein signifikantes Testergebnis wird demnach nicht unbedingt
angestrebt. Es ist andererseits nicht statthaft, ein nicht-signifikantes
Testergebnis dahingehend zu interpretieren, dass die zu verglei-
chenden Therapien äquivalent seien. Der Nicht-Unterlegenheits-
Nachweis basiert auf der Konstruktion eines Konfidenzintervalls für
die Wirkungsdifferenz der beiden Therapien (z › Abschnitt 10.2.2).
Man muss sich vorab überlegen, ab welcher Größe ein Unterschied
als klinisch bedeutsam angesehen wird. Ausführliche Hinweise fin-
det man in [11].

16.1.10 Alternative Designs


Randomisierte klinische Studien sind sehr aufwendig und unterlie-
gen strengen Vorschriften. Sie sind zwar wegen der Strukturgleich-
heit der Gruppen intern valide; wegen der strengen Ein- und Aus-
schlusskriterien mangelt es ihnen aber häufig an externer Validität –
das heißt, es ist mitunter problematisch, die Ergebnisse auf andere
Patientengruppen zu übertragen.
Ferner ist zu bedenken, dass die Randomisation nicht immer
praktisch umsetzbar ist. Manche Patienten verweigern sie, weil sie
wünschen, dass ihr Arzt über die Therapie entscheidet. Bei Notfall-
patienten ist eine Randomisation (verbunden mit der Aufklärung
und der Einwilligung des Patienten) nicht möglich. Aus diesen
Gründen ist es sinnvoll, Alternativen zu diskutieren.
„• Studien ohne direkte Vergleichsgruppe. Das denkbar einfachste
Design, um die Wirkung einer Therapie zu überprüfen, besteht
darin, einen einfachen Vorher-Nachher-Vergleich durchzuführen.
Vereinzelt wird in Fallberichten oder Fallserien über zumeist erfolg-
reiche therapeutische Interventionen berichtet. Allerdings ist die
16 Aussagekraft solcher Studien gering: Wegen der fehlenden Ver-
gleichsgruppe kann schwer beurteilt werden, worauf eine Verbesse-
305 16
16.1 Therapiestudien

rung des Zustands zurückzuführen ist. Ersatzweise kann man eine


historische Kontrolle oder eine Vergleichsgruppe aus der Literatur
heranziehen. Diese Designs sind jedoch wegen der mangelhaften Be-
obachtungsgleichheit problematisch und sollten nur in begründeten
Ausnahmefällen verwendet werden (etwa wenn ein direkter Ver-
gleich aus ethischen Gründen nicht akzeptabel ist).
„• Retrospektive Studien. Falls die Daten für zwei Therapiegruppen
bereits vorliegen, ist auch ein Vergleich denkbar, der retrospektiv
durchgeführt wird. Allerdings ist anhand der Dokumentationen in
der Regel nicht erkennbar, welche Beweggründe in die Therapie-
entscheidung des behandelnden Arztes eingeflossen sind. Deshalb
sind die Ergebnisse dieser Studien mit Vorsicht zu bewerten.
„• Kohortenstudien. Sie sind im Vergleich zu randomisierten,
doppelblinden Studien organisatorisch einfacher in der Planung und
Durchführung. Falls neben der Therapie weitere Faktoren evaluiert
werden, lassen sich diese Studien auch auffassen als Prognosestudien,
bei denen die Therapie als ein potentieller Einflussfaktor analysiert
wird. Bei diesen Studien entscheidet meist der behandelnde Arzt
über die Therapie im Einzelfall. Dieses Vorgehen birgt jedoch die
Gefahr eines Selektionsbias in sich (etwa wenn die Therapie eines
Patienten vom Schweregrad der Krankheit abhängt). Mit einem
multiplen Test lassen sich Unterschiede zwischen den Vergleichs-
gruppen ausbalancieren (allerdings nur für bekannte Einflussfakto-
ren).
„• Cross-Over-Design. Bei diesem Design wird jeder Patient mit
zwei unterschiedlichen Therapien behandelt. Die Therapien können
gleichzeitig (Blockversuche; z. B. bei paarigen Organen) oder zeitlich
versetzt durchgeführt werden. Jeder Patient stellt also seine eigene
Kontrolle dar. Idealerweise sollte die Zuordnung der Therapien ran-
domisiert erfolgen. Wenn die Therapien nacheinander verabreicht
werden, ist auf eine therapiefreie Übergangsphase zu achten, um
Überhangeffekte zu vermeiden. Dieses Studiendesign erfordert sta-
tistische Auswertemethoden für verbundene Stichproben. Zur Ana-
lyse eines quantitativen Merkmals bietet sich der t-Test oder der
Wilcoxon-Test für verbundene Stichproben an (z › Abschnitte 11.1.2
und 11.2.2); bei einem Alternativmerkmal eignet sich der McNemar-
Test (z› Abschnitt 12.2.5).
Bei einer Cross-Over-Studie werden weit weniger Patienten als
bei einer zweiarmigen Studie benötigt. Dieses Design ist allerdings
ungeeignet bei progredienten Erkrankungen und bei Krankheiten,
306 Kapitel 16 · Studien zu Therapie und Prognose

bei denen eine der beiden Therapien zur Heilung oder zur nachhal-
tigen Besserung des Gesamtzustands führt. Anwendungsmöglich-
keiten sind gegeben bei chronischen Krankheiten wie z. B. rheuma-
tischen Erkrankungen oder bei chronischen Hauterkrankungen wie
etwa Neurodermitis, wo lediglich eine Milderung der Symptome zu
erwarten ist.

16.2 Prognosestudien

16.2.1 Einleitende Bemerkungen


Viele akute Krankheiten haben, vor allem wenn sie gut therapierbar
sind, einen zeitlich begrenzten Verlauf. Chronische Krankheiten
können hingegen das Leben eines Patienten nachhaltig beeinflussen
(insbesondere wenn sie mit einer hohen Mortalität oder einer star-
ken Beeinträchtigung der Lebensqualität einhergehen). In diesen
Fällen ist es für den Patienten wichtig, Informationen bezüglich sei-
ner Prognose zu erhalten. Der Begriff klinischer Verlauf bezeichnet
die Prognose, wenn eine adäquate Behandlung erfolgt. Dagegen ver-
steht man unter dem natürlichen Verlauf die Prognose ohne medizi-
nische Intervention.
Prognosestudien werden in Angriff genommen, um einerseits
eine Prognose über eine geeignete Maßzahl quantifizieren zu kön-
nen und andererseits, um Prognosefaktoren zu finden, die den Ver-
lauf einer Krankheit beeinflussen. Bei Kenntnis wichtiger Progno-
sefaktoren ist es eventuell möglich, Vorhersagen im Einzelfall zu
treffen.
Es ist üblich, derlei Studien als Kohortenstudien durchzuführen.
Dabei wird eine Gruppe von Personen, die an einer bestimmten
Krankheit leiden, prospektiv beobachtet, und zwar solange, bis ein
definiertes Endereignis eintritt. Dies kann der Tod des Patienten
sein; es kann sich jedoch auch um ein anderes, für den Patienten
wichtiges Ereignis handeln. Bei Studien in der Onkologie wird bei-
spielsweise häufig die Zeit bis zum Auftreten eines Rezidivs oder bis
zum Eintreten einer Remission analysiert. Hin und wieder werden
auch zusammengesetzte Endpunkte untersucht (z. B. Tod oder Auf-
treten eines Rezidivs). Der Startzeitpunkt, ab dem ein Patient beob-
achtet wird, muss ebenfalls klar definiert sein (etwa der Zeitpunkt
16 der Diagnose oder des Behandlungsbeginns).
307 16
16.2 Prognosestudien

16.2.2 Die Beschreibung einer Prognose


Häufig wird die Prognose mittels einer Rate ausgedrückt, wie etwa
der 5-Jahres-Überlebensrate, der Letalität, der Mortalität, der Remis-
sions- oder der Rezidivrate. Eine andere Form der Darstellung ist die
mediane Überlebenszeit, die die Zeitspanne angibt, die die Hälfte der
Kohorte überlebt. Sie hat den Vorteil, dass sie – im Gegensatz zur
mittleren Überlebenszeit – bereits dann berechnet werden kann,
nachdem die Hälfte der Studienteilnehmer verstorben ist.
All diese Maßzahlen sind leicht einprägsam. Andererseits sind
sie wenig informativ. So ist beispielsweise aus der 5-Jahres-Überle-
bensrate nicht ersichtlich, wie groß die Wahrscheinlichkeit ist, eine
andere Zeitspanne zu überleben. Detaillierte Analysemethoden wer-
den in den folgenden Abschnitten vorgestellt.

16.2.3 Die Kaplan-Meier-Methode


Um das Überleben einer Kohorte für jeden Zeitpunkt bis zum Ende
der Studie zu beschreiben, müsste man die Kohorte solange beob-
achten, bis der letzte Patient verstorben ist. Dies ist in den meisten
Fällen aber nicht möglich, da man bei derlei Studien mit Studienab-
brechern (Drop Outs) rechnen muss. Außerdem ist anzunehmen,
dass zum Zeitpunkt der Datenanalyse nicht bei jedem Patienten das
Endereignis eingetreten ist (z › zensierte Daten, Abschnitt 2.4). Es
würde das Studienergebnis verzerren, wenn alle Patienten mit zen-
sierten Zeiten bei der Analyse nicht berücksichtigt werden würden
Zwei Biostatistiker – Edward M. Kaplan und Paul Meier – haben
im Jahre 1958 die nach ihnen benannte Kaplan-Meier-Methode ent-
wickelt, welche die Informationen aller Patienten (also auch die un-
vollständigen Angaben) so weit wie möglich berücksichtigt. Diese
Methode wird häufig bei Überlebenszeitanalysen angewandt. Der
Begriff „Überlebenszeitanalyse“ wird dabei ganz allgemein verwen-
det, um die Zeit zwischen einem definierten Anfangs- und einem
bestimmten Endereignis zu untersuchen. Die Kaplan-Meier-Metho-
de lässt sich wie folgt beschreiben:
ŷ Die Studie startet mit n Patienten. Diese Anzahl reduziert sich
im Laufe der Zeit, da Patienten ausscheiden (weil das kritische
Endereignis eintritt oder auch aus anderen Gründen).
ŷ Die Zeiten, zu denen Endereignisse stattfinden, werden ermittelt
und mit t1 < t 2 < ... < t k bezeichnet. Die Anzahl der Patienten,
die zu diesen Zeitpunkten ausscheiden, sei d1 , d 2 etc.
308 Kapitel 16 · Studien zu Therapie und Prognose

ŷ Die Anzahl der Patienten, die unmittelbar vor einem Zeitpunkt


ti noch in der Studie involviert sind, sei ni .
ŷ Die Überlebensfunktionen S (ti ) = P(t > ti ) werden für jeden
Zeitpunkt ti ( i = 1,..., k ) geschätzt nach:

n − d n − d2 n − di
Sˆ (ti ) = 1 1 ⋅ 2 ⋅ ... ⋅ i (16.1)
n1 n2 ni

Wenn es keine zensierten Daten gibt, ist ni +1 = ni − d i . Dann lässt


sich der Bruch in (16.1) kürzen und man erhält Sˆ (ti ) = ni +1 / n (mit
n = n1 ). Dies ist also die Zahl derer, die den Zeitpunkt ti überlebt
haben, im Verhältnis zu der Gesamtzahl der Patienten, die zu Beginn
an der Studie teilnehmen. In dieser Form ist die Schätzung einfach
und unmittelbar einleuchtend.
Beispiel 16.1
Nach einer Organtransplantation wurden bei 10 Patienten die Überlebenszei-
ten in Tagen ermittelt. Nach 160 Tagen wurde die Studie beendet. Bei 7 Pati-
enten konnte der Zeitpunkt des Endereignisses ermittelt werden (nach 20, 35,
62, 91, 91, 128 und 148 Tagen). Ein Patient brach nach 98 Tagen die Studie ab;
zwei Patienten lebten am Ende der Studie noch. Mit diesen Angaben erhält
man (unter Berücksichtigung des zensierten Wertes nach 98 Tagen) folgende
Schätzwerte für S (ti ) :
Zeiten ni di ni − d i Sˆ (ti )
t1 = 20 10 1 9 9 / 10 = 0,9
t2 = 35 9 1 8 0,9 ⋅ 8 / 9 = 0,8
t3 = 62 8 1 7 0,8 ⋅ 7 / 8 = 0,7
t4 = 91 7 2 5 0,7 ⋅ 5 / 7 = 0,5
t5 = 128 4 1 3 0,5 ⋅ 3 / 4 = 0,375
t6 = 148 3 1 2 0,375 ⋅ 2 / 3 = 0,25

Wenn – wie in Beispiel 16.1 – bei einigen Patienten das Endereignis


am Ende der Studie noch nicht eingetreten ist, kann die Überle-
bensfunktion nur bis zum Zeitpunkt der letzten zensierten Beob-
achtung geschätzt werden. Die graphische Darstellung der Wahr-
scheinlichkeiten S (ti ) in Abhängigkeit der Zeitpunkte ti ergibt die
Überlebenskurve (z › Abbildung 16.1). Es leuchtet ein, dass die
Schätzung nach Formel (16.1) mit wachsendem t schlechter wird, da
16 zu jedem neuen Beobachtungszeitpunkt ti weniger Patienten zur
Verfügung stehen.
309 16
16.2 Prognosestudien

Überlebenswahrscheinlichkeit
1,0
Abb. 16.1 0,9
empirische Überle- 0,8
benskurve 0,7
(Beispiel 16.1). 0,6
Zensierte Daten 0,5
sind durch einen 0,4
*
Punkt dargestellt. 0,3
0,2 **
0,1
0
0 20 40 60 80 100 120 140 160
Überlebenszeit in Tagen

Mathematische Herleitung der Überlebenszeiten


Unmittelbar vor dem Zeitpunkt t1 stehen n1 Beobachtungseinheiten zur Verfü-
gung, zum Zeitpunkt t1 sterben d1 Patienten. Die Wahrscheinlichkeit, t1 zu
überleben, wird geschätzt als:
n −d
Sˆ (t1 ) = 1 1
n1
Die Wahrscheinlichkeit, den Zeitpunkt t2 zu überleben, ist nach (6.9):
S (t2 ) = P(t > t2 ) = P (t > t1 ) ⋅ P (t > t2 | t > t1 )
Der erste Faktor wird geschätzt über Sˆ (t1 ) (siehe oben); den zweiten schätzt
n − d n − d2
man analog. So ergibt sich: Sˆ (t 2 ) = 1 1 ⋅ 2 .
n1 n2
Durch sukzessives Wiederholen erhält man schließlich die Formel (16.1).

16.2.4 Die Evaluierung prognostischer Faktoren


In den vorangegangenen Abschnitten wurde beschrieben, wie eine
einzelne Kohorte untersucht werden kann. Mit dem Logranktest (z ›
Abschnitt 12.2.7) können zwei oder mehrere Gruppen, die sich be-
züglich einer Einflussgröße (z. B. der Therapieform oder des Krank-
heitsstadiums) unterscheiden, verglichen werden. Dieser Test ist ge-
eignet, um Unterschiede zwischen den Überlebenskurven zu erken-
nen. Ein signifikanter Unterschied weist darauf hin, dass die
Gruppierungsvariable prognostisch relevant sein könnte.
Im Jahre 1972 wurde von dem britischen Statistiker David Cox
(geboren 1924) eine multiple Methode vorgestellt, die es ermöglicht,
eine Kombination von prognostischen Faktoren ausfindig zu ma-
chen, die den Endzustand eines Patienten in optimaler Weise vor-
hersagt. Mit diesem Cox-Proportional-Hazards-Modell wird die in
310 Kapitel 16 · Studien zu Therapie und Prognose

Formel (8.29) definierte Hazard-Rate in Abhängigkeit von einer oder


mehreren Einflussgrößen als Hazard-Funktion modelliert. Dies ent-
spricht der momentanen Sterberate. Für zwei Patienten oder Popu-
lationen kann dann der Quotient der jeweiligen Hazard-Funktionen
bestimmt werden. Diese so genannte Hazard-Ratio ist ein Maß für
das relative Risiko. Die Hazard-Ratio kann für jeden Zeitpunkt be-
rechnet werden und ermöglicht dadurch – im Gegensatz zu einfa-
chen Maßzahlen wie der 5-Jahres-Überlebensrate – Prognosen für
jeden einzelnen Zeitpunkt.
Die Kaplan-Meier-Methode und das Cox-Regressionsmodell er-
möglichen Überlebenszeitanalysen auch dann, wenn zensierte Daten
vorliegen. Bei der Planung einer Überlebenszeitstudie ist generell zu
beachten:
ŷ Anfang und Ende des Beobachtungszeitraums sollten möglichst
exakt definiert sein.
ŷ Bei der Planung des Stichprobenumfangs muss einkalkuliert
werden, dass einige Daten möglicherweise zensiert werden.
ŷ Die Beobachtungszeit sollte ausreichend lang bemessen sein, da-
mit bei möglichst vielen Patienten das interessierende Endereig-
nis eintritt.
ŷ Wenn Patienten vorzeitig aus der Studie ausscheiden, sollten die
Gründe dafür in keinem Zusammenhang mit der Prognose ste-
hen. Ansonsten könnten die Drop Outs zu fehlerhaften Schluss-
folgerungen führen.
i Für weitere Informationen bezüglich der Analyse von Ereigniszeiten sei
z
auf [6] und [11] verwiesen.

16.3 Evidenzbasierte Medizin

16.3.1 Grundlagen
Warum gehört ein Abschnitt zu Evidenzbasierter Medizin (EBM) in
ein Lehrbuch für Biomathematik und Epidemiologie? EBM ist mit
den Methoden der Klinischen Epidemiologie und der Biomathema-
tik eng verbunden. Ohne Kenntnisse dieser Methoden können wis-
senschaftliche Arbeiten nicht kritisch interpretiert werden – und
diese Evaluierung stellt eine Grundlage der EBM dar.
16 Evidenzbasierte Medizin (Evidence Based Medicine) ist eine
Medizin, die sich nicht nur an Intuition, unsystematischen individu-
ellen Erfahrungen eines Arztes (auch nicht eines Chefarztes) oder im
311 16
16.3 Evidenzbasierte Medizin

besten Fall an veralteten Lehrbüchern orientiert, sondern versucht,


ärztliche Entscheidungen auf wissenschaftliche und objektive Belege
(und so ist das englische Wort „evidence“ zu verstehen) zu gründen.
Nach dem britischen Epidemiologen David Sackett (geboren 1934)
ist EBM der gewissenhafte, ausdrückliche und vernünftige Gebrauch
der gegenwärtig besten externen, wissenschaftlichen Evidenz in der
medizinischen Versorgung individueller Patienten. Systematische
Übersichtsarbeiten mit Metaanalysen und einzelne randomisierte,
klinische Therapiestudien sind die Basis für eine solche Vorgehens-
weise, und es erscheint sinnvoll, dass ein Arzt bei der Patientenbe-
handlung sich an den Ergebnissen aller ihm zur Verfügung stehen-
den, relevanten Studien von guter Qualität orientiert.
Dies hört sich selbstverständlich an, ist aber in der Realität nicht
einfach umzusetzen. Die Ergebnisse aus der medizinischen For-
schung und die daraus hervorgehenden Publikationen vermehren
sich rasant. In der knapp bemessenen Lesezeit ist dies von einem
einzelnen Arzt nicht mehr zu bewältigen. EBM bietet durch ein
strukturiertes Vorgehen Hilfe bei der ärztlichen Entscheidungsfin-
dung (z › Abschnitt 16.3.3). Dabei muss der behandelnde Arzt nicht
in jedem Einzelfall die Originalliteratur analysieren. Häufig kann er
mittlerweile auf gute Sekundärliteratur zurückgreifen, in der Kolle-
gen die gesamte, verfügbare Literatur zu einer bestimmten Frage-
stellung (z. B. „Wie behandle ich die Psoriasis am besten?“) nach den
Gesichtspunkten der EBM gesichtet und analysiert haben.
Darüber hinaus stellt die evidenzbasierte Bewertung medizini-
scher Literatur einen wichtigen Beitrag zur Qualitätsverbesserung
und Qualitätssicherung in der Klinik und in der Gesundheitsversor-
gung dar. Aus diesen Gründen hat die EBM in den letzten Jahren an
Bedeutung gewonnen und findet sowohl in der klinischen Praxis als
auch im Bereich der Leitlinienentwicklung zunehmend Einzug.
Leitlinien der höchsten Stufe (S3) setzen eine nach evidenzbasierten
Gesichtspunkten durchgeführte Evaluation der Literatur voraus
(http://www.awmf-online.de/).

16.3.2 Evidenzbasierte Fallberichte


EBM fokusiert sich auf den individuellen Patienten, für den es gilt,
die bestmögliche Diagnostik bzw. Therapie auszuwählen. Aufbauend
auf dem Konzept von David Sackett erfolgt ein mehrstufiges Vorge-
hen. An erster Stelle steht die Formulierung einer klinischen Frage-
stellung. Die weiteren Schritte geben den weitgehend standardisier-
ten Prozess der Entscheidungsfindung an. Diese basiert auf der kri-
312 Kapitel 16 · Studien zu Therapie und Prognose

tischen Bewertung der gefunden Literatur; dabei werden die Res-


sourcen der Cochrane Collaboration, jedoch auch anderer medizini-
scher Datenbanken genutzt. Am Schluss steht die Überprüfung der
getroffenen Entscheidung.
Dies soll an einem Beispiel verdeutlicht werden: Ein Patient, der
unter verstärktem Schwitzen im Bereich der Achseln leidet (Hyper-
hidrose), stellt sich in der Praxis eines Dermatologen vor. Damit er-
gibt sich die Fragestellung: Wie kann dieser Patient am wirksamsten
und nebenwirkungsärmsten behandelt werden? Ein Arzt, der diese
Entscheidung nur auf seinen eigenen, individuellen Erfahrungen
aufbaut, wird dem Patienten eine Therapie empfehlen, die er selbst
schon mehrfach erfolgreich angewandt hat, ohne über Alternativen
nachzudenken. Ein Arzt aus einer operativen Klinik wird dem Pati-
enten eher eine operative Therapie (z. B. Schweißdrüsenexzision)
empfehlen als ein Arzt, der in einer eher konservativ orientierten
Klinik tätig ist.
Ein Arzt, der hingegen versucht, eine evidenzbasierte Therapie-
entscheidung zu treffen, wird vor seiner Entscheidung auf eine sys-
tematische Übersichtsarbeit zur Behandlung des verstärkten Schwit-
zens zurückgreifen wollen. Falls eine solche Arbeit nicht existiert,
muss Originalliteratur herangezogen werden. In erster Linie wird
man sich dabei auf randomisierte klinische Studien stützen, die man
z. B. der Cochrane- oder der Medline-Datenbank entnehmen kann.

Tabelle 16.1 Struktur eines evidenzbasierten Fallberichtes

Wie behandle ich diesen Patienten am


1. Fragestellung besten (Ziel der Aktion, sinnvolle Hand-
lungsoption und Alternativen)?
Welche Datenbanken durchsuche ich?
Suchstrategie
2. Welche Suchbegriffe verwende ich?
(Literaturrecherche)
Wie kombiniere ich diese Suchbegriffe?
Kritische Evaluierung der Wie gut sind diese Grundlagen
3.
gefundenen Arbeiten (interne Validität, klinische Relevanz?
Basierend auf individueller Erfahrung des
Arztes (interne Evidenz) und aktueller
4. Therapieentscheidung
Literatur (externe Evidenz) in Anbetracht
der Anwendung im konkreten Fall
Begründung und War die Entscheidung richtig? Welche
16 5.
Diskussion Konsequenzen ergeben sich daraus?
313 16
16.3 Evidenzbasierte Medizin

Die Therapieentscheidung bei einem individuellen Patienten wird


sich auf die Ergebnisse dieser Literaturrecherche stützen, jedoch
auch individuelle Faktoren in Betracht ziehen. Man wird etwa eine
Therapie, die anfangs dreimal pro Woche in der Klinik durchgeführt
werden muss (wie die Iontophoresebehandlung bei Hyperhidrose),
keinem Patienten anbieten, der 100 km entfernt wohnt. Am Ende
steht dann die Reflexion des behandelnden Arztes, ob er die Thera-
pieentscheidung basierend auf EBM-Kriterien gefällt hat, oder ob er
sich von anderen Faktoren hat beeinflussen lassen.

16.3.3 Die Cochrane Collaboration


Die Cochrane Collaboration (CC, http://www.cochrane.de) hilft,
dem Arzt die bestmögliche Evidenz für eine Therapieentscheidung
zur Verfügung zu stellen. Die CC ist eine internationale Organisa-
tion, deren Ziel die Erstellung, Verbreitung und regelmäßige Aktua-
lisierung systematischer Übersichtsarbeiten zu diagnostischen und
therapeutischen Fragestellungen ist. Systematische Übersichtsarbei-
ten, die nach den Kriterien der CC erstellt werden, werden im Ge-
gensatz zu den klassischen Übersichtsarbeiten, die u. a. durch indivi-
duelle Erfahrungen und Netzwerke geprägt sind, strukturiert erstellt.
Ziel der Strukturierung durch Richtlinien und Kontrollinstanzen
ist es, die Ergebnisse der Übersichtsarbeit so objektiv und so
nachvollziehbar wie möglich zu gestalten. Sind genügend vergleich-
bare Arbeiten zu einer Fragestellung vorhanden, steht am Ende eine
Metaanalyse. Dies ist eine besondere Form der statistischen Aus-
wertung, die vergleichbare Arbeiten zusammenfasst. Die Anzahl der
von der CC erstellten systematischen Übersichtsarbeiten wächst zu-
nehmend.
Im Logo der CC ist eine Metaanalyse grafisch dargestellt (z ›
Abbildung 16.2). Die kleine Raute im linken, unteren Teil des Krei-
ses zeigt die gemeinsame Schätzung resultierend aus der Synthese
aller vergleichbaren Studien zu einem bestimmten Thema, die in der
Metaanalyse berücksichtigt werden.
Die Arbeiten der Cochrane Collaboration bedeuten im Kontext
der EBM einen wichtigen Beitrag, um fundierte, wissenschaftlich
hochwertige Antworten zu Fragen aus der klinischen Praxis mit ho-
her Validität und minimaler Verzerrung (Bias) zu erhalten.
314 Kapitel 16 · Studien zu Therapie und Prognose

16.3.4 Die Zukunft der evidenzbasierten Medizin


Evidenzbasierte Medizin wird in naher Zukunft nicht mehr wegzu-
denken sein. Sie wird gefördert durch das Bestreben nach Qualitäts-
sicherung und die Notwendigkeit der Verwaltung eingeschränkter
Ressourcen. Sie erfordert klinisch interessierte Mediziner, die sich
nicht scheuen, kritische Fragen zu stellen und an alten und neuen
Dogmen (z. B. „Schokolade verschlechtert eine Akne“ oder „Kartof-
fel-Reis-Diät hilft bei einer physikalischen Urtikaria“) zu rütteln und
auch ihre Zeit opfern, um diese Fragen zu beantworten. Durch die
Identifikation von Forschungsdefiziten werden neue Fragen auftau-
chen, die in sorgfältig geplanten, analytischen epidemiologischen
Studien überprüft werden müssen.
Die EBM soll den Arzt bei seinen Entscheidungen unterstützen.
Nach Sackett ist sie zu verstehen als eine Kunst, bei der Behandlung
eines individuellen Patienten die richtigen Fragen zu stellen und
diese durch eine strukturierte Zusammenfassung der neuesten Er-
kenntnisse aus der medizinischen Forschung zu beantworten. Jedoch
sollten immer bei der Umsetzung die eigene klinische Erfahrung des
Arztes wie auch das Patientenverständnis mit berücksichtigt wer-
den. Wenn z. B. der Arzt die Krankheit nicht richtig diagnostiziert,
hilft die beste Literaturrecherche nicht weiter. Wenn der Arzt eine
Therapieentscheidung fällt, die nicht zum Verständnis des Patienten
von seiner Krankheit passt, wird diese Entscheidung vom Patienten
nicht akzeptiert werden und wegen mangelnder Compliance nicht
zum gewünschten Erfolg führen.
Zusammenfassend lässt sich schlussfolgern, dass die ärztliche Ent-
scheidungsfindung auf drei Säulen beruht:
ŷ Auf dem erworbenen Wissen und der klinischen Erfahrung des
behandelnden Arztes (interne Evidenz);
ŷ auf den Bedürfnissen des Patienten;
ŷ auf dem aktuellen Stand der Forschung (externe Evidenz).
i
z Als Einführung in die Methoden der EBM sei [8] empfohlen.

Abb. 16.2
Logo der
16 Cochrane
Collaboration
Anhang

Anhang
Tabelle A: Dichte- und Verteilungsfunktion der
Standardnormalverteilung 317
Tabelle B: Quantile der t-Verteilung 318
Tabelle C: Kritische Werte für den Wilcoxon-Test
319
Tabelle D: Kritische Werte für den U-Test 320
Tabelle E: Quantile der Chi2-Verteilung 322
Tabelle F: Kritische Werte für den Vorzeichen-
Test 323

Glossar Englisch - Deutsch 324

Abkürzungen – Abbreviations 327

Weiterführende Literatur 328


Tabelle A: Dichte- und Verteilungsfunktion der 317 Anhang
Standardnormalverteilung

Tabelle A: Dichte- und Verteilungsfunktion der


Standardnormalverteilung

z ϕ (z ) Φ (z ) z ϕ (z ) Φ (z )
0,0 0,399 0,50 1,6 0,111 0,945
0,1 0,397 0,540 1,645 0,103 0,95
0,2 0,391 0,579 1,7 0,094 0,955
0,3 0,381 0,618 1,8 0,079 0,964
0,4 0,368 0,655 1,9 0,066 0,971
0,5 0,352 0,691 1,96 0,058 0,975
0,6 0,333 0,726 2,0 0,054 0,977
0,674 0,318 0,75 2,1 0,044 0,982
0,7 0,312 0,758 2,2 0,035 0,986
0,8 0,290 0,788 2,3 0,028 0,989
0,9 0,266 0,816 2,4 0,022 0,992
1,0 0,242 0,841 2,5 0,018 0,994
1,1 0,218 0,864 2,58 0,014 0,995
1,2 0,194 0,885 2,7 0,010 0,9965
1,3 0,171 0,903 2,8 0,008 0,9974
1,4 0,150 0,919 2,9 0,006 0,9981
1,5 0,129 0,933 3,0 0,004 0,9987

Es gilt: ϕ( z ) = ϕ(− z ) und Φ ( z ) = 1 − Φ (− z )


Beispiel: ϕ(1) = ϕ( −1) = 0,242
Φ (1,0) = 0,841 Ÿ Φ (−1,0) = 1 − 0,841 = 0,159
318 Anhang · Tabelle B: Quantile der t-Verteilung

Tabelle B: Quantile der t-Verteilung


f t f ;0,90 t f ;0,95 t f ;0,975 t f ;0,99 t f ;0,995
1 3,078 6,314 12,706 31,821 63,657
2 1,886 2,920 4,303 6,965 9,925
3 1,638 2,353 3,182 4,541 5,841
4 1,533 2,132 2,776 3,747 4,604
5 1,476 2,015 2,571 3,365 4,032
6 1,440 1,943 2,447 3,143 3,707
7 1,415 1,895 2,365 2,998 3,499
8 1,397 1,860 2,306 2,896 3,355
9 1,383 1,833 2,262 2,821 3,250
10 1,372 1,812 2,228 2,764 3,169
11 1,363 1,796 2,201 2,718 3,106
12 1,356 1,782 2,179 2,681 3,055
13 1,350 1,771 2,160 2,650 3,012
14 1,345 1,76l 2,145 2,624 2,977
15 1,341 1,753 2,131 2,602 2,947
16 1,337 1,746 2,120 2,583 2,921
17 1,333 1,740 2,110 2,567 2,898
18 1,330 1,734 2,101 2,552 2,878
19 1,328 1,729 2,093 2,539 2,861
20 1,325 1,725 2,086 2,528 2,845
21 1,323 1,721 2,080 2,518 2,831
22 1,321 1,717 2,074 2,508 2,819
23 1,319 1,714 2,069 2,500 2,807
24 1,318 1,711 2,064 2,492 2,797
25 1,316 1,708 2,060 2,485 2,787
26 1,315 1,706 2,056 2,479 2,779
27 1,314 1,703 2,052 2,473 2,771
28 1,313 1,701 2,048 2,467 2,763
29 1,311 1,699 2,045 2,462 2,756
30 1,310 1,697 2,042 2,457 2,750
40 1,303 1,684 2,021 2,423 2,704
50 1,299 1,676 2,009 2,403 2,678
60 1,296 1,671 2,000 2,390 2,660
70 1,294 1,667 1,994 2,381 2,648
80 1,292 1,664 1,990 2,374 2,639
90 1,291 1,662 1,987 2,368 2,632
100 1,290 1,660 l,984 2,364 2,626

f = Anzahl der Freiheitsgrade


Tabelle C: Kritische Werte für den Wilcoxon- 319 Anhang
Test

Tabelle C: Kritische Werte für den Wilcoxon-Test

n Irrtumswahrscheinlichkeit α bei 2-seitiger Fragestellung


0,10 0,05 0,02 0,01
5 0 − − −
6 2 0 − −
7 3 2 0 −
8 5 3 1 0
9 8 5 3 1
10 10 8 5 3
11 13 10 7 5
12 17 13 9 7
13 21 17 12 9
14 25 21 15 12
15 30 25 19 15
16 35 29 23 19
17 41 34 27 23
18 47 40 32 27
19 53 46 37 32
20 60 52 43 37
21 67 58 49 42
22 75 65 55 48
23 83 73 62 54
24 91 81 69 61
25 100 89 76 68
26 110 98 84 75
27 119 107 92 83
28 130 116 101 91
29 140 126 110 100
30 151 137 120 109
0,05 0,025 0,01 0,005
n
Irrtumswahrscheinlichkeit α bei 1-seitiger Fragestellung

Die Nullhypothese wird abgelehnt, wenn die Prüfgröße gleich dem


kritischen Wert oder kleiner als dieser ist.
320 Anhang · Tabelle D: Kritische Werte für den U-Test

Tabelle D: Kritische Werte für den U-Test


(2-seitige Fragestellung, α = 0,05 )
1 2 3 4 5 6 7 8 9 10
4 0
5 0 1 2
6 1 2 3 5
7 1 3 5 6 8
8 0 2 4 6 8 10 13
9 0 2 4 7 10 12 15 17
10 0 3 5 8 11 14 17 20 23
11 0 3 6 9 13 16 19 23 26
12 1 4 7 11 14 18 22 26 29
13 1 4 8 12 16 20 24 28 33
14 1 5 9 13 17 22 26 31 36
15 1 5 10 14 19 24 29 34 39
16 1 6 11 15 21 26 31 37 42
17 2 6 11 17 22 28 34 39 45
18 2 7 12 18 24 30 36 42 48
19 2 7 13 19 25 32 38 45 52
20 2 8 14 20 27 34 41 48 55
21 3 8 15 22 29 36 43 50 58
22 3 9 16 23 30 38 45 53 61
23 3 9 17 24 32 40 48 56 64
24 3 10 17 25 33 42 50 59 67
25 3 10 18 27 35 44 53 62 71
26 4 11 19 28 37 46 55 64 74
27 4 11 20 29 38 48 57 67 77
28 4 12 21 30 40 50 60 70 80
29 4 13 22 32 42 52 62 73 83
30 5 13 23 33 43 54 65 76 87
31 5 14 24 34 45 56 67 78 90
32 5 14 24 35 46 58 69 81 93
33 5 15 25 37 48 60 72 84 96
34 5 15 26 38 50 62 74 87 99
35 6 16 27 39 51 64 77 89 103
36 6 16 28 40 53 66 79 92 106
37 6 17 29 41 55 68 81 95 109
38 6 17 30 43 56 70 84 98 112
39 0 7 18 31 44 58 72 86 101 115
40 0 7 18 31 45 59 74 89 103 119

Die Zahlen in der Vorspalte und der Kopfzeile bezeichnen die Um-
fänge der beiden Stichproben.
321 Anhang
Tabelle D: Kritische Werte für den U-Test

Tabelle D: Kritische Werte für den U-Test


(2-seitige Fragestellung, α = 0,05 )
11 12 13 14 15 16 17 18 19 20
4
5
6
7
8
9
10
11 30
12 33 37
13 37 41 45
14 40 45 50 55
15 44 49 54 59 64
16 47 53 59 64 70 75
17 51 57 63 69 75 81 87
18 55 61 67 74 80 86 93 99
19 58 65 72 78 85 92 99 106 113
20 62 69 76 83 90 98 105 112 119 127
21 65 73 80 88 96 103 111 119 126 134
22 69 77 85 93 101 109 117 125 133 141
23 73 81 89 98 106 115 123 132 140 149
24 76 85 94 102 111 120 129 138 147 156
25 80 89 98 107 117 126 135 145 154 163
26 83 93 102 112 122 132 141 151 161 171
27 87 97 107 117 127 137 147 158 168 178
28 90 101 111 122 132 143 154 164 175 186
29 94 105 116 127 138 149 160 171 182 193
30 98 109 120 131 143 154 166 177 189 200
31 101 113 125 136 148 160 172 184 196 208
32 105 117 129 141 153 166 178 190 203 215
33 108 121 133 146 159 171 184 197 210 222
34 112 125 138 151 164 177 190 203 217 230
35 116 129 142 156 169 183 196 210 224 237
36 119 133 147 161 174 188 202 216 231 245
37 123 137 151 165 180 194 209 223 238 252
38 127 141 156 170 185 200 215 230 245 259
39 130 145 160 175 190 206 221 236 252 267
40 134 149 165 180 196 211 227 243 258 274

Die Nullhypothese wird abgelehnt, wenn die Prüfgröße gleich


dem kritischen Wert oder kleiner als dieser ist.
322 Anhang · Tabelle E: Quantile der Chi2-Verteilung

Tabelle E: Quantile der Chi2-Verteilung


f χ 2f ;0,90 χ 2f ;0,95 χ 2f ;0,975 χ 2f ;0,99 χ 2f ;0,995
1 2,706 3,841 5,024 6,635 7,879
2 4,605 5,991 7,378 9,210 10,597
3 6,251 7,815 9,348 11,345 12,838
4 7,779 9,488 11,143 13,277 14,860
5 9,236 11,070 12,833 15,086 16,750
6 10,645 12,592 14,449 16,812 18,548
7 12,017 14,067 16,013 18,475 20,278
8 13,362 15,507 17,535 20,090 21,955
9 14,684 16,919 19,023 21,666 23,589
10 15,987 18,307 20,483 23,209 25,188
11 17,275 19,675 21,920 24,725 26,757
12 18,549 21,026 23,337 26,217 28,300
13 19,812 22,362 24,736 27,688 29,819
14 21,064 23,685 26,119 29,141 31,319
15 22,307 24,996 27,488 30,578 32,801
16 23,542 26,296 28,845 32,000 34,267
17 24,769 27,587 30,191 33,409 35,719
18 25,989 28,869 31,526 34,805 37,156
19 27,204 30,144 32,852 36,191 38,582
20 28,412 31,410 34,170 37,566 39,997
21 29,615 32,671 35,479 38,932 41,401
22 30,813 33,924 36,781 40,289 42,796
23 32,007 35,172 38,076 41,638 44,181
24 33,196 36,415 39,364 42,980 45,559
25 34,382 37,652 40,647 44,314 46,928
26 35,563 38,885 41,923 45,642 48,290
27 36,741 40,113 43,194 45,963 49,645
28 37,916 41,337 44,461 48,278 50,993
29 39,087 42,557 45,722 49,588 52,336
30 40,256 43,773 46,979 50,892 53,672
40 51,805 55,759 59,342 63,691 66,766
50 63,167 67,505 71,420 76,154 79,490
60 74,397 79,082 83,298 88,379 91,952
70 85,527 90,531 95,023 100,425 104,215
80 96,578 101,879 106,629 112,329 116,321
90 107,565 113,145 118,136 124,116 128,299
100 118,498 124,342 129,561 135,807 140,169

f = Anzahl der Freiheitsgrade


Tabelle F: Kritische Werte für den Vorzeichen- 323 Anhang
Test

Tabelle F: Kritische Werte für den Vorzeichen-Test

Irrtumswahrscheinlichkeit α bei 2-seitiger Fragestellung


n
0,05 0,02 0,01
6 1 5 0 6 0 6
7 1 6 1 6 0 7
8 1 7 1 7 1 7
9 2 7 1 8 1 8
10 2 8 1 9 1 9
11 2 9 2 9 1 10
12 3 9 2 10 2 10
13 3 10 2 11 2 11
14 3 11 3 11 2 12
15 4 11 3 12 3 12
16 4 12 3 13 3 13
17 5 12 4 13 3 14
18 5 13 4 14 4 14
19 5 14 5 14 4 15
20 6 14 5 15 4 16
21 6 15 5 16 5 16
22 6 16 6 16 5 17
23 7 16 6 17 5 18
24 7 17 6 18 6 18
25 8 17 7 18 6 19
26 8 18 7 19 7 19
27 8 19 8 19 7 20
28 9 19 8 20 7 21
29 9 20 8 21 8 21
30 10 20 9 21 8 22
0,025 0,01 0,005
n
Irrtumswahrscheinlichkeit α bei 1-seitiger Fragestellung

Die Nullhypothese wird abgelehnt, wenn die Prüfgröße außerhalb


der angegebenen Schranken liegt.
324 Anhang · Glossar Englisch - Deutsch

Glossar Englisch - Deutsch


2 by 2 table Vierfeldertafel
2-tailed (2-sided) hypothesis 2-seitige Fragestellung
accuracy Genauigkeit, Richtigkeit
adjusted adjustiert
alternative hypothesis Alternativhypothese
analysis of variance Varianzanalyse
arbitrary willkürlich
attributable risk zuschreibbares Risiko
average Durchschnitt
bar chart Balken-, Stabdiagramm
bias systematischer Fehler
bimodal zweigipfelig
biostatistics Biostatistik
carry over effect nachhaltige Wirkung einer Therapie
case control study Fall-Kontroll-Studie
case report Fallbericht
case report form Patientenerhebungsbogen
case series Fallserien
censored data zensierte Daten
coefficient of determination Bestimmtheitsmaß
coefficient of variation Variationskoeffizient
characteristic Merkmal
cohort study Kohortenstudie
compliance Akzeptanz der Behandlung
composite endpoint kombinierter Endpunkt
conditional probability bedingte Wahrscheinlichkeit
confidence interval Konfidenzintervall
confounder verzerrende Störgröße
contingency table Kontingenztafel
correlation coefficient Korrelationskoeffizient
cross over Therapiewechsler
cross-over-design Überkreuzungsstudie
cumulative frequency Summenhäufigkeit
curvilinear regression nichtlineare Regression
cutoff point / value Schwellenwert
degree of freedom Freiheitsgrad
density function Dichtefunktion
dependent variable abhängige Variable
distribution Verteilung
drop out Abbrecher, Ausfall
effectiveness (of treatment) Wirkung einer Behandlungsstrategie
(clinical) efficacy (biologische) Wirksamkeit
325 Anhang
Glossar Englisch - Deutsch

eligible die Einschlusskriterien erfüllend


endpoint Zielgröße
estimator Schätzer
event Ereignis
evidence Nachweis, Beleg
evidence based case report EBM-basierte Fallbericht
experimental study Experiment
false positive / negative falsch positiv / negativ
follow up Nachbeobachtungszeit
follow up study Verlaufsuntersuchung
frequency Häufigkeit
Gaussian distribution Normalverteilung
general linear model allgemeines lineares Modell
goodness (of fit) Güte (der Anpassung)
Hazard rate Ausfallrate
incidence Inzidenz
independent variable unabhängige Variable
inferential statistics Inferenzstatistik
informed consent Einverständniserklärung
insignificant nicht signifikant
intercept Achsenabschnitt, Basiswert
interquartile range Interquartilsabstand
least-square-method Methode der kleinsten Quadrate
level of significance Signifikanzniveau
life table Sterbetafel
life table analysis Überlebenszeitanalyse
longitudinal study longitudinale Studie
(individual) matching (paarweise) Zuordnung
mean Mittelwert, Erwartungswert
median follow up period mediane Nachuntersuchungszeit
mode Modalwert, Modus
mortality rate Mortalität, Sterblichkeit(srate)
noising factor unverzerrende Störgröße
non-inferiority Nichtunterlegenheit
null hypothesis Nullhypothese
observation Beobachtung
observational study Beobachtungsstudie
odds ratio Chancenverhältnis
origin Nullpunkt
outcome Zielgröße, Therapieergebnis
outlier Ausreißer
p-value p-Wert
pie chart Kreisdiagramm
population Grundgesamtheit, Population
326 Anhang · Glossar Englisch - Deutsch

power Trennschärfe, Teststärke


precision Genauigkeit, Präzision
prediction Vorhersage
predictive value Vorhersagewert
prevalence Prävalenz
probability Wahrscheinlichkeit
random experiment Zufallsexperiment
random sample Zufallsstichprobe
random variable Zufallsvariable
randomisation Randomisation, Zufallszuteilung
randomized clinical trial randomisierte klinische Studie
randomized controlled trial randomisierte kontrollierte Studie
range Spannweite
rank rang, Rangzahl
ratio Verhältnis
recurrence rate Rezidivrate
reference interval Referenzbereich
regression line Regressionsgerade
reliability Zuverlässigkeit, Reproduzierbarkeit
research Forschung
residual variance Restvarianz (nicht erklärte)
risk Risiko, Risikofaktor
safety Sicherheit
sample Stichprobe
sample size Stichprobenumfang
sampling method Stichprobenverfahren
scatter plot Punktwolke
sensitivity Sensitivität
significance level Signifikanzniveau
skewed distribution schiefe Verteilung
slope Steigung (einer Geraden)
specificity Spezifität
stem-and-leaf-diagram Stamm-und-Blatt-Diagramm
standard deviation Standardabweichung
standard error of the mean Standardfehler des Mittelwerts
statistical inference statistische Schlussweise
steering committee Studienbegleitkommission
stratification Stratifizierung
student’s test t-Test
study Studie, Untersuchung
subject Proband, Testperson, Objekt
survey Erhebung
survival analysis Überlebenszeitanalyse
survival probability Überlebenswahrscheinlichkeit
327 Anhang
Glossar Englisch - Deutsch

survival rate Überlebensrate


threshold Schwellenwert
ties verbundene Ränge
transversal study Querschnittstudie
treatment Behandlung
treatment lag Wirkungsverzögerung
trial Untersuchung, Studie
true positive / negative richtig positiv / negativ
type I / II error Fehler 1. / 2. Art
unbiased unverzerrt (frei von system. Fehler)
uncorrelated unkorreliert, ohne Zusammenhang
unimodal eingipfelig
validity Richtigkeit, Validität
value Wert
variability Variabilität
variance Varianz
vital statistics Bevölkerungsstatistik
washout period therapiefreie Zwischenphase
withdrawal Studienabbruch, Abbrecher

Abkürzungen - Abbreviations

ANOVA analysis of variance


ANCOVA analysis of covariance
AT as treated
AUC Area Under the Curve
CRF case report form
CI confidence interval
CV coefficient of variation
EBM evidence based medicine
ITT intention to treat
MANOVA multivariate analysis of variance
NNH Number Needed to Harm
NNS Number Needed to Screen
NNT Number Needed to Treat
NS not significant
OR odds ratio
PP per protocol
RCT randomized clinical (controlled) trial
SD standard deviation
SEM standard error of the mean
328 Anhang · Weiterführende Literatur

Weiterführende Literatur
1. Andreß HJ, Hagenaars JA, Kühnel S: Analyse von Tabellen und
kategorialen Daten. Springer-Verlag Berlin, Heidelberg, New
York, 1997
2. Backhaus K, Erichson B, Plinke W, Weiber R: Multivariate
Analysemethoden, 11. Auflage. Springer-Verlag Berlin, Heidel-
berg, New York, 2004
3. Beck-Bornholdt HP, Dubben HH: Der Hund, der Eier legt. Er-
kennen von Fehlinformation durch Querdenken. Rowohlt Ta-
schenbuch Verlag, Reinbek bei Hamburg, 2006
4. Bortz J: Statistik für Sozialwissenschaftler, 6. Auflage. Springer-
Verlag Berlin, Heidelberg, New York, 2004
5. Bortz J, Lienert GA: Kurzgefasste Statistik für die klinische
Forschung, 2. Auflage. Springer-Verlag Berlin, Heidelberg, New
York, 2003
6. Fletcher RH, Fletcher SW: Klinische Epidemiologie. Grundlagen
und Anwendung. 2. Auflage, Verlag Hans Huber, Bern, Schweiz,
2002
7. Gigerenzer G: Das Einmaleins der Skepsis. Über den richtigen
Umgang mit Zahlen und Risiken. Berliner Taschenbuch Verlag,
2004
8. Greenhalgh T: Einführung in die Evidence-Based Medicine.
Kritische Beurteilung klinischer Studien als Basis einer rationa-
len Medizin. Verlag Hans Huber Bern, 2002
9. Hartung J, Elpelt B, Klösener KJ: Statistik. Lehr- und Handbuch
der angewandten Statistik, 14. Auflage. Oldenbourg-Verlag
München, Wien, 2005
10. Sachs L, Hedderich J: Angewandte Statistik, 12. Auflage.
Springer-Verlag Berlin, Heidelberg, New York, 2006
11. Schumacher M, Schulgen G: Methodik klinischer Studien.
Methodische Grundlagen der Planung, Durchführung und Aus-
wertung. 2. Auflage, Springer-Verlag Heidelberg, 2006
12. Weiß C, Bauer AW: Promotion. Die medizinische Doktorarbeit
von der Themensuche bis zur Dissertation, 3. Auflage. Thieme-
Verlag Stuttgart, 2007
329 Index
Sach- und Personenregister

Sach- und Personenregister


Į-Fehler 192, 195, 201 f Bernoulli-Experiment 129 f
a-posteriori-Wahrscheinlichkeit Bernoulli-Prozess 130
110, 119 Bestimmtheitsmaß 92 f, 226
a-priori-Wahrscheinlichkeit 110, Bevölkerungsstatistik 5, 114 f
119 Bias 256 f, 278
Abbe, Ernst 169 - Diagnosestudien 287
Abbruchkriterien 301 - Fall-Kontroll-Studien 269 f
Abstandsskala siehe Intervallskala - Kohortenstudien 276
Additionssatz 108-111 - Präventionsstudien 291 f
Allgemeines lineares Modell 226 Binomialkoeffizient 132 f
Alternativhypothese 190 f, 196 Binomialtest 229 f
Alternativmerkmale 23, 97, 231, 237 Binomialverteilung 129-134, 160 f
Annahmebereich 192-194 - negative 139
Anpassungstest 203, 212 f, 240 - symmetrische 134
Apgar-Score 29 Biomathematik 11 f
Äquivalenztest 200 Biometrie 11 f
Arbuthnot, John 5, 229 Biostatistik 11
Area under the curve 284 Bland-Altman-Analyse 87, 200
arithmetisches Mittel 55 Blockbildung 256, 297
Arzneimittelgesetz 295 Blockdiagramm 41
Arzneimittelstudie 296 Blockversuche 305
As treated 302 Bonferroni-Korrektur 202, 225
Assoziation 49 f Box-and-Whisker-Plot 74 f
Assoziationskoeffizient nach Yule
52, 237 Chadwick, Edwin 8
Assoziationsmaße 50, 98, 237 Chi2-Anpassungstest 240
Ausfallrate 163 Chi2-Homogenitätstest 233, 236
Ausprägungsliste 28, 103 Chi2-Tests 231-243, 266
Ausreißer 30, 43, 58 f, 67, 86 Chi2-Unabhängigkeitstest 231, 236
Ausschlusskriterien 301 Chi2-Verteilung 168 f, 232
Axiome von Kolmogoroff 107 Chi2-Vierfeldertest 231-234, 271
Cochrane Collaboration 312-314
ß-Fehler 194-195 Compliance 303 f
Bacon, Francis 8 Computersimulation 105
Balkendiagramm 41, 50 Confounder 23, 257, 266, 270, 278
Bayes, Thomas 110 Cox, David 309
Bayes-Theorem 110 f Cox-Regressionsmodell 303, 309 f
Begleitmerkmal 22 Cramérs Index 237
Beobachtungseinheit 21 f Cross-Over-Design 305
Beobachtungsgleichheit 257, 299 f
Beobachtungsstudie 254, 278, 296 Deduktive Methode 13
Bernoulli, Jakob 129 Demographie 5
330 Sach- und Personenregister

Determinationskoeffizient 93 Erwartungswert 127 f, 147, 175, 179


Dezile 60 - Binomialverteilung 131
Dezilabstand 68 - Chi2-Verteilung 168
Diagnosestudie 250, 281-288 - Exponentialverteilung 164 f
Diagnostische Tests 118-122, 281- - hypergeometrische
288 Verteilung 141
- parallele 288 - Normalverteilung 148
- serielle 288 - Poissonverteilung 136
- sequenzielle 288 - t-Verteilung 167
Diagramm 20, 46 Ethikkommission 295, 301
Dichte(funktion) 145 Euler’sche Zahl 136
- empirische 44 Evidenz 312, 314
- Exponentialverteilung 164 Evidenzbasierte Medizin 278, 310-
- Normalverteilung 148 314
- Weibullverteilung 165 evidenzbasierter Fallbericht 311 f
Dichtemittel siehe Modus Exhaustivität 175
Differenzmenge 105 Experiment 14, 254, 296
Dispersionsmaße siehe Exponentialverteilung 164 f
Streuungsmaße Exposition 264, 266, 271, 276-278
Dispersionstest 203 Extrapolation 91
Dissertation 258, 260 Exzess siehe Wölbung
Doktorarbeit 249
Dosiswirkungskurve 48 F-Test 213
Double-Dummy-Technik 299 F-Verteilung 170, 213, 224
Drop Outs 275, 302, 307, 310 Faktor 22
Dummy-Variable 29, 226, 246 - ätiologischer 250
Durchschnitt 55 - prognostischer siehe
Prognosefaktor
Effektmaße 273 f Fall-Kontroll-Studie 250-254, 267-
Effizienz einer Schätzung 175 273
Einflussgröße 22, 257 - eingebettete 277
Einschlusskriterien 301 Fallbericht 251, 264 f, 304
Einzelfalldarstellung 15 Fälle 267
Elementarereignis 103 Fallserie 251, 265, 304
Endlichkeitskorrektur 141, 181 falsch negativer Befund 118, 283,
Endpunkt 306 290
Epidemiologie 111-114, 249 f falsch positiver Befund 118, 283, 290
Ereignisraum 102 fehlende Daten 33
Ereignisse 103 Fehlentscheidung 4
- disjunkte 106-108 Fehler
- komplementäre 106 f - 1. Art siehe α-Fehler
- sichere 103 - 2. Art siehe ß-Fehler
- unabhängige 110 - systematischer 256 f
- unmögliche 103 - zufälliger 255 f
Erfassungsfehler 256 Fertilitätsziffer 114
erklärte Varianz 92 Fisher, Ronald Aylmer 6, 9, 170,
Erwartungstreue 174 174, 213
331 Index
Sach- und Personenregister

Fisher’s exakter Test 243 f, 271 Häufigkeitsverteilung 39, 45 f, 125


Follow-Up-Studie 272 Hawthorne-Effekt 300
formale Korrelation 86 Hazard-Rate 163, 276, 310
Formmaße 69-73 Hazard-Ratio 310
Fraktile 60 Helmert, Friedrich Robert 169
Freiheitsgrade Hill, Austin 275, 278, 298
- Chi2-Verteilung 236, 240 Hippokrates von Kos 7
- t-Verteilung 167 f, 180, 209, 214 Histogramm 44, 56, 212
- Varianz 66 Homogenitätstest 203, 233, 236
Freiwilligenbias 291 Homoskedastizität 184, 210
Friedmantest 225 Huygens, Christiaan 6, 127
Hypothese 13, 19, 190 f, 259
Galen aus Pergamon 7 - einseitige 191, 201, 233
Galilei, Galileo 6 f - zweiseitige 191, 201
Galton, Francis 88, 161
Gauß, Carl Friedrich 6, 148, 159 f Identifikation 32
Gauß’sche Glockenkurve 148 f Induktive Methode 14
Geburtenziffer siehe Fertilitätsziffer Informationsbias 257, 270, 276, 287
Gemeinsamkeitskorrelation 87 Inhomogenitätskorrelation 86
geometrisches Mittel 63, 154 Intention to treat 302
Geschichte der med. Statistik 4-11 Interdezilbereich 68
Gesetz der großen Zahlen 104, 130, Interquartilsbereich 68
157 f Intervallschätzung 177-186
Gleichverteilung, diskrete 141, 241 Intervallskala 24, 26, 73
Goldstandard 281 Interventionsstudie 254, 296
Good clinical practice 295 Inzidenz 112, 264, 272 f
Gosset, Sealy 6, 167, 180 - kumulative 275
graphische Darstellungen 40 f, 44 f, Inzidenzdichte 275
50 f, 74 f Inzidenzfälle 267
Graunt, John 5 Inzidenzstudie 273
Grundgesamtheit 19 f, 76, 173 Irrtumswahrscheinlichkeit 178, 184,
Gruppen-Matching 269 193
Güte
- diagnostischer Test 118, 281-288 Jenner, Edward 8
- Schätzung 174 f
- statistisches Modell 93, 226, 246 Kaplan-Meier-Methode 303, 307
- statistischer Test siehe Power Kappa-Koeffizient 200, 285 f
Karnofsky-Skala 30
harmonisches Mittel 64 Kenngrößen 20, 55
Häufigkeiten siehe Maßzahlen
- absolute 39 f Klassenanzahl 42 f
- kumulative 46 Klassenbildung 42 f
- relative 39 f Klassenbreite 43
- zweidimensionale 49 f Kontrolle, historische 300, 305
Häufigkeitspolygon 44 Kohortenstudie 250 f, 272-277, 305 f
- begleitende 276
- historische 277
332 Sach- und Personenregister

Kolmogoroff, Andrej 107 Manifestationsindex 114


Kolmogoroff-Smirnov-Test 242 Mantel-Haenszel-Test 237
Konfidenzintervall 177-184, 197 f, Martini, Paul 11
208 f, 220, 256, 304 Maßzahlen
- Erwartungswert 179-181 - bivariate Datenbeschr. 82-98
- Korrelationskoeffizient 183 - epidemiologische 112 f
- Wahrscheinlichkeit 182 - univariate Datenbeschr. 55-73
Konfidenzwahrscheinlichkeit 178 Matchen 257, 268 f
Konsistenz 174 Maximum 63
Kontagionsindex 114 McNemar-Test 238 f, 271, 305
Kontingenz 49 Median 57 f, 127, 147, 175
Kontingenzkoeffizient 238 Median-Test 235 f
Kontingenztafel 49, 236, 244 mediane Überlebenszeit 164 f
Kontrollen 267 f Mehrstichprobentests 203, 224 f
Kontrollgruppe 267 f Mendel, Gregor Johann 10
Korrelationsanalyse 80-88 Merkmale 21-29, 125
Korrelationskoeffizient - abhängige 89 f
- nach Pearson 82, 84-88, 183, 214 - binäre 23
- nach Spearman 94-97, 183 - dichotome 23
Kovarianz 82 f, 129 176 - diskrete 25, 39 f, 67, 219
Krankenbestand siehe Prävalenz - kategoriale 24
Kreisdiagramm 40 f - qualitative 24
kritischer Bereich 192-194 - quantitative 25, 56 f, 46, 74
kritischer Wert 193 - stetige 25, 42 f
Kruskal-Wallis-Test 224 - unabhängige 89
Kurtosis siehe Wölbung Merkmalsausprägungen 22, 28 f
Merkmalsträger 21
Laborexperiment 277 Messniveau 23
Lagemaße 55-64, 69, 73 Metaanalyse 311, 313
Lageparameter 127 f, 147 Methode der kleinsten Quadrate 57,
Lagetest 203, 207-226 90
Längsschnittstudie 252 metrische Skala 25
Laplace, Pierre Simon de 6, 103, 150 Minimisation 298
Latenzzeit 272 f Minimum 63
Lead Time Bias 291 Mittelwert 55 f, 157, 175
Lebensdauer 162 mittlere Abw. vom Median 68
Lebenserwartung 116 f modale Klasse 62
Lebenszeitprävalenz 112 Modalwert siehe Modus
Length Time Bias 292 Modus 62, 128, 147
Letalität 113 Moivre, de Abraham 160
Likelihood-Quotient 282 Momente 147
Linder, Arthur 11 Monte-Carlo-Studie 186, 214
Liste 32 Morbidität 113
Lognormalverteilung 153 f, 165 Mortalität 113, 264
Logranktest 242, 303, 309 Multinomialverteilung 138
Louis, Pierre Charles Alexandre 9 multiple Methode 11, 203, 225 f,
245, 260, 303
333 Index
Sach- und Personenregister

multiple Regressionsanalyse 91, 226 Prävalenzfälle 267


multiples Testen Prävalenzstudie 252, 266
- diagnostisch 287 Prävention 288 f
- statistisch 201 f Präventionsstudie 250 f, 288-292
Multiplikationssatz 110 f Prognosefaktor 242, 306
Prognosestudie 250 f, 306-314
Natalität 114 Protokollverletzung 301 f
Naturwissenschaften 3, 7, 14 Prozentangaben 40
Neuerkrankungsrate siehe Inzidenz Prüfgröße 190 f, 203
Nichtunterlegenheit 304 Prüfverteilungen 161, 166-170
NNH 303 punktbiseriale Korrelation 97
NNS 291 Punktediagramm 42
NNT 274, 291, 303 Punktprävalenz 112
Nominalskala 23, 26, 73 Punktschätzung 173-176
Nonsenskorrelation 86 Punktwolke 80-82, 85 f
Normalverteilung 66, 70, 148-152,
161, 212, 230, 241 Q-Test von Cochran 240
Normbereich siehe Referenzbereich Quantile 60, 127, 147
Nullhypothese 190 f, 196 - der t-Verteilung 180, 197
Number needed to harm siehe NNH Quartile 60
Number needed to screen siehe NNS Quartilsabstand 68
Number needed to treat siehe NNT Querschnittstudie 250-252, 266
Quetelet, Adolphe 161
Ochsner, Alton 265, 278
Odds ratio 51, 237, 271 f Randomisation 257, 296-298, 304
Ordinalskala 23, 26, 73 Rangkorrelation 95 f
Rangliste 58
p-Wert 197-202, 208, 220, 256 Rangskala siehe Ordinalskala
paarweise Zuordnung siehe Rangsummentest 215-221
Matchen Ratioskala siehe Verhältnisskala
Pascal, Blaise 6 Recall-Bias 270, 273
Pearl-Index 115 Rechteckdiagramm 41
Pearson, Karl 6, 89, 169 Referenzbereich 151
Per Protocol 302 Register 19, 251 f
Periodenprävalenz 112 Regression
Perzentile 60 - 1. Art 91
Pharmakoepidemiologie 296 - 2. Art 91
Phi-Koeffizient 237 - lineare 89
Placebo 300 - logistische 245 f, 270, 272, 275
Poisson, Siméon Denis 136 - nicht-lineare 94
Poissonverteilung 136 f, 161, 241 Regressionsanalyse 88-94, 226
Polynomialverteilung 138 Regressionsgerade 81 f, 88-91
Populationsstudie 250, 266 Regressionskoeffizient 89
Power 196, 211, 220 Relevanz 199, 312
prädiktiver Wert siehe Reliabilität 285 f
Vorhersagewert Reproduzierbarkeit 285 f
Prävalenz 112, 119-122, 266, 291 Residualvarianz 92
334 Sach- und Personenregister

Residuen 92, 183, Stamm- und Blatt-Diagramm 45


Risiko 264 Standardabweichung 65, 128, 176,
- relatives 271 f, 274 f 184
- zuschreibbares 274 - Normalverteilung 148
Risikofaktor 263 f, 268 f, 274, 277 Standardfehler des Mittelwerts 158,
Risikoindikator 270 181
Risikoreduktion 274 Standardnormalverteilung 149 f
Risikostudie 250, 263-278 Standardtherapie 300
ROC-Analyse 282-285 Statistik
ROC-Kurve 283-285 - bivariate 79-98, 176
- deskriptive 5, 12, 20 f, 103
ı-Bereich 151 - explorative 12
Sackett, David 311, 314 - induktive 6, 12, 21, 102, 173-246
Satz von der totalen - medizinische 11
Wahrscheinlichkeit 108, 111 - univariate 55-76
Säulendiagramm 41, 74 Statistisches Jahrbuch 5, 117
Schätzfunktion 174 Sterberate 163, 166
Schätzwert 174 Sterbetafel 115-117
Scheffé-Test 225 Sterbeziffer 116 f
Scheinkorrelation 86 Stetigkeitskorrektur 182, 239
Schichten 256, 297 f Stichproben 19 f, 73 f, 202
Schiefe 69 f, 147, 152, 155, 212 - abhängige siehe verbundene
- Binomialverteilung 134 - paarige siehe verbundene
- Chi2-Verteilung 168 - repräsentative 19, 76, 173
- Exponentialverteilung 165 - unabhängige siehe
- Normalverteilung 148 unverbundene
- Poissonverteilung 138 - unverbundene 203, 209, 218, 221
Schnittmenge 105 - verbundene 203, 207, 216, 221
Schwellenwert 282 f Stichprobenumfang 22, 39, 42, 56,
Scores, klinische 24, 29 f 76, 158, 174 f, 184, 194 f, 255
Screening 289-292 Stochastik 11 f
Selektion 256 Störgröße 22
Selektionsbias 256, 269, 276, 291, - nicht-verzerrende 23
297 - verzerrende 23, 257
Selektionskorrelation 86 Strata 297 f
Semmelweis, Ignaz Philipp 9 f, 263 Stratifizierung 256, 297
Sensitivität 118-122, 281-283 Streuungsmaße 64-69, 73
sequentielles Testverfahren 195 Streuungsparameter 128, 147
Signifikanzniveau 194 Strichliste 40
Skalenniveau 23 f, 195 Strukturgleichheit 257, 269, 297
Skalentransformation 25 f Student-Verteilung siehe t-
Snow, John 9, 263 Verteilung
Spannweite 67 Studie
Spearman, Charles 95 - analytische 251
Spezifität 118-122, 281-284 - beobachtende siehe
Staatsbeschreibung 5 Beobachtungsstudie
Stabdiagramm 41 - deskriptive 251, 264-266
335 Index
Sach- und Personenregister

- diagnostische siehe Testentscheidung 195 f


Diagnosestudie Testergebnis
- doppelblinde 257, 298 - nicht signifikantes 198-200
- dreifachblinde 299 - signifikantes 196, 199
- einfachblinde 299 Testgröße siehe Prüfgröße
- epidemiologische 249 f Teststärke siehe Power
- experimentelle siehe Experiment Therapiestudie 250 f, 295-306
- klinisch kontrollierte 252, 296 Totalerhebung 19
- longitudinale 252, 254 Transformationen 152, 161, 214
- monozentrische 255 Trennschärfe siehe Power
- multizentrische 255, 257, 298 Tschebyscheff, Pafnutij 155
- offene 299 Tschebyscheff’sche Ungleichung
- ökologische 266 155 f
- prospektive 14, 253 f
- randomisierte 254, 291 f, 311 U-Test von Mann und Whitney
- retrospektive 14, 252-254, 305 218, 221
- transversale 252 Überlebensfunktion 162 f, 242, 308
Studienabbrecher siehe Drop Outs Überlebensrate 307
Studiendesign 301 Überlebenszeit 162, 164, 242, 307
Studienplanung 258-260 Überlebenszeitanalyse 31, 307, 310
Studienprotokoll 300 f Übersichtsarbeit 313
Summenhäufigkeiten 46 f Unabhängigkeitstest 203, 231, 236 f
Summenzeichen 39 Untersuchungseinheit 21
Surrogatmerkmal 31, 303 Urliste 55
Süßmilch, Johann Peter 5
Symmetrietest von Bowker 240 Validität
- eines Screenings 291
t-Test 207-214, 219 f - eines diagnostischen Tests 281 f
- für eine Stichprobe 189-193, 207, - externe 258, 301, 304
212, 221 - interne 258, 312
- für 2 unverbundene Stichproben Variabilität
209 f, 213, 221 - interindividuelle 255, 285, 301
- für 2 verbundene Stichproben - intraindividuelle 255, 285
207, 213, 221, 305 Variable 21
- nach Welch 210 Varianz 65, 128, 147,, 176 f
- zur Prüfung eines Korrelations- - Binomialverteilung 131
koeffizienten 214 - Chi2-Verteilung 168
t-Verteilung 167 f - Exponentialverteilung 164 f
Tabelle 20, 32 - hypergeometrische
Test Verteilung 141
- diagnostischer 118-122, 281-288 - Normalverteilung 148
- konservativer 221 - Poissonverteilung 136
- parametrischer 207 - t-Verteilung 168
- progressiver 221 Varianzanalyse 224 f
- sequenzieller 195 Variation Ratio 68
- statistischer 189-204 Variationsbreite 67
- verteilungsfreier 215 Variationskoeffizient 66, 129
336 Sach- und Personenregister

- relativer 67 - nach Kolmogoroff 107


Venn, John 105 - nach Laplace 103, 107
Venn-Diagramm 105 - objektive 101
Verblindung 298 f - subjektive 101
verbundene Ränge 215, 217 f Wahrscheinlichkeitsfunktion 126
Vereinigungsmenge 105 Wahrscheinlichkeitsrechnung 6, 12,
Vergleichsgruppe 265, 300, 304 101-111, 155-161
Verhältnisskala 24, 26, 73 Wahrscheinlichkeitstest 203
Verteilung Weber, Erna 11
- diskrete 125-142 Weibull, Waloddi 165
- eingipfelige 57, 62, 66, 71 Weibull-Verteilung 165 f
- gedächtnislose 164 Welch-Test 210
- geometrische 139 Wilcoxon, Frank 215
- hypergeometrische 140, 181 Wilcoxon-Test
- linksschiefe 70, 147, 155 - eine Stichprobe 215, 221
- mehrgipfelige 62 - 2 verbundene Stichproben 216 f,
- rechtsschiefe 70, 147, 152 f, 214 221, 305
- schiefe 56, 58, 70, 161 Wölbung 71, 147, 212
- symmetrische 56 f , 66, 70, 147 - Normalverteilung 148
- U-förmige 62
- von Mittelwerten 158, 160 Yule, George 52
- von Überlebenszeiten 162-166
Verteilungsfunktion 126 f, 145 z-Transformation 149
- diskrete Verteilung 126 f zensierte Daten 32, 59 f, 242, 307 f
- empirische 46 f, 62 zentrale Momente 147
- Exponentialverteilung 164 zentraler Grenzwertsatz 159-161
- Normalverteilung 148 f Zentralwert siehe Median
- Standardnormalverteilung 150 Zielgröße 22, 256 f
- stetige Verteilung 145 f Zufall 3 f, 14, 101
- Weibull-Verteilung 165 Zufallsexperiment 102
Vertrauensbereich siehe Zufallsstichprobe 267
Konfidenzintervall Zufallsvariable 21, 173
Vierfeldertafel 49, 231, 244 - diskrete 125 f
Vierfeldertest 231-234, 271 - stetige 145 f
Visuelle Analogskala 30 Zufallszahlen 141
Vollerhebung 19 Zusammenhang
Vorhersagewert 119-122, 282 - funktionaler 79
- negativer 119 f - gegensinniger 81, 83, 90, 95
- positiver 119 f, 287, 291 - gleichsinniger 81, 83, 90, 95
Vorzeichentest - kausaler 87, 270, 277, 298
- für eine Stichprobe 221-223 - linearer 81-85, 89
- für 2 verbundene Stichproben - monotoner 95
221, 223 - nicht-linearer 94
- stochastischer 79
Wahrscheinlichkeit 101-105, 126,
176, 182
- bedingte 109 f

Das könnte Ihnen auch gefallen