Auf dieser Seite stelle ich von Zeit zu Zeit meine unstrukturierten Gedanken über Statistik und Epidemiologie dar.
Es ist eine Herausforderung, Evidenz im Kontext von Unsicherheit zu finden.
Durcheinander durch den p-Wert
17. November 2017
Langanhaltende Diskussion über den Gebrauch und Missbrauch von p-Werten
Vier aktuelle Artikel
- Goodman S. A dirty dozen: twelve p-value misconceptions. Semin Hematol. 2008;45(3):135-40.
- Nuzzo R. Statistical errors. Nature, 2014; 506(7487):150-152.
- Ronald L. Wasserstein, Nicole A. Lazar. The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician. 2016;70:2, pages 129-133.
- Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31(4):337-50.
Die Berechnung eines p-Wertes kann nachvollzogen werden und erscheint daher ein objektives Maß für die Beurteilung einer Studie zu sein. Dabei ist zu beachten, dass bei der Berechnung des p-Wertes explizit oder impliziert Annahmen getroffen werden. Es wird vorausgesetzt, dass die statistischen Annahmen des verwendeten statistischen Verfahrens erfüllt sind und dass kein Bias durch die Datenerhebung und statistische Analyse (u.a. Konfounding, Selektionsbias, Messfehler, korrekt spezifiziertes Modell) vorliegt. Eine Verletzung dieser Voraussetzungen schränkt die Validität des p-Wertes ein.
Schlussfolgerungen für epidemiologische Beobachtungsstudien
- Statistische Signifikanztests (NHST) vermeiden, insbesondere Dichotomisierung
(p
< 0,05 signifikant vs. p ≥ 0,05 nicht signifikant) oder "Trichotomisierung" (signifikant, marginal signifikant, nicht signifikant).
- p-Werte nicht allein für eine Entscheidung verwenden ("bedeutend" vs."unbedeutend")
- Der p-Wert ist kein Maß für die Relevanz eines Studienergebnisses, sondern ist ein Maß für die Evidenz gegen die Nullhypothese unter der Annahme die Null-
hypothese sei wahr. Daher sollte der p-Wert, wenn überhaupt, als kontinuierliche Maßzahl ohne willkürliche Grenzen interpretiert werden.
- Der p-Wert ist konfondiert durch die Stichprobengröße und der Präzision. (Lang JM, Rothman KJ, Cann CI. That confounded P-value. Epidemiology. 1998;9(1):7–8).
- Umformung des p-Wertes in eine leichter nachvollziehbare Maßzahl wie der surprisal value -log2(p) kann helfen den falschen Gebrauch von p-Werten zu reduzieren (Greenland S. Invited Commentary: The Need for Cognitive Science in Methodology, AJE. 2017;186(6): 639–645; http://www.umsl.edu/~fraundorfp/egsurpri.html, Fraundorf P. Examples of surprisal. Accessed November 16, 2017).
- Parameterschätzungen + Konfidenzintervall verwenden (aber auch vorsichtig interpretieren).
- Bayessche Statistik bietet eine Möglichkeit der Quantifizierung von Unsicherheit.
- Vergleichen Sie Ihre Studienergebnisse mit Ihren Erwartungen.
- Schlussfolgerungen sollten nicht auf einer einzelnen Studie basieren. Die Ergebnisse einer Studie sollten unter Einbeziehung der vorhandenen Evidenz (Wissen) interpretiert werden.
Kann es eine objektive Entscheidungsregel für die Bewertung eines Studienergebnisses geben, da viele subjektive Entscheidungen getroffen werden? Es fängt bei der Beurteilung der vorhandenen Evidenz an und geht weiter mit der Wahl des Studiendesigns, Studienpopulation, Studiengröße, Ein- und Ausschlusskriterien, der anzuwendenden statistischen Methoden, der einzuschließenden Variablen usw.
Die Gründe für eine Beurteilung eines Studienergebnisses sollten nachvollziehbar sein. Das bedeutet aber nicht, dass eine nachvollziehbare Beurteilung objektiv ist.