NTP-Replikation in Japan: Vorwurf Studie sei "underpowered" (Forschung)

KI, Montag, 19.01.2026, 21:48 (vor 53 Tagen) @ KI

Microwave News schreibt: Joel Moskowitz of the UC Berkeley School of Public Health, who runs the Electromagnetic Radiation Safety website, offered the following comment based on a preliminary reading of the new Japanese study: "A null result in the Japanese NTP Lite study should not be considered a refutation, because it is underpowered to see relatively low‑incidence tumors."

Den Einwand der angeblich unzureichenden Teststärke ("underpowered") kommentiert ChatGPT wie folgt:

Die japanische und die koreanische Replikationsstudie entsprechen dem Standarddesign regulatorischer Kanzerogenitätsstudien und sind für die Replikation der in der NTP-Studie berichteten Effekte nicht unterpowered. Der erhobene underpowered-Vorwurf beruht auf einer nachträglichen Verschiebung der Fragestellung hin zu sehr viel kleineren, in den Replikationsstudien nicht adressierten Effektgrößen.

Argumentation

Im Zusammenhang mit der japanischen Replikationsstudie wird argumentiert, ein Nullbefund könne die NTP-Ergebnisse nicht entkräften, da die Studie für seltene Tumoren wie Herz-Schwannome oder Gehirngliome nicht ausreichend gepowered gewesen sei. Dazu ist festzuhalten:

► Die japanische Studie war als klassische zweijährige Kanzerogenitätsstudie mit Gruppengrößen ausgelegt, die den international üblichen Standards für toxikologische Langzeitstudien entsprechen.
► Die untersuchten Tumorarten (u.a. Herz-Schwannome, Gehirn-Gliome) wurden gezielt erfasst und survival-adjustiert ausgewertet, also unter Berücksichtigung der unterschiedlichen Überlebensraten.
► Die statistische Auswertung erfolgte mit denselben Verfahren, die auch in der NTP-Studie zur Anwendung kamen (Trend- und Paarvergleiche, survival-adjustierte Tests).
► In der japanischen Studie traten keine expositionsabhängigen Häufungen der betreffenden Tumorarten auf, weder als Trend noch im Gruppenvergleich.
► Einzelfunde seltener Tumoren traten nicht bevorzugt in den exponierten Gruppen auf, sondern verteilt über Kontroll- und Expositionsgruppen.

Unabhängig von der Frage der statistischen Teststärke ist damit festzustellen, dass die japanische Studie keine der in der NTP-Studie berichteten Tumorbefunde reproduzierte, weder qualitativ (Tumorart) noch quantitativ (Häufigkeit oder Trend).

Die Aussagekraft der Ergebnisse beschränkt sich damit auf das, was beobachtet wurde:
Unter den gewählten Versuchsbedingungen wurden keine erhöhten Inzidenzen seltener Tumoren festgestellt.

Ergänzend ist zu berücksichtigen, dass eine zweite, unabhängig durchgeführte Replikationsstudie in Korea zu einem inhaltlich übereinstimmenden Ergebnis kam:

► Auch in der koreanischen Studie wurden keine statistisch signifikanten Zunahmen von Herz-Schwannomen oder Gehirn-Gliomen in den exponierten Gruppen beobachtet.
► Einzelfunde seltener Tumoren traten ohne konsistente Expositionsabhängigkeit auf.
► Auch dort ergaben die Auswertungen keine expositionsbezogenen Trends für die in der NTP-Studie beschriebenen Befunde.

Damit liegen zwei voneinander unabhängige Langzeitstudien vor, die jeweils für sich keine Reproduktion der NTP-Tumorbefunde berichten. Der underpowered-Einwand bezieht sich formal auf einzelne Studien, ändert jedoch nichts daran, dass weder in der japanischen noch in der koreanischen Replikation expositionsspezifische Häufungen der betreffenden Tumorarten beobachtet wurden.

Was "underpowered" fachlich korrekt bedeutet

"Underpowered" ist kein politischer Kampfbegriff, sondern ein statistisch klar definierter Vorwurf:

Eine Studie ist underpowered, wenn ...

► vorab (a priori) ein Effekt definiert ist,
► die Fallzahl nachweislich nicht ausreicht, um diesen Effekt mit der vorgesehenen Irrtumswahrscheinlichkeit zu erkennen.

Entscheidend: Power bezieht sich immer auf einen konkret postulierten Effekt, nicht abstrakt auf "seltene Tumoren".

Welche „Effekte“ standen hier zur Prüfung?

In beiden Replikationen ging es nicht um das Entdecken beliebig kleiner Effekte, sondern explizit um:

► die Reproduzierbarkeit der in der NTP-Studie berichteten Befunde
► also Tumorarten derselben Entität
► in einer vergleichbaren Größenordnung der Inzidenzsteigerung

Das ist methodisch entscheidend.

Sind die Replikationsstudien dafür ausreichend gepowered?

Ja. Denn:

► Die Gruppengrößen entsprechen den OECD-üblichen Kanzerogenitätsstudien.
► Diese Designs sind nicht explorativ, sondern darauf ausgelegt, biologisch relevante Inzidenzsteigerungen bei seltenen Tumoren zu erkennen.
► Genau so wurden Jahrzehnte regulatorischer Krebsbewertungen durchgeführt – auch für Tumoren mit sehr niedriger Spontanrate.

Wichtig: Die NTP-Studie selbst verwendete kein stärkeres Power-Design. Ein "underpowered"-Vorwurf gegen die Replikationen würde logisch auch die NTP-Studie treffen.

Warum der Underpowered-Vorwurf trotzdem erhoben wird

Weil stillschweigend die Zielgröße verschoben wird:

► Nicht mehr: "Kann man den NTP-Effekt reproduzieren?"
► Sondern: "Kann man auch sehr viel kleinere Effekte ausschließen?"

Für diese zweite Frage wären tatsächlich sehr viel größere Tierzahlen nötig – aber das war nie der Prüfauftrag der Replikationsstudien. Das ist kein methodischer Mangel, sondern ein Wechsel der Fragestellung.

Rolle der koreanischen Studie

Unabhängig vom Ergebnis gilt:

► Auch die koreanische Studie erfüllt die gleichen Designkriterien.
► Auch sie ist nicht underpowered für die Replikation der NTP-Befunde.
► Dass zwei unabhängige Studien denselben Nullbefund berichten, ändert nicht die Power der einzelnen Studien, wohl aber die Gesamtlage der Evidenz.

Aber selbst ohne Korea wäre der underpowered-Vorwurf methodisch nicht zwingend.


gesamter Thread:

 RSS-Feed dieser Diskussion

powered by my little forum