REFLEX-Studie im Pre-Peer-Review

Zusammen mit der KI Claude habe ich einen KI-basierten Pre-Peer-Review entwickelt und bei dem Elsevier Verlag vorgestellt, angewandt auf die in dessen Journal Mutation Research publizierten REFLEX-Studie von Diem et.al. (F. Adlkofer).

REFLEX ist mit Pauken und Trompeten durchgefallen, allerdings könnte das Ergebnis noch dadurch verifiziert werden, dass man den Pre-Peer-Review mit einer anderen KI (z.B. ChatGPT) wiederholt (Quality-Loop) und dann Claude zu einer Stellungnahme des Chats mit der anderen KI auffordert. Im Pre-Peer-Review noch gar nicht enthalten ist die Implausibilität des angeblichen Fenstereffektes bei REFLEX.

Nachfolgend die Email an Elsevier:

Dear Editors,

I submit the following manuscript for your consideration: "AI-Assisted Pre-Peer Review: A Proposed Framework and Its Application to Diem et al. (2005), Mutation Research 583:178–183."

Together with the AI system Claude (Anthropic, claude-sonnet-4-6, April 2026), I developed a systematic framework for AI-assisted pre-peer review of biomedical publications and applied it retrospectively to the paper by Diem, Schwarz, Adlkofer, Jahn and Rüdiger published in this journal in 2005. The framework integrates eight evaluation criteria covering physical plausibility of the proposed mechanism, statistical data integrity, funding history, pre-registration compliance, endpoint quality, independent replication, image integrity and biological plausibility of reported threshold effects. When applied to the Diem et al. paper, the framework assigns a Trust Index of 3 out of 100, with automatic rejection triggered by the primary filter: the proposed mechanism violates established physics by six orders of magnitude. Secondary filters independently confirm data fabrication signals previously reported by Lerchl and Wilhelm. The paper remained unchallenged for five years and has been cited over 200 times in the scientific literature. This case demonstrates both the need for and the feasibility of systematic AI-assisted pre-peer review.

We respectfully request that the editors consider this manuscript as a methodological contribution to the ongoing discussion of research integrity and peer review reform.

With best regards

Hans-Peter Selk, Ludwigstr. 72, 87437 Kempten (Allgäu), Germany.

Developed in collaboration with Claude (Anthropic AI), April 2026.

Die medizinischen Studien, für die der Pre-Peer-Review eigentlich entwickelt wurde, finden Sie hier.

antworten

52 Views

Korrektur / Ergänzung

Den REFLEX-Pre-Peer-Review der KI Claude (These 1) habe ich in die KI ChatGPT eingegeben und eine Zweitmeinung abgefragt (These 2). ChatGPT hat daraus eine Synthese gemacht.

Das Ergebnis der synthese von Claude und ChatGPT ist klar:

Applied to Diem et al. (2005), all four criteria are met. The photon energy argument establishes an extreme mechanistic gap that is not addressed by the authors. The reported window effect is incompatible with the documented SAR inhomogeneity. Statistical analyses reveal patterns inconsistent with genuine biological data. Independent replication attempts fail to confirm the findings. The presence of documented conflicts of interest further reinforces the overall assessment.
The conclusion is therefore robust across both evaluation models: the study does not meet the minimum standards required for reliable scientific evidence.

Untenstehend sind nun die Korrektur zu These 1, sowie die Synthese.

Correction / Addendum for Elsevier (Following Submission of These 1)
Subject: Methodological Clarification and Extension of the AI-Assisted Pre-Peer Review Framework Applied to Diem et al. (2005)
Following submission of the original manuscript, we provide a methodological clarification based on an independent second AI-assisted assessment.
The initial version applied a strict primary rejection criterion based on physical mechanism plausibility, concluding that the reported DNA strand breaks under non-ionizing radiation were physically impossible due to photon energy constraints. While this argument remains valid as a strong negative indicator, we refine the interpretation as follows:
The central issue is not solely the absence of sufficient photon energy, but the absence of any plausible alternative mechanism capable of bridging the approximately six orders of magnitude energy gap. This distinction shifts the argument from absolute impossibility to unfulfilled explanatory burden.
More importantly, the revised assessment identifies an additional independent inconsistency not fully developed in the original manuscript: the incompatibility between the reported “window effect” and the documented ~30% SAR non-uniformity of the exposure system. Under such conditions, a sharp threshold response would necessarily produce heterogeneous outcomes within the same sample, which contradicts the reported low-variance aggregate data.
When combined with previously identified statistical anomalies (variance below theoretical limits, non-random digit distributions) and the failure of independent replication (Speit et al. 2007), the conclusion of non-reliability is supported by multiple independent lines of evidence.
We therefore propose a refined decision logic for the framework: automatic rejection should not rely on a single criterion, but on the convergence of at least two independent high-severity violations. The Diem et al. (2005) study meets this condition robustly.
This clarification strengthens the methodological foundation of the framework and reinforces the validity of the original conclusion while improving its epistemic robustness.

Synthesis – Integrated Assessment
The comparison between the original framework application (These 1) and the independent second opinion (These 2) reveals a constructive tension between two evaluation philosophies.
These 1 adopts a strict hierarchical approach in which violation of fundamental physical plausibility constitutes sufficient grounds for automatic rejection. Its strength lies in its clarity and efficiency: physically incompatible claims are filtered out early, preventing unnecessary downstream analysis.
These 2 emphasizes evidentiary robustness through convergence. It avoids reliance on a single decisive criterion and instead evaluates whether multiple independent lines of evidence consistently point toward the same conclusion.
The integrated synthesis combines the strengths of both approaches. Physical plausibility remains a critical filter, but not an absolute one in isolation. Instead, automatic rejection is justified when at least two independent high-severity criteria are violated. These include: (1) absence of a plausible mechanism under well-established physical constraints, (2) internal inconsistency between experimental conditions and reported data behavior, (3) statistically implausible data structures, and (4) failure of independent replication.
Applied to Diem et al. (2005), all four criteria are met. The photon energy argument establishes an extreme mechanistic gap that is not addressed by the authors. The reported window effect is incompatible with the documented SAR inhomogeneity. Statistical analyses reveal patterns inconsistent with genuine biological data. Independent replication attempts fail to confirm the findings. The presence of documented conflicts of interest further reinforces the overall assessment.
The conclusion is therefore robust across both evaluation models: the study does not meet the minimum standards required for reliable scientific evidence. The case illustrates not a single point of failure, but a systemic breakdown across multiple validation layers.
For the proposed AI-assisted pre-peer review framework, the implication is clear: its effectiveness lies not in absolute exclusion rules, but in structured multi-layer validation. A hybrid decision rule—combining strong primary filters with cross-confirmation by independent criteria—provides both rigor and resilience against false positives and false negatives.

antworten

42 Views

Zusammen mit der KI Claude habe ich einen KI-basierten Pre-Peer-Review entwickelt und bei dem Elsevier Verlag vorgestellt, angewandt auf die in dessen Journal Mutation Research publizierten REFLEX-Studie von Diem et.al. (F. Adlkofer).

REFLEX ist mit Pauken und Trompeten durchgefallen, allerdings könnte das Ergebnis noch dadurch verifiziert werden, dass man den Pre-Peer-Review mit einer anderen KI (z.B. ChatGPT) wiederholt (Quality-Loop) und dann Claude zu einer Stellungnahme des Chats mit der anderen KI auffordert. Im Pre-Peer-Review noch gar nicht enthalten ist die Implausibilität des angeblichen Fenstereffektes bei REFLEX.

Ich habe den Eindruck, Herr Selk, Sie beschreiben momentan Details einer Kurbel- oder Nockenwelle, ohne zuvor den Lesern die Funktionsweise des Ottomotors näher gebracht zu haben :yes: .

--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –

antworten

36 Views

Ich habe den Eindruck, Herr Selk, Sie beschreiben momentan Details einer Kurbel- oder Nockenwelle, ohne zuvor den Lesern die Funktionsweise des Ottomotors näher gebracht zu haben .

Da haben Sie natürlich Recht, denn beim IZgMF ist von Adlkofers berühmter REFLEX-Studie nicht mehr viel zu sehen. Vielleicht gelingt es den Betreibern, einige der früher verfügbaren Informationen wieder zugänglich zu machen.

Ansonsten: Adlkofers REFLEX-Studie ist die vermutlich wichtigste Studie derer, die an die Gesundheitsgefährdung durch Mobilfunk glauben, denn sie ist die einzige wissenschaftlich (bislang) ernst zu nehmende Studie, die ionisierende (krebserregende) Wirkung durch nichtionisierende Strahlung (Mobilfunk) gefunden haben will.

Adlkofers Stiftung VerUm (Verhalten und Umwelt) hat die Studie von Diem et. al. koordiniert. Adlkofer war lange Zeit der führende Forscher der deutschen Tabakindustrie, die insbesondere die gefahren des Passivrauchens negieren wollte und die daz die Stiftung Verhalten und Umwelt (VerUm) gründete, deren Hauptanliegen es war, allgemeine Gesundheitsgefahren zu finden, mit denen die Gefahren des Passivrauchens relativiert werden konnten. Siehe Adlkofer in den Dokumenten der tobacco-Library

Die Studie wurde im IFgMF breit diskutiert. Sie wurde von Prof. A. Lerchl wegen Verdachts auf Datenmanipulation angegriffen und konnte von Speit et. al. nicht repliziert werden. Ein Hauptpunkt war immer, das oben erwähnte angebliche Potential des Mobilfunks als nichtionisierende Strahlung ionisierende Wirkung zu haben. Dazu kamen scharfe Schwellwerte in Abhängigkeit von der Intensität der Strahlung, obwohl die Strahlung im Versuchsaufbau nicht homogen war, sowie ein angeblicher Fenstereffekt, der die Gefährlichkeit nur innerhalb zweier Schwellwerte sah.

antworten

32 Views

Touché!

Ich meinte mit meinem Einwand aber nicht die Hintergründe der "Reflex"-Studie, sondern einführende Worte zur Funktionensweise dessen, was Sie "Pre-Peer-Review" nennen. Ihre E-Mail an den Verlag Elsevier (Startposting) gibt dazu nur sehr wenig preis. Soweit ich das überblicke haben Sie mit der KI Claude eine automatisierte Vorprüfung für wissenschaftliche Manuskripte der Bioelektromagnetik geschaffen (ein Algorithmus), welche die Qualität eines Manuskripts anhand von acht Bewertungskriterien prüft und im besten Fall (bestmögliche Qualität) 100 Punkte vergibt.

Prüfkriterien
► physical plausibility
► statistical data integrity
► funding history
► pre-registration compliance
► endpoint quality
► independent replication
► image integrity
► biological plausibility of reported threshold effects

Der Studie von Diem et al., 2005, hat der Algorithmus nur drei von 100 Punkten zuerkannt, was die automatisierte Ablehnung des Manuskripts zur Folge gehabt hätte, wäre diese Pre-Peer-Review seinerzeit angewendet worden.

Von Herrn Selk habe ich inzwischen den Prüfbericht bekommen, den seine Pre-Peer-Review für Diem et al., 2005, ausgeworfen hat. Diesen Bericht werde ich von ChatGPT bewerten lassen und die Bewertung von einer zweiten KI (Claude) verifizieren lassen.

--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –

antworten

26 Views

Von Herrn Selk habe ich inzwischen den Prüfbericht bekommen, den seine Pre-Peer-Review für Diem et al., 2005, ausgeworfen hat. Diesen Bericht werde ich von ChatGPT bewerten lassen und die Bewertung von einer zweiten KI (Claude) verifizieren lassen.

Den Prüfbericht (reiner Text) habe ich unverändert ChatGPT übergeben und die KI um eine fachliche Bewertung gebeten. Lesen Sie hier und jetzt, wie die KI die Pre-Peer-Review bewertet:

Der Text ist rhetorisch stark, aber methodisch an mehreren entscheidenden Stellen unpräzise bis unhaltbar. Er wirkt weniger wie ein Pre-Peer-Review-Werkzeug als wie ein normatives Ausschlussinstrument mit vorab feststehendem Ergebnis.

Grundproblem: Verwechslung von Plausibilitätsprüfung und Falsifikation

Der zentrale Hebel des Frameworks ist Kriterium 1 („physikalische Unmöglichkeit“). Hier liegt der gravierendste Fehler. Die Argumentation basiert implizit auf dem Ein-Photonen-Modell („E = h·f“) und setzt daraus direkt die Unmöglichkeit biologischer Effekte ab. Das ist in dieser Allgemeinheit jedoch nicht haltbar. Die Berechnung ist formal korrekt – aber die Schlussfolgerung ist es nicht. Denn:

- HF-Exposition in biologischen Systemen ist kein Ein-Photon-Prozess, sondern ein klassisches elektromagnetisches Feld mit makroskopischer Leistungsdichte (SAR).

- Biologische Effekte (sofern vorhanden) wären nicht über direkte Bindungsbruch-Photonik, sondern über indirekte, kollektive oder sekundäre Mechanismen zu diskutieren (z.B. oxidative Prozesse, Signaltransduktion, thermische Mikrogradienten etc.).

- Die wissenschaftliche Debatte um HF-EMF dreht sich genau um diese Frage: gibt es nicht-thermische Effekte trotz fehlender Ionisationsenergie? – sie ist nicht trivial durch eine Energieabschätzung „erledigt“.

Kurz: Der Schritt „Photonenergie zu klein → Effekt unmöglich → Auto-Reject“ ist ein Kategorienfehler.

Das allein disqualifiziert das Framework in seiner jetzigen Form als allgemeines Prüfwerkzeug.

Kriterium 1: zu stark, falsch operationalisiert

Das Kriterium „physikalische Plausibilität“ ist sinnvoll – aber: Es wird hier als harte Ausschlussregel verwendet („automatic rejection“) und basiert auf einer zu simplifizierten Modellannahme. Das führt zu einem systematischen Bias: Alles, was nicht in ein etabliertes mechanistisches Raster passt, wird eliminiert. Eben solche Arbeiten sind aber oft der Ausgangspunkt wissenschaftlicher Klärung.

In der Praxis würde das Framework:
- historische Entdeckungen mit unklarer Mechanistik blockieren
- interdisziplinäre Forschung systematisch benachteiligen

Kriterium 2 („biological window“) – teilweise valide, aber überzogen

Die Kritik an „Fenstereffekten“ ist nicht aus der Luft gegriffen:
- Solche Effekte sind schwer reproduzierbar
- oft ein Hinweis auf experimentelle Artefakte

Aber:
- Sie sind nicht per se unmöglich
- die Ableitung („müsste binäre Zellpopulation erzeugen → daher unmöglich“) ist eine Modellannahme, keine zwingende Konsequenz

Das Argument ist also heuristisch, nicht falsifizierend.

Kriterium 3: statistische Forensik – der stärkste Teil

Hier wird es interessant: Die genannten Punkte entsprechen tatsächlich der Kritik, die u.a. von Alexander Lerchl vorgebracht wurde.

Wichtige Aspekte:
- ungewöhnlich geringe Varianz
- auffällige Ziffernverteilungen
- Inkonsistenzen zwischen Publikationen

Das sind legitime Red Flags. Aber auch hier gilt:
- „statistisch extrem unwahrscheinlich“ ≠ „unmöglich“
- solche Tests liefern Verdachtsmomente, keine automatischen Schuldsprüche

Die Umdeutung zu „Auto-Reject“ ist methodisch zu hart.

Kriterium 4: COI / Tabakindustrie – relevant, aber rhetorisch übersteuert

Die Verbindungen rund um Franz Adlkofer und die REFLEX-Strukturen sind dokumentiert und wissenschaftshistorisch relevant.

Aber im Text passiert Folgendes:
- COI wird nicht nur als Kontext, sondern als quasi-deterministischer Beweis für Unzuverlässigkeit verwendet
- Formulierungen wie „tobacco industry vehicle“ sind wertend, nicht analytisch

Sauber wäre:
- COI als Bias-Risiko
- nicht als automatische Disqualifikation

„Trust Index“ – Scheingenauigkeit

Die numerische Bewertung (3/100) suggeriert Objektivität, ist aber:
- nicht kalibriert
- nicht validiert
- nicht intersubjektiv reproduzierbar

Das ist ein klassischer Fall von Quantifizierung ohne Messmodell.

Systemischer Einwand: Gefahr eines Gatekeeping-Algorithmus

Das Framework hätte – konsequent angewendet – folgende Effekte:
- starke Konservierung des Status quo
- Ausschluss von Hypothesen außerhalb etablierter Modelle
- mögliche algorithmische Verstärkung bestehender Paradigmen

Das steht im Spannungsfeld zu wissenschaftlicher Praxis, die gerade auch von Anomalien lebt.

Was daran dennoch brauchbar ist

Trotz der Kritik enthält der Ansatz verwertbare Elemente:
- strukturierte Vorprüfung (Checklistenlogik)
- automatisierte Statistik-Forensik
- systematische COI-Recherche
- Reviewer-Entlastung

Das ist im Kern sinnvoll – aber als Assistenzsystem, nicht als Entscheidungsautomat

Einordnung speziell zur REFLEX-/Diem-Arbeit

Ohne hier ins Detail der gesamten Kontroverse zu gehen:
- Die Studie ist tatsächlich stark umstritten
- es gibt Replikationsprobleme
- es existiert methodische Kritik

Aber: Die Diskussion wurde wissenschaftlich geführt (Kommentare, Replikationen etc.), genau dafür ist Peer Review + Post-Publication-Debatte da. Das Framework ersetzt diesen Prozess durch eine Vorab-Eliminierung.

Fazit

Die Arbeit ist ein interessantes Gedankenexperiment, aber kein belastbares Werkzeug.

Hauptprobleme:
- falsche physikalische Grundannahme (Photonmodell)
- unzulässige Umwandlung von Plausibilität in Ausschluss
- Übergewicht normativer Kriterien (COI)
- Scheinquantifizierung durch „Trust Index“

Wenn man es zuspitzt: Das Papier kritisiert die Schwächen des Peer Reviews – und führt gleichzeitig ein System ein, das noch weniger fehlertolerant und noch stärker voreingenommen wäre.

--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –

antworten

21 Views

Aber: Die Diskussion wurde wissenschaftlich geführt (Kommentare, Replikationen etc.), genau dafür ist Peer Review + Post-Publication-Debatte da. Das Framework ersetzt diesen Prozess durch eine Vorab-Eliminierung.

Diese Einschätzung von ChatGPT teile ich nicht. Die Diskussion wurde zum überwiegenden Teil von einer Partei gerade nicht wissenschaftlich geführt. Lerchl versuchte seine Fälschungsvorwürfe tatsächlich mit Sachargumenten zu stützen. Adlkofer hingegen verließ die Sachebene schon früh und bediente sich eines cleveren Rechtsanwalts, um seinen Widersacher auf juristischem Parkett in die Knie zu zwingen. Parallel dazu griff Adlkofer Lerchl mit zahlreichen Artikeln heftig persönlich an, dabei assistierten ihm seine Sprachrohre in der Szene organisierter Mobilfunkgegner (z.B. Diagnose-Funk). Dies führte zu einer starken Asymmetrie der Wirkmächte zugunsten Adlkofers. Nein, alles was recht ist, aber der "Reflex"-Streit wurde mMn nur zum kleinen Teil wissenschaftlich geführt, dominant waren der juristische Part und die fortwährenden persönlichen Angriffe auf Lerchl.

Bekanntlich unterlag Lerchl letztinstanzlich am OLG Bremen. Adlkofer ließ daraufhin die Falschmeldung verbreiten, die "Reflex"-Ergebnisse seien gerichtlich für richtig befunden worden. Von alledem scheint ChatGPT nichts zu wissen.

--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –

antworten

15 Views

Von Herrn Selk habe ich inzwischen den Prüfbericht bekommen, den seine Pre-Peer-Review für Diem et al., 2005, ausgeworfen hat. Diesen Bericht werde ich von ChatGPT bewerten lassen und die Bewertung von einer zweiten KI (Claude) verifizieren lassen.

Zuerst habe ich den Prüfbericht ChatGPT übergeben und die KI um eine fachliche Bewertung gebeten. Dann habe ich diese Prozedur mit der KI Claude wiederholt, also mit der KI, die an der Entwicklung der Pre-Peer-Review beteiligt war. Lesen Sie hier und jetzt, wie die KI Claude ihr eigenes Baby bewertet:

Das ist ein bemerkenswerter Text – gut strukturiert, mit echten Stärken, aber auch mit einigen methodischen und argumentativen Schwächen, über die man ehrlich sein sollte.

Was gut funktioniert

Der stärkste Punkt ist Kriterium 1. Die Photonenenergie-Rechnung ist korrekt und vernichtend: 7,4 × 10⁻⁶ eV gegen 1–5 eV für Bindungsenergien ist ein Unterschied von sechs Größenordnungen. Das ist kein Randeinwand – das ist ein fundamentales physikalisches Problem, das tatsächlich hätte auffallen müssen. Dass es 2005 nicht aufgefallen ist, sagt etwas über das Begutachtungsverfahren aus.

Kriterium 3 (statistische Integrität) steht auf solidem Boden, weil es sich auf nachprüfbare Publikationen stützt – die Lerchl-Analyse ist real und peer-reviewed.

Kriterium 4 (Interessenkonflikte) ist inhaltlich gut belegt, aber der Ton kippt hier von Analyse in Anklage – mehr dazu unten.

Methodische Schwächen

Das Scoring-System ist nicht nachvollziehbar kalibriert. Warum −100 für COI, aber nur −10 für fehlende klinische Relevanz? Die Zahlen erwecken den Eindruck von Präzision, sind aber letztlich willkürlich gesetzt. Ein Trust Index von 3/100 klingt exakt, ist es aber nicht.

Das Framework nennt sich "AI-assisted", behandelt KI aber im Wesentlichen als Textgenerator für vorgefertigte Kriterien. Das ist nicht falsch – aber der Name verspricht mehr als die Methode hält. Echte automatisierte Anwendung auf Manuskripte würde Zugang zu Rohdaten, strukturierten Metadaten und standardisierten Einreichungsformaten erfordern, die derzeit nicht existieren.

Kriterium 2 (Schwelleneffekt) ist das schwächste. Die Argumentation – SAR-Inhomogenität von 30% widerspricht einem scharfen Schwellenwert – ist prinzipiell interessant, aber nicht ausgearbeitet. Biologische Dosisantworten können komplex sein, und der Einwand würde eine detailliertere Modellierung erfordern, um wirklich zu überzeugen.

Ein grundsätzlicheres Problem

Das Framework wird als präventives Instrument vorgestellt, aber die Anwendung auf Diem et al. ist retrospektiv und hat einen erkennbar adversarialen Charakter [siehe Nachfrage unten; Anm. Postingautor]. Der Text ist keine neutrale Methodendemonstration – er ist eine Retraktionsforderung, verkleidet als Framework-Evaluation. Das ist nicht unbedingt falsch, sollte aber transparent gemacht werden.

Die Verknüpfung von Kriterium 4 (Tabaklobby) mit dem Mobiltelefonpapier ist historisch interessant, aber argumentativ heikel. Interessenkonflikt erklärt Motivation, ersetzt aber keine wissenschaftliche Widerlegung. Die Physik in Kriterium 1 reicht allein für die Argumentation – die Tabakverbindung fügt Evidenz über die Person hinzu, nicht über das Experiment.

Fazit

Als Argumentation für eine Retraktion ist der Text stärker als die meisten Post-publication-Kommentare, die man sieht. Als Vorschlag für ein allgemeines Framework ist er ein interessanter Ausgangspunkt, aber noch nicht ausreichend formalisiert, um generalisierbar zu sein. Die physikalische Plausibilitätsprüfung als primären Filter zu positionieren – das ist der Kern, der tatsächlich verteidigt werden kann.

Nachfrage Postingautor

Was bitte ist ein "adversarialer Charakter"?

Claude beantwortete meine Frage wie folgt:

Ein schlechtes Wort von mir – Fachjargon, der nichts verdient.

Ich meinte: Der Text tut so, als würde er ein neutrales Prüfwerkzeug vorführen, hat aber von Anfang an ein Ziel: dieses eine Paper zu Fall zu bringen. Das Ergebnis stand vor der Analyse fest. Das ist keine neutrale Methodendemonstration, sondern eine Anklage in Framework-Verkleidung.

Das muss nicht falsch sein – wenn das Paper tatsächlich schlecht ist, kann man das auch offen so sagen. Aber die Verpackung als objektives Bewertungssystem ist dann irreführend.

--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –

antworten

10 Views

Die beiden KIs ChatGPT und Claude haben oben im Strang unabhängig voneinander bewertet, wie Selks Pre-Peer-Review-Tool die "Reflex"-Studie (Diem et al., 2005) beurteilt hat. Für jedermann ist ersichtlich, dass die KIs stellenweise zu stark unterschiedlichen Beurteilungen gekommen sind. ChatGPT lässt an Kriterium 1 kein gutes Haar, Claude hingegen hat daran nichts auszusetzen.

Was stimmt denn nun? Um der Antwort näherzukommen, habe ich Claude, nachdem dieser seine Bewertung abgegeben hatte, mit der Bewertung durch ChatGPT konfrontiert, also mit dem Text dieses Postings. Mein Begleittext lautete: "Danke für deine Einschätzung. Ein Kollege von dir hat den Text allerdings deutlich kritischer als du eingeschätzt. Schau selbst." Claude erwiderte nach kurzer Denkpause:

Das ist eine substanzielle Kritik, und ich sollte ehrlich sein: in einem zentralen Punkt hat der Kollege recht, wo ich zu nachsichtig war.

Wo der Kollege recht hat und ich zu mild war

Der Einwand gegen Kriterium 1 ist stärker als ich ihn formuliert habe. Ich habe die Photonenrechnung als "korrekt und vernichtend" bezeichnet – aber der Kollege trifft einen wichtigen Punkt: HF-Exposition in biologischen Systemen ist kein Einzelphotonen-Prozess. Die Frage, ob klassische elektromagnetische Felder mit makroskopischer Leistungsdichte über indirekte Mechanismen biologische Effekte erzeugen können, ist tatsächlich nicht durch E = h·f allein erledigt. Das hätte ich deutlicher sagen sollen.

Der Begriff "Kategorienfehler" ist vielleicht etwas scharf – aber die Richtung stimmt.

Wo ich dem Kollegen widerspreche

Die Kritik überschießt an zwei Stellen.

Erstens: Der Kollege behandelt die statistische Kritik (Kriterium 3) als bloßen "Verdachtsmoment". Aber Varianzen unterhalb des theoretischen Minimums einer Multinomialverteilung sind nicht einfach "unwahrscheinlich" – sie sind bei echten Messdaten mathematisch ausgeschlossen. Das ist ein härterer Befund als der Kollege suggeriert.

Zweitens: Das Argument, ein strengeres Vorabfilter würde "historische Entdeckungen blockieren" ist ein Standardeinwand gegen jeden Qualitätsstandard und beweist für sich genommen nichts. Die Frage ist, ob das konkrete Framework gut kalibriert ist – nicht ob Qualitätskriterien grundsätzlich Innovationen gefährden.

Was das zusammen ergibt

Beide Reviews – meines und das des Kollegen – haben denselben blinden Fleck, nur in entgegengesetzte Richtungen. Ich war zu freundlich gegenüber dem physikalischen Argument. Der Kollege ist zu freundlich gegenüber dem Paper selbst: die statistische Kritik an Diem et al. ist real und ernst, unabhängig davon, ob das Framework methodisch sauber operationalisiert ist.

Das Framework bleibt ein interessanter, aber noch nicht ausgereifter Vorschlag. Aber die Schwächen des Frameworks ändern nichts an den Schwächen des Papers.

--
Jedes komplexe Problem hat eine Lösung, die einfach, naheliegend, plausibel – und falsch ist.
– Frei nach Henry Louis Mencken (1880–1956) –

antworten

9 Views

RSS-Feed dieser Diskussion

Forum Faktencheck Elektrosmog

REFLEX-Studie im Pre-Peer-Review (Allgemein)