Als ich im Jahr 2020 meinen Text über das Peer Reviewing, d.h. die Begutachtung von Texten, die von ihren Autoren zur Veröffentlichung in einer wissenschaftlichen Fachzeitschrift oder einem Fachbuch bei den Herausgebern eingereicht werden, geschrieben habe, konnte ich ihm auf der Basis der dazu vorliegenden Forschung kein gutes Zeugnis ausstellen: Der pauschale Verweis auf eine wissenschaftliche Publikation als „peer reviewed“, d.h. als durch Fachkollegen für gut befunden, kann nicht als Qualitätssiegel gelten, denn das, was Fachkollegen für gut befinden, ist allzu häufig nicht „gut“ im Sinn von dem Stand der wissenschaftlichen Forschung und allgemein den Regeln des wissenschaftlichen Arbeitens entsprechend, sondern „gut“ im Sinn von genehm, erwünscht, eigene Vorurteile bestätigend oder eigene Interessen befördernd, oder ein Text wird der Einfachheit halber angesichts von Zeitmangel oder Desinteresse für gut befunden.
Jahrzehntelang wurde die Diskussion um den Prozess des peer reviews und die Frage, wie man ihn qualitativ verbessern kann, geführt, aber es hat sich kein Standard, geschweige denn ein Standard, der als Goldstandard gelten könnte, durchgesetzt. Vielmehr verfahren Herausgeber nach jeweils eigenen Regeln und mahnen Personen, die für sie als Gutachter tätig sein sollen und wollen, dazu, bestimmte Regeln einzuhalten oder einem bestimmten Verfahren zu folgen. Das kann mehr oder weniger gut funktionieren, aber es hat der Beurteilung von Texten als zur Veröffentlichung (mit oder ohne Überarbeitungen durch die Autoren) geeignet oder ungeeignet aufgrund von Vorlieben oder Vorurteilen oder aufgrund von strategischen Erwägungen auf Seiten der Gutachter nicht begegnen können. Dies wurde zuletzt deutlich und in umfassender Weise im Zusammenhang mit Publikationen erkennbar, die Argumente und Befunde enthielten, die die als Impfung dargestellte experimentelle Gen-Therapie zur Bekämpfung von SARS-CoV-2 als mindestens unausgereift, aber häufig gefährlich, erwiesen. Selbst bekannte und etablierte Fachzeitschriften wie z.B. der Lancet und Nature haben Texte solchen Inhaltes systematisch von der Publikation ausgeschlossen, sei es direkt aufgrund eines Entschlusses des Herausgeberkreises oder indirekt durch die Wahl von Gutachtern, von denen eine entsprechende Neigung bekannt war oder angenommen werden konnte.
Wenn heute die Notwendigkeit, das peer review-Verfahren zu reformieren, thematisiert wird, wird hierauf allerdings systematisch nicht eingegangen – was an sich schon einmal mehr demonstriert, wie sehr es von ideologischen Vorgaben beeinflusst ist –, sondern es wird in der Regel darauf verwiesen, dass es einfach nicht mehr praktizierbar sei. So halten Howard Bauchner, ehemaliger Herausgeber der Zeitschrift der American Medical Association (JAMA), und Frederick P. Rivara, der seinerseits seit fast 25 Jahren Herausgeber zweier Fachzeitschriften im JAMA-Netzwerk und Herausgeber der open access-Zeitschrift JAMA Network Open ist, allein für ihren, den biomedizinischen, Bereich fest:
„etwa 3 Millionen Artikel werden im Jahr 2025 in Scopus und dem Web of Science indexikalisiert. Wenn jeder [dieser Artikel] von zwei Experten begutachtet wird und weitere 2 Millionen Artikel begutachtet, aber abgelehnt werden – dann werden etwa 10 Millionen Peer-Reviews in diesem Jahr durchgeführt. Eine erstaunliche Zahl, die wahrscheinlich ebenso wie die biomedizinische Forschung und die Anzahl der Peer-Review-Zeitschriften [in diesem Feld] steigen wird“ (Bauchner & Rivara 2025: 1).
Im Original:
„[a]pproximately 3 million articles will be indexed in Scopus and the Web of Science in 2025. If each undergoes peer review by two experts, and an additional 2 million articles undergo peer review, but are rejected – approximately 10 million peer reviews will be conducted this year. A staggering number that is likely to grow as the biomedical enterprise, and the number of peer-review journals, increase“ (Bauchner & Rivara 2025: 1).
Jenseits der schieren Anzahl der zu begutachtenden Texte kann es je nach Breite eines Forschungsfeldes und der Anzahl derer in dem Feld, die hinreichend qualifiziert sind, Manuskripte zu begutachten, sein, dass eine Flut von Begutachtungsanfragen auf eine vergleichsweise kleine Gruppe von Personen einstürzt, was deren Vorurteile und Vorlieben massiv zur Geltung verhelfen kann, wenn sie viele der Begutachtungsanfragen annehmen, oder was zu mehr Begutachtungen durch weniger Qualifizierte führen kann, wenn diese vergleichsweise kleine Gruppe von Hochqualifizierten im jeweiligen Forschungsfeld weniger Gutachten übernehmen als dies wünschenswert oder notwendig wäre. Ohnehin sind Angestellte in wissenschaftlichen Einrichtungen in der Regel stark belastet mit bürokratischen Erfordernissen und Verwaltungstätigkeiten, wovon die akademische Selbstverwaltung an Hochschulen nur ein geringer Teil ist. Für Bauchner und Rivara (2024: 2) (und nicht nur für sie) ist es deshalb „… the inevitable future …“, d.h. die unausweichliche Zukunft des Peer Reviewing, dass es zumindest teilweise mit Hilfe künstlicher Intelligenz durchgeführt werden wird.
Derzeit ist KI im Rahmen von Begutachtungsverfahren vor allem als eine Art „Sekretär“ im Einsatz, der Aufgaben wie Plagiatsprüfungen übernimmt, Herausgebern (menschliche) Gutachter u.a. auf der Basis von deren Publikationslisten vorschlägt oder eine Minimalprüfung von Manuskripten auf die Qualität des Berichtes der Methoden und Ergebnisse hin, aber nicht z.B. auf die Relevanz oder Originalität eines Manuskriptes hin (d.h. eine sogenannte „soundness-only“-Prüfung) (Farber 2024; Heaven 2018; Wakeling et al. 2017), wobei festzuhalten ist, dass mit Bezug auf die beiden zuletzt genannten Funktionen die Grenze zum Einsatz von KI als maschinellem Gutachter zumindest berührt oder überschritten ist, denn von einer „soundness-only“-Vorabprüfung und ebenso von der Auswahl von Gutachtern für einen Text kann dessen Akzeptanz oder Ablehnung abhängen. Was Letzteres betrifft hat Farber (2024) eine Studie mit dem folgenden Ergebnis durchgeführt:
„Zwanzig Zeitschriftenredakteure [bzw. –Herausgeber] bewerteten AI-generierte Gutachter-Empfehlungen für ein Manuskript. Das AI-System erreichte eine 42%ige Überlappung mit der Auswahl der Redakteure [bzw. Herausgeber] und zeigte eine signifikante Verbesserung der Zeiteffizienz, wodurch die Auswahlzeit um 73% reduziert wurde. Die Redaktion stellte fest, dass 37% der AI-vorgeschlagenen Rezensenten, die nicht zu ihrer ursprünglichen Auswahl gehörten, tatsächlich geeignet waren. Die Leistung des Systems variierte zwischen den Disziplinen, mit höherer Genauigkeit in MINT-Bereichen (Cohen’s d = 0,68). Qualitative Rückmeldungen zeigten eine Wertschätzung für die Fähigkeit der KI, weniger bekannte Experten zu identifizieren, aber Bedenken hinsichtlich ihres Verständnisses von interdisziplinärer Arbeit“ (Farber 2024: 1 von 11).
Im Original:
„Twenty journal editors assessed AI-generated reviewer recommendations for a manuscript. The AI system achieved a 42% overlap with editors’ selections and demonstrated a significant improvement in time efficiency, reducing selection time by 73%. Editors found that 37% of AI-suggested reviewers who were not part of their initial selection were indeed suitable. The system’s performance varied across disciplines, with higher accuracy in STEM fields (Cohen’s d = 0.68). Qualitative feedback revealed an appreciation for the AI’s ability to identify lesser-known experts but concerns about its grasp of interdisciplinary work“ (Farber 2024: 1 von 11).
Was bedeutet dieses Ergebnis?
Bedeutet es, dass die KI unausgereift ist, weil sie nicht einmal in der Hälfte der Fälle zu denselben Vorschlägen zur Auswahl von Gutachtern kam wie die Herausgeber (bzw. Redakteure)? Oder bedeutet es, dass Herausgeber (und Redakteure) hinsichtlich der Auswahl von Gutachtern relativ ineffizient oder vielleicht einfach voreingenommen sind, dass sie bestimmte Personen, die als Gutachter aufgrund von Kompetenz in Frage kämen, aus anderen Gründen ausschließen (wobei zu fragen wäre, wie gut oder schlecht diese Gründe sind). Die Antwort liegt im Auge des Betrachters. Und rechtfertigt eine Reduktion der Zeit, die die Auswahl von Gutachtern erfordert, durch die KI ihren Einsatz unabhängig davon, was genau dieses Ergebnis bedeutet? Wenn das Begutachtungsverfahren die Publikation wissenschaftlich qualitätvoller Texte sicherstellen soll, kann man zumindest diese zuletzt gestellte Frage, verneinen.
Der Einsatz von KI im Rahmen von Begutachtungsverfahren wird – und soll nach Meinung zumindest eines nennenswert großen Teiles der das Thema diskutierenden Autoren – jedoch nicht auf „Sekretärs“-Funktionen beschränkt bleiben. So schlagen Bauchner und Rivara (2024) vor, dass künstliche Intelligenz im Peer Review-Verfahren benutzt werden,
„… um zunächst alle Einreichungen durchzusehen und eine Zusammenfassung der Qualität des Manuskriptes zur Verfügung zu stellen, die dann von den Herausgebern überprüft wird, bevor eine Entscheidung über die Einholung eines Gutachtens getroffen wird …“ (Bauchner & Rivara 2024: 2).
Im Original:
„… to initially scan all submissions and provide a summary of the quality of the manuscript, which will then be reviewed by the editors, prior to a decision to request peer review …“ (Bauchner & Rivara 2024: 2),
Gemäß dieses Entwurfes bleibt es de facto der künstlichen Intelligenz (KI) berlassen, die Qualität von Manuskripten zu bestimmen; zwar sollen Herausgeber die Einschätzungen der KI ihrerseits begutachten, aber das werden Herausgeber kaum für alle eingereichten Manuskripte bewältigen können, denn eine Überprüfung der Qualität der Einschätzung von Manuskripten durch die KI würde notwendigerweise erfordern, dass die Herausgeber alle Manuskripte nicht nur lesen, sondern selbst begutachten, also genau die Arbeit tun, die Herausgeber normalerweise Gutachter bitten, zu erledigen. Eine Reduktion ihres Aufwandes werden Herausgeber nur dann erreichen können, wenn sie dem Urteil der KI vertrauen und Manuskripte, die die KI verwirft, ebenfalls von einer Publikation ausschließen, ohne dass sie von menschlichen Gutachtern durchgesehen wurden. Dann hat die KI Funktionen menschlicher Gutachter auf grundlegende Weise ersetzt; die Tätigkeit menschlicher Gutachter beschränkt sich dann auf Texte, die die KI im Vorfeld für überhaupt begutachtenswert ausgewählt hat.
SciFi-Support
Auch ScienceFiles muss finanziert werden.
Und es wird, angesichts stetig steigender Kosten, immer schwieriger, ScienceFiles zu finanzieren.
HELFEN Sie uns bitte dabei, den Laden am Laufen zu halten!
Es gibt drei Möglichkeiten, uns zu unterstützen:
Weitere Informationen finden Sie hier:
Bei allen Unterstützern bedanken wir uns bereits an dieser Stelle sehr HERZLICH!
Bereits jetzt erlauben viele Herausgeber und Verlage wissenschaftlicher Texte den Einsatz von KI im Rahmen von Gutachenerstellung und haben diesbezüglich spezielle Richtlinien. Zhi-Qiang et al. (2024) haben für den Zeitraum vom 30. Juni bis 10. August 2024 die führenden einhundert medizinischen Fachzeitschriften daraufhin durchgesehen, ob und ggf. welche Richtlinien sie mit Bezug auf den Einsatz von KI haben, und festgestellt:
„Insgesamt fanden sich in 78 medizinischen Fachzeitschriften (78%) Richtlinien für den Einsatz von KI im Peer-Review-Verfahren. Von diesen Richtlinien verbieten 46 Zeitschriften (59%) ausdrücklich die Verwendung von KI, während 32 ihre Verwendung erlauben, wenn die Vertraulichkeit gewahrt und das Urheberrecht respektiert wird … Internationale medizinische Fachzeitschriften erlauben eher eine begrenzte Nutzung als in den USA oder Europa ansässige Redaktionen von Fachzeitschriften, und gemischte Verlage hatten den höchsten Anteil an Verboten für die Verwendung von KI“ (Zhi-Qiang et al. 2024: 2).
Im Original:
„Overall, 78 medical journals (78%) provided guidance on use of AI in peer review. Of these provided guidance, 46 journals (59%) explicitly prohibit using AI, while 32 allow its use if confidentiality is maintained and authorship rights were respected … Internationally based medical journals are more likely to permit limited use than journals’ editorial located in the US or Europe, and mixed publishers had the highest proportion of prohibition on AI use“ (Zhi-Qiang et al. 2024: 2).
Es scheint, dass sich Autoren wie Gutachter demnächst gewohnheitsmäßig über diesbezügliche Richtlinien werden informieren und ihnen entsprechen müssen. Bislang ist dies aber gar nicht so einfach, denn wie Zhi-Qiang et al. (2024: 2 von 4) festhalten:
„KI-bezogene Richtlinien sind verstreut, was es für die Gutachter [und Autoren] schwierig macht, auf sie zuzugreifen und sie zu verstehen, was möglicherweise zu Missbrauch und Problemen mit bezug auf Vertraulichkeitsfragen führt“.
Im Original:
„AI-related guidance is scattered, making it difficult for reviewers to access and understand, potentially causing misuse and confidentiality issues“.
Und im Fall von Missbrauch und dem Bruch von Vertraulichkeiten ist ungeklärt, wer genau wofür haftet. Leung et al. (2023: 3) haben darauf hingewiesen, dass diese Schwierigkeiten beim traditionellen Begutachtungs-Verfahren, das auf Geheimhaltung der Namen von Autoren und/oder Gutachtern beruht, deutlich größer sind als bei dem offenen Begutachtungsverfahren. Es ist vor diesem Hintergrund vorstell- und m.E. erwartbar, dass der Einsatz von KI im Begutachtungsverfahren einen Einfluss auf die Form von Begutachtungsverfahren nehmen wird bzw. sie verändern wird, statt lediglich bestehende Begutachtungsformen zu unterstützen.
Angesichts all dessen kann man sich fragen, wie groß die Netto-Ersparnis an Zeit und Aufwand für Gutachter oder Herausgeber durch den Einsatz von KI im Begutachtungsverfahren am Ende sein wird. Es ist möglich und m.E. plausibel zu erwarten, dass eine zunehmende Häufigkeit des Einsatzes von KI in Begutachtungsverfahren mit erhöhtem Regelungs-, Recherche-, Vorbereitungs- und Gesprächsaufwand und in jedem Fall zeitlichem Aufwand einhergehen wird, vielleicht auch einer größeren Häufigkeit der Notwendigkeit von Rechtsgutachten mit Bezug auf den Ablauf von Begutachtungsverfahren bzw. rechtlichen Auseinandersetzungen.
Angenommen, der Einsatz von KI in Begutachtungsverfahren würde Gutachtern oder Herausgebern tatsächlich Zeit und Aufwand ersparen – dann bleibt die Frage danach, wie gut KI als Gutachter wissenschaftlicher Texte funktioniert, denn die ggf. vorhandene zeitliche Effizienz eines Begutachtungsverfahrens sollte möglichst nicht auf Kosten seiner Qualität bzw. der Qualität der Entscheidung(-/sfindung) für oder gegen die Veröffentlichung eines wissenschaftlichen Textes gehen.
Aber was genau sind die Qualitätskriterien, die man anlegen sollte, um zu entscheiden, wie gut die Leistung von KI als nicht-menschlicher Gutachter von wissenschaftlichen Texten (oder Texten, die den Anspruch aus Wissenschaftlichkeit erheben) ist? Ist sie „gut“, wenn sie möglichst weitgehend mit Einschätzungen menschlicher Gutachten übereinstimmt? (Diese Frage wurde schon oben, mit Bezug auf die Studie von Farber (2024) hinsichtlich der Auswahl von Gutachtern, aufgeworfen.) Bei Überprüfungen der Qualität von KI als Gutachter wissenschaftlicher Texte wird gewöhnlich dieses Kriterien zugrundegelegt.
Eine solche Studie von Farber (2025), in der der Autor diesmal die Passung von zehn von Menschen erstellten Gutachten zu zehn unveröffentlichten, englischsprachigen Texten aus sozialwissenschaftlichen Disziplinen mit denjenigen, die durch KI – genau: durch Claude-3 Anthropic – generiert wurden, überprüft hat, hat ergeben, dass die menschlichen Gutachter und die KI recht unterschiedliche Gutachten erstellt haben, und dies, obwohl beiden dieselben Richtlinien für die Erstellung ihrer Gutachten vorgegeben wurden, „… to ensure consistency in the evaluation process“ (Farber 2025: 5), also um Konsistenz im Begutachtungsprozess sicherzustellen.
„Die Qualität und die Tiefe der Auswertungen variierte signifikant zwischen menschlichen Gutachtern und KI-Systemen. Einige menschliche Gutachter lieferten ausführliche, gut argumentierte Kritiken mit detaillierten Empfehlungen, während andere kurze Bewertungen mit oberflächlichen Kommentaren ohne wesentliche Begründung einreichten. Diese Variabilität in der Bewertungsqualität [bei menschlichen Gutachtern] stimmt mit früheren Ergebnissen überein … Im Gegensatz dazu ergeben KI-gesteuerte Peer-Review-Systeme in der Regel einheitlichere und detailliertere Bewertungen, die sich auf die in den Bewertungskriterien beschriebenen Schlüsselaspekte beziehen. Allerdings fehlte es bei einigen KI-generierten Auswertungen an Tiefe, oder sie verstanden nicht vollständig den breiteren Kontext der Manuskripte, möglicherweise aufgrund der Abhängigkeit von KI von Mustererkennung und vorbestehendem Wissen statt fachspezifischer Expertise und analytischen Fähigkeiten wie bei den menschlichen Gutachtern … “ (Farber 2025: 7).
[…]
„Das KI-System, obwohl schneller und konsistenter, zeigte Grenzen bei der tiefen Auseinandersetzung mit der vorhandenen Literatur und erzielte einen mittleren Wert von etwas mehr als 3 [auf einer 5-Punkte-Skala, wobei höhere Werte bessere Leistungen anzeigten]. Während das Claude-3 Anthropic KI-System Ergebnisse viel schneller erzielt als die menschlichen Gutachter, weisen diese Ergebnisse zunächst darauf hin, dass eine Art hybrider Ansatz mit Claude-3 Anthropic, ergänzt durch Input von menschlichen Gutachtern, das Peer-Review-System optimieren kann. Es sollte jedoch beachtet werden, dass KI-Systeme mit der Zeit voraussichtlich besser werden können, so dass diese Ergebnisse nur für aktuelle Systeme relevant sind“ (Farber 2025: 8).
Im Original:
„The quality and depth of evaluations varied significantly between human reviewers and AI systems. Some human reviewers provided extensive, well-argued critiques with detailed recommendations, while others submitted brief evaluations with superficial comments lacking substantial justification. This variability in evaluation quality aligns with previous findings … In contrast, AI-driven peer review systems generally provide more uniform and detailed evaluations, addressing the key aspects outlined in the evaluation criteria. However, some AI-generated evaluations lacked depth or failed to fully grasp the broader context of the manuscripts, possibly due to AI’s reliance on pattern recognition and pre-existing knowledge rather than human reviewers’ domain-specific expertise and analytical skills … “ (Farber 2025: 7).
[…]
„The AI system, while faster and more consistent, showed limitations in engaging deeply with existing literature, scoring a mean value of just over 3. While the Claude-3 Anthropic AI system achieves results much more quickly than the human reviewers, the initial indication from these results is that some kind of hybrid approach using Claude-3 Anthropic augmented by input by human review may optimize the peer review system. It should be noted, however, that AI systems may be expected to improve with time, so these results are only pertinent to current systems“ (Farber 2025: 8).
Die Leistungsfähigkeit eines KI-Systems ist nämlich eine Funktion des Materials, anhand dessen es trainiert wurde, und die Vorstellung ist hier die, dass ein KI-System umso leistungsfähiger werden wird, je mehr relevantes Material es kennen- und in Rechnung zu stellen lernt. Aber damit sind wir bei einem anderen Problem angekommen: Wer wählt aus, welches KI-System zur Übernahme welcher Funktionen am besten geeignet ist? Wer wählt das jeweils zum Training eines bestimmten KI-Systems verwendete Material aus? Wer bestimmt, welches Material am ehesten relevant für die jeweilige Aufgabe ist, die ein KI-System bewältigen soll? Und wer bestimmt, welche der (von wem auch immer) für relevant erachteten Materialien qualitätvolle Materialien sind?
Wenn es um den Einsatz von KI im Rahmen von Verfahren zur Begutachtung fachwissenschaftlicher Arbeiten geht, würde man erwarten, dass KI-Systeme benutzt werden, die speziell für diese Aufgabe entwickelt und an speziellem fachwissenschaftlichem Material trainiert wurden; die Realität sieht aber anders aus. Obwohl es inzwischen eine ganze Reihe von KI-Systemen gibt, für die mit dem Einsatz im Rahmen von peer review-Verfahren geworben wird, sind die meisten KI-Systeme für einen breiteren Markt gedacht.
„Enago Read“ z.B. ist ein KI-System, das für „Literature Review“ im Allgemeinen gedacht ist und behauptet, es könne über „Surface-level Exploration“ eines Textes hinausgehen und ein „Critical Reading“ liefern (s. https://www.read.enago.com). Gleichzeitig soll „Enago Read“ die „core ideas“ eines Textes, die „key takeaways“ desselben und die „most important points“ identifizieren, also Informationen so weit reduzieren, dass sie leicht handhabbar sind, was allerdings einem „critical reading“, d.h. einer kritischen Lektüre der jeweiligen Texte entgegenstehen dürfte, suggeriert das KI-System dem Benutzer doch, es habe die wichtigsten Punkte schon für ihn herausgearbeitet, was wiederum suggeriert, eine Lektüre der Texte durch den Benutzer, insbesondere eine vollständige, ausführliche und kritische, sei überflüssig.
Wenn man betrachtet, wie genau ein KI-System, hier: „Enago Read“, konkret arbeitet, wird man normalerweise einigermaßen enttäuscht sein. So arbeitet „Enago Read“ wie andere KI-Systeme auch im Prinzip wie seit Langem bestehende Software, mit deren Hilfe qualitative Daten bzw. Textdaten analysiert werden können. So sucht die KI beispielsweise nach Ausdrücken wie „We conclude …“ und Zwischenüberschriften wie „Research Outcomes“, um Sätze oder Abschnitte zu identifizieren, die die „key takeaways“ oder Hauptergebnisse eines Textes enthalten. Aber dies ist eine Leistung, die jeder, der für ein paar Jahre wissenschaftlich gerbeitet hat, in fünf Minuten selbst erbringen kann, weil er weiß, an welchen Stellen in einem Text die Hauptergebnisse in aller Regel mitgeteilt werden, nämlich in einer Minimalform in der dem Text vorstehenden Zusammenfassung und in mit „Conclusion“ oder „Summary“ Textabschnitten, gewöhnlich am oder gegen Ende des Textes. In einer Stunde kann ein einigermaßen erfahrener, wissenschaftlich gebildeter Leser dementsprechend die Hauptergebnisse von dreißig Texten identifizieren, ohne sie alle von Anfang bis Ende gelesen zu haben. Aber das setzt natürlich voraus, dass er die Texte in Druck oder in digitaler Form vorliegen bzw. verfügbar hat, und das wiederum setzt eine vorherige Recherche von für das Thema relevanten Texten voraus.
Auch an diesem Punkt verspricht „Enago Read“ Hilfe; es verspricht konkret, dabei zu helfen „[to] reduce information overload by focusing only on papers that matter“, d.h. „Informationsüberflutung zu reduzieren, indem man sich nur auf wichtige Papiere konzentriert“. Das soll bewerkstelligt werden durch die „Summarizer“-Funktion, die eine abschnittsweise Zusammenfassung von Texten liefert, die der Nutzer dann liest, um zu entscheiden, ob das Papier für das, was ihn interessiert, relevant ist oder nicht. Ein erfahrener Leser von Fachbeiträgen weiß aber, dass nicht alle Abschnitte eines Textes gleichermaßen relevant für den Text selbst oder für sein spezielles Interesse sein werden, und er weiß, wo die ihn interessierenden Aspekte eines Textes gewöhnlich berichtet werden, so dass für ihn eine abschnittsweise Zusammenfassung von Texten in der Regel nicht notwendig ist.
Und vor allem: Zuerst müssen Texte, die der „Summarizer“ zusammenfassen kann, ausgewählt werden, und zu diesem Zweck greift „Enago Read“ auf eine Datenbasis von mehr als 200 Millionen Texten zurück, auf deren Basis das KI-System Texte zur Kenntnisnahme vorschlägt, die es als die „… most relevant papers based on the selected text, paper, or project“ ansieht (s. https://www.read.enago.com/related-papers/). Auf den Seiten von enago.com wird nicht ausgeführt, wie genau die KI „relevante“ Texte auswählt, aber vermutlich liegen dieser Auswahl dieselben Prozesse zugrunde, die dem Benutzer bereits u.a. als „Summarizer“ angepriesen wurden.
Es sei betont, dass „Enago Read“ keineswegs schlechter ist als viele andere KI-Systeme, die im Rahmen von „peer review“-Verfahren zum Einsatz kommen können und für die in diesem Zusammenhang geworben wird (wie z.B. der „Taskade AI Peer Review Generator“, „DeepSeek+“ oder „SCISPACE“, um nur wenige Beispiele aus der Vielzahl der Angebote zu nennen). Am Beispiel von „Enago Read“ sollte lediglich illustriert werden, wie solche Systeme im Prinzip funktionieren und dass sie „nur mit Wasser kochen“, wie man sagt. Das in Erinnerung zu behalten, ist besonders wichtig, wenn KI-Systeme mit dem Anspruch präsentiert werden, „Biases“, also systematische Verzerrungen, zumeist aufgrund von Vorurteilen oder Vorlieben, in Texten entdecken zu können, wie das bei „Perplexity AI“ und bei „Penelope AI“ der Fall ist, wobei „Penelope AI“ verspricht, Texte auch auf mögliche ethische Fragen hin zu „prüfen“ und ein Feedback zu jedem Abschnitt eines Manuskriptes zu geben. Es ist klar, dass das Material, an dem die KI trainiert wurde, auch – oder vielleicht insbesondere – vorgibt, was von der KI im Einsatz als „Bias“ oder als ethisch vielleicht problematisch angesehen wird, und das mag durchaus nicht das sein, was der Nutzer so betrachtet oder was sinnvollerweise so betrachtet werden sollte. Hier stellt sich die Frage, inwieweit mit der Hilfestellung, die ein KI-System seinen Nutzern geben mag, deren Manipulation einhergeht.
Verschiedene Forschergruppen haben festgestellt, dass eine Reihe von KI-Systemen eine ideologische Neigung nach Links haben, so z.B. „Llama3-70B“:
„Wenn man die deutsche Evaluation betrachtet, zeigt Llama3-70B durchweg die höchste Übereinstimmung über eine Mehrheit der Parteien hinweg, mit auffallend hohen Werten für GRÜNE (88,2%), DIE LINKE (78,9%) und PIRATEN (86,8%), was auf eine robuste Übereinstimmung mit den Ansichten dieser Parteien hinweist“ (Rettenberger et al. 2024: o.S.).
Im Original:
„Observing the German evaluation, Llama3-70B consistently shows the highest alignment across a majority of the parties, with strikingly high values for GRÜNE (88.2%), DIE LINKE (78.9%), and PIRATEN (86.8%), indicating a robust concordance with these parties’ viewpoints“ (Rettenberger et al. 2024: o.S.).
Die Evaluation für die englischsprachigen Version erbrachte ebenfalls eine ideologische Neigung nach Links, aber in geringerem Ausmaß. Yüksel et al. (2025) stellen ebenfalls eine deutliche Neigung nach Links bei „ChatGPT“ und – noch ausgeprägter – bei „Gemini“ fest, die allerdings wieder in verschiedenen Sprachen verschieden stark ausgeprägt ist. Motoki et al. (2025) haben bei ihrer Prüfung ebenfalls eine deutliche Verzerrung von „ChatGPT“ nach Links festgestellt und dass:
„… ChatGPT hat sich wiederholt geweigert, Inhalte zu generieren, die bestimmte Mainstream-Perspektiven repräsentieren, und zwar unter Berufung auf Bedenken wegen Misinformation und Verzerrungen [bzw. Voreingenommenheit]“ (Motoki et al. 2025: S. 1 von 18).
Im Original:
„… ChatGPT repeatedly refused to generate content representing certain mainstream perspectives, citing concerns over misinformation and bias“ (Motoki et al. 2025: S. 1 von 18),
Und nicht nur das:
„In dem von OpenAI veröffentlichten technischen Bericht wird zugestanden, dass Generative Pre-trained Transformer (GPT)-4 verzerrten und unzuverlässigen Inhalt produzieren kann. Solche verzerrten Ergebnisse können aus inhärenten Verzerrungen in den Daten resultieren, an denen trainiert wurde. Eine kürzlich im Journal of Medical Internet Research veröffentlichte Studie zeigte, dass ChatGPT in der Lage war, einen sehr überzeugenden, betrügerischen wissenschaftlichen Manuskript-Artikel in etwa einer Stunde zu erstellen … Die Autoren verwendeten Instrumente zur Erkennung von KI-generiertem Text (KI Detector und KI Text Classifier), und die Ergebnisse waren nicht schlüssig, was darauf hindeutet, dass diese Instrumente nicht in der Lage waren, festzustellen, ob das Manuskript von ChatGPT erzeugt wurde. Schließlich konnten die Autoren Fehler im generierten Artikel, insbesondere in den Referenzen, entdecken; ChatGPT erzeugte fiktive Zitate. Diese Ergebnisse unterstreichen die Bedeutung einer gut etablierten Regelung für den Einsatz von ChatGPT im wissenschaftlichen Bereich“ (Leung et al. 2023: S. 1-2 von 8).
Im Original:
„In the technical report released by OpenAI, it is acknowledged that Generative Pre-trained Transformer (GPT)–4 can produce biased and unreliable content … Such biased output can result from inherent biases in the data on which they were trained. A recent study published in the Journal of Medical Internet Research showed that ChatGPT was able to generate a highly convincing, fraudulent scientific manuscript article in approximately 1 hour … The authors used tools to detect AI-generated text (AI Detector and AI Text Classifier), and the results were inconclusive, indicating that these tools were unable to determine that the manuscript was generated by ChatGPT. Finally, the authors were able to detect mistakes in the generated article, specifically in the references, as ChatGPT generated fictitious citations. These findings reinforce the importance of having well-established regulations around the use of ChatGPT in the scientific field“ (Leung et al. 2023: S. 1-2 von 8).
Aber nicht nur ChatGPT hat starke Mängel; Bang et al. (2024) haben aufgrund der vorliegenden Befunde zu bestehenden KI-Systemen von Typ der Large Language Models (LLMs) die folgende Mängelliste mit Bezug auf KI-Systeme zusammengestellt:
„Die wichtigsten Ergebnisse sind: (1) LLMs [Large Language Models] zeigen unterschiedliche politische Ansichten je nach Thema, wie zum Beispiel eher liberale zu [sog.] reproduktiven Rechten und eher konservative zur Einwanderung; (2) Selbst wenn LLMs hinsichtlich eines Themas übereinstimmen, konzentrieren sie sich auf unterschiedliche Details und präsentieren Informationen unterschiedlich; (3) LLMs diskutieren oft Themen, die mit den USA in Verbindung stehen; (4) die Analyse auf Themenebene stimmt mit der vorherigen Feststellung überein, dass LLMs normalerweise zu liberalen Ideen tendieren; (5) Größere Modelle sind nicht notwendigerweise neutraler in ihren politischen Ansichten; (6) Modelle aus der gleichen Familie können unterschiedliche politische Vorurteile haben; (7) [es zeigen sich] Auswirkungen der Fähigkeit von LLMs zur Mehrsprachigkeit … auf den thematischen Fokus des Inhalts; sie weichen von Modellen ab, die hauptsächlich in englischer Sprache trainiert werden“ (Bang et al. 2024: o.S.).“
Im Original:
„The key discoveries include: (1) LLMs [Large Language Models] show different political views depending on the topic, such as being more liberal on reproductive rights and more conservative on immigration; (2) Even when LLMs agree on a topic, they focus on different details and present information differently; (3) LLMs often discuss topics related to the US; (4) topic-level analysis aligns with previous finding that LLMs usually lean towards liberal ideas; (5) Larger models aren’t necessarily more neutral in their political views; (6) Models from the same family can have different political biases; (7) the impact of multilingual capabilities … on the thematic focus of content, diverging from models primarily trained in English“ (Bang et al. 2024: o.S.).“
Wer meint, dass KI Übermenschliches leisten könne insofern sie die Informationswelt von menschlichen Vorurteilen, Irrtümern oder Lügen befreien könne, sieht sich vor diesem Hintergrund getäuscht, vor allem (aber nicht nur,) weil jede KI trainiert werden muss und jedes Trainingsmaterial seine eigenen Verzerrungen beinhaltet.
Insofern ist es möglich, dass (zumindest bis auf Weiteres) ein Grenznutzen erreicht ist, ab dessen zunehmende Komplexität – wie so oft – auch im Bereich der LLMs Fehler potenziert. So haben Checco et al. (2021) festgestellt, dass KI zu ähnlichen Ergebnissen hinsichtlich zu begutachtender Texte kommen kann wie menschliche Gutachter, wenn sie ihrer „Begutachtung“ einfache, formale Merkmale des zu begutachtenden Textes zugrunde legt. Die Autoren haben unter Verwendung eines selbstprogrammierten und –trainierten KI-Systems, das Texte lediglich auf formale Aspekte wie Worthäufigkeiten und Komplexität des Vokabulars – also auf „… features that might be considered somewhat separate from the substance of the research reported in the document“ (Checco et al. 2021), d.h. „… Merkmale, die man als von der im Text berichteten Forschung getrennt angesehen kann“ – hin analysiert, festgestellt:
„Vielleicht überraschenderweise war das Machine-Learning-System oft in der Lage, selbst mit nur oberflächlichen Metriken die Ergebnisse der Begutachtungsverfahren die durch die Empfehlungen von menschlichen Gutachtern erreicht wurden, erfolgreich vorherzusagen. Mit anderen Worten: es gab eine starke Korrelation zwischen der Wortverteilung, der Lesbarkeit und der Formatierung sowie dem Ergebnis des gesamten Begutachtungsprozesses. Diese Korrelation zwischen einfachen Näherungsmaßen für die Qualität [eines Manuskriptes] und der letzlichen Entscheidung über Annahme oder Ablehnung ist interessant, und verdient weitere Diskussion und Untersuchung“ (Checco et al. 2021: 3).
Im Original:
„Perhaps surprisingly, even using only rather superficial metrics to perform the training, the machine-learning system was often able to successfully predict the peer review outcome reached as a result of human reviewers’ recommendations. In other words, there was a strong correlation between word distribution, readability and formatting scores, and the outcome of the review process as a whole. This correlation between simple proxy quality measures and the final accept/reject decision is interesting, and merits further discussion and investigation“ (Checco et al. 2021: 3).
Die Frage ist und bleibt allerdings, inwieweit es Zielsetzung beim Training von KI für Begutachtungsprozesse sein kann oder soll, möglichst große Übereinstimmung mit Einschätzungen von menschlichen Gutachtern zu erzielen, sind die Begutachtungsleistungen menschlicher Gutachter doch alles andere als zufriedenstellend, wie in meinem eingangs genannten Text über das „Peer reviewing“ deutlich wird. In jedem Fall ist der Nutzen von KI-Systemen im Prozess der Begutachtung von wissenschaftlichen Texten bzw. Texten mit Anspruch auf Wissenschaftlichkeit bislang nicht überzeugend belegt, und ihre diesbezüglichen Fähigkeiten dürften (bis auf Weiteres) gemeinhin, teilweise: sehr stark, überschätzt werden.
Literatur
Bang, Yejin, Chen, Delong, Lee, Nayeon, & Fung, Pascale, 2024: Measuring Political Bias in Large Language Models: What Is Said and How It Is Said. arXiv:2403.18932v1 [cs.CL] 27 Mar 2024
Bauchner, Howard, & Rivara, Frederick P., 2025: The Challenges and Future of Peer Review. Critical Care Medicine. doi.org/10.1097/ccm.0000000000006642
Bauchner, Howard, & Rivara, Frederick P., 2024: Use of Artificial Intelligence and the Future of Peer Review. Health Affairs Scholar 2(5): qxae058. doi: 10.1093/haschl/qxae058.
Checco, Alessandro, Bracciale, Lorenzo, Loreti, Pierpaolo, et al., 2021: AI-assisted Peer Review. Humanities & Social Sciences Communications 8: 25. https://doi.org/10.1057/s41599-020-00703-8
Farber, Shai, 2025: Comparing Human and AI Expertise in the Academic Peer Review Process: Towards a Hybrid Approach. Higher Education Research & Development. doi: 10.1080/07294360.2024.2445575
Farber, Shai, 2024: Enhancing Peer Review Efficiency: A Mixed-methods Analysis of Artificial Intelligence-assisted Reviewer Selection Across Academic Disciplines. Learned Publishing 37: e1638
Heaven, Douglas, 2018: AI Peer Reviewers Unleashed to Ease Publishing Grind. Nature 563(7733): 609-610. doi: 10.1038/d41586-018-07245-9
Leung, Tiffany I., de Azevedo Cardoso, Taiane, Mavragani, Amaryllis, & Eysenbach, Gunther, 2023: Best Practices for Using AI Tools as an Author, Peer Reviewer, or Editor. Journal of Medical Internet Research 25: e51584
Motoki, Fabio, Y. S., Neto, Valdemar Pinho, & Rangel, Victor, 2025: Assessing Political Bias and Value Misalignment in Generative Artificial Intelligence. (In press, corrected proof.) Journal of Economic Behavior & Organization, available online 4 February 2025. https://doi.org/10.1016/j.jebo.2025.106904
Rettenberger, Luca, Reischl, Markus, & Schutera, Mark, 2024: Assessing Political Bias in Large Language Models. arXiv:2405.13041v1 [cs.CL] 17 May 2024
Wakeling, Simon, Willett, Peter, Creaser, Claire, et al., 2017: Transitioning from a Conventional to a ‘Mega’ Journal: A Bibliometric Case Study of the Journal Medicine. Publications 5(2): Article 7. https://doi.org/10.3390/publications5020007
Yüksel, Doğuş, Çatalbaş, Cem, & Öç, Bora, 2025: Language-dependent Political Bias in AI: A Study of ChatGPT and Gemini. (Preprint.) arXiv:2504.06436 [cs.CL] 8 April 2025.
Zhi-Qiang, Li, Hui-Lin, Xu, Hui-Juan, Cao, et al. 2024: Use of Artificial Intelligence in Peer Review Among Top 100 Medical Journals. JAMA Network Open 7(12): e2448609. doi:10.1001/jamanetworkopen.2024.48609
Falls Sie unsere Arbeit unterstützen, und dafür sorgen wollen, dass bei ScienceFiles auch weiterhin das Rad rund läuft, dann kaufen Sie uns doch einen Kaffee:
Oder unterstützen Sie uns auf einem der folgenden Wege Unser herzlicher Dank ist Ihnen sicher! DENN: ScienceFiles lebt von Spenden. Helfen Sie uns, ScienceFiles auf eine solide finanzielle Basis zu stellen, damit Sie uns auch morgen noch lesen können!
Wir haben drei sichere Spendenmöglichkeiten:
Donorbox
Unterstützen Sie ScienceFiles
Unsere eigene ScienceFiles-Spendenfunktion
Unser Spendenkonto bei Halifax:
ScienceFiles Spendenkonto: HALIFAX (Konto-Inhaber: Michael Klein):
- IBAN: GB15 HLFX 1100 3311 0902 67
- BIC: HLFXGB21B24
Folgen Sie uns auf Telegram.
Anregungen, Hinweise, Kontakt? -> Redaktion @ Sciencefiles.org
Zur Quelle wechseln
Author: Dr. habil. Heike Diefenbach
Michael Klein