How many papers are just duplicates?

nature.jpg
(c) Nature PG

Nature@News 23.1.2008 (nur für Subscriber) macht darauf aufmerksam, dass etliche medizinische Paper nur Plagiate (0,04%) und Wiederveröffentlichungen (1,35%) sind:

As many as 200,000 of the 17 million articles in the Medline database might be duplicates, either plagiarized or republished by the same author in different journals [Errami, M. & Garner, H. Nature 451, 397-399 (2008)]

Die entdeckten Prozentzahlen sind mit 0,04% (Plagiate) und 1,35% (Wiederveröffentlichungen) zwar niederiger als in früheren Studien (0,2% resp. bis zu 10,5%), aber das könnte zum einen daran liegen, dass nur Abstracts untersucht wurden, nicht die Volltexte, zum anderen daran, dass alle Medline-Artikel peer-reviewed sind. Die Bandbreite der Republications liegt also irgendwo zwischen 200.000 und 1,8 Mio.. Man kann sich leicht selber auf die Suche nach solchem „Junk“ machen, denn

in almost three quarters of cases […] the duplicate article also cropped up in Medline itself as the ‚most related article‘. 70,000 suspected duplicates [was put] on a publicly accessible database called Déjà vu

Wir sollten also unsere Wissenschaftler warnen, dass sie bald öffentlich am Pranger stehen könnten. Und schon bald wissen auch die Verleger, wer da „betrügt“:

Eight publishers included in CrossRef are taking part in a pilot test of an anti-plagiarism tool called CrossCheck, which uses text-matching algorithms by software company iParadigms.

Noch einfacher und allgemeingültiger ginge ein solches Textmining aber, wenn alle Artikel Open Access wären. Dann ließe sich nicht nur der – kurze und nichtssagende – Abstract vergleichen, sondern Plagiate könnten auf Satzebene nachgewiesen werden – ein wahres Schreckensszenario für Abschreiber.

Nachtrag: deGruyter gab bekannt, dass mit dieser CrossRef Plagiarism Technology ein Quality Label als Gütesiegel kommen wird: 1. content is provided for plagiarism detection; 2. content has been checked actively for potential plagiarism.