打假神器来了?AI图像查重4小时筛查3500篇论文

文章正文
发布时间:2024-11-12 13:11

 
 
打假神器来了?AI图像查重4小时筛查3500篇论文  
 

7月23日,据“DeepTech深科技”微信公号报道,北京大学常务副校长詹启敏在Pubpeer网站上被指涉嫌25篇论文存在实验图像重复、实验方法存在错误等问题。

7月24日,署名詹启敏的作者在“潇敏ScienceArt”公号上回应称,已与论文合作者仔细核实相关文章表述和实验结果,认真开展讨论,目前并未发现数据造假和学术不端情况。

“实验图像重复”是论文被质疑的常见问题之一。此前,已有数起论文打假瞄准了生物医学领域,其中的一个关键靶点就是“实验图像重复”。

近日,Nature报道了美国计算机学者研发的一款图像查重软件,似乎为快速解决这一问题带来了希望。该软件在4小时内筛查了3500篇论文,并最终发现了400个可能重复的图像。

不过,有学者认为,这款软件的缺点也很明显,因为图像重复不一定是错误。而且,软件甚至会将相似的图像标记为重复。

知名学术打假人Elisabeth Bik评价称,该软件“仍需要人工监督,以确保它不会出现标记错误”。

新冠论文大筛查:4小时、3500篇论文、2.1万张图像

今年6月,雪城大学计算机学者丹尼尔·阿库纳(Daniel Acuna)利用开发的图像查重软件,提取和比较了预印本网站bioRxiv和medRxiv上的3500篇论文,共2.1万张图像。

Daniel Acuna (图源:Syracuse University)

这一软件可批量筛查论文,找出重复图像,即使经过旋转、裁剪的图片也难逃它的法眼。Acuna的公司Resis使用这一软件为期刊和研究机构提供服务,但目前还未公开使用。

他说,在4个小时内,该软件就发现了约400个可能存在重复的图像。不过,Acuna认为大多数都没有问题。

他选择了24篇包含“有趣”重复图片的论文,同时公布在他自己创建的网站和PubPeer上。

这引起了不小的轰动。论文作者们也反应不一。一些作者选择了承认错误并立即改正;一些论文的作者则回答说,有些错误在经同行评议的论文版本中已经改正。

芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri对Acuna所做的工作表示感谢。他写道:“如果这个软件的运行结果是准确的,我认为应默认在PubMed中实施。”

帮助出版商筛查造假

目前,期刊审稿大多依赖于作者提交的手稿图像,进行手动筛查。《欧洲分子生物学学会杂志》主编Bernd Pulverer介绍说,整个过程很耗时,早就应该进行自动筛查以简化过程。

Acuna表示,如果期刊编辑采用类似软件,他们也许能更轻松地完成审查工作。

荷兰出版业巨头爱思唯尔科研诚信负责人IJsbrand Jan Aalbersberg说,为发现图像重复使用问题,出版商需要创建一个包含所有已出版图像的共享数据库,以便进行比较。

2015年,Acuna及合作者就从当时发表在PubMed生物医学文献数据库开放存取的76万篇文章中提取了260万张图像。他们从中抽取约3750张标记图像进行手动筛查,并根据结果预测,该数据库中1.5%的论文包含可疑图像,而0.6%的论文存在图像造假。

需要人工调整结果

不过,也有人表示,重复不一定是错误。Bik认为,该软件“需要人工监督。”

Acuna同意她的观点。他说,该软件尚无法根据上下文判断重复图片是否存在问题,需要人为审查。

“但这仍然是有用的,尽管Bik擅长在论文中查找重复的图像,但计算机可以通过比较数十万、数百万篇论文,来找到两篇论文中的重复之处,这对人类来说是不可能完成的任务。”Acuna说。

一些研究人员则反映,Acuna的软件将相似的图像也标记为重复。同时,软件无法兼容广为流行的PDF文件格式,也是一个问题。

后来,Acuna从他的网站中删除了约1/3的重复文章分析,并将其加密。作者只有从他那里获得访问密钥,才能看到相关结果。

来自德国海德堡的图像完整性分析师Jana Christopher说,从更广泛的意义上讲,重复图像查重软件过于专注查找重复项,从而忽视了图像的全貌。例如,两个被判定为重复的图像,其实只有很小的重复区域,在其他方面完全不同。Acuna认为,改进细微差别是机器学习进步的关键。

图像分析在持续,造假者要小心

即便该软件存在诸多问题,但Acuna表示,他将继续分析COVID-19预印本论文。目前已经分析了5500篇,这个数字还在持续上涨。

他还会将预印本中的图像与数据库PubMed中的研究论文进行比较,这可能还会引发其他图像的重复使用。

“我希望作者能意识到,有人正在做这样的事情。”他说。

参考资料:

1.https://www.nature.com/articles/d41586-020-02161-3

2.https://www.nature.com/articles/d41586-020-01363-z

3.https://www.nature.com/articles/d41586-018-02421-3

4.https://doi.org/10.1080/08989621.2020.1793675

5.https://ischool.syr.edu/people/directories/view/deacuna/

6. https://acuna.io/

7. https://www.thepaper.cn/newsDetail_forward_8416829

8. https://mp.weixin.qq.com/s/99t2qTQ7L_HguJpTb4mHdw

 

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。