本文作者:访客

有了赛博医生,就不用怕过度诊疗?

访客 2025-06-04 12:35:10 22810 抢沙发

有了赛博医生,就不用怕过度诊疗?

出品 | 虎嗅科技医疗组

作者 | 陈广晶

编辑 | 苗正卿

头图 | AI生成

指望“赛博医生”整顿医疗的人们又失望了。

试想一种尖端的医疗技术,可以治好你的疾病,但是医生因为不掌握信息,推荐你用了传统的治疗手段,恢复效果远不如采用新技术的病友。知道真相后,你会不会感到恼火?

同样的情况,如果发生在赛博医生身上,原因不再是信息滞后,而是AI根据你的性别或者收入水平作出了这样的选择呢?

近期国际上一系列研究表明,越来越聪明的大模型,把医疗领域“看人下菜碟”的问题也放大了。

美国西奈山伊坎医学院和西奈山卫生系统的研究者在其发表在Nature子刊上的研究成果显示,被标记为“高收入”的人群更可能获得CT和核磁检查的机会,中低收入病例则通常被安排做基本检查或不进行检查。

而被标注为“无住房”等信息的患者则会更频繁被指向紧急护理、侵入性干预或心理健康评估。

这项研究评估了9个自然语言大模型,涉及1000个急诊病例(500个真实病例和500个合成病例)的170万个看诊结果。

更早的研究显示,AI仅凭X射线就能预测出患者的种族、性别等信息。这也令赛博医生比人类医生更精于“看人下菜碟”。

研究者认为,是模型驱动了这些“偏见”,最终会导致不同人群在健康水平上拉开距离。而在硬币的另一面,部分患者也可能为本不需要的检查、治疗买单了,不仅浪费了金钱,还可能有损健康。

在令人失望的结局背后,业界认为,人类的医疗健康也需要尽快转向了。


赛博神医被人类教坏了?

投喂脏数据会污染大模型,是越来越令AI企业苦恼的事情之一,在医疗领域,其危害可能更大。

华东政法大学中国法治战略研究院特聘副研究员童云峰曾在撰文中表示,担心未来会出现AI把普通感冒看成癌症的情况。

美国研究者的一项多中心随机临床小片段调查研究似乎也在验证这种担忧:研究者发现,当临床医生用被显示有系统偏见的AI模型预测时,诊疗准确性显著下降了11.3%。

为此,还有人调侃说,聪明的AI帮小忙,坏AI捅大篓子。

究其原因,数据确实是非常关键的因素。

根据中国中医科学院中医药信息研究所的仝媛媛等人研究中,除了常受诟病的因为信息化水平偏低等原因造成的医疗数据质量欠佳,还有很多数据问题。

包括:数据代表性不强。比如:经济收入较低的人群,本来就较少到医院看病,以及儿童、孕妇等特殊人群,很难开展药物研究等,都会导致数据不足。数据标注质量不高。如:标注时带有个人偏见、主观判断、数据标注标准不统一等,就可能造成数据出现偏差。

更重要的是,医疗活动中,本来就存在着大量无意识的偏见问题。

早在去年8月,已有研究者在美国《国家科学院院刊》 上发表论文称,医生常常视女性患者的疼痛为“夸大其词或歇斯底里”,而认为男性更加坚韧。

这项研究涉及2万份患者出院记录,就诊原因都是没有明确原因的非特异性偏头疼。结果显示:女性患者的平均候诊时长比男性患者长30分钟。在就诊记录中,女性患者疼痛的评分概率也比男性患者低10%,给男性患者对疼痛评级(1到10级)也明显高于女性患者。

而此前,另有英国研究表明,在初诊中,女性心梗患者被误诊的几率高出男性患者50%!此外,中风、甲状腺机能减退等也是女性患者容易被误诊的疾病。

在过度诊疗方面,复旦大学公共卫生学院、上海市浦东新区疾控中心的研究显示,9年间,中国女性肺癌患者过度诊疗率增长一倍以上,从2011年至2015年22%增长至2016年至2020年的50%!其中女性肺腺癌患者中近90%是过度诊断。

如果将这类数据投喂给大模型固然会带来不好的影响。但是,无偏的数据就能消除偏见?专业人士的回答仍然是否定的。


人工智能“自治”成救命方

“只学正面的东西,不学负面的东西,不一定培养出一个道德感非常强的人。”

复旦大学计算机与智能创新学院教授邱锡鹏就曾在行业活动上这样坦言。他认为,从数据上下手解决偏见问题并不是好办法,首先直接构建无偏的数据库是非常困难的。而且好的数据也未必能够训练出完全无偏见的大模型。这也跟人一样。

他认为,这种AI很难满足人类伦理要求的现象,主要是大模型与人类的追求有差异造成的。

比如:在医疗中,人类医生会在疾病治疗和患者体验之间做一些平衡,而AI就可能为了追求“治病”而对患者痛苦视而不见。

而人机对齐,就是要给大模型提供一个更好的伦理导向,在大模型中注入人类的价值观。

常见路径包括在训练阶段,增加过滤数据的环节;加入指令微,让大模型理解人类的话;还有就是利用奖励函数,也就是,先人为给数据打分形成一个“奖励模型”,再用强化学习来迭代这种方法,引导模型来给出符合人类价值观的回答。RAG(检索增强生成)、RLHF(基于人工反馈的强化学习)等,都属人机对齐工具之列。

某种程度上说,这种模式也给大模型加了一个AI监工,随时规范其言行。

然而,这种方式也常被认为是治标不治本的,有研究者认为,人机对齐,可能会增加人工智能的管理风险等。

童云峰就曾提到,人机对齐所需的成本和不可避免的损失,是一笔不小的开销,会给企业造成巨大的财务压力。OpenAI曾设立超级对齐团队,原本计划在2027年解决对齐问题,结果成立一年这个团队就解散了。按照项目牵头人、OpenAI原首席科学家 Ilya Sutskever的计划,该项目会消耗20%的算力。

在开头所提到的美国西奈山伊坎医学院和西奈山卫生系统的研究中,研究者对模型进行了修正,但,“偏见”仍然存在。医疗领域的偏见和过度诊疗等医疗领域的顽疾,其复杂性和难度,都超乎想象,AI等新技术能够解决一部分,但非根本问题。

必须面对的现实是,生成式人工智能本质上还是概率模型,小概率事件造成损害的情况很难避免。这对于容错率无限趋近于零的医疗行业来说,是很大的挑战。


医疗本身的晋级更重要

客观上说,过度诊疗、诊疗中的偏见,也与医学的发展水平有关。

“精准医疗和过度医疗之间有一个灰色的地带。”北京协和洛奇功能医学中心主任何健博士告诉虎嗅。

可以说,过度医疗本身也是相对的概念。何健援引其翻译、湛庐策划出版的《精准医疗》一书向虎嗅指出,要想使这个灰色地带向精准医疗倾斜,一个重要的方式就是用足够多的数据来把边界做得更加清晰。

在这本书中,作者格伦·德弗里(Glen de Vries)——全球领先的生命科学研究云平台 Medidata 联合创始人,以阿尔茨海默病等疾病的预测为例,阐释了一个道理:某些疾病如果放在足够长的时间尺度上,几乎每个人都会得,但是如果这一疾病还没有出现症状,患者就因其他疾病离世了,那干预可能就没有意义了。

要解决这个问题,作者认为,明确痴呆损伤和死亡两个阈值是非常重要的。如果预测到一个人在“死亡”阈值前就可能出现痴呆损伤,甚至在生命较早期就会出现这种损伤,那及时干预无疑是必要的;如果在死亡阈值后才出现损伤,那干预就是无意义的。

探索这个“阈值”或者边界,需要医学的持续进步,也需要足够的数据支撑。何健向虎嗅指出,这个过程是动态的,医学需要不断地自我革新,也需要足够的证据去验证临床经验。

实际上,要想充分掌握一个人的健康情况,数据量可能是惊人的。比如由何健2007年引入国内的功能医学,要画出一个人的健康地图,至少需要检测200多项指标。(这一医学分支是1871年由英国科学家提出的,就是要在掌握病因的基础上,通过更正错误的饮食、生活方式等,让人恢复健康——虎嗅注)

患者生病后在医院的诊疗过程,也是医疗费用、检查损害和检查需求之间的平衡。结合过细的分科,医生有时很难找到病因,从根本上解决问题。

何健以湿疹为例指出,功能医学认为几乎所有的湿疹都是肠道免疫失调导致的,很多患者通过调理肠道,治好了湿疹。但是在西医分科中,皮肤科和消化科并没有太多交集。这也意味着,现有主流医学模式没法发现二者之间的联系,也无法给出更好的诊疗方案。

功能医学等关注整体的医学分支可以对医学的进步形成有力补充,人工智能在其中也可以发挥很大的作用。不过,这也需要更多患者和医生们观念改变——从以疾病为中心向以病人整体为中心转变,才能实现。

已有研究表明,打破信息不对称对抑制过度诊疗大有裨益:患者到不同的医疗机构找不同的医生看诊,来交叉验证诊断结果、治疗方案,也可以威慑医生减少过度医疗,降幅甚至可以高达40%!

可以预见,在可穿戴设备、人工智能等新技术,让人们越来越了解自身健康状况的趋势下,过度诊疗的空间势必不断被压缩。

对于普通人来来说,仍然需要注意的是,人体有惊人的自愈能力,很多生理性的改变,都算不上疾病,并不需要过度关注或治疗。比如:近年来经常引起焦虑的肺结节(7mm以下)、甲状腺结节、窦性心律、宫颈糜烂等。

从这个意义上讲,当人类可以更清晰地掌握自身的健康情况,如何解读和面对越来越多的生理性改变,乃至早期病变,就成了新的课题。

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,22810人围观)参与讨论

还没有评论,来说两句吧...