国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”

　　每经记者林姿辰每经编辑张海妮

　　距离(lí)谷歌大(dà)模型(xíng)（MedPaLM 2）拿下(xià)美国医学执照考试已经快两年了，人工智能（AI）够资格成为临(lín)床医生的“假想敌(dí)”了吗？

　　今年(nián)7月，一篇(piān)发表于Nature Medicine的论文显示，即使是目(mù)前最先进的大语言模型(xíng)（LLM）也无法(fǎ)为所有患者作出准确诊断，且诊断正确率（73%）明显差于人类医生（89%）；在极端情况（胆囊炎诊断）下，LLM的正(zhèng)确率仅(jǐn)为13%。

　　但对于北京清华长庚医(yī)院神经中心医师(shī)邳(pī)靖(jìng)陶来说，他今年刚被AI“上了(le)一课”。8月下(xià)旬，邳靖陶参(cān)与的灵犀(xī)医学脑血管病专病大模型正(zhèng)式发布，该模型由其(qí)所在医(yī)院的神经中心武(wǔ)剑教授团队主(zhǔ)导研(yán)发，是国内首个基于专(zhuān)病的(de)医学人工智能(néng)模型。

　　“大模型(xíng)的能力说强(qiáng)也强(qiáng)，说弱也弱，我们不能(néng)让它天(tiān)马行空地(dì)自由发挥。”邳靖(jìng)陶表示，专病大模型(xíng)与ChatGPT的最大不同，是要将AI杜撰的似是而非的诊疗建议扼杀在摇篮里(lǐ)，避免灾难性后果。

　　8月(yuè)下(xià)旬，灵犀医学脑血管病专病大(dà)模型正(zhèng)式(shì)发布，该模型由北京清华长庚医(yī)院神经中心(xīn)武剑教授团队主导研发，是国内首个基于专(zhuān)病的医学人(rén)工智能模型。图为灵(líng)犀医学大模型技术交流会(huì)现场(chǎng)。受(shòu)访者供图(tú)

　　对标专(zhuān)科和专病专家

　　作为国内四大慢病之一，脑血管病(bìng)的首次发病者(zhě)约(yuē)有三分之二是(shì)60岁以上的老年人，其具有“高发病率、高患(huàn)病率、高死亡率、国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”高复发率(lǜ)”的特点。而截至2021年，我国65岁及以上的老年人口已经(jīng)超过2亿人，脑血管(guǎn)病医(yī)生短缺、水平参差不(bù)齐的问题尤为突出。

　　“基层医(yī)院不缺全科(kē)医(yī)生，但缺专科(kē)专家或专(zhuān)病专家，这就是大模(mó)型(xíng)要解(jiě)决的问题。”邳靖陶介绍(shào)，脑血管病专病大模型是医疗机构与科技企(qǐ)业的合作产物。具(jù)体来说，新华三集团(tuán)提供技术人(rén)员、AI算(suàn)法和算力(lì)，北(běi)京清华(huá)长(zhǎng)庚医院和清华大(dà)学(xué)提供大数据和(hé)临床需求，共同(tóng)打(dǎ)造一款面向临床(chuáng)医生的辅助诊断(duàn)工(gōng)具。

　　武剑教授曾表示，医学(xué)人工智能在缓解医疗资(zī)源紧张和(hé)提升医疗服务水平方面，具有巨大的潜力和优势。其核心在于对海量健康数据的深度挖掘和智能分析，这能够大幅(fú)提升临床诊断和治疗的准确性与效率。

　　目(mù)前，这个大模(mó)型的核心功能是分析和(hé)提取(qǔ)病历中的关键信(xìn)息，并与临床知识库相匹配，最终提供(gōng)符合临床指南的标(biāo)准化治疗建议。

　　一(yī)方面，临床医生(shēng)可以输入(rù)脱敏（不包括患者个人信息）的临床病程信息，由大模(mó)型生成最终的治疗(liáo)方案。其间，如果大模型察(chá)觉到病程信息(xī)存在疏(shū)漏，会提醒医生(shēng)及时补充，保证病历记录的(de)标准化(huà)。

　　另一(yī)方(fāng)面，临床医生也(yě)可以输入患(huàn)者主诉（如(rú)主要症状和持(chí)续时间等信息）等简单信息(xī)，大模(mó)型将通过选(xuǎn)择性交互引导(dǎo)问诊方向，根据医生(shēng)点击的选(xuǎn)项，逐步完善临床诊疗过程，提升医生的循证能力(lì)。

　　专业性体现在两方面

　　在邳靖陶看来，与ChatGPT等通用大模型相比，专病大(dà)模型的专(zhuān)业性体现在思维链和知识库两(liǎng)方面。以脑血管病专病(bìng)大模型为例(lì)，其数据来源包括两大部分：一部(bù)分是经过(guò)脱敏(mǐn)处理的(de)临(lín)床资料，涉及疾病的特定(dìng)特征(zhēng)，发病情况以及(jí)诊疗过程等(děng)综合信息(xī)。另一部(bù)分是公开获取的临床(chuáng)指(zhǐ)南、大量神经病学和神(shén)经科学的教(jiào)科(kē)书和(hé)参考书籍，这(zhè)些构成了数据库的核心内容。值得(dé)注意的是，大模型并不能直(zhí)接接收这(zhè)些知(zhī)识，而是需要(yào)经临床医生和工科团队之(zhī)手，将临床指南的框架和(hé)重点内容重新整理，转化为(wèi)计算机(jī)能够理解的语言和流程后，再输给大模(mó)型。

　　“如果(guǒ)不加限制地直接投喂，大模型会发散到其他方面(miàn)，生成一些新的理解。但临床指南已经是最高(gāo)级别的标准化诊疗推荐，在此(cǐ)基础上(shàng)的任何修改都是错误(wù)的，也不是我们想要(yào)的。”邳靖陶告(gào)诉记者，想让大模(mó)型“听话”，除了(le)要投喂计(jì)算机(jī)能“听懂”的(de)知识，更关键的是教给(gěi)它一套(tào)临床医生的“思(sī)维链”，并依托这一能力对不同(tóng)患者的临床资(zī)料进(jìn)行推理(lǐ)。

　　例如，一位脑血管病(bìng)医生的诊疗流程大致包括询问(wèn)病史，进(jìn)行体格检查，考(kǎo)虑辅助检查，综(zōng)合(hé)分析后给出准确诊(zhěn)断等环节。基(jī)于诊断结果，医生会考虑患者(zhě)的具体病因和其(qí)他基础(chǔ)疾病情况，结合标准化(huà)的诊(zhěn)疗建议，制定规范化的治(zhì)疗方案。

　　在这个过程中，不同的患者主诉指向不同的询问方向(xiàng)。但问题(tí)是(shì)，大模型的(de)思维虽然“发散 ”，但(dàn)不具备自主(zhǔ)搭建思维链(liàn)的能力，所以需(xū)要工科团队深刻理解临床诊(zhěn)疗场景，将医生的临床思维转换为机器可以理解的思维。而这个过程让临床医生和技术团队，都经历了交叉学习的历练。

　　“Gap（差距(jù)）主要是语言交流上的(de)障碍(ài)，比如我们不理解思维链，他们不理解不(bù)同疾病间的(de)关系(xì)。但这不会对我们的研究造成实(shí)质性影响，只(zhǐ)要了(le)解(jiě)对方(fāng)领域的基础知识，就能扫清困难。”邳靖陶说。

　　负责的(de)仍是临床医生

　　邳靖陶透露，目前脑血管(guǎn)病专病大模型(xíng)正在北京清华长庚(gēng)医院神经中(zhōng)心进行临床验证。此前，他和(hé)同事们使用真实病(bìng)例(lì)或模拟复杂临床场(chǎng)景，对大模型进(jìn)行过内部测试。这(zhè)项测(cè)试(shì)建立在前期简单测试(shì)的基础(chǔ)之上(shàng)，旨在评估大模型对不同复杂程度(dù)、不同语言风格和不同级别医生的病历的理解能力。

　　其中，最困扰邳靖陶的一个问(wèn)题是，如果(guǒ)大模型出现了错误(wù)，怎(zěn)么保证临床医生不受干扰呢？换言之，临床(chuáng)医生应该怎(zěn)么处理和大(dà)模型之(zhī)间的关系？

　　这一矛(máo)盾在首(shǒu)次内部(bù)测试时就出(chū)现了。当时，邳靖(jìng)陶模拟了一个复杂(zá)的临床(chuáng)场景，大模型给出(chū)的治疗方案和(hé)预想的“标准答案”有所出入。随后，技术人员介入并回溯了大模(mó)型的推理过程，试(shì)图找(zhǎo)出可能的错误(wù)，却无功而返。而当邳靖陶用“标准答案”去匹配临床指南(nán)时，让他印象深刻的结(jié)果出现了：是自己(jǐ)的诊(zhěn)疗思路存在盲区。

　　“一开(kāi)始这个模型设计出来，到底(dǐ)能不能用于临床，能不能起到提升和改善（诊疗效率）的作用，其实我心里也没有底。但(dàn)是这件事(shì)之后，给了我特别(bié)大的底气。”邳靖陶总结这次经历，发现患者的临床症状是一个综合结果。例如，患者可能因为神经系统问题住院，但心血管(guǎn)、肾(shèn)脏、肝(gān)脏状况也在发生变化。尽管医生接受过规范化的专科培训，但诊疗思维仍可能存(cún)在盲点，无法保证每次都能提供全面的诊疗(liáo)方案。

　　另外，临床指(zhǐ)南是不(bù)断更(gèng)新的，并非所有医生都能及时更新知识。当医生的知识更新滞后时(shí)，大模型可(kě)以帮助弥补这些纰漏。

　　不过，阅读指南(nán)并作出(chū)判断，仍是(shì)临(lín)床医生不能(néng)丢弃的基本功。邳靖陶表示，如果医生(shēng)发现(xiàn)大模型提(tí)供的诊(zhěn)疗方案与自身判(pàn)断不(bù)符(fú)，不应简(jiǎn)单地(dì)接受或(huò)拒绝，而应深入探(tàn)究(jiū)原因(yīn)。这一思考过程有助于医生提高(gāo)临床(chuáng)诊(zhěn)疗能(néng)力，是大模型作为临床辅助诊(zhěn)断工具的终极愿景。毕(bì)竟，虽(suī)然(rán)大模型可以提供结(jié)论，但对(duì)诊疗过程负责的仍是临床医生本人。

　　呼吁更多人加入

　　2023年(nián)7月，谷歌Research和DeepMind共同打造的全球首个全科医疗大模型Med-PaLM M正(zhèng)式发布。资料显示，这个大模型具备临床语言(yán)、影像和基因组学(xué)的理解(jiě)能力，用于临床指日可待。

　　而根据《2023医(yī)疗健康AI大模型行业研(yán)究报告》，截至2023年10月，国内累计公开的大模(mó)型数(shù)量达到238个，其中，医疗大模型近50个，涉及患者问诊、医生助手、药物研发、健康科普(pǔ)等多个(gè)领域。据邳(国内首个脑血管专病大模型亮相对话参与医生：被AI“上了一课”pī)靖陶观(guān)察，许多医疗大模(mó)型的开发从“全科”出发，试图直接(jiē)构建一个涵盖所有专科的(de)大型全(quán)科模型，供用户咨询各(gè)种(zhǒng)疾病。

　　但在参与构(gòu)建脑血管病专病大模型后，武剑(jiàn)教授团队对这一模式表示怀疑。他们发现，把一种疾病的临床指南梳理清楚颇(pǒ)具(jù)难度，打造对应(yīng)的思维链也耗时耗力，短期内很(hěn)难用同样的(de)方法训练出全科模型。换言之，目前的全科大模型能够做到医学科普，但很难在特定专科领域提供有效的临床指导。因此，武剑教授团队的研发思路是以专病为起(qǐ)点，再走向全科。

　　“如果针对脑血管病的(de)专病大模(mó)型走通了，我们可以把成功经(jīng)验复制到其他神经(jīng)系(xì)统(tǒng)疾病上；如果神经(jīng)系统疾病覆盖全(quán)面了，就成了专科大模型(xíng)；神经科的经验再复制到其(qí)他科，就会形成(chéng)一个真正(zhèng)的全科医疗大模型。”邳靖陶表示，在武剑教授看来，国内发病人数越多、疾病(bìng)负担越(yuè)大的疾病，其专病大模型的临床需求和研(yán)发空间就会越大，例如我国发病率最高的四大慢病——高血压、糖尿病、冠心病、脑血管病都有非常广阔的大模型开发空间。

　　而在脑(nǎo)血(xuè)管病专病大模型(xíng)的发(fā)布会上，武剑教授已经通过招募令的形式，呼吁全国神经系统疾(jí)病领域的专家，以及人工智(zhì)能领域的专业人士携手把握创新技术的改革可能，改善临(lín)床诊疗现状。他表示，如果能打破学(xué)术壁垒，医疗大(dà)模型的重复性工作是完全可以避免的。

　　“这(zhè)不是我们一个人(rén)能做的事(shì)情。”邳靖陶说。

责任编辑：何松(sōng)琳