首頁 > 科研動態
通過了美國醫師考試的ChatGPT,會搶醫生的飯碗嗎?
啥都能聊的人工智能ChatGPT又雙叒叕封神了。
這一次,它挑戰的是“史上最難標準化考試”:美國執業醫師資格考試(USMLE)。根據《科學公共圖書館·數字健康》雜志近日刊發的研究,未接受過任何醫學訓練的ChatGPT“裸考”參加USMLE,準確率達到或接近及格所需的60%。
還有考得更好的。2022年末的一篇預印版文章稱,經過專業醫學數據“集訓”后,谷歌旗下Flan-PaLM的USMLE考試成績準確率達67.6%。而它的微調、升級版Med-PaLM在多方面都逼近人類醫生水平。
和ChatGPT一樣,Flan-PaLM和Med-PaLM也是大型語言模型,它倆的核心能力都是理解和生成文本。簡而言之,就是“懂人話”“說人話”。
上述研究都指出,其結果“為重新思考醫療人工智能(AI)的發展,提供了重要契機?!蔽④泟撌既吮葼枴どw茨(Bill Gates)近日接受采訪稱,ChatGPT等AI可以在醫療保健等領域切實提高工作效率,“想想醫生在文書工作上花費時間,未來我們應該能避免?!?/span>
更有樂觀者展望未來,認為ChatGPT給患者看病指日可待。新西蘭惠靈頓維多利亞大學軟件工程高級講師西蒙·麥卡勒姆(Simon McCallum)表示,隨著技術不斷發展,“我們可能很快會從AI醫生處,得到醫學方面的建議”。
肺疾病醫生維克多·曾(Victor Tseng)是該司的醫學主任。ChatGPT上線后,像億萬網友一樣,他和同事們問了很多“有意思但沒意義”的問題,想挑戰AI的能力極限。他說,“我們輸入很多信息,它能快速、準確地診斷出誰在裝病。我們覺得,或許能讓ChatGPT執行、處理一些復雜的醫學和臨床信息,比如協調患者治療、護理等。但在此之前,我們先要證明,它確實邁進醫學門檻,能干這個?!?/span>
維克多·曾等人選定的“門檻”就是USMLE。這是在美國獲得行醫資格的基礎。考試結果只有“通過”和“不通過”兩種。
考試分3個階段,旨在評估參考者的基礎醫學科學、臨床醫學知識等掌握情況,以及評估臨床知識在患者管理中的具體應用。每階段考試都有計算機答題部分,第二階段還會考標準化病人問診。美國醫學生大多在畢業后第一年當住院醫師時,完成全部考試。
研究小組從2022年6月的USMLE真題庫中,選出350道純文字題。題型包括病因判斷等選擇題,根據提示、完成診斷等問答題。由于ChatGPT不會看圖表,研究未納入基于圖像的問題。
3位USMLE委員會認證執業醫師獲邀為ChatGPT打分。結果顯示,去除模糊不清的回答后,ChatGPT在3個階段的得分率在52.4%-75%。
在“解釋對/錯”方面,ChatGPT展示出94.6%的響應一致性。在88.9%的問答題中,ChatGPT給出至少一個重要見解,其中有一些新鮮、有臨床獲益的解讀。這表明它真的在“讀題”“思考”,答案不是瞎蒙的。
“這項以難度而聞名的考試,通常需要300-400小時專業學習才能參加,涵蓋從基礎科學到生物倫理學的所有知識?!毖芯繄F隊稱,ChatGPT給出的結果令人信服,準確率較高。
也許很多普通吃瓜群眾驚嘆“醫學要變天”,但醫療界的資深人士對ChatGPT的表現淡定很多。
其實,2022年,語言模型類AI進展迅猛,PubMed GPT、DRAGON、Galactica ……一個個都考了USMLE。當年年末,谷歌研究院和DeepMind團隊聯合研究更是考出了“史上AI最高分”。該團隊指出,“回答醫療問題”極具挑戰性。為了提供高質量的答案,AI需要理解醫學背景、掌握適當的醫學知識,并能對專家信息進行推理。
研究小組微調其語言模型、豐富數據集,由此生成Flan-PaLM模型。它擁有一組強大的醫學問題問答數據集,涵蓋醫學考試、醫學研究、消費者醫學問題等多方面。其中包括USMLE真題庫MedQA,和蘊涵海量健康話題搜索及結果的數據集HealthSearchQA。研究小組用真題庫測試Flan-PaLM,發現其準確率達67.6%,比早先的AI模型高出17%。
研究小組通過調整問題指令,打造了另一個針對消費者醫療問題的Med-PaLM模型,測試發現,Med-PaLM在科學常識、理解、檢索和推理等任務挑戰中,水平直逼甚至戰勝人類醫生,且明顯優于Flan-PaLM。
上述研究結論發布后,社交媒體推特出現大量評論,稱:“AI醫生終于來了。”
“或許有一天,真題就是AI編寫的?!?USMLE項目副主席阿萊克斯·麥卡博(Alex Mechaber)表示,ChatGPT的文本數據中有不少醫學知識,AI是最可能選對答案的。但其不足是只能看文字,無法回答圖像或聲音問題,也不能參加臨床技能模擬考試。
這一回應體現出USMLE對自身的思考?!犊茖W公共圖書館·數字健康》在發表前述研究的同日,配發評論指出,ChatGPT通過美國執業醫師資格考試,讓人們注意到醫學教育的缺陷。
該文稱,ChatGPT的成功,一方面反映出醫學考試過于強調機械記憶,對疾病機理死記硬背,不能充分評估現代醫療實踐所需技能。
Aligned AI的聯合創始人兼首席研究員斯圖爾特·阿姆斯特朗(Stuart Armstrong)認為,USMLE對人而言肯定是困難的。但總有一天,在幾乎所有的理論考試中,AI都能一騎絕塵。數據庫越大、訓練越多,其成績就能進一步提高。2022年諸多語言模型類AI不斷刷新USMLE考分記錄,就是實證。另一方面,它折射出醫學教學方式僵化,易讓學生誤以為醫學問題“非對即錯”。
事實上,現代醫學以循證醫學為基礎,包括外部證據,醫生個體經驗和患者意圖等多方面。臨床中的“正確選擇”含義豐富,既需要醫生摒棄偏見、發揮創造力、展開批判性思考,也需要考慮眾多現實因素。在這些方面,AI并無優勢。
近日,北美華人醫師聯盟、美國華裔心臟協會采用群聊的形式,組織了一場高血壓科普訪談。
該聯盟主席、美國心臟病學會專家會員(FACC)高磊稱:“ChatGPT的能力不能小視?!?/span>
在分享中,主講嘉賓、美國加州大學戴維斯醫學中心臨床科學教授范大立提問ChatGPT,讓其解答一系列血壓相關問題。結果“對錯參雜”。
比如,ChatGPT回答:120/80毫米汞柱是“正常血壓”,超過140/90毫米汞柱則是高血壓?!澳敲矗谶@范圍之間的血壓是正常,還是高呢?”主持人之一、美國華裔心臟協會主席、美國凱撒醫療集團Fremont醫學中心心臟科醫生胡新歌分析,歐洲仍在使用140/90毫米汞柱診斷標準。但按照美國2017年指南,130/80毫米汞柱是一級高血壓,140/90毫米汞柱是二級高血壓。這或說明ChatGPT存在困惑,沒搞明白這些數值背后的意義。
此外,血壓=心輸出量×動脈血管阻力,是心內科最重要的公式。高磊、胡新歌都表示,關于血壓、用藥的問題,多可以用這個公式來解釋。ChatGPT對這一公式的回復是“看不懂?!?/span>
ChatGPT也有“神回答”。范大立連問幾次,血壓到130/80毫米汞柱要不要用藥。ChatGPT回復稱,這一數值屬于邊緣高血壓,不一定要馬上用藥,可以通過生活方式改善等調節?!斑@個是有道理的,臨床也在這么做?!焙赂枵f。
“ChatGPT實際上并不懂任何東西。它是通過分析大量數據庫、資料等,就任一主題構建聽起來合理的句子。它可能異常聰明,也可能得出最荒謬的結論?!盨cience Alert文章指出。
USMLE項目在其回應中還擔憂:大型語言模型可能帶來潛在錯誤信息,存在使有害偏見固化的風險。在Med-PaLM相關研究中,研究小組就發現其答案的不完整性、不正確內容等,發生率都高于人類醫生。
作為一線醫生,上海市第十人民醫院老年醫學科主任彭滬曾就一些常見癥狀問詢過ChatGPT。談及AI能否取代醫生,彭滬表示,醫療AI的發展目標應該是輔助醫生,而非代替醫生。AI可以幫助醫生快速完成一些繁瑣的重復性工作,從而提高工作效率、改善工作質量、提升治療水平、減輕醫務人員的工作負擔。但最終的判斷和決策,仍需要在醫生的監督下進行。尤其在強醫療場景中,人工智能的應用還牽涉到倫理、政策、論證等多方面因素。
彭滬暢想的場景,在維克多·曾的日常工作中已經成為現實。他的臨床醫生同事已開始嘗試將ChatGPT作為工作流程的一部分。“我們的醫生會以安全的方式輸入信息,要求ChatGPT協助完成一些傳統、繁重的寫作任務,比如向付款人寫投訴信,簡化放射報告中密集的專業術語,以便患者閱讀、理解。遇到一些較難診斷的病例時,我們也會借助ChatGPT進行頭腦風暴。”
維克多·曾說,“AI用于醫療的大門已經打開了?!?/span>