欧美亚洲精品suv,精品深夜av无码一区二区,国产性生交XXXXX无码

首頁 > 科研動態

科研動態

通過了美國醫師考試的ChatGPT，會搶醫生的飯碗嗎？

瀏覽量：7175 2023/2/17

啥都能聊的人工智能ChatGPT又雙叒叕封神了。

這一次，它挑戰的是“史上最難標準化考試”：美國執業醫師資格考試（USMLE）。根據《科學公共圖書館·數字健康》雜志近日刊發的研究，未接受過任何醫學訓練的ChatGPT“裸考”參加USMLE，準確率達到或接近及格所需的60%。

還有考得更好的。2022年末的一篇預印版文章稱，經過專業醫學數據“集訓”后，谷歌旗下Flan-PaLM的USMLE考試成績準確率達67.6%。而它的微調、升級版Med-PaLM在多方面都逼近人類醫生水平。

和ChatGPT一樣，Flan-PaLM和Med-PaLM也是大型語言模型，它倆的核心能力都是理解和生成文本。簡而言之，就是“懂人話”“說人話”。
上述研究都指出，其結果“為重新思考醫療人工智能（AI）的發展，提供了重要契機?！蔽④泟撌既吮葼枴どw茨（Bill Gates）近日接受采訪稱，ChatGPT等AI可以在醫療保健等領域切實提高工作效率，“想想醫生在文書工作上花費時間，未來我們應該能避免?！?/span>

更有樂觀者展望未來，認為ChatGPT給患者看病指日可待。新西蘭惠靈頓維多利亞大學軟件工程高級講師西蒙·麥卡勒姆（Simon McCallum）表示，隨著技術不斷發展，“我們可能很快會從AI醫生處，得到醫學方面的建議”。

考試So easy，醫學要變天？

美國醫療保健初創企業安西布爾健康公司（Ansible Health）是把ChatGPT送上醫學“神壇”的操刀者。這是一家聚焦慢性肺病管理的科技公司，提供在線診療、遠程康復、生活方式干預等服務。

肺疾病醫生維克多·曾（Victor Tseng）是該司的醫學主任。ChatGPT上線后，像億萬網友一樣，他和同事們問了很多“有意思但沒意義”的問題，想挑戰AI的能力極限。他說，“我們輸入很多信息，它能快速、準確地診斷出誰在裝病。我們覺得，或許能讓ChatGPT執行、處理一些復雜的醫學和臨床信息，比如協調患者治療、護理等。但在此之前，我們先要證明，它確實邁進醫學門檻，能干這個?！?/span>

維克多·曾等人選定的“門檻”就是USMLE。這是在美國獲得行醫資格的基礎。考試結果只有“通過”和“不通過”兩種。

考試分3個階段，旨在評估參考者的基礎醫學科學、臨床醫學知識等掌握情況，以及評估臨床知識在患者管理中的具體應用。每階段考試都有計算機答題部分，第二階段還會考標準化病人問診。美國醫學生大多在畢業后第一年當住院醫師時，完成全部考試。

研究小組從2022年6月的USMLE真題庫中，選出350道純文字題。題型包括病因判斷等選擇題，根據提示、完成診斷等問答題。由于ChatGPT不會看圖表，研究未納入基于圖像的問題。

3位USMLE委員會認證執業醫師獲邀為ChatGPT打分。結果顯示，去除模糊不清的回答后，ChatGPT在3個階段的得分率在52.4%-75%。
在“解釋對/錯”方面，ChatGPT展示出94.6%的響應一致性。在88.9%的問答題中，ChatGPT給出至少一個重要見解，其中有一些新鮮、有臨床獲益的解讀。這表明它真的在“讀題”“思考”，答案不是瞎蒙的。

“這項以難度而聞名的考試，通常需要300-400小時專業學習才能參加，涵蓋從基礎科學到生物倫理學的所有知識?！毖芯繄F隊稱，ChatGPT給出的結果令人信服，準確率較高。

也許很多普通吃瓜群眾驚嘆“醫學要變天”，但醫療界的資深人士對ChatGPT的表現淡定很多。

其實，2022年，語言模型類AI進展迅猛，PubMed GPT、DRAGON、Galactica ……一個個都考了USMLE。當年年末，谷歌研究院和DeepMind團隊聯合研究更是考出了“史上AI最高分”。該團隊指出，“回答醫療問題”極具挑戰性。為了提供高質量的答案，AI需要理解醫學背景、掌握適當的醫學知識，并能對專家信息進行推理。

研究小組微調其語言模型、豐富數據集，由此生成Flan-PaLM模型。它擁有一組強大的醫學問題問答數據集，涵蓋醫學考試、醫學研究、消費者醫學問題等多方面。其中包括USMLE真題庫MedQA，和蘊涵海量健康話題搜索及結果的數據集HealthSearchQA。研究小組用真題庫測試Flan-PaLM，發現其準確率達67.6%，比早先的AI模型高出17%。

研究小組通過調整問題指令，打造了另一個針對消費者醫療問題的Med-PaLM模型，測試發現，Med-PaLM在科學常識、理解、檢索和推理等任務挑戰中，水平直逼甚至戰勝人類醫生，且明顯優于Flan-PaLM。

上述研究結論發布后，社交媒體推特出現大量評論，稱：“AI醫生終于來了。”

輔助醫生，而不是替代

維克多·曾等人的研究刊發次日，USMLE項目回應稱，“一點都不驚訝。非常感興趣ChatGPT錯在哪兒了”。該項目還表示，正確使用AI，將對構建考試方式、觸動學生學習，產生積極影響。接下來會繼續努力、優化USMLE，實現醫學教育、醫療實踐和技術等共同進步，甚至可能會在USMLE備考中，引入ChatGPT。

“或許有一天，真題就是AI編寫的?！?USMLE項目副主席阿萊克斯·麥卡博（Alex Mechaber）表示，ChatGPT的文本數據中有不少醫學知識，AI是最可能選對答案的。但其不足是只能看文字，無法回答圖像或聲音問題，也不能參加臨床技能模擬考試。

這一回應體現出USMLE對自身的思考?！犊茖W公共圖書館·數字健康》在發表前述研究的同日，配發評論指出，ChatGPT通過美國執業醫師資格考試，讓人們注意到醫學教育的缺陷。

該文稱，ChatGPT的成功，一方面反映出醫學考試過于強調機械記憶，對疾病機理死記硬背，不能充分評估現代醫療實踐所需技能。

Aligned AI的聯合創始人兼首席研究員斯圖爾特·阿姆斯特朗（Stuart Armstrong）認為，USMLE對人而言肯定是困難的。但總有一天，在幾乎所有的理論考試中，AI都能一騎絕塵。數據庫越大、訓練越多，其成績就能進一步提高。2022年諸多語言模型類AI不斷刷新USMLE考分記錄，就是實證。另一方面，它折射出醫學教學方式僵化，易讓學生誤以為醫學問題“非對即錯”。

事實上，現代醫學以循證醫學為基礎，包括外部證據，醫生個體經驗和患者意圖等多方面。臨床中的“正確選擇”含義豐富，既需要醫生摒棄偏見、發揮創造力、展開批判性思考，也需要考慮眾多現實因素。在這些方面，AI并無優勢。

近日，北美華人醫師聯盟、美國華裔心臟協會采用群聊的形式，組織了一場高血壓科普訪談。

該聯盟主席、美國心臟病學會專家會員（FACC）高磊稱：“ChatGPT的能力不能小視?！?/span>

在分享中，主講嘉賓、美國加州大學戴維斯醫學中心臨床科學教授范大立提問ChatGPT，讓其解答一系列血壓相關問題。結果“對錯參雜”。

比如，ChatGPT回答：120/80毫米汞柱是“正常血壓”，超過140/90毫米汞柱則是高血壓?！澳敲矗谶@范圍之間的血壓是正常，還是高呢？”主持人之一、美國華裔心臟協會主席、美國凱撒醫療集團Fremont醫學中心心臟科醫生胡新歌分析，歐洲仍在使用140/90毫米汞柱診斷標準。但按照美國2017年指南，130/80毫米汞柱是一級高血壓，140/90毫米汞柱是二級高血壓。這或說明ChatGPT存在困惑，沒搞明白這些數值背后的意義。

此外，血壓=心輸出量×動脈血管阻力，是心內科最重要的公式。高磊、胡新歌都表示，關于血壓、用藥的問題，多可以用這個公式來解釋。ChatGPT對這一公式的回復是“看不懂?！?/span>

ChatGPT也有“神回答”。范大立連問幾次，血壓到130/80毫米汞柱要不要用藥。ChatGPT回復稱，這一數值屬于邊緣高血壓，不一定要馬上用藥，可以通過生活方式改善等調節?！斑@個是有道理的，臨床也在這么做?！焙赂枵f。

“ChatGPT實際上并不懂任何東西。它是通過分析大量數據庫、資料等，就任一主題構建聽起來合理的句子。它可能異常聰明，也可能得出最荒謬的結論?！盨cience Alert文章指出。

USMLE項目在其回應中還擔憂：大型語言模型可能帶來潛在錯誤信息，存在使有害偏見固化的風險。在Med-PaLM相關研究中，研究小組就發現其答案的不完整性、不正確內容等，發生率都高于人類醫生。

作為一線醫生，上海市第十人民醫院老年醫學科主任彭滬曾就一些常見癥狀問詢過ChatGPT。談及AI能否取代醫生，彭滬表示，醫療AI的發展目標應該是輔助醫生，而非代替醫生。AI可以幫助醫生快速完成一些繁瑣的重復性工作，從而提高工作效率、改善工作質量、提升治療水平、減輕醫務人員的工作負擔。但最終的判斷和決策，仍需要在醫生的監督下進行。尤其在強醫療場景中，人工智能的應用還牽涉到倫理、政策、論證等多方面因素。

彭滬暢想的場景，在維克多·曾的日常工作中已經成為現實。他的臨床醫生同事已開始嘗試將ChatGPT作為工作流程的一部分。“我們的醫生會以安全的方式輸入信息，要求ChatGPT協助完成一些傳統、繁重的寫作任務，比如向付款人寫投訴信，簡化放射報告中密集的專業術語，以便患者閱讀、理解。遇到一些較難診斷的病例時，我們也會借助ChatGPT進行頭腦風暴。”

維克多·曾說，“AI用于醫療的大門已經打開了?！?/span>

免费大片黄国产在线观看,国产成人无码午夜视频在线观看,亚洲av无码片区一区二区三区,一面膜上边一面膜下边视频