新智元報道
(資料圖片僅供參考)
編輯:LRS
【新智元導(dǎo)讀】基于100萬醫(yī)學數(shù)據(jù)、PaLM模型、ViT模型,谷歌全新模型Med-PaLM M成醫(yī)學界大模型新sota!
「看病難」在全世界范圍內(nèi)都是一個難題,想要成為一位優(yōu)秀的??啤⑷漆t(yī)生不僅需要耗費大量時間來進行知識學習,還需要經(jīng)歷足夠多的病例來獲取實操經(jīng)驗。
如果醫(yī)學AI系統(tǒng)足夠強大,在常見病的處理上完全可以取代人類醫(yī)生,醫(yī)療服務(wù)緊缺現(xiàn)象也會得到極大緩解。
今年4月,美國哈佛大學、斯坦福大學、耶魯醫(yī)學院、加拿大多倫多大學等多所頂尖高校、醫(yī)療機構(gòu)的研究人員在Nature上聯(lián)合提出了一種 ,可以靈活地編碼、整合和大規(guī)模解釋醫(yī)學領(lǐng)域的多模態(tài)數(shù)據(jù),比如文本、成像、基因組學等,有可能顛覆現(xiàn)有的醫(yī)療服務(wù)形式。
最近,Google Research和Google DeepMind共同發(fā)布了一篇論文,對全科醫(yī)學人工智能概念進行了實現(xiàn)、驗證。
研究人員首先策劃了一個全新的多模態(tài)生物醫(yī)學基準數(shù)據(jù)集MultiMedBench,包含100多萬條樣本,涉及14個任務(wù),如醫(yī)療問題回答、乳腺和皮膚科圖像解讀、放射學報告生成和總結(jié)以及基因組變異識別。
然后提出了一個新模型Med-PaLM Multimodal(Med-PaLM M),驗證了通用生物醫(yī)學人工智能系統(tǒng)的可實現(xiàn)性。
Med-PaLM M 是一個大型多模態(tài)生成模型,僅用一組模型權(quán)重就可以靈活地編碼和解釋生物醫(yī)學數(shù)據(jù),包括臨床語言、成像和基因組學數(shù)據(jù)。
在所有MultiMedBench任務(wù)中,Med-PaLM M的性能都與最先進的技術(shù)相差無幾,在部分任務(wù)上甚至還超越了專用的SOTA模型。
文中還報告了該模型在零樣本學習下可以泛化到新的醫(yī)學概念和任務(wù)、跨任務(wù)遷移學習以及涌現(xiàn)出的零樣本醫(yī)學推理能力。
文中還進一步探究了Med-PaLM M的能力和局限性,研究人員對比了模型生成的及人類編寫的胸部X光報告進行了放射科醫(yī)師評估,在246份病例中,臨床醫(yī)生認為Med-PaLM M的報告在40.5%的樣本中比放射科醫(yī)生編寫的要更好,也表明Med-PaLM M具有潛在的臨床實用性。
MultiMedBench
為了訓練和評估大模型在執(zhí)行各種臨床相關(guān)任務(wù)的能力,谷歌的研究人員收集了一個多任務(wù)、多模態(tài)的全科醫(yī)療基準數(shù)據(jù)集MultiMedBench
該基準由12個開源數(shù)據(jù)集以及14個獨立任務(wù)組成,包含100多萬條樣本,涵蓋了醫(yī)療問答、放射學報告、病理學、皮膚病學、胸部X光、乳房X光和基因組學等多個領(lǐng)域。
任務(wù)類型: 問題回答、報告生成和總結(jié)摘要、視覺問題回答、醫(yī)學圖像分類和基因組變異識別(genomic variant calling)
模態(tài): 模式:文本、放射學(CT、MRI 和 X-射線)、病理學、皮膚病學、乳房X射線檢查(mammography)和基因組學。
輸出格式: 所有任務(wù)(包括分類任務(wù))都是開放式生成(open-ended generation)
純語言任務(wù)包括醫(yī)學問題回答(MultiMedQA任務(wù))和放射學報告總結(jié),可以測試模型是否具有理解、回憶和操作醫(yī)學知識的能力。
多模態(tài)任務(wù)包括醫(yī)學視覺問題解答 (VQA)、醫(yī)學圖像分類、胸部X光報告生成和基因組變異識別,非常適合評估模型的視覺理解和多模態(tài)推理能力。
Med-PaLM M:全科生物醫(yī)療AI的概念驗證
基座模型:PaLM-E
PaLM-E是一個多模態(tài)語言模型,可以處理包括文本、視覺和傳感器信號等多模態(tài)的輸入序列,使用了預(yù)訓練的PaLM和ViT模型,在OK-VQA和VQA v2等多個視覺語言基準測試中表現(xiàn)出色。
PaLM-E可以靈活地在單個提示中交錯顯示圖像、文本和傳感器信號,使模型能夠在完全多模態(tài)的背景下進行預(yù)測。
PaLM-E具有零樣本多模態(tài)思維鏈(CoT)推理和少樣本上下文學習等多種能力。
研究人員利用PaLM-E模型作為Med-PaLM M的基礎(chǔ)架構(gòu),組合了128B、84B和562B三個不同參數(shù)量的PaLM-E模型。
預(yù)處理
研究人員將MultiMedBench數(shù)據(jù)集中的所有圖像重新調(diào)整為224×224×3尺寸,同時保留原始長寬比,在必要時進行填充處理;對于灰度圖像,沿通道維度(channel dimension)對圖像進行堆疊,將灰度圖像轉(zhuǎn)換為三通道圖像。
其他與任務(wù)相關(guān)的預(yù)處理方法,如類平衡、圖像數(shù)據(jù)增強等請參閱原文。
指令任務(wù)提示、one-shot樣例
想要訓練一個通用生物醫(yī)學人工智能模型,模型架構(gòu)及參數(shù)上的統(tǒng)一、能夠同時處理多模態(tài)、多任務(wù)的輸入是很重要的。
研究人員采用指令微調(diào)的方式,為不同任務(wù)設(shè)定不同的指令,使得模型可以在統(tǒng)一的生成架構(gòu)內(nèi)執(zhí)行不同類型的任務(wù),其中任務(wù)提示由指令、相關(guān)上下文信息和問題組成。
比如在胸部X光報告生成任務(wù)中,上下文信息包括研究原因和圖像方向;而在皮膚病學分類任務(wù)中,則提供與皮損圖像相關(guān)的患者臨床病史作為上下文。
研究人員將所有分類任務(wù)都設(shè)計成多選問題,將所有可能的類別標簽作為單個答案選項提供,并提示模型生成最可能的答案作為目標輸出。
對于其他生成任務(wù),如視覺問題解答、報告生成和總結(jié),則根據(jù)目標響應(yīng)對模型進行微調(diào)。
為了使模型能夠更好地遵循指令,研究人員在多數(shù)任務(wù)的提示中加入了一個純文本的示例來調(diào)整語言模型的預(yù)測結(jié)果;對于多模態(tài)任務(wù),將圖像替換為字符串「」,在保持單圖像任務(wù)計算效率的同時,還可以繞過給定文本token和多圖像token之間的交叉注意力的潛在干擾。
實驗結(jié)果
評估目標
1. 通用能力
研究人員在MultiMedBench上對不同規(guī)模的Med-PaLM M模型進行評估,初步了解了在不同任務(wù)中擴展ViT和語言模型組件的效果。
然后將其性能與之前的SOTA(包括專門開發(fā)的單任務(wù)、單模態(tài)的方法)和未進行生物醫(yī)學微調(diào)的最新通用模型(PaLM-E)進行了對比。
2. 涌現(xiàn)能力
在不同任務(wù)中訓練單一靈活的多模態(tài)、通用AI系統(tǒng)的一個潛在優(yōu)勢是,通過語言的組合泛化(如對新的醫(yī)學概念和任務(wù)的泛化),會讓模型涌現(xiàn)出新的能力,可以通過定性和定量實驗進行探索。
3. 測量放射學報告生成質(zhì)量
自然語言生成(NLG)指標無法充分評估AI模型生成的放射學報告的臨床適用性,所以研究人員在MIMIC-CXR數(shù)據(jù)集上對AI模型生成的報告進行了放射科專家評估,包括與放射科專家提供的參考報告進行比較。
橫掃MultiMedBench
研究人員將Med-PaLM M的性能與兩類基線模型進行對比:
1. MultiMedBench基準上各項任務(wù)的先前SOTA專用模型
2. 未進行任何生物醫(yī)學領(lǐng)域微調(diào)的基線通用模型(PaLM-E 84B)
從實驗結(jié)果來看,Med-PaLM M的最佳結(jié)果(三種模型尺寸)在12個任務(wù)中的5個都實現(xiàn)了超越先前SOTA的性能,并且在其余任務(wù)上也展現(xiàn)出極有競爭力的性能表現(xiàn)。
值得注意的是,這些結(jié)果是在使用相同模型權(quán)重集的通用模型中取得的,沒有針對特定任務(wù)進行任何架構(gòu)定制或優(yōu)化。
在醫(yī)療問題回答任務(wù)上,先前的SOTA模型Med-PaLM 2性能更高,但與基線PaLM模型相比,Med-PaLM M在三個問答任務(wù)上,實現(xiàn)了遠超PaLM的性能。
不同尺寸模型的性能對比
對比12B、84B 和562B的Med-PaLM M模型性能,可以觀察到:
1. 語言推理任務(wù)受益于模型規(guī)模的擴大
對于需要語言理解和推理的任務(wù),如醫(yī)學問題回答、醫(yī)學視覺問題回答和放射學報告總結(jié),將模型規(guī)模從12B擴大到562B時,性能顯著提高。
2. 視覺編碼器的性能是多模態(tài)任務(wù)的瓶頸
對于乳房X射線或皮膚病學圖像分類等任務(wù),需要細致入微的視覺理解能力,對語言推理的需求極低(輸出僅為分類標簽標記)。
可以看到,從Med-PaLM M 12B到Med-PaLM 84B,性能有所提高,但562B模型帶來的性能提升卻很有限,可能是因為視覺編碼器在該步驟中沒有進一步擴大參數(shù)量(Med-PaLM M 84B 和 562B 模型都使用相同的22B ViT作為視覺編碼器),成為性能增益的瓶頸;其他干擾因素可能還包括輸入圖像的分辨率等。
在胸部X光報告生成任務(wù)中,從表面上看,這項任務(wù)似乎需要復(fù)雜的語言理解和推理能力,可以從更大的語言模型中受益;但從實際效果上來看,Med-PaLM M 84B模型在大多數(shù)指標上與562B模型大致相當或略微超過,可能僅僅是由于較大的模型使用了較少的訓練步驟。
增加語言模型尺寸沒用的另一個原因可能是,MIMIC-CXR數(shù)據(jù)集中生成胸部X光報告的輸出空間相當有限,只有一組模板句子和有限數(shù)量的條件,所以在生成報告時采用檢索而非生成的方式可能更好。
此外,更大的562B模型傾向于生成冗長的報告,而84B模型則相對簡潔,如果在訓練中沒有進一步做偏好調(diào)整,可能會影響最終的評估指標。
零樣本通用能力
通過評估Med-PaLM M從蒙哥馬利縣(Montgomery County,MC)數(shù)據(jù)集中的胸部X光圖像中檢測肺結(jié)核(TB)異常的能力,研究人員探究了Med-PaLM M對未知醫(yī)學概念的零樣本泛化能力。
可以看到,相比專門優(yōu)化過的SOTA模型,不同尺寸的Med-PaLM M性能相近,在沒有額外訓練樣本的情況下,準確率只落后不到5%
在推理方面,研究人員在MC TB數(shù)據(jù)集上定性地探索了 Med-PaLM M 的零樣本思維鏈(CoT)能力。
與分類設(shè)置不同的是,除了是/否分類預(yù)測外,還需要用純文本示例提示模型生成一份報告,描述在給定圖像中的發(fā)現(xiàn)。
從實驗結(jié)果中可以發(fā)現(xiàn),Med-PaLM M模型可以在正確的位置識別出結(jié)核病相關(guān)的主要病變。
不過,根據(jù)放射科專家的審查,模型生成的報告中仍有一些遺漏的結(jié)果和錯誤,仍有改進的空間。
值得注意的是,Med-PaLM M 12B無法生成連貫的視覺條件反應(yīng),也就是說語言模型的規(guī)模在零樣本CoT多模態(tài)推理能力中起著關(guān)鍵作用,可能是一種涌現(xiàn)的能力。
參考資料:
https://arxiv.org/pdf/2307.14334.pdf
關(guān)鍵詞:
推薦閱讀