安永《生命科學(xué)4.0報(bào)告》曾用FV=ID描述生命科學(xué)的未來(lái)價(jià)值,即未來(lái)價(jià)值等于“創(chuàng)新”的“數(shù)據(jù)”次方。左右“價(jià)值”指數(shù)增長(zhǎng)的“數(shù)據(jù)”,影響著科研成果的獲取。
根據(jù)《全民健康信息化調(diào)查報(bào)告》醫(yī)院大數(shù)據(jù)應(yīng)用情況調(diào)研結(jié)果顯示,2021年我國(guó)三級(jí)醫(yī)院醫(yī)療大數(shù)據(jù)平均應(yīng)用率不足20%,二級(jí)醫(yī)院不足5%,即使是熱度最高的臨床數(shù)據(jù),也只有1/5的醫(yī)院嘗試展開(kāi)研究。
(相關(guān)資料圖)
各類醫(yī)院大數(shù)據(jù)應(yīng)用開(kāi)展情況(數(shù)據(jù)來(lái)源:《全民健康信息化調(diào)查報(bào)告》)
為了打破醫(yī)療大數(shù)據(jù)慘淡的應(yīng)用現(xiàn)狀,協(xié)助醫(yī)生挖掘各式醫(yī)療數(shù)據(jù)中的潛在價(jià)值,廣州中康數(shù)字科技有限公司借助百度飛槳深度學(xué)習(xí)、文心大模型等人工智能技術(shù),結(jié)合自研的數(shù)據(jù)采集網(wǎng)絡(luò)、大數(shù)據(jù)處理技術(shù)與生態(tài)化的健康產(chǎn)業(yè)平臺(tái),打造“基于文心大模型的AI臨床科研大數(shù)據(jù)平臺(tái)”。
基于文心大模型構(gòu)建的AI臨床科研大數(shù)據(jù)平臺(tái)
將大模型應(yīng)用于醫(yī)療,究竟能在醫(yī)療領(lǐng)域掀起怎樣的波瀾?近日,在百度飛槳承辦的第四屆OpenI/O啟智開(kāi)發(fā)者大會(huì)“深度學(xué)習(xí)與大模型產(chǎn)業(yè)應(yīng)用專場(chǎng)”上,中康科技數(shù)字醫(yī)療人工智能技術(shù)產(chǎn)品總監(jiān)黃毅寧做了進(jìn)一步分享。
多模態(tài)醫(yī)療大數(shù)據(jù)處理,AI助力心臟驟停預(yù)警
通常而言,開(kāi)發(fā)者們可以利用深度學(xué)習(xí)技術(shù)處理文本數(shù)據(jù)、圖像數(shù)據(jù)、文圖多模態(tài)等各類數(shù)據(jù),而多模態(tài)數(shù)據(jù)在醫(yī)療領(lǐng)域尤其常見(jiàn)。
“我們之前跟一位心內(nèi)科專家研究AI心臟驟停預(yù)警的課題。心臟驟停場(chǎng)景與常見(jiàn)的肺結(jié)節(jié)、肺炎等場(chǎng)景不一樣,它具有突發(fā)性,所以AI技術(shù)的應(yīng)用強(qiáng)調(diào)預(yù)測(cè)而非診斷。因此,要實(shí)現(xiàn)對(duì)心臟驟停進(jìn)行盡可能精準(zhǔn)地預(yù)警,我們不僅需要處理患者的臨床數(shù)據(jù),還需要分析心電圖數(shù)據(jù)、檢驗(yàn)數(shù)據(jù),甚至患者發(fā)病時(shí)所處環(huán)境的水文氣象數(shù)據(jù)。從理論上講,數(shù)據(jù)源越豐富,模型預(yù)測(cè)越精準(zhǔn)?!秉S毅寧解釋道。
為了有效利用多模態(tài)大數(shù)據(jù),中康科技基于飛槳搭建了AI臨床科研大數(shù)據(jù)平臺(tái)。具體而言,中康以飛槳自然語(yǔ)言處理模型庫(kù)PaddleNLP為基礎(chǔ),采用通用信息抽取技術(shù)文心ERNIE-UIE進(jìn)行醫(yī)療數(shù)據(jù)結(jié)構(gòu)化;以中文醫(yī)療預(yù)訓(xùn)練模型文心ERNIE-Health為底座,應(yīng)用于醫(yī)療文本理解、分析等更多下游任務(wù)上。
除NLP技術(shù)外,CV等各領(lǐng)域技術(shù)也必不可少。中康科技運(yùn)用了飛槳計(jì)算機(jī)視覺(jué)檢測(cè)模型庫(kù)PaddleDetection,采用RetinaNet和SSD進(jìn)行目標(biāo)檢測(cè),還基于飛槳時(shí)序建模庫(kù)PaddleTS的USAD和SCINet進(jìn)行時(shí)序數(shù)據(jù)特征抽取,最終實(shí)現(xiàn)包括患者臨床數(shù)據(jù)、心電圖、心電時(shí)序、水文氣象等等多模態(tài)數(shù)據(jù)融合處理、解析與理解。
對(duì)于心臟驟?;颊叨裕l(fā)病后的每一分鐘救治時(shí)間都彌足珍貴。如果能夠通過(guò)預(yù)警提前感知危險(xiǎn),相信能夠挽救更多生命。融合各類模態(tài)數(shù)據(jù)的全新技術(shù)方案下,平臺(tái)預(yù)警效果顯著提升,已經(jīng)能夠提前5-10個(gè)小時(shí)預(yù)測(cè)患者心臟驟停的情況,助力醫(yī)療服務(wù)質(zhì)量大幅提升。豐富、多樣的醫(yī)療數(shù)據(jù)經(jīng)有效治理后,能夠進(jìn)一步為臨床醫(yī)生提供輔助決策,也為后續(xù)的一系列臨床科研打下了堅(jiān)實(shí)基礎(chǔ)。
心臟驟停臨床科研課題應(yīng)用結(jié)構(gòu)
從高維空間提取關(guān)鍵信息,AI助力康復(fù)診療服務(wù)
算力不足以處理大量的高維度數(shù)據(jù)是醫(yī)生科研過(guò)程中常常遇見(jiàn)的另一個(gè)問(wèn)題。譬如,在訓(xùn)練超聲AI的過(guò)程中,研究人員需要從超聲影像的高維空間提取關(guān)鍵信息,但是在條件一般的醫(yī)院很難做到復(fù)雜度很高的模型訓(xùn)練與預(yù)測(cè)。面對(duì)這一情況,基于文心大模型的AI臨床科研大數(shù)據(jù)平臺(tái)可以為醫(yī)生提供強(qiáng)大的運(yùn)算能力,使從前很難做到的高維度深度學(xué)習(xí)建模變得更容易。
為了更清晰地厘清高維度數(shù)據(jù)處理的價(jià)值,中康科技談到了與一位康復(fù)科主任合作研究的“四肢關(guān)節(jié)活動(dòng)度AI識(shí)別模型建設(shè)”這一課題。簡(jiǎn)單來(lái)說(shuō),該課題的目的是要用視頻的方式評(píng)估人們的行動(dòng)力,替代傳統(tǒng)的問(wèn)卷調(diào)查,幫助患者洞悉康復(fù)過(guò)程中的每一處變化并做出對(duì)應(yīng)決策,最終縮短康復(fù)時(shí)間,提升康復(fù)效率。
“在使用問(wèn)卷評(píng)估行動(dòng)力時(shí),人們常常會(huì)在填寫(xiě)時(shí)摻雜主觀因素,導(dǎo)致最終評(píng)估結(jié)果出現(xiàn)偏差,”黃毅寧告訴動(dòng)脈網(wǎng),“通過(guò)要求用戶完成指定的姿態(tài)動(dòng)作,使用視頻檢測(cè)的方式可以解決這一問(wèn)題,更客觀更全面地完成用戶的行動(dòng)力分級(jí)評(píng)價(jià)。”
這個(gè)課題的第一步是對(duì)人體姿態(tài)進(jìn)行采集及分析處理,這一步驟中,中康科技運(yùn)用了飛槳PaddleDetection視覺(jué)檢測(cè)模型庫(kù),包括HRNet、DarkPose、SWAHR等模型自動(dòng)化識(shí)別人體重要關(guān)節(jié)點(diǎn),再使用PaddlePaddle深度學(xué)習(xí)框架構(gòu)建時(shí)間圖卷積神經(jīng)網(wǎng)絡(luò)根據(jù)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)軌跡、運(yùn)動(dòng)幅度、運(yùn)動(dòng)速率等信息,實(shí)現(xiàn)用戶的行動(dòng)力等級(jí)評(píng)價(jià),并針對(duì)性不同等級(jí)用戶提供更精準(zhǔn)地個(gè)性化的診療服務(wù)。
通過(guò)百度AI技術(shù)識(shí)別人體姿態(tài)動(dòng)作,并對(duì)人群進(jìn)行行動(dòng)力等級(jí)分類的過(guò)程
500倍效率提升后,文心大模型不止于科研臨床大數(shù)據(jù)
除了上述兩種醫(yī)學(xué)科研常見(jiàn)問(wèn)題外,中康還將基于飛槳,針對(duì)醫(yī)院數(shù)據(jù)的復(fù)雜情況,繼續(xù)深化數(shù)據(jù)治理。
舉個(gè)例子。根據(jù)某科室主任反饋,以往整理一個(gè)700名患者包含600個(gè)字段的專病數(shù)據(jù)庫(kù),需要5名臨床醫(yī)生利用一整年工作以外的時(shí)間去人工整理,數(shù)據(jù)的利用存在嚴(yán)重的滯后問(wèn)題。
而采用PaddleNLP的文心ERNIE-UIE,可自動(dòng)抽取專病語(yǔ)料的關(guān)鍵字段,形成結(jié)構(gòu)化數(shù)據(jù)。ERNIE-UIE具備高效的零樣本抽取能力、少樣本微調(diào)能力,僅需標(biāo)注少量樣本,微調(diào)訓(xùn)練之后即可達(dá)到極高精度。PaddleNLP還提供了信息抽取全流程方案,覆蓋“數(shù)據(jù)標(biāo)注-微調(diào)訓(xùn)練-通過(guò)模型蒸餾進(jìn)行性能加速-部署”各個(gè)環(huán)節(jié),對(duì)于不太熟悉NLP深層技術(shù)原理的醫(yī)療領(lǐng)域從業(yè)者,非常友好。
總的來(lái)說(shuō),百度飛槳和文心大模型幫助中康科技實(shí)現(xiàn)數(shù)據(jù)治理能力的三級(jí)提升。
第一級(jí),相較于傳統(tǒng)人工作業(yè),科研平臺(tái)的自然語(yǔ)言處理能力能將時(shí)間效率提升約10倍(時(shí)間短);第二級(jí),基于文心大模型的小樣本學(xué)習(xí)僅需使用原來(lái)十分之一的數(shù)據(jù)量即可完成建模,效率再次提升10倍(數(shù)據(jù)量變小);第三級(jí),規(guī)范化標(biāo)準(zhǔn)化的數(shù)據(jù)治理使得一個(gè)專病數(shù)據(jù)庫(kù)能服務(wù)于多個(gè)科研項(xiàng)目,效率再次提升約5倍,整體實(shí)現(xiàn)約500倍的效率提升。
“基于文心大模型的AI臨床科研大數(shù)據(jù)平臺(tái)”已在國(guó)內(nèi)眾多知名醫(yī)院落地實(shí)際應(yīng)用,且已獲得各醫(yī)院主任的廣泛認(rèn)可。某省級(jí)醫(yī)院主任表示:“原本臨床科研課題中符合入組條件的患者數(shù)據(jù)只能依靠人工整理和篩選的方式獲取到,但自從應(yīng)用了人工智能技術(shù)后,這一工作的難度與耗時(shí)極大縮小,切實(shí)給我們的科研工作帶來(lái)很大幫助”。
基于文心大模型的AI臨床科研大數(shù)據(jù)平臺(tái)正在以領(lǐng)先的AI技術(shù)助力客戶推進(jìn)科研項(xiàng)目,進(jìn)一步推進(jìn)學(xué)科研究事業(yè)發(fā)展。
人工作業(yè)與平臺(tái)賦能的數(shù)據(jù)治理應(yīng)用效果對(duì)比
不過(guò),效率的飛速提升并非打造AI臨床科研大數(shù)據(jù)平臺(tái)的全部目的。目前,中康科技已經(jīng)規(guī)劃好了基于飛槳和文心大模型繼續(xù)擴(kuò)展大數(shù)據(jù)平臺(tái)的應(yīng)用邊界的具體路徑。
據(jù)黃毅寧透露,中康將基于本身在醫(yī)療領(lǐng)域深厚的數(shù)據(jù)積累,對(duì)文心ERNIE-Health進(jìn)行領(lǐng)域適應(yīng)的大模型訓(xùn)練,進(jìn)而將其應(yīng)用于醫(yī)學(xué)領(lǐng)域各類NLP任務(wù)之中。
AI臨床科研大數(shù)據(jù)平臺(tái)還將進(jìn)一步對(duì)藥品說(shuō)明、醫(yī)學(xué)病歷等內(nèi)容進(jìn)行信息抽取及中文醫(yī)學(xué)術(shù)語(yǔ)對(duì)齊,自動(dòng)構(gòu)建醫(yī)學(xué)知識(shí)圖譜。
這意味著,曾經(jīng)的AI臨床科研大數(shù)據(jù)平臺(tái)將跳出臨床數(shù)據(jù)范疇,逐步將醫(yī)院全域大數(shù)據(jù)納入治理范疇。
中康科技CTO唐珂軻博士表示,中康科技與百度飛槳通過(guò)技術(shù)研發(fā)、生態(tài)共建等方面搭建了合作橋梁,實(shí)現(xiàn)了繁榮共贏。未來(lái),中康科技期待與百度飛槳建立更緊密的合作關(guān)系,以百度飛槳和文心大模型的人工智能技術(shù)優(yōu)勢(shì),以中康科技在健康產(chǎn)業(yè)大數(shù)據(jù)的領(lǐng)先者地位、醫(yī)學(xué)科研領(lǐng)域的技術(shù)積累和沉淀,實(shí)現(xiàn)產(chǎn)品與方案的聯(lián)合創(chuàng)新。期待雙方全方位、多領(lǐng)域、更深入的交流,為中國(guó)醫(yī)學(xué)科研事業(yè)持續(xù)賦能,共創(chuàng)生命科學(xué)領(lǐng)域新篇章。
百度飛槳,賦能醫(yī)療產(chǎn)業(yè)智能化、培養(yǎng)復(fù)合型AI人才
最后黃毅寧談到了與百度飛槳合作的開(kāi)始。
黃毅寧——中康科技數(shù)字醫(yī)療人工智能技術(shù)產(chǎn)品總監(jiān),也是百度AICA首席AI架構(gòu)師培養(yǎng)計(jì)劃 6期班學(xué)員。正是這份特殊的經(jīng)歷,讓黃毅寧看到了飛槳與醫(yī)療大數(shù)據(jù)融合的價(jià)值。
加速產(chǎn)業(yè)AI大生產(chǎn),復(fù)合型AI人才培養(yǎng)至關(guān)重要。百度AICA首席AI架構(gòu)師培養(yǎng)計(jì)劃由深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心與百度聯(lián)合發(fā)起,旨在培養(yǎng)集“分析業(yè)務(wù)問(wèn)題、掌握模型算法、操刀落地應(yīng)用”于一身的首席AI架構(gòu)師。
伴隨人工智能愈發(fā)深入地應(yīng)用于醫(yī)療領(lǐng)域,百度AICA首席AI架構(gòu)師培養(yǎng)計(jì)劃的未來(lái)價(jià)值愈發(fā)值得期待。當(dāng)更多人才進(jìn)入醫(yī)療人工智能領(lǐng)域,推動(dòng)更多運(yùn)營(yíng)、健康等大數(shù)據(jù)走向應(yīng)用,我們將能夠看到一個(gè)更加智慧的醫(yī)療體系,為更多患者謀求新生。(動(dòng)脈網(wǎng))