前言:想要寫出一篇引人入勝的文章?我們特意為您整理了臨床醫學數據挖掘分析范文,希望能給你帶來靈感和參考,敬請閱讀。
1DM概述
DM是數據庫知識發現(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程(圖1),包括一系列轉換步驟,從數據的預處理到DM的后處理[1]。其最早是在1989年舉行的第11屆美國人工智能協會(americanassociationforartificialintelli-gence,AAAI)學術會議上提出的,是近年來隨著人工智能和數據庫技術的發展而出現的一門新興技術[4],其開發與研究應用是建立在先進的計算機技術、超大規模數據庫的出現、對巨大量數據的快速訪問、對這些數據應用精深的統計方法計算的能力這4個必要條件基礎上的,以數據庫、人工智能和數理統計三大技術為支柱[5]。
2DM的基本模式及在臨床醫學中的應用
DM的任務通常有兩大類:預測任務和描述任務。預測任務主要是根據其他屬性的值,預測特定屬性的值,主要有分類(classificaion)和回歸(regression)2種模式。描述任務的目標是導出概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常),主要有關聯分析、聚類分析、異常檢測3種模式[1]。
2.1預測建模(predictivemodeling)
涉及以說明變量函數的方式為目標變量建立模型。有2種模式:分類和回歸。分類是用于預測離散的目標變量。在臨床醫學中,疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi[6]以美國麻省理工學院的心律失常數據庫的心電圖為原始數據,采用不同分類模型,對心電圖的5種異常波形和正常波形進行分類。回歸是用于預測連續的目標變量。回歸可廣泛應用于醫學研究中如醫療診斷與預后的判別、多因素疾病的病因研究等。Burke等[7]采用各種回歸模式對影響乳腺癌患者預后的因素進行回歸分析。
2.2關聯分析(associationanalysis)
用來描述數據中強關聯特征的模式,用于發現隱藏在大型數據集中的令人感興趣的聯系。所發現的模式通常用蘊函規則或特征子集的形式表示。關聯分析主要應用于DNA序列間相似搜索與比較、識別同時出現的基因序列、在患者生理參數分析中的應用、疾病相關因素分析等[5]。有學者對37000例腎病患者進行了追蹤觀察,監測腎小球過濾率、尿蛋白水平和貧血狀況,結果發現以上3種生理指標中的任何一項異常都伴隨著心臟病發病率的上升,這種腎病與心臟病“關聯”的現象可發生在腎病的早期階段[8]。
2.3聚類分析(clusteranalysis)
旨在發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類分析在醫學領域中主要用于DNA分析、醫學影像數據自動分析以及多種生理參數監護數據分析、中醫診斷和方劑研究、疾病危險因素等方面[5]。羅禮溥和郭憲國[9]利用聚類分析對云南省25縣(市)現有的112種醫學革螨的動物地理區劃進行分析,發現云南省醫學革螨的分布明顯地受到自然地理區位和特定的自然景觀所制約。
2.4異常檢測(anomalydetection)
用來識別其特征明顯不同于其他數據的觀測值。這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常檢測的目標是發現真正的異常點,避免錯誤地將正常對象標注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率,其主要應用于檢測欺詐、網絡攻擊、疾病的不尋常模式等[2]。
3DM的方法及研究趨勢
在DM算法的理論基礎上,DM常用方法:(1)生物學方法包括人工神經網絡、遺傳算法等;(2)信息論方法包括決策樹等;(3)集合論方法包括粗糙集理論、近鄰算法等:(4)統計學方法;(5)可視化技術等方法。DM經過十幾年的蓬勃發展,很多基本算法已較為成熟,在其基礎上進行更加高效的改進和算法提高顯得比較困難,如傳統的頻繁模式和關聯規則挖掘在近幾年的國際著名會議和期刊上已不再作為重要的研究主題[10]。近年來眾多國內外知名學者相繼探討DM的最新方向。Yang和Wu[11]匯總形成了DM領域十大挑戰性問題報告;Agrawa等[12]探討了DM的現狀并展望了未來的發展方向,Piatetsky-shapiro等[13]討論了DM新的挑戰性問題,并主要探討在生物信息學(bioinformatics)、多媒體挖掘(multimediamining)、鏈接挖掘(1inkmining)、文本挖掘(textmining)和網絡挖掘(webmining)等領域所遇到的挑戰。與國外相比,DM在國內的研究和應用始于20世紀90年代初,主要是對DM方法的介紹和推廣,20世紀90年代后期和21世紀初進入蓬勃發展階段,當前DM已成為大型企業進行經營決策時所必須采用的方法,證券和金融部門已將DM作為今后重點應用的技術之一。有學者以HIS和LIS數據庫信息為數據源,人工神經網絡為工具,概率論為依據,對常規檢驗結果和質譜指紋圖數據進行DM并應用于臨床實踐[14-16]。
4臨床醫學DM的特點
DM作用于醫學數據庫跟挖掘其他類型的數據庫相比較,具有其自己的特點。以電子病歷、醫學影像、病歷參數、化驗結果等臨床數據為基礎建立的醫學數據庫是一個復雜類型數據庫,這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質性和缺乏數學性質等自身的特殊性和復雜性,使得醫學DM與常規DM之間存在較大差異。醫學DM方法包括統計方法、機器學習方法、神經網絡方法和數據庫方法等。將這些不同的挖掘方法應用到疾病的診斷、治療和預后分析以及醫療管理等各個領域,從疾病的診治、醫療質量管理、醫院管理、衛生政策研究與醫療資源利用評價等方面去獲取諸如概念、規律、模式等相關知識;用于對疾病進行分類、分級、篩選危險因素、決定治療方案和開藥數量等[5]。
5我國醫學DM的現狀及展望
生命科學的快速發展以及系統生物學(systembiology)的出現和蓬勃發展為研究現代醫學模式和中醫藥學提供了可能的新思路和新方法。通過基因組學、蛋白質組學等方法闡述復雜生命迫切需要DM等相關計算分析方法處理海量的基因、蛋白、染色質數據如基因調控網絡的研究、蛋白質交互網絡的挖掘等[10]。在我國醫學數據極為豐富,但運用DM技術分析和處理這些數據資源的研究尚處于起步階段。有些大學(如第二軍醫大學、哈爾濱醫科大學、瀘州醫學院等)已經面向醫學本科生及研究生開設了相關課程,上海交通大學醫學院也向醫學專業研究生開設了《生物醫學數據挖掘》的課程[17],瀘州醫學院檢驗醫學系開設了《檢驗醫學信息學》課程,從檢驗醫學信息的來源、綜合、提煉和利用過程均進行了詳細介紹[18]。這些課程的開設旨在使學生及醫學科學研究者了解這些知識,能理性地應用這些數學工具,并建立和其他學科領域研究人員合作的基礎。醫學DM是一門涉及面廣、技術難度大的新興交叉學科,是計算機技術、人工智能、統計等技術手段與現代醫療相結合的產物,需要從事計算機、統計學的科研人員與廣大醫務工作者之間的通力合作。隨著理論研究的深入和進一步的實踐摸索,醫學DM必將在疾病的診療、醫學科研與教學以及醫院管理等方面發揮不可估量的巨大作用。