您好, 訪客   登錄/注冊

基于信息增益的中醫體質多標記分類方法研究

來源:用戶上傳      作者:

   摘要:目的  為降低中醫體質傳統分類方法主觀性誤差,兼顧兼夾體質,提出基于信息增益的中醫體質多標記分類方法。方法  采用多標記方法進行中醫體質分類。為解決多標記分類方法中不同特征對分類標簽的影響不同的問題,通過體質分類數據計算各特征項的信息增益,計算體質分類特征對分類標簽的權重,進而通過加權的多標簽分類器,得出體質數據多標記分類。結果  與傳統判別分析法相比,基于信息增益的多標記分類方法在1-錯誤率(16.33%)、漢明損失(15.44%)、平均準確率(82.61%)方面均有一定優勢。結論  基于信息增益的多標記分類方法在保證準確率同時可兼顧兼夾體質,實現對體質特征差異性及趨同性的更好描述。
   關鍵詞:中醫體質分類;信息增益;多標記分類
   中圖分類號:R2-05;R229    文獻標識碼:A    文章編號:1005-5304(2019)06-0097-04
   Abstract: Objective To propose a multi-label classification method of TCM constitutions based on information gain; To reduce the subjective error of traditional classification methods of TCM constitutions and take into account the combination of constitutions. Methods The multi-label method was used to classify TCM constitutions. In order to solve the problem that different features of multi-label classification method had different influence on the classification label, the information gain of each feature item was calculated by the physique classification data, and the weight of classification features were calculated. Then multi-label classification of physique data was obtained by weighted multi-label classifier. Results Compared with the traditional discriminant analysis method, the multi-label classification method based on information gain had certain advantages in 1-error rate (16.33%), hamming loss (15.44%), and average accuracy (82.61%). Conclusion The multi-label classification method based on information gain can ensure the accuracy. Taking into account the combination of constitutions can realize the better description of the difference in constitution characteristics and convergence.
   Keywords: TCM constitutions; information gain; multi-label classification
   中醫體質學以體質特征為研究主體,以體質調節為目的,是中醫基礎理論的重要組成部分。目前,機器學習、復雜網絡等大數據相關技術在中醫體質相關研究中應用范圍仍相對局限。目前體質分類多采用《中醫體質分類與判定自測表》(以下簡稱“自測表”),基于專家經驗的判別分析法(DA)進行。自測表通過分值表示各條目與體征描述的符合程度,但該判定過度依賴于被調查者的主觀,且受專家認知等影響,分類結果存在一定誤差;同一體質分類中各指標小項權重無區分,而預實驗發現部分小項對體質判定具有更好的分類貢獻;無權重數據容易稀釋特征值,導致兼夾體質的缺失[1];此外,該方法無法滿足大數據時代海量醫療數據的處理需求。
   因此,為解決實驗樣本量與質的矛盾,降低實驗分類結果的人為誤差,為后續病體相關性研究提供分類依據,本研究從中醫體質的內涵出發,提出一種基于信息增益的中醫體質多標記分類方法,通過信息增益定義不同特征對分類標簽的貢獻,作為多標記分類器中相似性的權重,通過計算加權的余弦相似度的K近鄰算法,得出體質數據的多標記分類。
  1  信息增益
  2  多標記學習
   標記學習旨在通過抽象待分類對象的特征空間與類別標記間的函數表示,實現待分類對象到類別的映射[5],即從{()|1≤i≤N}中習得f∶x→y,其中為待分類對象的特征向量集合,yi∈Y為xi屬于類別集合中類別li的標記,即xi屬于類別li,為類別集合。
  3  基于信息增益的多標記分類方法
   傳統的多標簽學習方法忽略了不同特征間對標簽分類貢獻的區別,且文本的特征表示限制了文本分類性能的提升[10-11]。為解決該問題,通過加權的方式實現特征項與各分類標簽間相關性的描述,突出特定特征對分類的重要性,提出基于信息增益的多標簽分類方法(TMLKNN)。加權后的(4)式表示為:    在中醫體質分類研究中,一般根據體質分類與判定自測表獲取受訪者的測試數據,該自測表共分為陽虛質、陰虛質、氣虛質、痰濕質、濕熱質、血瘀質、特稟質、氣郁質及平和質9個亞量表,采用5級評分法衡量受訪者具有該特征指標的程度。為與傳統自測表做更好的對照,本研究未對自測表中相似問題做合并和歸一,即以傳統自測表為基礎,將自測表中9個體質類別的問題(每個體質類別判定包含6~8個自測問題)作為對應文本的特征項,將1~5的評分結果作為每個特征項在該文本中的取值,轉換為8×9的數值矩陣(其中,0表示該體質分類在該項無特征,即該體質在該處無自測問題)作為后續實驗處理的測試樣本。以1份男性受訪者的自測表數據為例,整理得到自測文本,見表1。
  4  實驗結果
  4.1  數據特征
   實驗采用514份自測數據,其中400份作為訓練樣本,114份作為測試樣本。樣本數據年齡與性別分布見表2。
  4.2  信息增益結果
   經計算,自測表中各特征項的信息增益見表4。
  5  小結
   中醫體質作為個體機能的載體及健康程度的表征,揭示病癥病理具有一定的臨床意義,已成為中醫學的研究熱點。為解決傳統方法在中醫體質研究中的問題,本研究以體質研究的基礎分類為例,提出一種基于信息增益的中醫體質多標記分類方法,通過信息增益計算體質分類特征對分類標簽的權重,進而通過加權的多標簽分類器,得出體質數據的多標記分類。實驗結果表明,與傳統的分類方法DA相比,該方法在保證準確率同時,可有效兼顧兼夾體質,實現對體質特征差異性及趨同性的更好描述。
  參考文獻:
  [1] 危凌云,李燦東,黃文金,等.中醫體質類型分布及兼雜規律研究[J].山東中醫藥大學學報,2016,40(2):102-104.
  [2] 彭長根,丁紅發,朱義杰,等.隱私保護的信息熵模型及其度量方法[J].軟件學報,2016,27(8):1891-1903.
  [3] 李學明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38(8):37-40.
  [4] 陳科文,張祖平,龍軍.文本分類中基于熵的詞權重計算方法研究[J].計算機科學與探索,2016,10(9):1299-1309.
  [5] ZHANG M L, ZHOU Z H. ML-KNN:A lazy learning approach to multi- label learning[J]. Pattern Recognition,2007,40(7):2038-2048.
  [6] 廣凱,潘金貴.一種基于向量夾角的k近鄰多標記文本分類算法[J].計算機科學,2008,35(4):205-206.
  [7] 張順,張化祥.用于多標記學習的K近鄰改進算法[J].計算機應用研究,2011,28(12):4445-4446.
  [8] GUO G, WANG H, BELL D, et al. KNN model-based approach in classification[C]//OTM Confederated International Conferences on the Move To Meaningful Internet Systems. Berlin, Heidelberg:Springer, 2003:986-996.
  [9] 李峰,苗奪謙,張志飛,等.基于互信息的粒化特征加權多標簽學習k近鄰算法[J].計算機研究與發展,2017,54(5):1024-1035.
  [10] 潘主強,張林,張磊,等.中醫臨床疾病數據多標記分類方法研究[J].計算機科學與探索,2017,12(8):1295-1304.
  [11] 郝春風,王忠民.一種用于大規模文本分類的特征表示方法[J].計算機工程與應用,2007,43(15):170-172.
  [12] 馮雪東.基于一對一分解的多標簽分類算法研究[D].南京:南京師范大學,2013.
  [13] 龔靜,黃欣陽.基于隱性語義索引的多標簽文本分類集成方法[J].計算機工程與設計,2017,38(9):2556-2561.
 ?。ㄊ崭迦掌冢?018-06-10)
  (修回日期:2018-07-14;編輯:向宇雁)
轉載注明來源:http://www.hailuomaifang.com/1/view-14889677.htm

?
99久久国产综合精麻豆