您好, 訪客   登錄/注冊

醫學文獻中疾病誤診信息的提取

來源:用戶上傳      作者:

  【摘 要】提出了從醫學文獻中提取誤診信息的算法。五千篇文獻訓練集的誤診提取正確率為85.78%,500篇測試文獻的誤診提取精度83.11%。
  【關鍵字】誤診;臨床醫學;文本挖掘
  中圖分類號: TP391.1 文獻標識碼: A 文章編號: 2095-2457(2019)14-0204-001
  DOI:10.19694/j.cnki.issn2095-2457.2019.14.098
  0 引言
  全世界50年來平均誤診率為30%,但鑒于醫療水平的限制,誤診率一直高居不下,尤其是一些疑難雜癥。因此,從文獻中提取誤診信息供醫生和患者參考尤其必要。馮洪海[1]等統計和分析了現階段互聯網醫學用戶癥狀和相應的疾病分布情況,官兵[2]、張雪齊[3]等針對單獨的一種疾病或一類疾病的誤診信息做出了研究。目前還沒有文獻對醫學誤診文獻做過系統的分析。
  在做文本數據分析之前,已從權威醫學期刊獲取了大量的醫學誤診案例文獻。通過人工讀文獻的方式,從中總結出初始的誤診關鍵字、通過對關鍵字進行分析,將關鍵字進行分類,而后分類建立模型。從文獻中獲取文本信息,從中提取出初始的疾病庫,通過編程實現誤診信息模型并通過模型將文本中的誤診信息提取出來。
  1 算法設計過程
  誤診信息分兩種:一種是疾病A誤診為疾病B,因此,疾病分“誤診為”的疾病B和“被誤診”的疾病A。另一種是多個疾病互相混淆而有可能誤診。在標題或正文中,多處出現疾病名稱,但未必是疾病之間誤診的信息,因此,要先由誤診關鍵字確定誤診上下文。另外,即便出現兩個疾病,兩個疾病之間誤診的信息有正反兩個方面,即有可能A誤診成B,也可能B誤診成A。
  1.1 誤診關鍵字的獲取
  誤診上下文分為標題和正文兩種。通過比較,針對標題的誤診關鍵字適用于正文;針對正文的誤診關鍵字不一定適用于標題。針對標題的“誤診…”、“誤診為…的…”等關鍵字。針對正文的誤診關鍵字“需與…相鑒別”、 “易與…混淆”等。
  1.2 誤診信息上下文的提取
  誤診信息上下文的預處理,借鑒文獻[4]中的策略。關于上下文長短的確定,文獻[4]中設定為誤診關鍵字為誤診關鍵字所在的兩個句號段落。本文將提取單元設定為含有誤診關鍵字的一個句號的句子。
  1.3 識別疾病以及提取文獻中的誤診信息
  2 提取結果
  對于訓練集,加入更為準確的關鍵字,去除“B超-疾病”和一些沒有必要存在的提取結果,如“高血壓-高血壓”等結果,將算法進行改進,完善算法的控制邏輯。擴充疾病庫之后,錯誤率也明顯下降。經上述的完善之后,疾病提取的錯誤率降低到14.22%。
  測試集中存在有當前誤診關鍵字集合之外的關鍵字,導致一些誤診規律無法被提取出來,目前召回率穩定在99%,錯誤率穩定在16.89%。完善疾病庫、完善關鍵字集合、完善算法的提取規則將是下一步優化的目標。
  3 結束語
  不論是訓練集還是測試集,錯誤率和召回率都與誤診關鍵字列表和疾病列表的完整性有關,未來要降低錯誤率和提高召回率,需要從完善誤診關鍵字列表和研制新的疾病實體名稱識別算法方面入手,因為有些疾病名稱是俗語或簡化描述或在國際疾病標準術語中未載入。
  通過在大量醫學誤診案例中總結誤診信息、提取誤診關鍵字、建立誤診模型等方式提取醫學誤診文獻中誤診信息。在后期的研究過程中,可對提取結果的精確度做更加準確的處理。從文本中分析出的誤診為的疾病可能有若干種,這些疾病之間可能也存在誤診關系;這些疾病也存在和“誤診”病不相關的情況,后續研究可對結果做統計分析,完善疾病庫、關鍵字集合和算法的提取規則,總結更普遍的規律,減少醫學誤診的發生。
  【參考文獻】
  [1]馮洪海,孫元燦,李利敏,宋舒晗,黃俊輝.基于Web醫學數據的互聯網醫學用戶研究[J].計算機時代,2014(04):41-46.
  [2]官兵,張惠箴,汪亮.胃底伴血管瘤的脾組織植入誤診為胃腸間質瘤1例[B].臨床與實驗病理學雜志,1001=7399(2019)05-0618-02.
  [3]張奇雪,阮宏瑩,鄭永哲,張桂敏,林鵬.鼻硬結病誤診為鼻中隔囊腫1例.臨床耳鼻咽喉頭頸外科雜志[B].1001-1781.2019.06.021.
  [4]劉源,馮洪海.醫療糾紛文獻的數據挖掘[J].電子技術與軟件工程[J].R197.3;TP311.13.
轉載注明來源:http://www.hailuomaifang.com/8/view-14908007.htm

?
99久久国产综合精麻豆