基于統計的Web文本自動摘要技術
來源:用戶上傳
作者:
摘 要 自動文本摘技術的出現為人們快速閱讀的帶來了極大的方便,本文針對于Web文本的特征設計出了計算詞權重系數公式及句子得分公式,改進并實現了兩種重要的摘要算法
關鍵詞 Web文本 自動摘要 摘要算法 主題詞
中圖分類號:TP391 文獻標識碼:A
0引言
基于統計的文本自動摘要方法主要根據線索詞典、詞頻、詞或句子的啟發性函數進行模式匹配,摘取文本中重要句子形成摘要。它不依賴于具體領域,適應面廣,響應速度快,因而受到越來越多的研究者的重視?;诮y計的文本自動摘要將文本視為句子的線性序列,將句子視為詞的線性序列。它通常分4步進行:(1)計算詞的權值;(2)計算句子的權值;(3)對原文中的所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;(4)將所有文摘句按照它們在原文中的出現順序輸出。在自動摘錄中,計算詞權、句權、選擇文摘句的依據是文本的六種形式特征。
1文本的四種形式特征
?。?)詞的頻度:能夠指示文章主題的所謂有效詞(Significant Words),往往是中頻詞。根據句子中有效詞的個數可以計算句子的權值,這是Luhn首先提出的自動摘錄方法的基本依據。V.A.Oswald主張句子的權值應按其所含代表性“詞串”的數量來計算,而Doyle則重視共現頻度最高的“詞對”。美國IBM公司在1960年前后研制了一套文摘自動生產程序ACSI2Matic,該程序在句權的計算方面對Luhn的方法進行了改進。
(2)標題信息:標題是作者給出的提示文章內容的短語,借助停用詞詞表(Stoplist),在標題或小標題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內容往往有緊密的聯系,可以作為有效詞。
?。?)位置:美國的P.E.Baxendale的調查結果顯示:段落的論題是段落首句的概率為85%,是段落末句的概率為7%。因此,有必要提高處于特殊位置的句子的權值。
?。?)句法結構:句式與句子的重要性之間存在著某種聯系,比如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進入文摘。
2主題詞評價
本文針對WEB文檔的結構化特征,在進行主題詞選取時根據文檔中詞頻的出現位置出現的頻繁程度來評價詞的重要性,并以此給出詞的權重,賦予重要詞匯權重,并設計出計算權重系數公式。下面是具體的主題詞選取和評價過程:
3段落中句子權重評價
美國的P.E.Baxendale的研究結果顯示:人工摘要中的句子為段首句的比例為85%,段尾句的比例為7%。美國康奈爾大學G.Salton提出了尋找文章的中心段落為文摘核心的思想。我們觀察表明:除了論題句、段首、段尾等句子之外,段落的第二句常常表示段落的主題。而Mead數據中心的自動摘要系統Searchable Lead,只是簡單的摘錄文件中的前60、150或250個英文詞匯,便達到了90%以上的可接受度(Brandow, et al.,1995)。
4摘要算法分析及改進
4.1 Luhn算法
Luhn在1965年提出了一種基于文章表面級特征的經典的摘要算法,這種算法的核心思想是為文章中的每一個句子賦予一個意義值,那些具有最大意義值的句子將會被抽取出來作為摘要,其中句子的意義值是通過句中意義詞的個數計算得到的。Luhn 認為意義詞應該是文章中的“中”頻詞集。高頻詞區域中的詞多是一些過于普通的詞,沒有什么區分能力,這些無用詞可以通過停用詞表的構造得以消除。
4.2 LSA算法
LSA是建立在奇異值分解(Singlue value decomposition,SVD)之上。SVD是一個矩陣分解技術,已經被人們大量應用到文本集上。給定一個m*n 的矩陣,A = [A1,A2,…An],每一列Ai 表示目標文檔中一個句子的詞頻向量,SVD可以表示為:
A = V U A (T)
其中U = [uij] 是一個m 的列標準化正交矩陣,它的每一列被稱為左奇異向量;∑=diag( 1, 2,…, n)是一個n 對角矩陣,其對角線上的元素是按降序排列的非負奇異值;
LSA算法描述:
(1)輸入WEB文檔,并對其進行解析,解析出文本字段;
?。?)進行分詞處理,并消除停用詞;
(3)主題詞選擇;
?。?)根據主題詞建立句子詞項矩陣,進行奇異值分解;
?。?)建立索引矩陣,根據索引矩陣建立句子摘要;
?。?)輸出摘要。
LSA能夠通過從語義上對詞和句子進行聚類來捕捉并建模詞語之間的關系,另外,LSA能夠捕獲文章用來表示特定概念和主題的那些顯著的、不斷重現的詞的組合模式。
參考文獻
[1] 劉挺,吳巖,王開鑄.基于信息抽取和文本生成的自動文摘系統設計[J].情報學報,1997,16(增刊):24-29.
[2] 陳燕敏,王曉龍等.一種基于文章主題和內容的摘要方法[J].計算機工程與應用,2004,40(33):11-15.
轉載注明來源:http://www.hailuomaifang.com/1/view-14807094.htm