詞匯功能視角下關鍵詞生存時間影響因素研究
來源:用戶上傳
作者:劉智鋒 馬永強 楊金慶
摘要:[目的/意義]從語義功能角度探究不同類型關鍵詞在學術文本中生存時間的影響因素,為識別領域熱點主題和技術方法提供參考。[方法/過程]首先,采用深度學習的方法對關鍵詞的詞匯功能進行識別,將關鍵詞分為問題類和方法類;其次,構建關鍵詞生存時間的影響因素模型;最后,分別采用K-M曲線和Cox回歸對關鍵詞的生存時間影響因素進行探究。[結果/結論]研究結果表明,論文被引頻次和下載次數與問題類和方法類的關鍵詞生存時間存在正相關的關系;期刊等級、是否基金資助、作者合作規模和參考文獻數4個因素與方法類關鍵詞的生存時間存在顯著的相關關系,而與問題類關鍵詞生存時間的相關關系不顯著。
關鍵詞:生存分析;詞匯功能;生存時間;Cox回歸
DOI:10.3969/j.issn.1008-0821.2023.01.015
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2023)01-0151-12
Research on Factors Influencing Keyword Survival
Time from the Perspective of Term FunctionLiu Zhifeng Ma Yongqiang Yang Jinqing
?。?.Department of Information Management,Peking University,Beijing 100871,China;
2.School of Information Management,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]This paper explores the factors of the survival time of different types of keywords in academic texts from the perspective of semantic function,so as to provide reference for identifying hot topics and technical methods in a field.[Method/Process]First,deep learning was used to identify the term function of keywords.The keywords were divided into problem keywords and method keywords;secondly,a model of influencing factors of keyword survival time was constructed;finally,K-M curve and Cox regression were used to explore the influencing factors of survival time of keywords.[Result/Conclusion]The results show that the number of citations and downloads have positive correlations with the survival time of the problem keywords and method keywords.In addition,journal,funding,and the number of authors and references have significant correlations with the survival time of method keywords,but have no significant correlations with that of problem keywords.
Key words:survival analysis;term function;survival time;Cox regression
隨著學術大數據時代的到來,學術論文數量呈現指數增長[1]??蒲腥藛T已經不能單靠人力對學術論文進行逐一閱讀來識別研究熱點與研究前沿,如何快速從海量的文獻中獲取所需的知識和梳理領域知識脈絡,成為當今科研社區的一個重要挑戰[2]。由于關鍵詞是由作者選取表征文章的主要研究內容的規范化學術詞匯[3],科學計量學等領域的學者把學術論文中的關鍵詞作為表示研究主題的重要計量對象。關鍵詞作為研究主題與方法等的外化表現,與研究主題存在共生關系,會隨著研究主題的變化而變化。具體而言,當研究主題保持一定的熱度,相應的關鍵詞可能會存在較長的時間;當研究主題熱度衰減,相應的關鍵詞可能會減少,甚至消失。目前,學者們主要采用共詞分析以及詞頻統計等方法,分析學科領域的研究熱點與前沿[4],鮮有學者從關鍵詞生命周期視角揭示其內在規律與影響因素。
2023年1月第43卷第1期現代情報Journal of Modern InformationJan.,2023Vol.43No.12023年1月第43卷第1期詞匯功能視角下P鍵詞生存時間影響因素研究www.xdqb.netJan.,2023Vol.43No.1因此,本文聚焦于關鍵詞生命周期的量化分析,以期對研究主題演化和研究熱點研究有一定的啟發作用。學術論文關鍵詞表征論文的主要內容,可以表示論文的研究問題,亦可以表示論文的研究方法,即關鍵詞在論文內容的表示中具有不同的功能[5]。如“基于深度卷積神經網絡的生物醫學混合圖像檢測”論文中,關鍵詞“混合圖像檢測”表示論文的研究問題,而關鍵詞“深度卷積神經網絡”表示論文的研究方法。在本研究中,將學術論文的詞匯功能定義為詞匯在學術論文上下文環境下所對應的內容或用途。因此,在詞匯功能視角下,能夠區分具有不同語義功能的關鍵詞,如研究問題、研究方法等;在此基礎上,結合關鍵詞的生存分析,可以更加細粒度地對學科領域的問題類關鍵詞與方法類關鍵詞的生命周期進行測度和對關鍵詞生存的影響因素進行分析,以更好地理解和把握關鍵詞的演化規律,對研究主題演化和研究脈絡梳理等相關研究,具有一定的借鑒意義。
nlc202301101724
1相關研究
1.1詞匯功能分類與識別
學術文本的詞匯功能是指詞匯在學術文本上下文環境下所對應的內容或者用途,其內涵和NLP領域的語義角色不同。一般情況下,學術文本的詞匯功能包含研究問題、研究方法、研究領域、研究對象等。隨著自然語言處理技術和學術文本的獲取更加容易,國內外不少學者開始關注如何利用自然語言處理的技術,自動從學術文本中識別出問題、方法、技術等實體及其之間的關系[6]。在早期的研究中,學者們主要應用文獻計量學、共詞分析等方法,粗略地獲取學科領域的研究主題[7]。然而,這些研究并不能深入地解決諸如特定的研究問題和特定的研究方法的演化情況。因此,學者們開始探索學術文本詞匯功能的分類及其自動識別。
學術文本詞匯功能的分類研究,是進行詞匯功能自動識別及其應用的前提,在學術文本詞匯功能分類框架的基礎上,大部分學者將學術文本詞匯功能的識別轉化為分類問題,并采用不同的方法進行研究。Kondo T等[8]將學術論文標題詞匯功能分為研究主題、研究方法、研究目的和其他,并根據從標題中得到的規則,對這4類詞匯進行識別。隨后,Nanba H等[9]將論文的標題和摘要中出現的詞匯分為技術和效果兩大類,其中技術包含有算法、工具、數據等,效果由屬性和相應的屬性值組成,并構建相應的特征,用傳統機器學習的方法進行自動識別。Gupta S等[10]將摘要中的詞匯功能分為話題、技術和領域,其中,話題指的是論文的貢獻,而技術是指使用的方法和工具,領域指的是論文的應用領域,并采用模式學習的方法進行自動識別。Dan S等[11]將計算語言學領域學術論文詞匯語義功能分為技術和領域。Mesbah S等[12]將學術論文中的詞匯功能分為方法、軟件、數據集、目標和結果。最近,Heffernan K等[13]將科學研究定義為提出問題和解決問題的過程,并將詞匯語義功能分為問題和方法兩大類。
國內學者亦對詞匯功能進行初步的探索,趙洪等[14]對《情報學報》發表論文中的理論和方法實體進行標注,并采用條件隨機場等方法對論文標題和摘要中的理論術語進行識別。程齊凱[15]在總結以往研究的基礎上,提出了較為完整的學術文本詞匯功能框架,將詞匯功能分為領域無關詞匯功能和領域相關詞匯功能,其中,領域無關詞匯功能分為研究問題和研究方法,并采用條件隨機場和機器排序算法進行識別。劉智鋒等[5]制定了信息計量學領域的關鍵詞語義功能分類框架,包含研究主題、研究方法、數據、領域范圍、研究對象以及其他6類,并構建了語義功能標注數據集。程齊凱等[6]通過構建標引規則自動從學術文獻標題中識別研究問題和研究方法,從而構建了一個標準的詞匯功能標注數據集。周笑盈[16]將數字圖書館領域的關鍵詞語義功能分為研究背景、研究領域、研究熱點和研究對象4類,并對國際圖聯大會收錄的文章關鍵詞進行標注,構建不同語義功能的關鍵詞數據集,以揭示數字圖書館的研究熱點。
本研究參考Heffernan K等的觀點,將科學研究視作提出問題和解決問題的過程,因此將詞匯功能分為研究問題、研究方法和其他3類。此外,以往的詞匯功能識別主要采用基于規則抽取、條件隨機場等方法,而隨著深度學習和自然語言處理技術的快速發展,將深度學習等方法應用到學術文本關鍵詞語義功能的自動識別中可以得到更高的準確率。
1.2關鍵詞生存影響因素
不同的關鍵詞具有不同的生命周期,其生命周期受到很多因素的共同影響。關鍵詞是反映論文語義內容的規范化術語,可以將關鍵詞看成知識單元,根據知識擴散理論和信息老化理論,在關鍵詞生命周期中,隨著時間的推移,知識單元不斷對外進行擴散,同時會伴隨著知識單元價值的衰減,最終失去價值,走向消亡。知識單元的生命周期不僅受到自身屬性的影響,亦會受到擴散因素的影響。本研究重點關注論文發表的期刊等級、是否基金資助、作者合作規模和參考文獻數量等內部因素以及論文被引頻次、下載次數等擴散因素對關鍵詞生存時間的影響。
1.2.1論文內部因素
期刊等級指的是數據庫或者機構根據期刊的影響因子等因素將期刊劃分成的不同層級。不同等級的期刊對論文的評審有不同的標準,因此不同等級期刊收錄的論文質量會存在差異,從而期刊在學術社區的認可度也不同。此外,不同期刊的受眾亦會存在一定的差異,導致發表在不同期刊的論文關鍵詞可能會有不同的生存時間。劉智鋒等[17]以圖書情報領域為例,研究發現圖情領域權威期刊《中國圖書館學報》和《情報學報》關鍵詞的生存時間比其他核心期刊的關鍵詞生存時間還長,且具有顯著性差異。計算機學科領域和圖書情報學科領域存在一定的區別,因此有必要推廣到計算機學科,進一步驗證。
獲得基金資助可以看作是對研究項目的一種認可,論文作為研究目的重要產出,基金資助的論文亦可能會受到更加廣泛的關注。以往不少研究分析基金資助對論文影響力的影響,大部分結果表明,基金資助的論文相比于非基金資助的論文可獲得更多的被引頻次[18-20]、具有更高的即時影響力[21]與傳播力[22]??芍?,論文是否受基金資助對于論文的認可度和關注度等具有顯著的影響,從而可能影響論文關鍵詞的生存時間。石磊[23]采用生存分析中的Cox回歸方法,發現論文是否受基金資助對論文的零被引生存狀況具有顯著影響。然而,至今鮮有研究分析基金資助對論文關鍵詞生存狀況的影響。因此,本研究將論文分為基金資助論文和非基金資助論文兩類,研究基金資助因素對論文關鍵詞生存時間的影響。
學者合作解決復雜的科學問題已經越來越普遍,隨著合作研究的盛行,關于最佳合作規模與學術論文影響力之間的關系等問題,受到科學計量學等相關領域學者的廣泛關注。馬榮康等[24]以Financial Times TOP45商學院期刊論文為例,發現多作者論文比單作者論文獲得更多的被引次數,論文的被引次數和論文的影響力之間存在倒U型關系,其中轉折點大約為3人。楊瑞仙等[25]發現,作者合作與論文影響力存在正相關關系,同時發現科學合作最佳規模為2~4人。可見,論文作者合作規模的大小對論文的影響力具有顯著影響;不同作者合作規模亦可能影響論文的認可度,從而影響論文關鍵詞的生存時間。然而,未有學者對作者合作規模是否會對論文關鍵詞生存時間產生影響進行研究;本文將對作者合作規模與論文關鍵詞生存時間之間的關系進行分析。
nlc202301101724
參考文獻是論文的重要知識基礎,參考文獻的數量在一定程度上可以反映一篇論文的知識流入量,亦可以在一定程度上反映一篇論文的質量。陳仕吉等[26]采用Tobit多元回歸模型對參考文獻數量和論文被引頻次之間的關系進行探析,發現參考文獻數量對被引次數有積極的影響。肖學斌等[27]同樣發現參考文獻數與論文被引次數存在正相關。可知,參考文獻數會對論文的采納產生一定的影響,從而可能會影響關鍵詞的生存時間,本文將對參考文獻數對論文關鍵詞生存時間的影響進行研究。
1.2.2論文擴散因素
科學知識通過引用關系發生擴散,其可以記錄科學知識的演化過程[28]。論文被引作為科學知識擴散的重要途徑之一,可以通過論文的被引頻次來反映該論文知識的擴散情況。論文的被引次數越多,說明論文所蘊含的科學知識更多地被其他論文所采納,論文的科學知識擴散的范圍更廣。論文的關鍵詞可以看作是論文的知識單元[29],論文的科學知識擴散范圍越廣,關鍵詞的生存時間可能越長,而零被引或者被引次數少的論文擴散范圍窄,論文的關鍵詞生存時間可能會比較短。因此,有必要對論文的被引頻次與關鍵詞生存時間之間的關系進行分析,揭示知識單元擴散對關鍵詞生存時間的影響機制。此外,科研相關人員通過下載論文,之后進行閱讀、學習、傳遞、引用等[30];因此,除了論文的被引情況,論文的下載情況亦能反映論文的擴散情況。本研究將采用知網記錄的論文被下載次數來表示論文的下載情況,分析論文的下載次數與論文關鍵詞生存時間之間的關系。
2數據與研究方法
2.1數據來源與預處理
計算機學科領域作為當前的重點研究領域之一,學科知識不斷更新迭代,適合于研究學科知識的生存情況,可促進對該領域研究主題演化的理解;且該學科領域論文的研究問題或研究方法常見于關鍵詞,有利于研究不同詞匯功能關鍵詞的生存時間差異。因此,本研究以國內計算機學科領域為例,選取《中文核心期刊要目總覽》第八版目錄下的TP自動化技術、計算機技術類別下的32本期刊作為本文的數據來源,構建數據集?!吨形暮诵钠诳靠傆[》是由北京大學圖書館和北京十幾所高校圖書館合作的研究項目成果[31],是我國重要的核心期刊分類目錄之一,其中TP類目涵蓋了我國計算機學科研究的重點領域,因此,該數據集具有較好的代表性。本文根據期刊名稱從中國知網進行數據采集,采集的數據字段主要包含論文發表年份、發表期刊、標題、作者、機構、摘要、關鍵詞、基金資助、專輯、專題、分類號、被引頻次、下載次數、頁數以及參考文獻數,采集時間為2020年12月15日―2021年1月15日。
本數據集一共包含355 502篇論文,剔除征稿啟事、報告、簡介等非學術論文以及缺少關鍵詞等字段的論文,最后一共有298 631篇論文,發表時間在1982―2020年之間。論文的關鍵詞總數為1 277 017個,篇均關鍵詞數為4.276個。其中,作者規模大小、參考文獻數、被引次數和下載次數分布如圖1所示。文數量和關鍵詞數量時間分布如圖2(a)所示。從圖中可知,論文數和關鍵詞數都呈現先快速增長、后有所下降的趨勢。由于部分期刊在2010年之后出現刊期和載文減少的現象,導致2010年之后論文數呈現下降趨勢。
本研究基于詞匯功能顯現機理和詞匯功能分類框架,將關鍵詞的詞匯功能分為研究問題、研究方法和其他3類,并采用陸偉等提出的BERT和LSTM關鍵詞詞匯功能標注方法,對關鍵詞的詞匯功能進行標注,分別構建問題類關鍵詞集和方法類關鍵詞集,該方法將論文的摘要和關鍵詞作為輸入,采用BERT預訓練模型對文本進行向量化表示,隨后輸入LSTM網絡中間層,最終使用Softmax分類器進行標簽的預測,結果表明,準確率、召回率和F1值分別達到0.83、0.87和0.85,優于傳統的方法[32]。最終本研究一共得到問題類關鍵詞63 327個,方法類關鍵詞596 366個,表明計算機學科領域一個問題會采用不同的方法進行研究,關鍵詞更多的表示論文的研究方法;問題類關鍵詞數和方法類關鍵詞數時間分布如圖2(b)所示。從圖中可知,問題類關鍵詞數量隨著時間不斷增長,而方法類關鍵詞先增加,后減少。
此外,為了生成可以直接用于生存分析的數據格式,本研究做了如下處理:
1)確定生存分析的起始觀察年份n,通過與第n年之前發表的論文關鍵詞進行逐年匹配,獲得在第n年之前未出現過的關鍵詞,構建起始觀察年的新生關鍵詞;同時通過與第n年之后t年內發表的論文關鍵詞進行逐年匹配,獲得第n年新生關鍵詞在之后t年的生存狀態。
2)為了避免分析一年數據的結果存在偶然性,同時考慮前面有足夠的年份用于確定新生關鍵詞和觀察新生關鍵詞的生存狀況,本研究選取2007―2009年3年的新生關鍵詞作為整體,分析其在隨后10年內的生存狀況,即觀察期分別為2008―2017年、2009―2018年和2010―2019年,并選取關鍵詞最后一次出現的時間點,來計算關鍵詞的生存時間。
3)分別對論文的期刊等級、是否基金資助、作者合作規模、參考文獻數、被引頻次和下載次數6個字段進行結構化處理,并根據各個字段內容的類型和分布情況,構建相應的自變量,用于研究關鍵詞生存時間影響因素。
2.2研究方法
生存分析統計方法主要包含壽命表、Kaplan-Meier曲線和Cox回歸3種生存分析統計方法。其中,Kaplan-Meier曲線由Kaplan和Meier于1958年提出,橫軸為生存時間,縱軸為生存率,可以直觀地展示生存分析的結果,適合于單個因素的組間對比分析。因此,本研究將Kaplan-Meier曲線應用于關鍵詞生存時間單因素影響分析,并采用Log-Rank和Wilcoxon(Gehan-Breslow)對兩組或多組生存曲線差異進行顯著性檢驗。此外,Cox回歸適用于研究多個因素對生存時間的影響,因此,本研究同時采用Cox回歸對關鍵詞生存時間多影響因素進行分析。
nlc202301101724
3基于K-M曲線的關鍵詞生存時間單因素分析3.1期刊等級
中國計算機協會(CCF)2020年首次發布了《CCF推薦中文科技期刊目錄》,從347本中文期刊中遴選37本推薦期刊,并將其分為A、B、C共3類期刊。CCF作為中國計算機科學領域重要的學術團體,其發布的推薦期刊目錄具有較強的權威性。因此,本研究根據期刊類型將32本期刊分為兩類,分別為A類期刊和非A類期刊,分析期刊等級對論文關鍵詞生存時間的影響。
不同等級期刊的問題類關鍵詞生存函數如圖3(a)所示,可知來自A類期刊的問題類關鍵詞生存時間略長于非A類期刊,A類期刊的問題類關鍵詞平均生存時間為2.322年,而非A類期刊的為2.268年,根據Log Rank和Breslow檢驗結果顯示,兩者之間差異不顯著。不同等級期刊的方法類關鍵詞生存函數如圖3(b)所示,同樣來自A類期刊的方法類關鍵詞生存時間長于來自非A類期刊的關鍵詞,比來自非A類期刊的方法類關鍵詞長0.301年??梢?,期刊等級與論文問題類關鍵詞生存時間不存在相關關系,而與方法類關鍵詞生存時間存在顯著相關關系。
本研究根據論文是否受基金資助,將論文分為兩組,分別為基金資助和非基金資助。是否基金資助論文的問題類和方法類關鍵詞生存函數如圖4(a)和圖4(b)所示。實驗結果表明,基金資助論文和非基金資助論文的問題類關鍵詞生存時間相近?;鹳Y助論文的方法類關鍵詞生存時間比非基金資助論文的方法類關鍵詞生存時間更長。在0.05置信度水平下,基金資助論文和非基金資助論文的問題類關鍵詞生存時間不存在顯著性差異;而方法類關鍵詞生存時間存在顯著性差異。
3.3作者合作規模
本研究中的論文作者合作規模分布情況(圖1(a)),作者合作規模主要集中在1~5人之間,其中作者數為3人的論文最多。根據楊瑞仙等[25]的研究發現,作者合作規模2~4人為最佳,本研究擬將作者合作規模分為3組,作者合作規模為1對應組1,作者合作規模為2~4對應組2,作者合作規模大于等于5歸為組3,分析論文不同作者合作規模與論文關鍵詞生存時間的相關關系。
由圖5(a)所示,當作者合作規模為2~4時,論文問題類關鍵詞的生存時間為最長,達到2.338年;其次為作者合作規模大于等于5時,其生存時間為2.232年;最短的為作者合作規模為1時。由圖5(b)可得,作者合作規模為大于等于5的論文方法類關鍵詞平均生存時間最長,略長于作者合作規模為2~4的論文方法類關鍵詞生存時間,只有1個作者的論文方法類關鍵詞生存時間最短。作者合作規模與問題類關鍵詞生存時間不存在相關關系;而作者合作規模為1的論文方法類關鍵詞和作者合作規模為2~4與大于等于5的論文方法類關鍵詞的生存時間具有顯著性差異。
3.4參考文獻數
根據論文參考文獻數分布(圖1(b))可知,大部分論文的參考文獻數小于20?;诖?,本研究擬將參考文獻數為0~20的劃分為組1,將參考文獻數大于等于20的劃分為組2,以研究不同參考文獻數與論文關鍵詞生存時間的相關關系。
不同參考文獻數的論文問題類關鍵詞生存時間差異如圖6(a)和圖6(b)所示,可知參考文獻數大于等于20的論文問題類和方法類關鍵詞生存時間,均大于參考文獻數小于20的論文問題類和方法類關鍵詞生存時間。通過Log Rank和Breslow檢驗發現,論文參考文獻數與論文問題類關鍵詞生存時間不具有顯著的相關;而在0.05置信度水平下,與方法類關鍵詞生存時間存在顯著的相關關系。
3.5被引頻次
論文被引頻次分布符合冪律分布特征(圖1(c)),被引頻次在0~10之間的論文數快速下降,而被引頻次大于等于30的論文數趨于穩定。因此,本文擬將論文的被引頻次分為3組,被引頻次在0~10之間的為低被引組,被引頻次在10~30之間的為中被引組,被引頻次大于等于30的為高被引組。
從圖7(a)和圖7(b)可得,不同被引頻次論文的問題類和方法類關鍵詞的生存時間長短為:高被引論文>中被引論文>低被引論文,且高被引論文關鍵詞生存時間和中被引論文關鍵詞生存時間之間的差異,大于中被引論文關鍵詞生存時間和低被引論文關鍵詞生存時間之間的差異。具體而言,高被引論文問題類關鍵詞生存時間比低被引論文的長1.264年;高被引論文方法類關鍵詞生存時間比低被引論文的長0.977年。高被引論文、中被引論文和低被引論文的關鍵詞生存時間兩兩均存在顯著性差異。可見,論文擴散廣度與論文關鍵詞的生存時間存在正相關。
3.6下載次數
由論文下載次數的分布情況(圖1(d))可知,隨著下載次數的增加,相應的論文數先增加,后不斷減少;下載次數約為100時,論文數量最大,當下載次數大于等于300時,論文數逐漸趨于穩定。本研究根據下載次數分布情況將論文分為3組,分別為:下載次數小于100為低下載組、下載次數介于100和300之間為中下載組、下載次數大于等于300為高下載組。研究不同下載次數的論文關鍵詞生存時間是否存在一定的差異。
不同下載次數論文的問題類和方法類關鍵詞生存情況如圖8(a)和圖8(b)所示,高下載論文的問題類和方法類關鍵詞生存曲線始終在最上方,而低下載論文的問題類和方法類關鍵詞生存曲線始終在最下方,中下載論文的生存曲線介于兩者之間,即高下載論文的問題類和方法類關鍵詞的平均生存時間最長,低下載論文的平均生存時間最短,中下載論文的平均生存時間介于兩者之間。此外,高下載論文問題類和方法類關鍵詞生存時間和中下載論文問題類和方法類關鍵詞生存時間之間的差異,大于中下載論文問題類和方法類關鍵詞生存時間和低下載論文問題類和方法類P鍵詞生存時間之間的差異。高下載論文、中下載論文和低下載論文兩兩之間的關鍵詞生存時間均存在顯著性差異。進一步驗證了論文擴散與論文關鍵詞生存時間存在正相關的關系。
4基于Cox回歸的關鍵詞生存時間多因素分析Kaplan-Meier曲線僅能對生存時間的單個影響因素進行分析,且無法具體量化影響因素單位值變化對生存情況的影響大??;而Cox回歸比例風險模型則可以建立生存時間的多影響因素模型,考察多個變量對關鍵詞生存時間的影響。因此,本研究采用Cox回歸方法更加精確地分析關鍵詞的多因素生存風險。關鍵詞Cox回歸分析的自變量和因變量與上述分析保持一致,具體如表1所示。
nlc202301101724
本研究先以全部關鍵詞為分析對象,研究關鍵詞的多因素生存風險;再分別對問題類和方法類關鍵詞進行多因素生存風險分析。全部關鍵詞的Cox回歸比例風險模型如表2所示,在0.05置信度水平下,是否基金資助、被引頻次和下載次數與關鍵詞生存時間存在顯著的相關關系,且這3個變量的系數B均小于0,表明基金資助論文的關鍵詞生存風險小于非基金資助論文的關鍵詞生存風險,即基金資助論文的關鍵詞生存時間長于非基金資助論文關鍵詞生存時間。同理,高被引論文的關鍵詞生存風險小于低被引論文的,中被引論文的關鍵詞生存風險亦小于低被引論文的;高下載和中下載論文的關鍵詞生存風險小于低下載論文的關鍵詞生存風險。此外,作者合作規模為2~4人的論文關鍵詞生存時間長于作者合作規模為1人的論文關鍵詞生存時間。
4.1問題類關鍵詞多因素生存風險分析
問題類關鍵詞的Cox回歸結果如表3所示,在0.05置信度水平下,論文的被引頻次和下載次數與關鍵詞的生存時間具有顯著的相關關系,其中,高被引論文的問題類關鍵詞生存風險為低被引論文的問題類關鍵詞生存風險的0.840倍,高下載論文的問題類關鍵詞的生存風險為低下載論文的問題類關鍵詞生存風險的0.850倍,而結果表明,論文內部因素對于問題類關鍵詞的生存時間不具有相關關系。進一步地,將論文擴散因素排除之后,構建新的Cox回歸模型結果表明,A類期刊、基金資助、作者合作規模大于1人和參考文獻數大于等于20等因素,可以降低問題類關鍵詞的生存風險,然而仍然不具有顯著性。
4.2方法類關鍵詞多因素生存風險分析
方法類關鍵詞的Cox回歸模型如表4所示,從表中可得,論文擴散因素中的被引頻次和下載次數與論文方法類關鍵詞的生存時間具有顯著的相關關系,其中高被引和中被引論文的方法類關鍵詞生存風險分別為低被引論文的方法類關鍵詞生存風險的0.869倍和0.946倍,高下載和中下載論文的方法類關鍵詞生存風險分別為低下載論文的方法類關鍵詞生存風險的0.867倍和0.936倍。此外,基金資助論文的方法類關鍵詞生存時間長于非基金資助論文的方法類關鍵詞生存時間;方法類關鍵詞的多因素生存風險分析Y果與全部關鍵詞的多因素生存風險分析結果一致。
同樣地,將論文的擴散因素排除,構建新的Cox回歸模型,結果顯示,在0.05置信度水平下,期刊等級、是否基金資助和作者合作規模與方法類關鍵詞的生存時間具有顯著的相關關系,其中A類期刊論文的方法類關鍵詞的生存風險為非A類期刊論文的方法類關鍵詞生存風險的0.949倍,基金資助論文的方法類關鍵詞的生存風險為非基金資助論文的方法類關鍵詞生存風險的0.970倍,作者合作規模為2~4人的論文方法類關鍵詞生存風險為作者合作規模只有1人的0.951倍,作者合作規模為5人及以上論文的方法類關鍵詞的生存風險為作者合作規模只有1人的0.933倍。而參考文獻數與方法類關鍵詞的生存時間仍不具有顯著的相關關系。
5結論與展望
本研究從關鍵詞詞匯功能的視角出發,構建了關鍵詞生存時間影響因素模型,并分別從單因素和多因素兩個視角,探究了不同影響因素與不同詞匯功能的關鍵詞生存時間的相關關系。研究結果表明,論文的擴散因素包含論文的被引頻次和下載次數,這兩個因素與問題類和方法類關鍵詞生存時間存在顯著的正相關關系,具體表現為高被引論文關鍵詞生存時間>中被引論文關鍵詞生存時間>低被引論文關鍵詞生存時間,高下載論文關鍵詞生存時間>中下載論文關鍵詞生存時間>低下載論文關鍵詞生存時間;論文的內部因素中,期刊等級、是否基金資助、作者合作規模和參考文獻數與方法類關鍵詞生存時間存在顯著的相關關系,具體表現為A類期刊論文方法類關鍵詞生存時間>非A類期刊論文方法類關鍵詞生存時間;基金資助論文方法類關鍵詞生存時間>非基金資助論文方法類關鍵詞生存時間;作者合作規模為2~4人論文方法類關鍵詞生存時間>作者合作規模大于等于5人論文方法類關鍵詞生存時間>作者合作規模為1人論文方法類關鍵詞生存時間;參考文獻數大于20論文方法類關鍵詞生存時間>參考文獻數小于等于20論文方法類關鍵詞生存時間。
本研究在詞匯功能視角下,將生存分析方法應用于關鍵詞的分析,探究了論文內部因素和擴散因素與關鍵詞生存時間的相關關系。本研究尚屬于探索階段,存在一定的不足,如本研究通過深度學習方法僅構建計算機學科領域的問題類和方法類關鍵詞集,詞匯功能自動識別的方法和技術有待進一步完善,以支撐構建更多學科領域的數據集。此外,關鍵詞生存時間可能受到復雜因素的影響,后續將采用因果推斷等方法,探究關鍵詞生存時間的其他影響因素以及其他學科領域的關鍵詞生存規律,并進一步應用于熱點識別等研究。
參考文獻
?。?]Hey T.The Fourth Paradigm-Data-Intensive Scientific Discovery[M].Berlin:E- Science and Information Management.Springer Berlin Heidelberg,2012:1-5.
[2]李信,程齊凱,劉興幫.基于詞匯功能識別的科研文獻分析系統設計與實現[J].圖書情報工作,2017,61(1):109-116.
[3]Lu W,Liu Z,Huang Y,et al.How Do Authors Select Keywords-A Preliminary Study of Author Keyword Selection Behavior[J].Journal of Informetrics,2020,14(4):101066.
?。?]高勁松,彭博.關鍵詞頻度演化視角下的研究熱點挖掘方法研究[J].圖書與情報,2020,(3):61-70.
?。?]劉智鋒,李信,程齊凱,等.學術文本關鍵詞語義功能數據集構建與分析――以Journal of Informetrics為例[J].圖書館論壇,2019,39(7):64-74.
nlc202301101724
?。?]程齊凱,李信,陸偉.領域無關學術文獻詞匯功能標準化數據集構建及分析[J].情報科學,2019,37(7):41-47.
[7]Hu J,Zhang Y.Research Patterns and Trends of Recommendation System in China Using Co-word Analysis[J].Information Processing & Management,2015,51(4):329-339.
?。?]Kondo T,Nanba H,Takezawa T,et al.Technical Trend Analysis By Analysis Research Papers Titiles[M].Human Language Technology:Challenges for Computer Science and Linguistics.Belin:Springer,2009:512-521.
[9]Nanba H,Kondo T,Takezawa T.Automatic Creation of a Technical Trend Map from Research Papers and Patents[C]//International Workshop on Patent Information Retrieval.ACM,2010:11-16.
?。?0]Gupta S,Manning C D.Analyzing the Dynamics of Research By Extracting Key Aspects of Scientific Papers[C]//Proceedings of Ijcnlp.Thailand:The Association for Computer Linguistics,2011:1-9.
?。?1]Dan S,Agarwal S,Singh M,et al.Which Techniques Does Your Application Use?:An Information Extraction Framework for Scientific Articles[EB/OL].https://arxiv.org/abs/1608.06386,2018-10-19.
?。?2]Mesbah S,Fragkeskos K,Lofi C,et al.Facet Embeddings for Explorative Analytics in Digital Libraries[C]//International Conference on Theory and Practice of Digital Libraries.Greece:Springer,2017:86-99.
?。?3]Heffernan K,Teufel S.Identifying Problems and Solutions in Scientific Text[J].Scientometrics,2018,116(2):1367-1382.
?。?4]趙洪,王芳.理論術語抽取的深度學習模型及自訓練算法研究[J].情報學報,2018,37(9):923-938.
?。?5]程齊凱.學術文本的詞匯功能識別[D].武漢:武漢大學,2015.
[16]周笑盈.基于關鍵詞標引的近5年國際數字圖書館研究熱點與趨勢分析[J].農業圖書情報,2019,31(4):37-47.
?。?7]劉智鋒,李信.作者關鍵詞生存分析――以國內圖情領域為例[J].圖書館雜志,2020,39(7):48-57.
?。?8]李昕潔.基金論文的使用次數是否高于非基金論文?[J].圖書館論壇,2019,39(2):11-17.
?。?9]Hu A G Z.Public Funding and the Ascent of Chinese Science:Evidence from the National Natural Science Foundation of China[J].Research Policy,2020,49(5):103983.
[20]lvarez-Bornstein B,Bordons M.Is Funding Related to Higher Research Impact?Exploring Its Relationship and the Mediating Role of Collaboration in Several Disciplines[J].Journal of Informetrics,2021,15(1):101102.
?。?1]許鑫,于霜,王立梅.科學基金對開放存取論文的影響力分析――以SCI收錄的自然科學領域論文為例[J].數字圖書館論壇,2019,(5):26-36.
?。?2]Jiang S,Gao Q,Chen H,et al.The Roles of Sharing,Transfer,and Public Funding in Nanotechnology Knowledge-diffusion Networks[J].Journal of the Association for Information Science and Technology,2015,66(5):1017-1029.
?。?3]石磊.期刊文零被引現象實證研究[D].蚌埠:安徽財經大學,2015.
[24]馬榮康,李真真.高被引還是零被引:基于論文被引的最佳科研合作規模研究――來自Financial Times TOP45商學院期刊的證據[J].情報學報,2020,39(11):1182-1190.
?。?5]楊瑞仙,李賢.科學合作與論文影響力之間的相關性研究[J].現代情報,2019,39(4):125-133.
?。?6]陳仕吉,江文森,康溫和,等.論文被引頻次的影響因素研究[J].情報雜志,2020,39(5):83-88.
[27]肖學斌,柴艷菊.論文的相關參數與被引頻次的關系研究[J].現代圖書情報技術,2016,(6):46-53.
?。?8]閔超,張帥,孫建軍.科學文獻網絡中的引文擴散――以2011年諾貝爾化學獎獲獎論文為例[J].情報學報,2020,39(3):259-273.
?。?9]周志超,蓋雙雙.國內知識元研究的緣起與發展脈絡[J].情報科學,2019,37(10):158-163.
?。?0]劉智鋒,馬永強,楊金慶.引文學科多樣性與論文影響力的關系研究[J].情報雜志,2020,39(7):190-195,207.
[31]北京大學圖書館.《中文核心期刊要目總覽》(2017年版)相關問題說明[EB/OL].https://www.lib.pku.edu.cn/portal/bggk/dtjj/qikanyaomu,2020-12-14.
?。?2]陸偉,李鵬程,張國標,等.學術文本詞匯功能識別――基于BERT向量化表示的關鍵詞自動分類研究[J].情報學報,2020,39(12):1320-1329.
?。ㄘ熑尉庉嫞宏愭拢?
nlc202301101724
轉載注明來源:http://www.hailuomaifang.com/4/view-15443885.htm