<ol id="ebnk9"></ol>
    1. 合著關系網絡數據模型構建及核心作者挖掘研究

      發布時間:2025-06-15 16:19:34   來源:作文大全    點擊:   
      字號:

      摘 要:對COMAP提供的18 000個合著者數據進行了網絡分析,并尋找出核心作者。首先通過統計函數COUNTIF對數據冗余進行處理,而后建立合著行為的人物關系網絡模型,尋找核心作者圈,通過中心度、緊密度等分析確定核心人物;而后進行群集分析,對合著者網絡分塊,找到重要群集,分析其中的核心人物;經過分析得出合著者中的重要核心人物。

      關鍵詞:核心作者;科研合作;合著網絡

      DOI:10.11907/rjdk.143504

      中圖分類號:TP391

      文獻標識碼:A     文章編號:1672-7800(2014)012-0141-03

      作者簡介:劉智鵬(1992-),男,四川成都人,重慶郵電大學軟件工程學院學生,研究方向為數據挖掘及計算機網絡。

      0 引言

      研究發現,欲建立一個基于超過18 000 條原始數據的Erdos1合著者網絡,首先需要進行數據處理,剔除無效數據,保留有效數據。無效數據是指Erdos1 文件中外界的人員關系,即與網絡相關性甚小的節點。本文建立了數據篩選模型,運用COUNTIF函數對原始數據進行預處理<sup>[1]</sup>,即計算出各節點的關聯次數,并從17 783個原始節點中剔除相關度小的無效節點。

      1 基于合著行為的人物關系網絡模型

      1.1 數據處理

      建立數據篩選模型,將數據進行有效化處理。由于數據材料中各合作者均有合著關系,且合作相關性至少為1,即每一著作者均至少與一人合著文章。用合作的相關度λ代表與其他著作者合作,λi=x表示第i位著作者與x個人合著過文章。x越大,表示該著作者影響力越大,當x≤2,稱之為(較)邊緣節點,在實際網絡模型中,邊緣節點對整個網絡影響不大,為便于處理,舍棄邊緣節點。

      運用COUNTIF函數對原始數據進行預處理。COUNTIF函數是Microsoft Excel中對指定區域符合指定條件的單元格計數的一個函數,其語法為:COUNTIF(range,criteria),其中Range參數是單元格區域,即范圍;Criteria參數是為確定哪些單元格計算在內的條件,其形式可以為數字、表達式或文本,即條件。

      將原始節點數據導入Excel表格,輸入函數:=COUNTIF(G:G,Gi) i=1,2,…,得出各節點相關度矩陣。為便于剔除無效節點,首先將各節點相關度矩陣可視化,畫出相關度矩陣散點圖以便于分析。由圖1可見,相關度甚小的節點對合著者網絡影響較小。為增強網絡可視性,將結果矩陣元素升序排列,并將相關度λi=x≤2的節點剔除,僅保留λi=x>2的節點,得到有效節點矩陣。

      1.2 基于合著行為的人物關系網絡模型建立

      將各合著者視為每一單獨節點,將合著關系視為連接曲線,運用圖論理論,在各節點間建立相關性,從而得出合著者網絡。合著網絡中存在核心成員與普通成員,網絡核心就是那些具有較高相關性的網絡節點,即具有較高影響力的著作者。

      這里,合著關系即為0—1關系,1代表有聯系,0代表無聯系。需要將所有的信息以矩陣形式輸入到網絡中,并用幾個定義的宏觀量來衡量網絡的密度特征,從而找出最核心的成員。

      人物關系的建立是基于合著行為的,如果一個人的相關系數越大,他的學術影響力就越大,所得人物關系網絡為1 387×1 387矩陣,這里的1 387是有效節點數。

      1.3 普遍性社交網絡構建

      (1)網絡建立。這里使用社群圖,用社群矩陣來表達相互關系。社群圖主要由點(代表行動者)和線(代表行動者之間的關系)構成。社群圖中的點集可以表示為:

      N=(n<sub>1</sub>,n<sub>2</sub>,...,ng)(1)

      一個群體成員之間的關系可以用一個由點和線連成的圖表示。

      (2)幾何量定義。對于社會網絡的研究除了考慮度、路徑、聚集度以外,還會考慮中介度、連通性、接近度等幾何量。這些幾何量的基本含義如下:

      節點度:節點 v∈V(G),則節點v的節點度d(v)=|{vj,,(v,vj)or(vj,v)∈E(G)}|

      這是描述網絡局部特性的基本參數,度分布函數反映了網絡系統的宏觀統計特征。理論上利用度分布可以計算出其它表征全局特性參數的量化數值。

      路徑:對于s,t∈V是一組邊和頂點的交替序列,開始于頂點s,結束于頂點t。每一個邊關聯它的前項和后項頂點,其中路徑中邊的個數稱為這條路徑的長度。從s到t所經歷的邊的數量最少的路徑,稱為從s到t的最短路徑,圖1是所有節點對間的平均最短路徑平均值,反映了網絡的尺寸,因此通常叫做網絡直徑。

      聚集度:設節點v有dv個鄰居,那么鄰居之間最多有Dy*(dy-1)/2條邊,聚集度等于鄰居間實際邊數除以m的商。聚集度描繪了表1中出現的小集團特性,無標度網絡的特征主要反映在聚集度上。

      中介度:反應了節點的影響能力。設頂點為v,σ表示從頂點s到t的最短路徑的個數, σ(v)表示頂點v從s到t的最短路徑中出現的個數,則節點v的中介度

      C=∑σvσ(2)

      緊密度:用C表示節點v的緊密度,則

      C=1∑dσ(v,t)(3)

      緊密度表示了節點傳播信息的能力。

      1.4 針對合著行為的網絡構建

      (1)網格分析。①網絡中的節點代表著作者,節點間的邊表示著作者之間的合著關系,如合著關系成立,則表示二者之間合作出版過刊物;②各節點在網絡中的作用或者“位置”基本不同,核心成員具有較多合著關系,在Erdos1網絡中具有一定的影響力,屬于網絡的少數;③由于合著關系錯綜復雜,彼此之間有著直接或間接的關聯,大的合著網絡往往由幾個子合著團組成,在整個集團中各子合著團起著不同的功能作用;④各網絡成員或合著團并不是孤立存在的,團伙間存在一些聯系和交互。

      (2)核心成員挖掘。通過合著行為來求整個團體的核心成員,采用中心度來衡量。中心度是在社會網絡中,一個行動者與其他很多行動者有直接聯系,該行動者就處在中心地位,即朋友越多,越顯示出節點的重要性??梢怨濣c的入度(度)表示點度中心度,即點度中心度可以衡量一個人在這個群體中的核心度,即所求的具有影響力的關鍵人物。

      (3)模型建立。中心度:根據實際情況,為便于計算,中心度采用聯系度與中介度的和與緊密度的比值:

      ds(v)=db(v)+d(v)dc(v)(4)

      (4)處理思路。通過得出的中心度大小進行排序,中心度大的著作者判定為核心成員,即所謂的具有影響力的關鍵人物。同時參考聯系度、緊密度、中介度等數值。

      1.5 針對合著行為的網絡構建軟件實現

      由于所處理的數據多且復雜,因此采用計算機處理。將篩選后的節點人物姓名按相關度從小至大的順序記為a<sub>1</sub>,a<sub>2</sub>...,輸入1 387個人之間的關系,得到1 387個人每個人的節點中心度,圖1是Ucinet得出的按節點中心度排序的前30名人物。

      圖1 節點中心度截圖

      1.6 數據分析

      首先采用節點中心度來判斷核心成員,得到a1387、a1382、a1386的節點中心度排在前3名,對應數據源的3名作者,可以認為他們是關鍵人物集團。

      2 基于分塊的任務網絡模型分析

      2.1 可視化顯示

      可視化顯示(個人關系網絡)如圖2所示。

      2.2 人物關系網絡中的群集行為

      結合以上給出的關鍵人物,為更好刻畫合著網絡結構,我們進一步探討人物關系網絡中的群集行為。

      合著網絡的子群是指在整個網絡中,因為學術相關及互補性,以及人物人際關系的集合圈定,為創作需要,一些著作者聚集在一起共同合著文章,其中必有第一作者,在此將第一作者成為子群的核心,從而構成一個有核心成員的子網絡<sup>[2]</sup>。合著網絡的子群(子團伙)是合著網絡的重要結構組成。

      2.3 塊的定義

      對于已有數據的處理,采用構建塊的方法。

      定義 1:一個塊模型是由如下兩項組成的:①把一個網絡中的各個行動者按照一定標準分成幾個離散的子集,稱這些子集為“位置”,也可稱之為“聚類”、“塊”;②考察每個位置之間是否存在關系。一個塊模型就是一種模型,或者一種關于多元關系網絡的假設,它提供的信息是關于各個位置(而不是每個行動者) 之間的關系,因而研究的是網絡總體特點。

      圖2 1 387個人的關系網絡

      定義2:個塊模型是把一個網絡N中的行動者分區,在各個位置存在一個對應法則θ,它把行動者分到各個位置之中,即如果行動者i處于位置B之中,則

      θ(i)=B(5)

      考察b表征位置Bk和B<sub>1</sub>在關系Xr上是否存在聯系,如果存在聯系,則b=1 ,否則為b=0。

      定義3:合著網絡塊模型定義:將合著網絡CN通信標識碼i依據其在合著網絡的信息流動中所扮演的角色,劃分成不同的合著子團伙B<sub>1</sub>,...Bk,并按照對應法則θ把i歸屬到各個子團伙之中。這里的對應法則θ是i與Bk的緊密度是否小于等于Bk內部節點緊密度的平均值。

      2.4 塊的構建

      合著網絡塊模型構建:①選取關于合著網絡子團伙劃分的方法,把各個合著成員劃分到各個子團伙中;②選取整個網絡的平均密度值α來確定各個塊的取值。

      2.5 軟件實現

      由于相對度較小的節點對各子群影響不大,為了便于處理,縮小測量方式,僅取λi=x>10的節點進行主要群集行為研究,并將處理后的數據人名記為b<sub>1</sub>,b<sub>2</sub>...。

      進行關系密度的計算,得到如圖3的關系密度矩陣,利用矩陣得到樹型結構圖。

      3 合著網絡影響力求證與結果檢驗

      結合以上數據分析發現,合著者網絡中有一個核心團

      隊,分別是b87、b86、b82,其中b87是核心人物,在Erdos1網絡中最具影響力,對照數據人物,知道b87是ALON  NOGA M。

      圖3 關系密度矩陣分布

      通過合著網絡模型,知道了ALON  NOGA M是網絡中的核心人物,利用Google學術搜索可以發現,“ALON  NOGA M.is the Professor of Mathematics and Computer Science, Tel Aviv University”, 在組合數學方面貢獻突出。

      找到他的諸多著名著作,如The Probabilistic Method, The space complexity of approximating the frequency moments,Eigenvalues and expanders and so on。其中最為著名的是The Probabilistic Method, 該文總被引用次數4 730次,另外,發現有諸多著作者與其有學術往來,其中相關性最大的是Michael Knvelevich。所以通過網絡分析得出的人物Noga Alon確實是學術、論文著作十分杰出的作者。

      4 結語

      目前,大數據、云計算推動了互聯網的發展,微博“郭美美事件”如何從炫富轉型為腐敗,“網絡反腐”信息在社交網絡人群中是通過哪些人物節點以何種方式進行傳播的,這都對網絡分析、節點關系的研究方式提出了挑戰。從最基礎的核心人物挖掘入手不斷深入此領域開展研究,前景廣闊。

      參考文獻:

      \[1\] PHILLIP BONACICH. Power and centrality:a family of measures[J].American Journal Of Sociology, 1986:1170-1182.

      [2] M   E  J  NEWMAN. Scientific collaboration networks II[J].Shortest paths, weighted networks, and centrality, Physical Review,2001,64-68.

      (責任編輯:杜能鋼)

      国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

      <ol id="ebnk9"></ol>