1 数据介绍

1.1 数据背景

该数据集来源于斯坦福大型网络数据集网站(http://snap.stanford.edu/data/ego-Facebook.html),由facebook的朋友列表组成,facebook上用户间的社交网络,共有节点数4039个,边缘数88233条。

1.2 数据预处理

本社交网络分析案例是基于R 语言程序实现的。原始数据为.txt文件,读入R语言中,展示如下:

建立社交网络关系图:

代码如下:

g <- graph.data.frame(facebook)#加载数据框jpeg(filename='facebook.jpg',width=2000,height=2000,units='px')#生成图片,大小是2000*2000px

plot(g,   

vertex.size=2, #节点大小

layout=layout.fruchterman.reingold, #布局方式

vertex.shape='circle', #带边框

vertex.label.cex=0.5, #节点字体大小

vertex.label.color='black', #节点字体颜色

edge.arrow.size=0) #连线的箭头的大小

dev.off() #关闭图形设备,将缓冲区中的数据写入文件

建立某个人的社交网络关系图,以其中某4个人为例:

建立某个用户的二层社交网络关系图:

同时建立某两个人的社交网络关系图:

根据联系人的多少决定节点的大小和色彩,连线设成弧线,如下图:

邻接矩阵即反映节点之间是否有连边的方形矩阵,维度为结点的个数,如果两个结点之间有连边,则矩阵中相应的位置为1,没有连边则为0。无向网络的邻接矩阵是对称矩阵,而有向网络的邻接矩阵是非对称矩阵。将数据转换成邻接矩阵如下:

代码如下:

g1<-graph.data.frame(as.matrix(facebook))

g2<-get.adjacency(g1,sparse=FALSE) ###转换为邻接矩阵

2 统计特征分析

2.1 网络基本属性

我们发现网络的网络的节点个数为4029,边条数为88233,为有向网络。网络密度用来形容网络的结构复杂程度,越大说明网络越复杂,网络越能够放在一块,facebook社交网络的网络密度为0.00540992,说明该网络不是很容易聚一块儿。该网络的直径为17,整个网络的平均距离为4.337746。

2.2 度分布

节点的度:度越大,该节点越重要,就facebook朋友间社交网络而言,度越大,表示与该用户相联系的用户越多。经计算,我们发现,最小的度为1,节点数为75,最大的度为1045,节点数为1。该facebook社交网络为有向网络,故又分为入度和出度。就入度而言,最小入度为2,节点数为1。最大入度为1134,节点数为5。就出度而言,最小出度为1,节点数为16,最大出度为1134,节点数为6。

度分布:

degree.distribution(g)

plot(degree.distribution(g))

入度与出度:

2.3 网络聚类系数

网络聚类系数可以衡量网络中关联性如何,值越大代表交互关系越大。说明网络越复杂,越能放在一块儿聚类。Facebook社交网络的网络聚类系数为0.5191893;网络的平均聚类系数为0.6169473;每个节点的聚类系数如下图(截取部分):

2.4 节点重要性

(1)点的中心度

用于描述在某个点上,有多少条线,强调某点单独的价值。

(截取部分如下):

(2)中间中心度

代表最短距离是否都经过该点,如果都经过说明这个点很重要,其中包括线的中心度。强调点在其他点之间调节能力,控制能力指数,中介调节效应。

点的中间中心度(截取部分如下):

线的中间中心度(截取部分如下):

(3)接近中心度

接近中心度,用于描述该点与网络中其他点距离之和的倒数,越大说明越在中心,越能够很快到达其他点,强调点在网络的价值。

截取部分如下:

(4)特征向量中心度

根据相邻点的重要性来衡量该点的价值。首先计算邻接矩阵,然后计算邻接矩阵的特征向量。强调点在网络的价值,并且比接近中心度厉害的是,点价值是根据近邻点来决定的。

截取部分如下:

(5)排序

将节点中心度、接近中心度、中间中心度、特征向量中心度排序如下:

我们发现,在facebook社交网络中,拥有低“特征向量中心度”和高“中间性”的人是很重要的联系人,而拥有高“特征向量中心度”和低“中间性”的人与重要的人有关联。

2.5社区结构

社群划分跟聚类差不多,社群内边密度要高于社群间边密度,社群内部连接相对紧密,各个社群之间连接相对稀疏。

1、 社区划分

上图图1为我们将社区划分为8个,图2为在划分完的社区中,社区成员1构成的网络关系图。

2、 基于随机游走的社区划分

随机游走,利用距离相似度,用合并层次聚类方法建立社群,其特点是运行时间短,但是效果不是特别好,也会出现某类巨多。从中我们可以看出facebook社交网络被划分为了68个社区。

从图中可以直观地看出好友网络已经被划分为若干相对独立的子群

查看不同子群中的成员如下,以其中两个子群为例:

查看起中介作用的好友,画出散点图如下:

3、 基于点连接的社区发现

点连接为某点与某社群有关系就是某社群的,通常社区划分效果最差,常常是某一大类超级多。对于该facebook社交网络来说,因其为有向图,所以分为强关联与弱关联,两点间有双向连线为强关联,有单向连线,则为弱关联。

3 链接预测

我选择的是基于邻居的相似度指标进行链路预测。

根据基于邻居的8种相似度链路预测算法的AUC值的对比,RA指标的AUC值在各种情况下都表现较优,因此选择RA指标来进行链路预测。

此处考虑最简单的情况,每一个起传递作用的中间节点都有一个单位资源,将资源等可能的分配给它所有邻居节点,因此相似度定义为:节点i从j接受到的资源总量(同样为节点j从i接收到的资源总量)。计算公式为:

算法过程:

(1)首先按照8:2的比例划分训练集和测试集,并得到训练集邻接矩阵和测试集邻接矩阵;

(2)得到未观测边集、测试边集和未存在边集;

(3)得到每个训练集中,节点的邻居节点;

(4)得到未观测边连接的两节点的公共邻居节点,并计算未观测边得分r,将得分按降序排序,取前10,即为尚未存在的边中可能会首先产生连接的10条边。

(5)评估精度(AUC),AUC值约为0.50。

附代码:

install.packages("igraph")

library(igraph)

library("Matrix")

demo(package="igraph") #查看igraph子项目

demo(package="igraph", community) #查看igraph子项目中community示例

facebook<-read.table("/Users/zhangyuhao/Desktop/facebook.txt",header = T)

g <- graph.data.frame(facebook)#加载数据框

head(facebook)#看数据表的前6行

tail(facebook)#看数据表的后6行

data1 = as.matrix(facebook)

g1<-graph.data.frame(as.matrix(facebook))

g2<-get.adjacency(g1,sparse=FALSE) ###转换为邻接矩阵

###建立社交网络图

jpeg(filename='facebook.jpg',width=2000,height=2000,units='px')#生成图片,大小是2000*2000px

plot(g,

    vertex.size=2, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=0.5, #节点字体大小

    vertex.label.color='black', #节点字体颜色

    edge.arrow.size=0) #连线的箭头的大小

#关闭图形设备,将缓冲区中的数据写入文件

dev.off()

####关系图中某人或某几个人的关系图

#某个人的关系图:

jpeg(filename='mem1_1.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=1)

plot(gn[[1]],

    vertex.size=5, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=2, #节点字体大小

    vertex.label.color='black', #节点字体颜色

    )

dev.off()


jpeg(filename='mem1_2.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=1)

plot(gn[[2]],

    vertex.size=5, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=2, #节点字体大小

    vertex.label.color='black', #节点字体颜色

)

dev.off()

jpeg(filename='mem1_100.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=1)

plot(gn[[100]],

    vertex.size=5, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=1, #节点字体大小

    vertex.label.color='black', #节点字体颜色

)

dev.off()

jpeg(filename='mem1_4039.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=1)

plot(gn[[4039]],

    vertex.size=5, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=2, #节点字体大小

    vertex.label.color='black', #节点字体颜色

)

dev.off()

#某个人的两层关系图:

jpeg(filename='mem2_2.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=2)

plot(gn[[2]],

    vertex.size=5, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=2, #节点字体大小

    vertex.label.color='black', #节点字体颜色

    vertex.label.color ='pink',

)

dev.off()

#某个人的两层关系图:

jpeg(filename='mem2_10.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=2)

plot(gn[[10]],

    vertex.size=5, #节点大小

    layout=layout.fruchterman.reingold, #布局方式

    vertex.shape='circle', #带边框

    vertex.label.cex=2, #节点字体大小

    vertex.label.color='black', #节点字体颜色

    )

dev.off()

#某两个人的关系图:

jpeg(filename='mem4.jpg',width=2000,height=2000,units='px')

gn<-graph.neighborhood(g, order=1)

plot(gn[[2]]+gn[[3]], layout=layout.fruchterman.reingold)

dev.off()

#根据联系人的多少决定节点的大小和色彩,连线设成弧线

source("http://michael.hahsler.net/SMU/ScientificCompR/code/map.R")

E(g)$curved <- 0.2 #将连线设成弧线,数值越大弧线越弯

jpeg(filename='mem5.jpg',width=2000,height=2000,units='px')

layout=layout.fruchterman.reingold

plot(g,

  layout=layout,

    vertex.size=map(degree(g),c(1,20)),

    vertex.color=map(degree(g),c(1,20)))

dev.off()

#####统计特征分析

###网络基本属性

V(g) #V(g)可以用来查看网络g的节点

E(g) #E(g)可以用来查看网络g的边

length(V(g)) #节点个数

length(E(g)) #边条数

is.igraph(g) #判断

is.directed(g) #判断是否有向图

graph.density(g) #网络密度

dm <- diameter(g)#计算网路的直径,即MAX(任意两个节点之间的最短路径)

dm

average.path.length(g)#计算整个网路的平均距离(任意两节点直接的最短路径的平均值)

clusters(g)$no#孤立点个数

edge.connectivity(g)

graph.adhesion(g)

reciprocity(g)

shortest.paths(g)#两点间的最短路径

###网络聚类系数

transitivity(g,type = "global") #网络的聚类系数

transitivity(g,type = "average") #网络的平均聚类系数

transitivity(g,type = "local") #每个节点的聚类系数

###度分布

degree<-degree(g,mode="all") #统计节点的度

table(degree)

degree.distribution(g)

plot(degree.distribution(g), xlab="node degree")

lines(degree.distribution(g))

degree(g,mode="in") #mode=in点入度;out=点出度;total点度中心度,三者统称绝对点中心度

degree(g,mode="out") #mode=in点入度;out=点出度;total点度中心度,三者统称绝对点中心度

degree(g,normalized = T) #相对点中心度=绝对点中心度/最大度数(可以作为不同网络结构的比较,相对数与绝对数的区别)

###节点的重要性

#- 拥有较高出/入度数的节点也拥有较高的“度中心性”

#- 与其他节点之间有短路径的节点拥有较高的“密集中心性”

#- 与其他节点对之间有最短路径的节点拥有较高的“中间性”

#- 连接了许多中心性较高节点的节点拥有较高的“特征向量中心性”

#- 本地簇系数意味着相邻节点的互联性

degree(g) #点的中心度

closeness(g)#接近中心度

betweenness(g,normalized = T) #点的中间中心度

edge.betweenness(g) #线的中间中心度

evcent(g)$vector #特征向量中心度

transitivity(g, type="local") #本地簇

order(degree(g))[1:10]

order(closeness(g))[1:10]

order(betweenness(g))[1:10]

order(evcent(g)$vector)[1:10]

order(degree(g),decreasing = T)[1:10]

order(closeness(g),decreasing = T)[1:10]

order(betweenness(g),decreasing = T)[1:10]

order(evcent(g)$vector,decreasing = T)[1:10]

###社区结构

#1、设定社区的数目

sg1 <- cluster_spinglass(g, spins=8, gamma=1.0) #spins是社区的数目

jpeg(filename='dolphins_commu9.jpg',width=800,height=800,units='px')

layout=layout.fruchterman.reingold

plot(g, layout=layout, vertex.size=5, vertex.color= rainbow(10, .8, .8, alpha=.8)[sg1$membership],)

dev.off()

#画出某一社区,画出上面社区中,membership为1的社区。

sg1 <- cluster_spinglass(g, spins=8, gamma=1.0)

jpeg(filename='mem10.jpg',width=2000,height=2000,units='px')

layout=layout.fruchterman.reingold

subg <- induced.subgraph(g, which(membership(sg1)==1))

plot(subg,

    layout=layout,

    vertex.size=5,

    vertex.color= 1,)

dev.off()

###2、基于随机游走的社会划分

com = walktrap.community(g, steps = 5)

sg = data.frame(name = com$names, sg = com$membership + 1)

subgroup = vector("list", length(unique(com$membership)))

for(i in 1:length(unique(com$mem))){

subgroup[[i]] = as.character(sg[sg[, 2]== i, 1])}

rm(i)

## subgroup

V(g)$sg = com$membership + 1

V(g)$color = rainbow(max(V(g)$sg))[V(g)$sg]

png("net_walktrap.jpg", width = 2000, height = 2000)

par(mar = c(0, 0, 0, 0))

set.seed(14)

plot(g, layout = layout.fruchterman.reingold,

    vertex.size = 5,

    vertex.color = V(g)$color,

    vertex.label = NA,

    edge.color = grey(0.5),

    edge.arrow.mode = "-")

dev.off()

subgroup[[9]]

subgroup[[2]]

V(g)$bte = betweenness(g, directed = F)

png("net_betweenness.png", width = 500, height = 500)

par(mar = c(0, 2, 0, 0))

plot(V(g)$bte)

dev.off()

#基于点连接的社群发现——clusters

clusters(g,mode="strong")

clusters(g,mode="weak")

###链接预测

###基于邻居的相似度指标——资源分配(RA)指标

#划分训练集和测试集

edge = matrix(0,nrow=88233,ncol=2,dimnames=list(c(1:88233),c("Source","Target")))

k=1

for(i in 1:length(data1[,1]))

{

for(j in i:length(data1[1,]))

{

  if(facebook[i,j]==1)

{

    edge[k,1]=i

    edge[k,2]=j

    k=k+1

}

}

}#得到边数据


v = length(data1[,1])

e = length(edge[,1])

set.seed(20181231)

sp = sample(2, nrow(facebook), replace = TRUE, prob=c(0.8, 0.2))

train_edge = as.data.frame(edge[sp == 1,])

test_edge = as.data.frame(edge[sp == 2,])

#转换为邻接矩阵形式

train = matrix(0,nrow=1000,ncol=1000,dimnames=list(c(1:1000),c(1:1000)))

test = matrix(0,nrow=1000,ncol=1000,dimnames=list(c(1:1000),c(1:1000)))

for(i in 1:length(train_edge[,1]))

{

train[train_edge[i,1],train_edge[i,2]]=1

}

for(i in 1:length(test_edge[,1]))

{

test[test_edge[i,1],test_edge[i,2]]=1

}

g_train = graph.adjacency(train,mode="undirected",weighted=T)

g_test = graph.adjacency(test,mode="undirected",weighted=T)

#未观测边集

train_edge = train_edge[order(train_edge[,1],train_edge[,2]),]

max = (v*(v-1))/2

row = max-length(train_edge[,1])

edge_no = matrix(0,nrow=row,ncol=2,dimnames=list(c(1:row),c("Source","Target")))

t=1

s=1

for(i in 1:v)

{

x = matrix(1:v,nrow=v,ncol=1)

for(j in 1:v)

{

  if(s<=length(train_edge[,1])&&train_edge[s,1]==i)

{

    x[train_edge[s,2],1]=0

    s=s+1

}

  else

    break

}

k=i+1

while(k<=v)

{

  if(x[k,1]!=0)

{

    edge_no[t,1] = i

    edge_no[t,2] = x[k,1]

    t=t+1

}

  k=k+1

}

}

rm(x)

#计算两点间的公共邻居结点及其度

degree_train = degree(g_train)

degree_train_each = as.data.frame(matrix(0,nrow=v,ncol=2,dimnames=list(c(1:v),c("Id","Degree"))))

for(i in 1:v)

{

degree_train_each[i,1]=i

degree_train_each[i,2]=degree_train[[i]]

}#得到训练集每个节点的度

#得到每个节点的邻居节点

naber = as.data.frame(matrix(0,nrow=max(degree),ncol=v,dimnames=list(c(1:max(degree)),c(1:v))))

for(i in 1:v)

{

k=1

for(j in 1:v)

{

  if(train[i,j]==1)

{

    naber[k,i]=j

    k=k+1

}

}

}

#得到未观测边连接的两节点的公共邻居节点,并计算未观测边得分r

r = as.data.frame(matrix(0,nrow=row,ncol=1))

edge_no = cbind(edge_no,r)

names(edge_no)=c("Source","Target","r")

for(i in 1:length(edge_no[,1]))

{

x = edge_no[i,1]

y = edge_no[i,2]

r=0

same = intersect(naber[,x],naber[,y])

if(same[1]==0)

  edge_no[i,3]=r

else

{

  for(k in 1:length(same))

{

    if(same[k]==0)

      break

    else

      if(degree_train_each[same[k],2]!=0)

        r=r+1/(degree_train_each[same[k],2])

}

  edge_no[i,3]=r

}

}

#排序

edge_no = edge_no[order(edge_no[,1],edge_no[,2]),]

Top10 = edge_no[order(edge_no[,3],decreasing=T),][1:10,]


####评估精度(AUC)

#计算测试边集中的边的得分

r = as.data.frame(matrix(0,nrow=length(test_edge[,1]),ncol=1))

test_edge = cbind(test_edge,r)

names(test_edge)=c("Source","Target","r")

i=1

j=1

while(i<=length(test_edge[,1])&&j<=length(edge_no[,1]))

{

if(edge_no[j,1]>test_edge[i,1])

  i=i+1

else

  if(edge_no[j,1]

    j=j+1

  else

    if(edge_no[j,2]>test_edge[i,2])

      i=i+1

    else

      if(edge_no[j,2]

        j=j+1

  else

      {

        test_edge[i,3]=edge_no[j,3]

        i=i+1

        j=j+1

      }

}


#计算未存在边集中的边的得分

#构建未存在边集

max = (v*(v-1))/2

row1 = max-length(edge[,1])

edge_not_exist = matrix(0,nrow=row1,ncol=2,dimnames=list(c(1:row1),c("Source","Target")))

t=1

s=1

for(i in 1:v)

{

x = matrix(1:v,nrow=v,ncol=1)

for(j in 1:v)

{

  if(s<=e&&edge[s,1]==i)

{

    x[edge[s,2],1]=0

    s=s+1

}

  else

    break

}

k=i+1

while(k<=v)

{

  if(x[k,1]!=0)

{

    edge_not_exist[t,1] = i

    edge_not_exist[t,2] = x[k,1]

    t=t+1

}

  k=k+1

}

}

rm(x)

r = as.data.frame(matrix(0,nrow=length(edge_not_exist[,1]),ncol=1))

edge_not_exist = cbind(edge_not_exist,r)

names(edge_not_exist)=c("Source","Target","r")

i=1

j=1

while(i<=length(edge_not_exist[,1])&&j<=length(edge_no[,1]))

{

if(edge_no[j,1]>edge_not_exist[i,1])

  i=i+1

else

  if(edge_no[j,1]

    j=j+1

  else

    if(edge_no[j,2]>edge_not_exist[i,2])

      i=i+1

    else

      if(edge_no[j,2]

        j=j+1

      else

      {

        edge_not_exist[i,3]=edge_no[j,3]

        i=i+1

        j=j+1

      }

}

#比较测试边集和未存在边集,得AUC

len1 = length(test_edge[,1])

len2 = length(edge_not_exist[,1])

down = len1*len2

n1 = 0

n0 = 0

for(i in 1:length(test_edge[,1]))

{

for(j in 1:length(edge_not_exist[,1]))

{

  if(test_edge[i,3]>edge_not_exist[j,3])

    n1=n1+1

  if(test_edge[i,3]==edge_not_exist[j,3])

    n0=n0+1

}

}

AUC = (n1+0.5*n0)/down