computermacgyver/twitter_analysis.R

## twitter_analysis.R
#!/usr/bin/R

# Main analysis for "Global Connectivity and Multilinguals in the Twitter Network"
# paper. See http://www.scotthale.net/pubs/?chi2014 for details.
#
# Author: Scott A. Hale (http://www.scotthale.net/)
# License: GPLv2
# If you use this in support of an academic publication, please cite:
#
#    Hale, S. A. (2014) Global Connectivity and Multilinguals in the Twitter Network.
#    In Proceedings of the 2014 ACM Annual Conference on Human Factors in Computing Systems,
#    ACM (Montreal, Canada).
#
# More details, related code, and the original academic paper using this code
# is available at http://www.scotthale.net/pubs/?chi2014
#
# Requires density_functions.R available at https://gist.github.com/computermacgyver/8416453


library(igraph)
library(ggplot2)
library(scales)
library(gridExtra)
library(plyr)

library(parallel)
library(foreach)
library(doParallel)

source("density_functions.R") #This file available at https://gist.github.com/computermacgyver/8416453

#if non-interactive and --save flag use the following to save the enviornment before quitting on an error
#options(error = quote(q("yes")))

NUM.CORES<-5
NUM.RUNS<-100

if (NUM.RUNS<NUM.CORES) {
	NUM.CORES<-NUM.RUNS#Only use one core if we are running only once
}

#TODO: Consider average time between tweets -- remove lowest quartile as bots (?)
#TODO: Combine Indonesian and Malay together!

g<-read.graph("../../hadoop-twitter/graph_ge4_ge2-20_clean-msin_anon.graphml",format="graphml")
components<-decompose.graph(g,mode="weak", min.vertices = 100)
gLCC<-components[[1]]

rm(g)

pngWidth<-800
pngHeight<-700
svgWidth<-8
svgHeight<-8

summary(V(gLCC)$tweetCount)
# summary(V(gLCC)$tweetCount)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
#  1.000   1.000   2.000   3.615   4.000 343.000


#Filter to require at least one *in* edge
V(gLCC)$inDegree<-degree(gLCC, mode = "in")
summary(V(gLCC)$inDegree)

gMin5<-induced.subgraph(gLCC,which(V(gLCC)$inDegree>0 & V(gLCC)$tweetCountAdj>0 & V(gLCC)$tweetCount>=4))
components<-decompose.graph(gMin5,mode="weak", min.vertices = 100)
gMin5LCC<-components[[1]]

#rm(gLCC)
rm(gMin5)

#clusters<-edge.betweenness.community(gMin5LCC)
#sizes(clusters)
summary(gMin5LCC)
gMin5LCC<-simplify(gMin5LCC,remove.loops=TRUE,remove.multiple=TRUE,edge.attr.comb="sum")
summary(gMin5LCC)
gMin5LCCUndirected<-as.undirected(gMin5LCC, mode = "collapse")
summary(gMin5LCCUndirected)


summary(V(gMin5LCCUndirected)$majLangPercentAdj)
length(V(gMin5LCCUndirected)$majLangPercentAdj)
length(V(gMin5LCCUndirected)$majLangPercentAdj[V(gMin5LCCUndirected)$majLangPercentAdj==1])
length(V(gMin5LCCUndirected)$majLangPercentAdj[V(gMin5LCCUndirected)$majLangPercentAdj!=1])
length(V(gMin5LCCUndirected)$majLangPercentAdj[V(gMin5LCCUndirected)$majLangPercentAdj!=1])/length(V(gMin5LCCUndirected)$majLangPercentAdj)

##############################
##	Summary	##
###############################


write.graph(gMin5LCC,"edges.list",format="edgelist")
write(V(gMin5LCC)$majLangAdj,"langclean.txt")
write.csv(V(gMin5LCC)$label,"usernames.txt",row.names=FALSE)#Untested

V(gMin5LCC)$inDegree<-degree(gMin5LCC, mode = "in")
V(gMin5LCC)$outDegree<-degree(gMin5LCC, mode = "out")
V(gMin5LCC)$constraint<-constraint(gMin5LCC)
#V(gMin5LCC)$betweenness<-betweenness(gMin5LCC)
V(gMin5LCC)$multilingual[V(gMin5LCC)$majLangPercentAdj!=1]<-"Multilingual"
V(gMin5LCC)$multilingual[V(gMin5LCC)$majLangPercentAdj==1]<-"Monolingual"
#V(gMin5LCCUndirected)$multilingual<-as.factor(V(gMin5LCCUndirected)$multilingual)
table(V(gMin5LCC)$multilingual)
length(V(gMin5LCC)$multilingual)


sumStats<-data.frame(multilingual=V(gMin5LCC)$multilingual,
	tweetCount=V(gMin5LCC)$tweetCountAdj,
	inDegree=V(gMin5LCC)$inDegree,
	outDegree=V(gMin5LCC)$outDegree,
	majLangCount=V(gMin5LCC)$majLangCountAdj,
	constraint=V(gMin5LCC)$constraint#,betweenness=V(gMin5LCC)$betweenness
)


#TODO: Remove outliers?
svg("tweetCount.svg",width=4,height=4)
plot <- ggplot(sumStats,aes(x=multilingual,y=tweetCount))
plot <- plot + geom_boxplot() + scale_y_log10("Number of tweets")
plot <- plot + scale_x_discrete("") + theme_bw()
plot
dev.off()

svg("inDegree.svg",width=4,height=4)
plot <- ggplot(sumStats,aes(x=multilingual,y=inDegree))
plot <- plot + geom_boxplot() + scale_y_log10("In-degree")
plot <- plot + scale_x_discrete("") + theme_bw()
plot
dev.off()

svg("outDegree.svg",width=4,height=4)
plot <- ggplot(sumStats,aes(x=multilingual,y=outDegree))
plot <- plot + geom_boxplot() + scale_y_log10("Out-degree")
plot <- plot + scale_x_discrete("") + theme_bw()
plot
dev.off()

svg("majLangCount.svg",width=4,height=4)
plot <- ggplot(sumStats,aes(x=multilingual,y=majLangCount))
plot <- plot + geom_boxplot() + scale_y_log10("Number of tweets in majority language")
plot <- plot + scale_x_discrete("") + theme_bw()
plot
dev.off()

ggplot(sumStats,aes(x=tweetCount,color=multilingual)) + geom_density() + scale_x_log10()

#TODO: Different linetypes for split variable??? (e.g., dashed for mono, solid for multi)

pTweetCount<-density.log(sumStats,"tweetCount","multilingual",n=2048,adjust=8,title="Number of tweets")

pIndegree<-density.log(sumStats,"inDegree","multilingual",n=2048,adjust=8,title="In-degree/visibility")

pOutdegree<-density.log(sumStats,"outDegree","multilingual",n=2048,adjust=8,title="Out-degree/reach")

pConstraint<-density.log(sumStats,"constraint","multilingual",n=2048,adjust=8,title="Burt's constraint")

#pBetweenness<-density.log(sumStats,"betweenness","multilingual",n=2048,adjust=8,title="Betweenness")

tmp <- ggplot_gtable(ggplot_build(pTweetCount$plot))
leg <- which(sapply(tmp$grobs, function(x) x$name) == "guide-box")
leg <- tmp$grobs[[leg]]
lheight <- sum(leg$height)

svg("introSummary2.svg",width=12,height=5)
grid.arrange(
	pTweetCount$plot+theme(legend.position="none")+scale_x_log10("Number of tweets",
			breaks = c(1,10,100),
			labels = trans_format("log10", math_format(10^.x))),
	pOutdegree$plot+theme(legend.position="none")+scale_x_log10("Out-degree/reach",
			breaks = c(1,10,100),
			labels = trans_format("log10", math_format(10^.x))),
	pIndegree$plot+theme(legend.position="none")+scale_x_log10("In-degree/visibility",
			breaks = c(1,10,100,1000,10000),
			labels = trans_format("log10", math_format(10^.x))),
	#Row 2
	textGrob(""), leg, ncol=3,ncol=1,heights=unit.c(unit(1, "npc") - lheight, lheight)
)
dev.off()


svg("introSummary.svg",width=12,height=5)
grid.arrange(
	pTweetCount$plot+theme(legend.position="none"),
	pOutdegree$plot+theme(legend.position="none"),
	pIndegree$plot+theme(legend.position="none"),
	#Row 2
	textGrob(""), leg, ncol=3,ncol=1,heights=unit.c(unit(1, "npc") - lheight, lheight)
)
dev.off()


#plot <- ggplot(subset(sumStats,tweetCount>=4),aes(x=tweetCount,y=inDegree,group=multilingual,color=multilingual))
#plot <- plot + geom_point() + scale_y_log10("Number of tweets in majority language")
#plot <- plot + scale_x_log10("") + theme_bw()

#plot <- ggplot(subset(sumStats,multilingual=="Multilingual"),aes(x=majLangPercent)) + geom_hist()

summary(sumStats$tweetCount[sumStats$multilingual=="Monolingual"])
sd(sumStats$tweetCount[sumStats$multilingual=="Monolingual"])
summary(sumStats$tweetCount[sumStats$multilingual=="Multilingual"])
sd(sumStats$tweetCount[sumStats$multilingual=="Multilingual"])

t.test(sumStats$tweetCount[sumStats$multilingual=="Monolingual"],sumStats$tweetCount[sumStats$multilingual=="Multilingual"])
wilcox.test(sumStats$tweetCount~sumStats$multilingual)
kruskal.test(sumStats$tweetCount~sumStats$multilingual)

summary(sumStats$outDegree[sumStats$multilingual=="Monolingual"])
sd(sumStats$outDegree[sumStats$multilingual=="Monolingual"])
summary(sumStats$outDegree[sumStats$multilingual=="Multilingual"])
sd(sumStats$outDegree[sumStats$multilingual=="Multilingual"])

t.test(sumStats$outDegree[sumStats$multilingual=="Monolingual"],sumStats$outDegree[sumStats$multilingual=="Multilingual"])
wilcox.test(sumStats$outDegree~sumStats$multilingual)
kruskal.test(sumStats$outDegree~sumStats$multilingual)


summary(sumStats$inDegree[sumStats$multilingual=="Monolingual"])
sd(sumStats$inDegree[sumStats$multilingual=="Monolingual"])
summary(sumStats$inDegree[sumStats$multilingual=="Multilingual"])
sd(sumStats$inDegree[sumStats$multilingual=="Multilingual"])

t.test(sumStats$inDegree[sumStats$multilingual=="Monolingual"],sumStats$inDegree[sumStats$multilingual=="Multilingual"])
wilcox.test(sumStats$inDegree~sumStats$multilingual)
kruskal.test(sumStats$inDegree~sumStats$multilingual)


summary(sumStats$constraint[sumStats$multilingual=="Monolingual"])
summary(sumStats$constraint[sumStats$multilingual=="Multilingual"])

#summary(sumStats$betweenness[sumStats$multilingual=="Monolingual"])
#summary(sumStats$betweenness[sumStats$multilingual=="Multilingual"])


########################
##		Node removal -- This analysis is not included in the published paper. See Node removal simple.
########################

#see games.c
#gRand<-rewire(gMin5LCCUndirected,mode="simple",niter=1000)
#OR

#Copy majLangPercentRank across based on degreeRank


#V(gMin5LCCUndirected)$degreeRank<-rank(V(gMin5LCCUndirected)$degree,ties.method="random")
#V(gRand)$degree<-degree(gRand)
#V(gRand)$degreeRank<-rank(V(gRand)$degree,ties.method="random")
#ranks<-V(gMin5LCCUndirected)$majLangPercentRank[order(V(gMin5LCCUndirected)$degreeRank)]
#V(gRand)$majLangPercentRank<-ranks[order(V(gRand)$degreeRank)]


V(gMin5LCCUndirected)$multilingual[V(gMin5LCCUndirected)$majLangPercentAdj!=1]<-"Multilingual"
V(gMin5LCCUndirected)$multilingual[V(gMin5LCCUndirected)$majLangPercentAdj==1]<-"Monolingual"


#TODO: Consider comparing to attack algorithm -- e.g. remove most central nodes first (by k-cores?)
#	Betweenness centrality does not work as  it changes as nodes are removed
#	Could consdier comparing to removing highest degree first -- Did this (I think): multilinguals created less components than highest degree first
runNodeRemoval <- function(vals) {
	# as many rows & cols as needed; don't know levels yet
	GRAPHSIZE<-length(V(gMin5LCCUndirected))
	#vals<-seq(0.01,0.99,0.03)#c(.01,.02,.03,.04,.05,.06,.07,.08,.09,.1,.2,.3,.4,.5,.6,.7,.8,.9)
	#vals<-seq(0.01,0.1,0.005)
	N <- length(vals)*3
	df <- data.frame(val=rep(NA, N), components=rep(NA, N), lccSize=rep(NA, N), avgSize=rep(NA, N), constraint=rep(NA, N), numEdges=rep(NA,N), numNodes=rep(NA,N), method=rep("", N), stringsAsFactors=FALSE)

	i<-0

	#Multilinguals first
	for (x in vals) {
		print(x)
		y<-x*GRAPHSIZE
		tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangPercentRank>=y)
		#print(summary(tmp))
		#clusters<-fastgreedy.community(tmp)
		components<-clusters(tmp,mode="weak")
		#print(components$no)
		m<-max(components$csize)
		i<-i+1
		df[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "multiFirst")
	}


	#Monolinguals first
	for (x in vals) {
		print(x)
		y<-(1-x)*GRAPHSIZE
		tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangPercentRank<=y)
		#print(summary(tmp))
		#clusters<-fastgreedy.community(tmp)
		components<-clusters(tmp,mode="weak")
		#print(components$no)
		m<-max(components$csize)
		i<-i+1
		df[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "monoFirst")
	}


	#Randomly permute majLangPercent and repeat the above
	V(gMin5LCCUndirected)$permuted<-sample(V(gMin5LCCUndirected)$majLangPercentRank)
	for (x in vals) {
		print(x)
		y<-x*GRAPHSIZE
		tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$permuted>=y)
		#print(summary(tmp))
		components<-clusters(tmp,mode="weak")
		#print(components$no)
		m<-max(components$csize)
		i<-i+1
		df[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "random")
	}

	#Compare to gRand
	for (x in vals) {
		print(x)
		y<-x*GRAPHSIZE
		tmp<-induced.subgraph(gRand,V(gRand)$majLangPercentRank>=y)
		#print(summary(tmp))
		#clusters<-fastgreedy.community(tmp)
		components<-clusters(tmp,mode="weak")
		#print(components$no)
		m<-max(components$csize)
		i<-i+1
		df[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "random-rewire")
	}

	#High degree first
	#V(gMin5LCCUndirected)$permuted<-sample(V(gMin5LCCUndirected)$majLangPercentRank)
	#for (x in vals) {
	#	print(x)
	#	y<-x*GRAPHSIZE
	#	tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$degreeRank>=y)
	#	print(summary(tmp))
	#	components<-clusters(tmp,mode="weak")
	#	print(components$no)
	#	m<-max(components$csize)
	#	i<-i+1
	#	df[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), "highFirst")
	#}

	return(df)
}

if (NUM.CORES>1) {
	cl <- makeCluster(NUM.CORES)
	registerDoParallel(cl, cores = NUM.CORES)
}

dfAvg <- foreach(run = 1:NUM.RUNS, .packages = c("igraph"),
       .combine = rbind) %dopar% {

	print(paste0("Run: ",run))
	GRAPHSIZE<-length(V(gMin5LCCUndirected))
	V(gMin5LCCUndirected)$degree<-degree(gMin5LCCUndirected, mode = "all")
	V(gMin5LCCUndirected)$majLangPercentRank<-rank(V(gMin5LCCUndirected)$majLangPercentAdj,ties.method="random")

	gRand<-degree.sequence.game(degree(gMin5LCCUndirected),method="vl")
	V(gRand)$majLangPercentRank<-V(gMin5LCCUndirected)$majLangPercentRank

	df<-runNodeRemoval(seq(0.01,0.99,0.01))
	df$edgesRemoved<-ecount(gMin5LCCUndirected)-as.numeric(df$numEdges)

	write.csv(df,paste0("output_df_randomOrder_withCounts_",run,".csv"))

	return(df)
}

warnings()

if (NUM.CORES>1) {
	stopCluster(cl)
}


tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$multilingual=="Monolingual")
1-ecount(tmp)/ecount(gMin5LCCUndirected)

tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangPercentAdj>=.6)
1-ecount(tmp)/ecount(gMin5LCCUndirected)

sum(V(gMin5LCCUndirected)$multilingual=="Multilingual")/vcount(gMin5LCCUndirected)
sum(V(gMin5LCCUndirected)$majLangPercentAdj<.6)/vcount(gMin5LCCUndirected)
#dfZoom<-runNodeRemoval(seq(0.01,0.2,0.01))
#write.csv(dfZoom,"output_dfZoom.csv")

#df<-read.csv("output2.csv")
df<-dfAvg
df$val<-as.numeric(df$val)
df$components<-as.numeric(df$components)
df$lccSize<-as.numeric(df$lccSize)
df$avgSize<-as.numeric(df$avgSize)
df$constraint<-as.numeric(df$constraint)
df$numEdges<-as.numeric(df$numEdges)
df$numNodes<-as.numeric(df$numNodes)
df$edgesRemoved<-as.numeric(df$edgesRemoved)

df<-ddply(df,.(val,method),summarize,
	components=mean(components),lccSize=mean(lccSize),
	avgSize=mean(avgSize),constraint=mean(constraint),
	numEdges=mean(numEdges),numNodes=mean(numNodes),edgesRemoved=mean(edgesRemoved))
write.csv(df,"output_df_randomOrder_withCounts_avg100.csv")

png("no_components.png",width=pngWidth,height=pngHeight)
plot<-ggplot(df,aes(x=val,y=components,color=method,group=method))
plot<-plot + geom_line() + scale_color_brewer(type="qual") + scale_x_continuous(labels=percent)
plot
dev.off()

png("lccSize.png",width=pngWidth,height=pngHeight)
plot<-ggplot(df,aes(x=val,y=lccSize,color=method,group=method))
plot<-plot + geom_line() + scale_color_brewer(type="qual") + scale_x_continuous(labels=percent)
plot
dev.off()

png("avgSize.png",width=pngWidth,height=pngHeight)
plot<-ggplot(df,aes(x=val,y=avgSize,color=method,group=method))
plot<-plot + geom_line() + scale_color_brewer(type="qual") + scale_x_continuous(labels=percent)
plot
dev.off()

png("constraint.png",width=pngWidth,height=pngHeight)
plot<-ggplot(df,aes(x=val,y=constraint,color=method,group=method))
plot<-plot + geom_line()
plot
dev.off()

########################
##		Node removal simple -- This is included
########################

runNodeRemovalSimple <- function(gMin5LCCUndirected,gRand) {

	nodesToRemove<-length(V(gMin5LCCUndirected)[V(gMin5LCCUndirected)$majLangPercentAdj<1])

	GRAPHSIZE<-length(V(gMin5LCCUndirected))
	N <- 4
	df <- data.frame(components=rep(NA, N), lccSize=rep(NA, N), avgSize=rep(NA, N), constraint=rep(NA, N), numEdges=rep(NA,N), numNodes=rep(NA,N), method=rep("", N), stringsAsFactors=FALSE)

	i<-0

	print("Multilinguals (all removed)")
	tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangPercentAdj==1)
	components<-clusters(tmp,mode="weak")
	m<-max(components$csize)
	i<-i+1
	df[i, ] <- list(components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "multi")


	print("Monolinguals (random subset)")
	tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangPercentRank<=(GRAPHSIZE-nodesToRemove))
	components<-clusters(tmp,mode="weak")
	m<-max(components$csize)
	i<-i+1
	df[i, ] <- list(components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "mono")


	#Randomly permute majLangPercent and repeat the above
	V(gMin5LCCUndirected)$permuted<-sample(V(gMin5LCCUndirected)$majLangPercentRank)
	print("Random subset")
	tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$permuted>nodesToRemove)
	components<-clusters(tmp,mode="weak")
	m<-max(components$csize)
	i<-i+1
	df[i, ] <- list(components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "random")


	print("Multilinguals (all, edge rewiring)")
	tmp<-induced.subgraph(gRand,V(gRand)$majLangPercentAdj==1)
	components<-clusters(tmp,mode="weak")
	m<-max(components$csize)
	i<-i+1
	df[i, ] <- list(components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "multiRewire")

	print("Highest degree subset")
	tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$degreeRank>nodesToRemove)
	components<-clusters(tmp,mode="weak")
	m<-max(components$csize)
	i<-i+1
	df[i, ] <- list(components$no, m, mean(components$csize[components$csize!=m]), mean(constraint(tmp),na.rm = TRUE), ecount(tmp), vcount(tmp), "highDegree")

	return(df)
}

if (NUM.CORES>1) {
	cl <- makeCluster(NUM.CORES)
	registerDoParallel(cl, cores = NUM.CORES)
}

dfNodeRemoval <- foreach(run = 1:NUM.RUNS, .packages = c("igraph"),
       .combine = rbind) %dopar% {

	print(paste0("Run: ",run))
	GRAPHSIZE<-length(V(gMin5LCCUndirected))
	V(gMin5LCCUndirected)$degree<-degree(gMin5LCCUndirected, mode = "all")
	V(gMin5LCCUndirected)$degreeRank<-GRAPHSIZE-rank(V(gMin5LCCUndirected)$degree,ties.method="random")
	V(gMin5LCCUndirected)$majLangPercentRank<-rank(V(gMin5LCCUndirected)$majLangPercentAdj,ties.method="random")

	gRand<-degree.sequence.game(degree(gMin5LCCUndirected),method="vl")
	V(gRand)$majLangPercentRank<-V(gMin5LCCUndirected)$majLangPercentRank
	V(gRand)$majLangPercentAdj<-V(gMin5LCCUndirected)$majLangPercentAdj

	df<-runNodeRemovalSimple(gMin5LCCUndirected,gRand)

	df$edgesRemoved<-ecount(gMin5LCCUndirected)-as.numeric(df$numEdges)
	df$run<-run

	write.csv(df,paste0("output_dfNodeRemovalSimple_",run,".csv"))

	return(df)
}

write.csv(dfNodeRemoval,"dfNodeRemovalSimple.csv")

warnings()

if (NUM.CORES>1) {
	stopCluster(cl)
}

conf95<-function(df,var) {
	m<-mean(df[,var])
	s<-sd(df[,var])

	tmp<-data.frame(
		m,
		s,
		m+(1.96*s),
		m-(1.96*s),
		max(df[,var]),
		min(df[,var])
	)
	eval(names(tmp)<-c(
		paste0(var,"Mean"),paste0(var,"SD"),
		paste0(var,"95Max"),paste0(var,"95Min"),
		paste0(var,"Max"),paste0(var,"Min")
	))
	return(tmp)
}


meanSD<-function(df) {
	tmp<-data.frame(
	lccSize=mean(df$lccSize),lccSizeSD=sd(df$lccSize),
	avgSize=mean(df$avgSize),avgSizeSD=sd(df$avgSize),
	components=mean(df$components),componentsSD=sd(df$components)
	)
	lccSize<-conf95(df,"lccSize")
	avgSize<-conf95(df,"avgSize")
	components<-conf95(df,"components")
	#print(tmp)
	return(cbind(lccSize,avgSize,components))
}

#dfNodeRemoval<-read.csv("dfNodeRemovalSimple.csv")

dfNodeRemovalAvg<-ddply(dfNodeRemoval,.(method),meanSD)
dfNodeRemovalAvg

dfNodeRemovalAvg<-subset(dfNodeRemovalAvg,method!="highDegree")

#bar chart
ggplot(dfNodeRemovalAvg,aes(x=method,y=componentsMean)) + geom_bar(stat="identity",alpha=0.75) + geom_errorbar(aes(ymax=components95Max,ymin=components95Min)) + theme_bw()

ggplot(dfNodeRemovalAvg,aes(x=method,y=lccSizeMean)) + geom_bar(stat="identity",alpha=0.75) + geom_errorbar(aes(ymax=lccSize95Max,ymin=lccSize95Min)) + theme_bw()

ggplot(dfNodeRemovalAvg,aes(x=method,y=avgSizeMean)) + geom_bar(stat="identity",alpha=0.75) + geom_errorbar(aes(ymax=avgSize95Max,ymin=avgSize95Min)) + theme_bw()

#boxplots
dfNodeRemoval<-subset(dfNodeRemoval,method!="highDegree")

dfNodeRemoval$label<-factor(dfNodeRemoval$method,levels=c("multi","mono","random","multiRewire"),labels=c("Multilinguals","\nMonolinguals","Random","\nMultilinguals\n(edges rewired)"))

dfNodeRemovalAvg$label<-factor(dfNodeRemovalAvg$method,levels=c("multi","mono","random","multiRewire"),labels=c("Multilinguals","\nMonolinguals","Random","\nMultilinguals\n(edges rewired)"))

#xscale<-scale_x_discrete("",
#	breaks=c("multi","mono","multiRewire","random"),
#	labels=c("Multilinguals","\nMonolinguals","\nMultilinguals\n(Edges rewired)","Random")
#)

xscale<-scale_x_discrete("")

cPlot<-ggplot(dfNodeRemoval,aes(x=label,y=components))+geom_boxplot()+theme_bw()
cPlot<-cPlot+xscale+scale_y_continuous("Number of components",labels=comma)
cPlot<-cPlot+geom_point(data=dfNodeRemovalAvg,aes(x=label,y=componentsMean),shape=3)#3=+, 4=*

lccPlot<-ggplot(dfNodeRemoval,aes(x=label,y=lccSize))+geom_boxplot()+theme_bw()
lccPlot<-lccPlot+xscale+scale_y_continuous("Size of LCC",labels=comma)
lccPlot<-lccPlot+geom_point(data=dfNodeRemovalAvg,aes(x=label,y=lccSizeMean),shape=3)

avgPlot<-ggplot(dfNodeRemoval,aes(x=label,y=avgSize))+geom_boxplot()+theme_bw()
avgPlot<-avgPlot+xscale+scale_y_continuous("Average component size (not including LCC)",labels=comma)
avgPlot<-avgPlot+geom_point(data=dfNodeRemovalAvg,aes(x=label,y=avgSizeMean),shape=3)

svg("nodeRemovalSimple.svg",width=12,height=5)
	grid.arrange(lccPlot,cPlot,avgPlot,nrow=1,ncol=3)
dev.off()

#Addl -- compare % left in LCC to having removed all speakers of a given language (dfRemoveLangs)
nodesToRemove<-length(V(gMin5LCCUndirected)[V(gMin5LCCUndirected)$majLangPercentAdj<1])
dfNodeRemovalAvg$lccPercent<-1-(dfNodeRemovalAvg$lccSizeMean/(length(V(gMin5LCC))-nodesToRemove))
dfNodeRemovalAvg[,c("method","lccPercent")]
dfRemoveLangs[dfRemoveLangs=="en","lccFrac"]


###############################
## Language analysis - remove nodes from one language at a time
##############################


#\label{tbl:topLangs}
#TOP Langs: Table tbl:topLangs
sort(table(V(gMin5LCCUndirected)$majLangAdj))
langs<-c("en","ja","pt","ms","es","nl","ko","th")

#Avg. tweets per lang
dfTmp<-data.frame(majLangAdj=V(gMin5LCCUndirected)$majLangAdj,tweetCount=V(gMin5LCCUndirected)$tweetCount)
dfTmp<-ddply(dfTmp,.(majLangAdj),summarize,meanTweets=round(mean(tweetCount),2),tweetSD=round(sd(tweetCount),2),tweetMin=min(tweetCount),tweetMax=max(tweetCount),tweetMed=median(tweetCount),sumTweets=sum(tweetCount),numUsers=length(tweetCount))
dfTmp[order(dfTmp$numUsers,decreasing=TRUE),c("majLangAdj","numUsers","meanTweets","tweetSD","tweetMin","tweetMax","tweetMed")]
print(dfTmp[order(dfTmp$numUsers,decreasing=TRUE),c("majLangAdj","numUsers","meanTweets","tweetSD")],row.names=FALSE)

GRAPHSIZE<-length(V(gMin5LCCUndirected))
vals<-seq(0.01,0.3,0.01)
N <- length(vals)*(length(langs)+1)


if (NUM.CORES>1) {
	cl <- makeCluster(NUM.CORES)
	registerDoParallel(cl, cores = NUM.CORES)
}

dfLang100 <- foreach(run = 1:NUM.RUNS, .packages = c("igraph"),
       .combine = rbind) %dopar% {


	dfLang <- data.frame(val=rep(NA, N), components=rep(NA, N), lccSize=rep(NA, N), avgSize=rep(NA, N), lang=rep("", N),stringsAsFactors=FALSE)
	i<-0

	print(paste0("Run: ",run))
	V(gMin5LCCUndirected)$majLangPercentRank<-rank(V(gMin5LCCUndirected)$majLangPercentAdj,ties.method="random")
	V(gMin5LCCUndirected)$majLangPercentRankRev<-GRAPHSIZE-V(gMin5LCCUndirected)$majLangPercentRank
	for (lang in langs) {
		ranks<-sort(V(gMin5LCCUndirected)$majLangPercentRankRev[V(gMin5LCCUndirected)$majLangAdj==lang])
		for (x in vals)  {
			print(paste(lang,x))
			y<-x*GRAPHSIZE
			y<-ranks[min(y,length(ranks))]
			tmp<-induced.subgraph(gMin5LCCUndirected,
				V(gMin5LCCUndirected)$majLangAdj!=lang | V(gMin5LCCUndirected)$majLangPercentRankRev>=y)
			#print(summary(tmp))
			components<-clusters(tmp,mode="weak")
			#print(components$no)
			m<-max(components$csize)
			i<-i+1
			dfLang[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), lang)
		}
	}

	#Randomly permute majLangPercentRev and repeat the above
	V(gMin5LCCUndirected)$permuted<-sample(V(gMin5LCCUndirected)$majLangPercentRankRev)
	for (x in vals)  {
		print(paste("random",x))
		y<-x*GRAPHSIZE
		tmp<-induced.subgraph(gMin5LCCUndirected,
			V(gMin5LCCUndirected)$permuted>=y)
		#print(summary(tmp))
		components<-clusters(tmp,mode="weak")
		#print(components$no)
		m<-max(components$csize)
		i<-i+1
		dfLang[i, ] <- c(x, components$no, m, mean(components$csize[components$csize!=m]), "random")
	}
	write.csv(dfLang,paste0("dfLang_run_",run,".csv"))
	return(dfLang)
}

dfLang<-dfLang100
dfLang$val<-as.numeric(dfLang$val)
dfLang$components<-as.numeric(dfLang$components)
dfLang$lccSize<-as.numeric(dfLang$lccSize)
dfLang$avgSize<-as.numeric(dfLang$avgSize)

write.csv(dfLang,"dfLangAllRuns.csv")

dfLang<-ddply(dfLang,.(val,lang),summarize,
	components=mean(components),lccSize=mean(lccSize),
	avgSize=mean(avgSize))

write.csv(dfLang,"dfLang_avg100.csv")

warnings()

if (NUM.CORES>1) {
	stopCluster(cl)
}


#scale_color_brewer(type="qual")

dfLang<-subset(dfLang,lang %in% langs)
dfLang$lang[dfLang$lang=="random"]<-"Random"

svg("lang_no_components.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(dfLang,aes(x=val,y=components,color=lang,group=lang))
plot<-plot + geom_point() + geom_line(size=1) + scale_color_discrete("Language")#,type="qual")
plot<-plot + scale_x_continuous('% of users removed',labels=percent)
plot<-plot + scale_y_continuous("Number of components",labels=comma)
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
plot<-plot + geom_text(aes(x=.31,y=components,color=lang,label=lang),data=subset(dfLang,val==0.3))
plot
dev.off()

dfEnding<-subset(dfLang,val==.3)
dfEnding[order(dfEnding$components), ]


svg("lang_lccSize.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(dfLang,aes(x=val,y=lccSize,color=lang,group=lang))
plot<-plot + geom_point() + geom_line(size=1) + scale_color_discrete("Language")#,type="qual")
plot<-plot + scale_x_continuous('% of users removed',labels=percent)
plot<-plot + scale_y_continuous("Size of largest connected component",labels=comma)
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16))
plot
dev.off()

#TODO: Look at direct.label

table(dfLang$lang[dfLang$val==.3],dfLang$components[dfLang$val==.3])
#Ending num. components for each language (val==.3)
#en 48,190
#es 1,923
#in 6,864
#ja 385
#ko 184
#ms 8,626
#nl 965
#pt 2,211
#random 67,206


V(gMin5LCCUndirected)$constraint<-constraint(gMin5LCCUndirected)
dfGraph<-data.frame(
	majLangPercentAdj=V(gMin5LCCUndirected)$majLangPercentAdj,
	tweetCount=V(gMin5LCCUndirected)$tweetCountAdj,
	inDegree=V(gMin5LCCUndirected)$inDegree,
	constraint=V(gMin5LCCUndirected)$constraint
	)

#More graphs
png("tweetCount_majLangPercent.png",width=pngWidth,height=pngHeight)
plot <- ggplot(dfGraph,aes(x=majLangPercentAdj,y=tweetCount)) + geom_point()
plot
dev.off()

png("inDegree_majLangPercent.png",width=pngWidth,height=pngHeight)
plot <- ggplot(dfGraph,aes(x=majLangPercentAdj,y=inDegree)) + geom_point()
plot
dev.off()

png("constraint_majLangPercent.png",width=pngWidth,height=pngHeight)
plot <- ggplot(dfGraph,aes(x=majLangPercentAdj,y=constraint)) + geom_point()
plot
dev.off()

V(gMin5LCCUndirected)$label[V(gMin5LCCUndirected)$inDegree>40000]#justinbieber
V(gMin5LCCUndirected)$label[V(gMin5LCCUndirected)$inDegree>10000]#SlGNO

#Remove nodes from lang and calculate fraction of reminaing nodes in LCC
langs<-as.data.frame(table(V(gMin5LCCUndirected)$majLangAdj))
langs<-subset(langs,langs$Freq>1000)$Var1
N<-length(langs)
dfRemoveLangs<-data.frame(lang=rep("",N),components=rep(NA,N),lccSize=rep(NA,N),
	numNodes=rep(NA,N),num2=rep(NA,N),stringsAsFactors=FALSE)
i<-0
for (lang in langs) {
	tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangAdj!=lang)
	components<-clusters(tmp,mode="weak")
	m<-max(components$csize)
	i<-i+1
	dfRemoveLangs[i, ] <- list(lang, components$no, m, length(V(tmp)), sum(components$csize[components$csize!=m]))
}

dfRemoveLangs$numNodes==dfRemoveLangs$num2+dfRemoveLangs$lccSize
dfRemoveLangs$lccFrac<-(dfRemoveLangs$numNodes-dfRemoveLangs$lccSize)/dfRemoveLangs$numNodes

svg("lang_removed.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(dfRemoveLangs,aes(x=lang,y=lccFrac))
plot<-plot + geom_bar(stat="identity")
plot<-plot + scale_y_continuous('% of nodes not in largest-connected component',labels=percent)
plot<-plot + scale_x_discrete("Language removed")
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
plot
dev.off()

tmp<-induced.subgraph(gMin5LCCUndirected,V(gMin5LCCUndirected)$majLangAdj!="ms" & V(gMin5LCCUndirected)$majLangAdj!="in")
components<-clusters(tmp,mode="weak")
m<-max(components$csize)
(length(V(tmp))-m)/length(V(tmp))


###################################################
##			Q1: Is language homophilous?		 ##
###################################################

#take largest *strongly* connected component?

#labelPropComm<-label.propagation.community(gMin5LCCUndirected)
#write.csv(labelPropComm$membership,"labelPropCommMembership.csv")

commsFile<-"iter72memberships_smart.txt" #This file comes from the label propagation code in Java
if (!is.na(commsFile)){
	memberships<-read.csv(commsFile,header=FALSE,sep=" ")
	#Begin Untested code
	tmp<-read.csv("usernames.txt",header=FALSE)
	sum(tmp!=V(gMin5LCCUndirected)$label)#This should be 0, else the lists are malaligned!
	#End untested code

	modularity(gMin5LCCUndirected,memberships$V2)
	#[1] 0.7471879
	#in-ms: 0.8054294

	N <- max(memberships$V2)
	dfComms <- data.frame(num=seq(1, N), size=rep(0, N), numLangs=rep(0, N), majLangCount=rep(0,N), majLang=rep("", N),stringsAsFactors=FALSE)

	for (comm in seq(1,N)) {
		size<-length(memberships$V2[memberships$V2==comm])
		langs<-V(gMin5LCCUndirected)$majLangAdj[memberships$V2==comm]
		numLangs<-length(table(langs))
		majLang <- unique(langs)
		majLang <- majLang[which.max(tabulate(match(langs,majLang)))]
		majLangCount<-sum(langs==majLang)
		dfComms[comm, ] <- list(comm, size, numLangs, majLangCount, majLang)
	}

	write.csv(dfComms,"dfCommunities.csv")

	#dfComms<-read.csv("community_info_iter36.csv")
	#dfComms$label<-dfComms$label+1
	sum(dfComms$numLangs==1)
	sum(dfComms$numLangs==1)/length(dfComms$numLangs) #A large number of components have one language only
	sum(dfComms$size[dfComms$numLangs==1])/sum(dfComms$size) #But these components represent a small number of users

	#Five large components have 61% of users, #\label{tbl:topCommunities}
	sum(dfComms$size[dfComms$size>10^4])/sum(dfComms$size)
	dfComms[dfComms$size>10^4, ]
	top<-dfComms[dfComms$size>10^4, ]
	top$majLangPercent<-round((top$majLangCount/top$size)*100,1)
	top[order(top$size,decreasing=TRUE), c("majLang","majLangPercent","numLangs","size")]

	head(dfComms[order(dfComms$size,decreasing=TRUE), c("majLang","majLangPercent","numLangs","size")],n=25)

	sort(table(dfComms$majLang))

	#Is 48 the total number of langs in the network?
	length(unique(V(gMin5LCCUndirected)$majLangAdj))

	dfComms$majLangPercent<-dfComms$majLangCount/dfComms$size
	summary(dfComms)

	with(dfComms,plot(log(size),majLangPercent))
	max(dfComms$size)
	dfComms$label[dfComms$size==max(dfComms$size)]
	#label 16 is quite large

	svg("communities_size_percent.svg",width=svgWidth,height=svgHeight)
	plot<-ggplot(dfComms,aes(x=size,y=majLangPercent,color=majLang))
	plot<-plot+geom_point()
	plot<- plot + scale_x_log10("Cluster size",
				breaks = trans_breaks("log10", function(x) 10^x),
				labels = trans_format("log10", math_format(10^.x)))
	plot<-plot + scale_y_continuous("Percentage of users classified in dominant language",labels=percent)
	plot<-plot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	plot
	dev.off()

	svg("communities_size_percent_labels.svg",width=svgWidth,height=svgHeight)
	plot<-ggplot(dfComms,aes(x=size,y=majLangPercent,label=majLang))
	plot<-plot+geom_text()
	plot<- plot + scale_x_log10("Cluster size",
				breaks = trans_breaks("log10", function(x) 10^x),
				labels = trans_format("log10", math_format(10^.x)))
	plot<-plot + scale_y_continuous("Percentage of users classified in dominant language",labels=percent)
	plot<-plot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	plot
	dev.off()

	svg("communities_size_percent_labels_partial.svg",width=svgWidth,height=svgHeight)
	plot<-ggplot(dfComms,aes(x=size,y=majLangPercent,color=majLang))
	plot<-plot+geom_point()
	plot<-plot+geom_text(data=subset(dfComms,size>10^4),aes(x=size,y=majLangPercent+0.025,label=majLang))
	plot<- plot + scale_x_log10("Cluster size",
				breaks = trans_breaks("log10", function(x) 10^x),
				labels = trans_format("log10", math_format(10^.x)))
	plot<-plot + scale_y_continuous("Percentage of users classified in dominant language",labels=percent)
	plot<-plot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	plot
	dev.off()


	dfComms[dfComms$size>10^4, ]


	#hist(log(dfComms$size))
	svg("community_size.svg",width=svgWidth,height=svgHeight)
	plot<-ggplot(dfComms,aes(x=size))
	plot<-plot+geom_histogram(binwidth=0.15)
	plot<- plot + scale_x_log10("Cluster size",
				breaks = trans_breaks("log10", function(x) 10^x),
				labels = trans_format("log10", math_format(10^.x)))
	plot<-plot + scale_y_continuous("Frequency",labels=comma)
	plot<-plot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	plot
	dev.off()

	svg("community_numLangs_hist.svg",width=svgWidth,height=svgHeight)
	plot<-ggplot(dfComms,aes(x=numLangs))
	plot<-plot+geom_histogram(binwidth=1)
	plot<- plot + scale_x_continuous("Number of languages per cluster")
	#plot<-plot + scale_y_continuous("Percent of users in communities with this number of languages or fewer (cdf)",labels=percent)
	plot<-plot + scale_y_continuous("Frequency",labels=comma)
	plot<-plot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	plot
	dev.off()

	svg("community_numLangs_hist_zoom.svg",width=svgWidth,height=svgHeight)
	zplot<-ggplot(subset(dfComms,numLangs<=5),aes(x=as.factor(numLangs)))
	zplot<-zplot+geom_histogram(binwidth=1)
	zplot<-zplot + scale_x_discrete("Number of languages per cluster")
	zplot<-zplot + scale_y_continuous("Frequency",labels=comma)
	zplot<-zplot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	zplot
	dev.off()

	#dfDensity<-densityDataframe(dfComms,"numLangs",NA,n=2048,adjust=8)
	#dplot <- ggplot(dfDensity,aes(x=x10,y=y)) + geom_path()

	dfTmp<-as.data.frame(table(dfComms$numLangs))
	insert<-ggplot(dfTmp,aes(x=as.numeric(Var1),y=Freq))+geom_point()+
		scale_y_log10("",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))+
		scale_x_continuous("")+ theme_bw()


	svg("community_numLangs_hist_insert.svg",width=svgWidth,height=svgHeight)
	print(zplot)
	#print(plot+scale_x_continuous("")+scale_y_continuous("",labels=comma),
	print(insert,
		vp=viewport(width=0.6,height=0.6,x=1,y=1,just=c("right","top")))
	dev.off()


	N <- max(memberships$V2)

	if (NUM.CORES>1) {
		cl <- makeCluster(NUM.CORES)
		registerDoParallel(cl, cores = NUM.CORES)
	}

	dfCommsShuffled100 <- foreach(run = 1:NUM.RUNS, .packages = c("igraph"),
			       .combine = rbind) %dopar% {
		dfCommsShuffled <- data.frame(num=seq(1, N), size=rep(0, N), numLangs=rep(0, N), majLangCount=rep(0,N), majLang=rep("", N),stringsAsFactors=FALSE)

		print(paste0("Run: ",run))
		V(gMin5LCCUndirected)$majLangAdjShuffled<-sample(V(gMin5LCCUndirected)$majLangAdj)#Random permutation

		for (comm in seq(1,N)) {
			size<-length(memberships$V2[memberships$V2==comm])
			langs<-V(gMin5LCCUndirected)$majLangAdjShuffled[memberships$V2==comm]
			numLangs<-length(table(langs))
			majLang <- unique(langs)
			majLang <- majLang[which.max(tabulate(match(langs,majLang)))]
			majLangCount<-sum(langs==majLang)
			dfCommsShuffled[comm, ] <- list(comm, size, numLangs, majLangCount, majLang)
		}
		write.csv(dfCommsShuffled,paste0("dfCommsShuffled_run_",run,".csv"))
		return(dfCommsShuffled)
	}
	#Collapse dfComms
	write.csv(dfCommsShuffled100,"dfCommsShuffled.csv")
	dfCommsShuffled<-ddply(dfCommsShuffled100,.(num),summarize,
		size=mean(size),sizeSD=sd(size),
		numLangs=mean(numLangs),numLangsSD=sd(numLangs),
		majLangCount=mean(majLangCount),majLangCountSD=sd(majLangCount),
		majLang="skip")
	dfCommsShuffled$majLangPercent<-dfCommsShuffled$majLangCount/dfCommsShuffled$size

	warnings()

	if (NUM.CORES>1) {
		stopCluster(cl)
	}

	svg("community_numLangs_hist_shuffled.svg",width=svgWidth,height=svgHeight)
	plot<-ggplot(dfCommsShuffled,aes(x=numLangs))
	plot<-plot+geom_histogram(binwidth=1)
	plot<- plot + scale_x_continuous("Number of languages per community (when language labels are randomly shuffled)")
	plot<-plot + scale_y_continuous("Frequency",labels=comma)
	plot<-plot + theme_bw() +
		theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
		axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
		axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
	plot
	dev.off()

	summary(dfComms$numLangs)
	summary(dfCommsShuffled$numLangs)

	length(dfComms$numLangs[dfComms$numLangs==1])
	length(dfCommsShuffled$numLangs[dfCommsShuffled$numLangs==1])

	dfComms$shuffled<-"Observed data"
	dfCommsShuffled$shuffled<-"Language labels shuffled"
	dfTmp<-rbind(dfComms[,c("size","numLangs","majLangCount","shuffled")],dfCommsShuffled[,c("size","numLangs","majLangCount","shuffled")])
	dfDensity<-densityDataframe(dfTmp,"numLangs","shuffled",n=2048,adjust=6)
	dfDensitySum<-densitySummary(dfTmp,"numLangs","shuffled")
	pNumLangs<-densityPlot(dfDensity,dfDensitySum,"Number of languages per community")

	svg("community_numLangs_density.svg",width=svgWidth,height=svgHeight)
		pNumLangs
	dev.off()


	#difference of means t-test
	t.test(x=dfComms$numLangs,y=dfCommsShuffled$numLangs,alternative="two.sided")
	# p-value < 2.2e-16
}


#spinglassComm<-spinglass.community(gMin5LCCUndirected, weights=NA)
#write.csv(spinglassComm$membership,"spinglassCommMembership.csv")

modularity(gMin5LCCUndirected,as.factor(V(gMin5LCCUndirected)$majLangAdj))
#[1] 0.6489853 ge2?
#[1] 0.6291782 ge4_ge2-20
#[1] 0.6671592 ge4_ge2-20_inms


###################################################
##			Q3: Lang outwardness				 ##
###################################################

#TODO: Include all languages????
sort(table(V(gMin5LCCUndirected)$majLangAdj))


#langList<-sort(c("in","es","ms","pt","ja","en","ru","de","tr","it","fil","fr","ar","th","ko","nl"))
#gLangs<-induced.subgraph(gMin5LCC,V(gMin5LCC)$majLangAdj %in% langList)

langList<-sort(unique(V(gMin5LCCUndirected)$majLangAdj))#Must be in same order as langSizes!!!
gLangs<-gMin5LCC

sort(table(V(gLangs)$majLangAdj))
#langs <- unique(V(gLangs)$majLangAdj)
langSizes<-table(V(gLangs)$majLangAdj)
totalNodes<-length(V(gLangs)) #Check if this needs $something?
totalEdges<-length(E(gLangs)) #Check if this needs $weight?

#Check distribution of majLangPercentAdj for different languages
library(plyr)
dfMultilingual<-data.frame(lang=V(gMin5LCCUndirected)$majLangAdj,percent=V(gMin5LCCUndirected)$majLangPercentAdj)
dfMultilingual$lang<-as.factor(dfMultilingual$lang)
dfMultiCollapse<-ddply(dfMultilingual,.(lang),function(df) {c(length(df$percent),min(df$percent),max(df$percent),mean(df$percent),median(df$percent),length(df$percent[df$percent!=1]))})
names(dfMultiCollapse)<-c("lang","nodeCount","min","max","mean","median","multilingualCount")
dfMultiCollapse$multiPercent<-dfMultiCollapse$multilingualCount/dfMultiCollapse$nodeCount

largeLangs<-as.character(dfMultiCollapse$lang[dfMultiCollapse$nodeCount>1000])

plot(log(dfMultiCollapse$nodeCount),dfMultiCollapse$multiPercent)
dfMultiCollapse[order(dfMultiCollapse$nodeCount),c("lang","nodeCount","multiPercent")]

dfMultiCollapseSub<-subset(dfMultiCollapse,nodeCount>1000)
with(dfMultiCollapseSub,plot(log(nodeCount),multiPercent))


svg("multilingualism_ge1000.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(subset(dfMultiCollapse,nodeCount>1000),aes(x=nodeCount,y=multiPercent))
plot<-plot+geom_point()
plot<- plot + scale_x_log10("Language size (log of number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot<-plot + scale_y_continuous("Percentage of users classified as multiligual",labels=percent)
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
plot
dev.off()


svg("multilingualism.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(dfMultiCollapse,aes(x=nodeCount,y=multiPercent))
plot<-plot+geom_point()
plot<- plot + scale_x_log10("Language size (log of number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot<-plot + scale_y_continuous("Percentage of users classified as multiligual",labels=percent)
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
plot
dev.off()

svg("multilingualism-labels.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(dfMultiCollapse,aes(x=nodeCount,y=multiPercent,label=lang))
plot<-plot+geom_text()#Use size= here to control size
plot<- plot + scale_x_log10("Language size (number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot<-plot + scale_y_continuous("Percentage of users classified as multiligual",labels=percent)
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
plot
dev.off()

svg("multilingualism-labels_and_point.svg",width=svgWidth,height=svgHeight)
plot<-ggplot(dfMultiCollapse,aes(x=nodeCount,y=multiPercent,label=lang)) + geom_point()
plot<-plot+geom_text(aes(y=multiPercent+0.02))#Use size= here to control size
plot<- plot + scale_x_log10("Language size (log of number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot<-plot + scale_y_continuous("Percentage of users classified as multiligual",labels=percent)
plot<-plot + theme_bw() +
	theme(legend.title=element_text(size=18),legend.text=element_text(size=16),
	axis.title.x=element_text(size=18),axis.text.x=element_text(size=16),
	axis.title.y=element_text(size=18),axis.text.y=element_text(size=16),legend.position="none")
plot#+stat_smooth(method="loess")
#method="lm","gam"/library(mgcv) (http://www.inside-r.org/r-doc/mgcv/gam)
dev.off()

#Correlation between size/mutlilingualism?
cor(dfMultiCollapse$nodeCount,dfMultiCollapse$multiPercent)
with(dfMultiCollapse,cor(log(nodeCount),multiPercent))
with(subset(dfMultiCollapse,nodeCount<=1000),cor(log(nodeCount),multiPercent))
with(subset(dfMultiCollapse,nodeCount<=10^5),cor(log(nodeCount),multiPercent))
coef(lm(log(nodeCount) ~ multiPercent, data = dfMultiCollapse))

cor.test(dfMultiCollapse$nodeCount,dfMultiCollapse$multiPercent,alternative="less",conf.level=0.95)
cor.test(log(dfMultiCollapse$nodeCount),dfMultiCollapse$multiPercent,alternative="less",conf.level=0.95)
# method = c("pearson", "kendall", "spearman")

#dfMultiCollapseSub[order(dfMultiCollapseSub$multiPercent),c("lang","nodeCount","multiPercent")]
rm(dfMultiCollapseSub)

dfMultiCollapse[order(dfMultiCollapse$multiPercent),c("lang","nodeCount","multiPercent")]
dfMultiCollapse[order(dfMultiCollapse$nodeCount),c("lang","nodeCount","multiPercent")]

N<-length(langList)
dfOut <- data.frame(lang=rep("", N), nodeCount=rep(0, N), edgeCount=rep(0, N),
	inLangEdges=rep(0, N),expInLangEdges=rep(0, N),
	stringsAsFactors=FALSE)

i<-0
for (lang in langList) {
	#langEdges<-length(
	#	E(gLangs)[E(gLangs)$source %in%
	#		V(gLangs)[V(gLangs)$majLangAdj==lang]
	#	])
	langEdges<-sum(degree(gLangs,V(gLangs)$majLangAdj==lang,mode="out"))
	inGroupEdges<-
		length(E(induced.subgraph(gLangs,V(gLangs)$majLangAdj==lang)))
	#bwGroupEdges<-langEdges-inGroupEdges
	expInGroupEdges<-(as.numeric(langSizes[lang])/totalNodes)*langEdges

	i<-i+1
	dfOut[i, ] <- list(lang,as.numeric(langSizes[lang]),langEdges,inGroupEdges,expInGroupEdges)
}

#dfOut$nodeCount<-as.numeric(dfOut$nodeCount)
#dfOut$edgeCount<-as.numeric(dfOut$edgeCount)
#dfOut$inLangEdges<-as.numeric(dfOut$inLangEdges)
#dfOut$expInLangEdges<-as.numeric(dfOut$expInLangEdges)

dfOut$diff<-dfOut$inLangEdges-dfOut$expInLangEdges
dfOut$fracIn<-dfOut$inLangEdges/dfOut$edgeCount
dfOut$expFrac<-dfOut$expInLangEdges/dfOut$edgeCount
dfOut$nodeFrac<-dfOut$nodeCount/totalNodes
dfOut$pError<-dfOut$diff/dfOut$expInLangEdges
dfOut$diffPercent<-abs(dfOut$diff)/((dfOut$inLangEdges+dfOut$expInLangEdges)/2)
dfOut$logFracIn<-log(dfOut$inLangEdges)/log(dfOut$edgeCount)
dfOut$zscore<-(dfOut$inLangEdges-mean(dfOut$inLangEdges))/sd(dfOut$inLangEdges)

write.csv(dfOut,"dfOut_directed.csv")

with(subset(dfOut,fracIn>0.8),plot(log(nodeCount),fracIn))

source("../tweet-langs-inms.R")
dfTweetLangs<-tweetLangAll()
dfTweetLangs<-subset(dfTweetLangs,lang %in% langList)
totalTweets<-sum(dfTweetLangs$count)
dfTweetLangs$percent<-dfTweetLangs$count/totalTweets

dfOut$tweetCount<-NA
dfOut$tweetPercent<-NA
for (lang in langList) {
	dfOut$tweetCount[dfOut$lang==lang]<-dfTweetLangs$count[dfTweetLangs$lang==lang]
	dfOut$tweetPercent[dfOut$lang==lang]<-dfTweetLangs$percent[dfTweetLangs$lang==lang]
}
dfOut$tweetExpEdges<-dfOut$tweetPercent*dfOut$edgeCount
dfOut$tweetdiff<-dfOut$inLangEdges-dfOut$tweetExpEdges

#Table \label{tbl:inwardness}
dfSum<-subset(dfOut,nodeCount>1000)[ , c("lang","nodeFrac","fracIn") ]
dfSum$nodeFrac<-round(dfSum$nodeFrac*100,2)
dfSum$fracIn<-round(dfSum$fracIn*100,2)
dfSum[order(dfSum$fracIn, decreasing=TRUE), ]

ggplot(dfSum,aes(label=lang,x=nodeFrac,y=fracIn))+geom_text()


#ident <- function(x) {(x/totalNodes)*totalEdges}
#
plot <- ggplot(dfOut,aes(x=nodeCount,y=fracIn)) + geom_point()
#plot <- plot + stat_function(fun = ident, linetype="dashed")
plot <- plot + scale_x_log10("Language size (log of number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot


#ident <- function(x) {x}
plot <- ggplot(dfOut,aes(x=nodeCount,y=diff)) + geom_point()
#plot <- plot + stat_function(fun = ident, linetype="dashed")
plot <- plot + stat_smooth(method="lm", se=TRUE)
plot <- plot + scale_x_log10("Language size (log of number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot <- plot + scale_y_log10("Difference from expected (log)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
plot


dfA<-data.frame(lang=rep("", N),var=rep("", N),val=rep(0, N))
dfA$lang<-dfOut$lang
dfA$var<-"fracIn"
dfA$val<-dfOut$fracIn

dfB<-data.frame(lang=rep("", N),var=rep("", N),val=rep(0, N))
dfB$lang<-dfOut$lang
dfB$var<-"fracExp"
dfB$val<-dfOut$expFrac

dfTrans<-rbind(dfA,dfB)
rm(dfA)
rm(dfB)
dfTrans$nodeCount<-dfOut$nodeCount

plot <- ggplot(dfTrans,aes(x=nodeCount,y=val,group=var,color=var)) + geom_point()
plot <- plot + scale_x_log10("Language size (log of number of users)",
			breaks = trans_breaks("log10", function(x) 10^x),
			labels = trans_format("log10", math_format(10^.x)))
#plot <- plot + scale_y_log10("Difference from expected (log)",
#			breaks = trans_breaks("log10", function(x) 10^x),
#			labels = trans_format("log10", math_format(10^.x)))
plot

#E(gLangs)$sourceLang<-""
#E(gLangs)$targetLang<-""
#edges<-get.edges(gLangs, E(gLangs))
#edgeLangs<-data.frame(source=rep("",length(edges)), target=rep("",length(edges)),stringsAsFactors=FALSE)
#i<-0
#for (edge in edges) {
#	s<-edges[edge,1]
#	t<-edges[edge,2]
#	sLang<-V(gLangs)[s]$majLangAdj
#	tLang<-V(gLangs)[t]$majLangAdj
#	i<-i+1
#	edgeLangs[i, ] <- c(sLang,tLang)
#}

#gCollapsed<-contract.vertices(gLangs, which(langList==V(gLangs)$majLangAdj))

levels<-as.factor(V(gLangs)$majLangAdj)
edges<-get.edges(gLangs, E(gLangs))
E(gLangs)$source<-edges[,1]
E(gLangs)$target<-edges[,2]
gCollapsed<-contract.vertices(gLangs, levels,vertex.attr.comb="first")
try({
gCollapsed<-remove.edge.attribute(gCollapsed, "sourceLang")
gCollapsed<-remove.edge.attribute(gCollapsed, "targetLang")
})
gCollapsed<-simplify(gCollapsed,remove.loops=TRUE,remove.multiple=FALSE)
E(gCollapsed)$weight<-1
gCollapsed<-simplify(gCollapsed,remove.multiple=TRUE,edge.attr.comb=list(weight="sum",source=function(x) sum(!duplicated(x)),target=function(x) sum(!duplicated(x))))
summary(gCollapsed)

V(gCollapsed)$label<-V(gCollapsed)$majLangAdj
V(gCollapsed)$name<-V(gCollapsed)$majLangAdj

V(gCollapsed)$langSize<-0
for (index in V(gCollapsed)) {
	l<-V(gCollapsed)[index]$majLangAdj
	V(gCollapsed)[index]$langSize<-langSizes[which(langList==l)]
}
V(gCollapsed)$langSizeLog<-log(V(gCollapsed)$langSize)

#New insertion 2013-12-19###################
#(graph without normalization / expected a la Wikipedia article (ultimately not used in published paper, but retained for reference)
E(gCollapsed)$mentionCount<-E(gCollapsed)$weight

E(gCollapsed)$weightLog<-log(E(gCollapsed)$source)
weightLogSD<-sd(E(gCollapsed)$weightLog)
weightLogMean<-mean(E(gCollapsed)$weightLog)

print(paste0("Mean: ",weightLogMean))
print(paste0("95% Mark: ",weightLogMean+(1.96*weightLogSD)))

#Add some columns for use in visualization
#Random bug, igraph doesn't write boolean values to graph output files; so, use numbers
E(gCollapsed)$weightLog_geMean<-ifelse(E(gCollapsed)$weightLog>=weightLogMean,1,0)
E(gCollapsed)$weightLog_ge1SD<-ifelse(E(gCollapsed)$weightLog>=weightLogMean+weightLogSD,1,0)
E(gCollapsed)$weightLog_ge95<-ifelse(E(gCollapsed)$weightLog>=weightLogMean+(1.96*weightLogSD),1,0)
E(gCollapsed)$weightLog_diffMean<-E(gCollapsed)$weightLog-weightLogMean


#Repeat with percent of users in source lang mention users in target lang?
edges<-get.edges(gCollapsed, E(gCollapsed))
E(gCollapsed)$weightPercent<-0
for (edge in E(gCollapsed)) {
	s=V(gCollapsed)[edges[[edge,1]]]$name
	E(gCollapsed)[edge]$weightPercent<-E(gCollapsed)[edge]$source/langSizes[which(langList==s)]
}


E(gCollapsed)$weight<-E(gCollapsed)$weightLog
write.graph(gCollapsed,"gCollasped_nonnormalized_usercounts.graphml",format="graphml")

#List top edges by weightlog (but give actual weight)
tmp<-get.edgelist(gCollapsed)
tmp<-cbind(as.data.frame(tmp),E(gCollapsed)$weightLog,E(gCollapsed)$source,E(gCollapsed)$weightPercent)
names(tmp)<-c("source","target","weightLog","weight","weightPercent")
#head(tmp[order(tmp$weight,decreasing=TRUE), ],n=25)
head(tmp[order(tmp$weight,decreasing=TRUE), c("source","target","weight","weightPercent")],n=7)


#Filter to ge95 and drop isolates
gTmp<-gCollapsed
gTmp<-delete.edges(gTmp,E(gTmp)[E(gTmp)$weightLog_ge95!=1])
V(gTmp)$degree<-degree(gTmp)
gTmp<-delete.vertices(gTmp,V(gTmp)$degree==0)


#Repeat everything above with English removed?


################End insertion 2013-12-19##################################

#Add missing edges with weight of 0
edgelist<-as.data.frame(get.edgelist(gCollapsed,names=TRUE))
names(edgelist)=c("source","target")
edgelist$exists<-TRUE

N<-length(langList)*(length(langList)-1)
dfEdgesFull<-data.frame(source=rep("",N),target=rep("",N),stringsAsFactors=FALSE)
i<-0
for (source in langList) {
	for (target in langList) {
		if (target!=source) {
			i<-i+1
			dfEdgesFull[i, ]<-c(source,target)
		}
	}
}

dfEdgesFull<-merge(x=dfEdgesFull,y=edgelist,all=TRUE)
missing<-dfEdgesFull[is.na(dfEdgesFull$exists), ]
missing<-data.frame(source=missing$source,target=missing$target)
medges<-c()
for (index in seq(1,length(missing$source))) {
	medges<-c(medges,as.character(missing[index, "source"]),
			as.character(missing[index, "target"])
		)
}

gCollapsed<-add.edges(gCollapsed,medges,attr=list(weight=0))
summary(gCollapsed)

#V(gCollapsed)$outDegree<-degree(gCollapsed,V(gCollapsed),mode="out") #Not out-degree, sum of weight on out edges

V(gCollapsed)$outWeight<-0

E(gCollapsed)$expected<-NA
edges<-get.edges(gCollapsed, E(gCollapsed))

for (edge in seq(1,length(edges)/2)) {
	s<-edges[edge,1]
	V(gCollapsed)[s]$outWeight<-V(gCollapsed)[s]$outWeight + E(gCollapsed)[edge]$weight
}

for (edge in seq(1,length(edges)/2)) {
	s<-edges[edge,1]
	t<-edges[edge,2]
	sLang<-V(gCollapsed)[s]$majLangAdj
	tLang<-V(gCollapsed)[t]$majLangAdj

	#TODO: Demoninator needs to be reduced by the size of the source language!!!
	#sLangSize<-langSizes[which(langList==sLang)]
	#E(gCollapsed)[edge]$expected<-(langSizes[which(langList==tLang)]/(totalNodes-sLangSize)) * V(gCollapsed)[s]$outWeight
	E(gCollapsed)[edge]$expected<-(langSizes[which(langList==tLang)]/totalNodes) * V(gCollapsed)[s]$outWeight

}

summary(E(gCollapsed)$weight)
summary(E(gCollapsed)$expected)


E(gCollapsed)$pError<-(E(gCollapsed)$weight-E(gCollapsed)$expected)/E(gCollapsed)$expected
E(gCollapsed)$pErrorZ<-(E(gCollapsed)$pError-mean(E(gCollapsed)$pError,na.rm=TRUE))/sd(E(gCollapsed)$pError,na.rm=TRUE)
E(gCollapsed)$diffPercent<-abs(E(gCollapsed)$weight-E(gCollapsed)$expected)/((E(gCollapsed)$weight+E(gCollapsed)$expected)/2)
E(gCollapsed)$zscore<-(E(gCollapsed)$weight-mean(E(gCollapsed)$weight))/sd(E(gCollapsed)$weight)


summary(E(gCollapsed)$pError)
summary(E(gCollapsed)$zscore)


write.graph(gCollapsed,"gCollapsed.graphml",format="graphml")

gCollapsedLargeLangs<-induced.subgraph(gCollapsed,V(gCollapsed)$majLangAdj %in% largeLangs)
E(gCollapsedLargeLangs)$pErrorZ<-(E(gCollapsedLargeLangs)$pError-mean(E(gCollapsedLargeLangs)$pError,na.rm=TRUE))/sd(E(gCollapsedLargeLangs)$pError,na.rm=TRUE)
E(gCollapsedLargeLangs)$zscore<-(E(gCollapsedLargeLangs)$weight-mean(E(gCollapsedLargeLangs)$weight))/sd(E(gCollapsedLargeLangs)$weight)
write.graph(gCollapsedLargeLangs,"gCollapsedLargeLangs.graphml",format="graphml")

edgeDataset<-function(graph) {
	N<-length(E(graph))
	dfEdges<-data.frame(source=rep("",N),target=rep("",N),pError=rep(NA,N),zscore=rep(NA,N),pErrorZ=rep(NA,N),stringsAsFactors=FALSE)
	edges<-get.edges(graph, E(graph))

	for (edge in seq(1,N)) {
		s<-edges[edge,1]
		t<-edges[edge,2]
		sLang<-V(graph)[s]$majLangAdj
		tLang<-V(graph)[t]$majLangAdj
		pError<-E(graph)[edge]$pError
		zscore<-E(graph)[edge]$zscore
		pErrorZ<-E(graph)[edge]$pErrorZ

		dfEdges[edge, ]<-list(sLang,tLang,pError,zscore,pErrorZ)

	}
	return(dfEdges)
}

#Table \label{tbl:langlang-more}
#head(dfEdges[order(dfEdges$pError,decreasing=TRUE),c("source","target","pError")],n=10)
dfEdgesLarge<-edgeDataset(gCollapsedLargeLangs)
dfEdgesLarge$pError100<-round(dfEdgesLarge$pError*100)
head(dfEdgesLarge[order(dfEdgesLarge$pError,decreasing=TRUE),c("source","target","pError100")],n=10)
#subset(dfEdges,pErrorZ>=1.96|pErrorZ<=1.96)

dfEdges<-edgeDataset(gCollapsed)#Is this really the same? Shouldn't it be different

dfEdgesSub<-subset(dfEdges,source%in%largeLangs & target%in%largeLangs)
head(dfEdgesSub[order(dfEdgesSub$pError,decreasing=TRUE),c("source","target","pError")],n=10)
rm(dfEdgesSub)

dfEdgesSub<-subset(dfEdges,zscore > 1.96| zscore < -1.96)
dfEdgesSub[order(dfEdgesSub$zscore,decreasing=TRUE),c("source","target","zscore")]
rm(dfEdgesSub)

dfEdges$pErrorZ<-(dfEdges$pError-mean(dfEdges$pError,na.rm=TRUE))/sd(dfEdges$pError,na.rm=TRUE)
dfEdgesSub<-subset(dfEdges,pErrorZ > 1.96 | pErrorZ < -1.96)
head(dfEdgesSub[order(dfEdgesSub$pErrorZ,decreasing=TRUE),c("source","target","pError","pErrorZ")],n=10)
rm(dfEdgesSub)

dfEdgesSub<-subset(dfEdges,source%in%largeLangs & target%in%largeLangs)
dfEdgesSub$pErrorZ<-(dfEdgesSub$pError-mean(dfEdgesSub$pError,na.rm=TRUE))/sd(dfEdgesSub$pError,na.rm=TRUE)
dfEdgesSub<-subset(dfEdgesSub,pErrorZ > 1.96 | pErrorZ < -1.96)
head(dfEdgesSub[order(dfEdgesSub$pErrorZ,decreasing=TRUE),c("source","target","pError","pErrorZ")],n=10)
rm(dfEdgesSub)


#N<-length(largeLangs)*(length(largeLangs)-1)
#dfEdgesFull<-data.frame(source=rep("",N),target=rep("",N),stringsAsFactors=FALSE)
#i<-0
#for (source in largeLangs) {
#	for (target in largeLangs) {
#		if (target!=source) {
#			i<-i+1
#			dfEdgesFull[i, ]<-c(source,target)
#		}
#	}
#}
#
#
#dfEdgesFull<-merge(x=dfEdgesFull,y=dfEdgesLarge,all=TRUE)
#dfEdgesFull[is.na(dfEdgesFull$pError), ]
#
##Any pairs with no edges in either direction? (\label{tbl:langlang-less})
#tmp<-dfEdgesFull[is.na(dfEdgesFull$pError), c("source","target")]
#dis<-data.frame(source=tmp$source,target=tmp$target)
#dis2<-data.frame(source=tmp$target,target=tmp$source)
#reallyDis<-merge(x=dis,y=dis2,all=FALSE)
#reallyDis

#New version of R lists includes edges with weight 0, this results in pError of -1
sum(E(gCollapsedLargeLangs)$weight==0)==sum(dfEdgesLarge$pError==-1)
sum(dfEdgesLarge$pError==-1)
#24 disconnected pairs
dfTmp<-dfEdgesLarge[dfEdgesLarge$pError==-1,c("source","target")]
dfTmp$mutual<-0
for (i in seq(1,length(dfTmp$mutual))) {
	s<-dfTmp[i,"source"]
	t<-dfTmp[i,"target"]
	if (sum(dfTmp[dfTmp$source==t, ]$target==s)==1) {
		dfTmp[i,"mutual"]<-1
	}
}

missingTable<-function(df) {
	str<-paste0(df$source," & ")
	for (i in length(df$target)) {
		if (df$mutual[i]) {
			str<-paste0(str,"\\emphas{",df$target[i],"},")
		} else {
			str<-paste0(str,df$target[i],",")
		}
	}
	print(str)
	return(str)
}
ddply(dfTmp,.(source),missingTable)