Worked on synthetic data recovery so we can tell how high the actual

infector is ranked among all potential parents. Cleaned up code for the predicting victims benchmarking test.
author: Ben Green <ben@SEASITs-MacBook-Pro.local> 2015-06-28 17:38:33 -0400
committer: Ben Green <ben@SEASITs-MacBook-Pro.local> 2015-06-28 17:38:33 -0400
commit: 6e527bbf612465bf5d739b9652abc0165550993c (patch)
tree: 9525bed16d9e4568747855afd84a03937090f1cb /R Scripts/predict-victims.R
parent: 7167a81cfb8b872dd1547e5a8669004b191417db (diff)
download: criminal_cascades-6e527bbf612465bf5d739b9652abc0165550993c.tar.gz
1 files changed, 67 insertions, 0 deletions
diff --git a/R Scripts/predict-victims.R b/R Scripts/predict-victims.R
new file mode 100644
index 0000000..470815d
--- /dev/null
+++ b/R Scripts/predict-victims.R
@@ -0,0 +1,67 @@
+library(igraph)
+setwd('~/Documents/Cascade Project')
+load('Raw Data/lcc.RData')
+load('Results/hyper-lcc.RData')
+load('Results/dag_dat_all.RData')
+source('criminal_cascades/R Scripts/temporal.R')
+source('criminal_cascades/R Scripts/structural.R')
+
+##### Initialize data
+formula = vic ~ sex + race + age + gang.member + gang.name
+lcc_verts$sex = as.factor(lcc_verts$sex)
+lcc_verts$race = as.factor(lcc_verts$race)
+lcc_verts$age = as.numeric(lcc_verts$age)
+lcc_verts$gang.name = as.factor(lcc_verts$gang.name)
+# sum(hyp_lcc_verts$vic)/length(days)
+
+alpha = 0.0028
+delta = 0.06
+days = sort(unique(hyp_lcc_verts$vic.day)) # 70:max(hyp_lcc_verts$vic.day, na.rm=T)
+lambdas = c(0,1)#c(0, exp(seq(log(0.0000001), log(.0005), length.out=150)), 1)
+nvics = sum(lcc_verts$vic)#sum(hyp_lcc_verts$vic.day %in% days)
+correct_rank = matrix(nrow=nvics, ncol=length(lambdas))
+edges_all = dag_dat_all
+
+##### Loop through days
+ptm = proc.time()
+for (day in days){
+  if (which(day==days) %% 100 == 0) print(day)
+  
+  ##### Demographics model
+  vics = match(unique(hyp_lcc_verts$ir_no[which(hyp_lcc_verts$vic.day<day)]),lcc_verts$name)
+  victims = lcc_verts[,c('vic','sex','race','age','gang.member','gang.name')]
+  victims$vic[vics] = TRUE
+  victims$vic[-vics] = FALSE
+#   glm.fit = glm(formula, data=victims, family=binomial)
+  glm.fit = lm(formula, data=victims)
+  glm.probs = predict(glm.fit, newdata=lcc_verts, type='response')
+  
+  ##### Cascade Model
+  edges = edges_all[which(edges_all$t1<day),]
+  f = temporal(edges$t1, day, alpha)
+  h = structural(delta,edges$dist)
+  weights = f*h
+  ids = edges$to
+  irs = hyp_lcc_verts$ir_no[ids]
+  risk = data.frame(id=ids, ir=irs, weight=weights)
+  risk = risk[order(weights, decreasing=T),]
+  risk = risk[match(unique(risk$ir),risk$ir),]
+# maybe need to change this to reflect new algorithm that accounts for \tilde{p}
+
+  ##### Combined Model
+  combined = data.frame(ir=attr(glm.probs,'name'), dem=as.numeric(glm.probs), cas=0, comb=0)
+  combined$cas[match(risk$ir, attr(glm.probs,'name'))] = risk$weight
+  
+  ##### Gather results
+  infected_irs = hyp_lcc_verts$ir_no[which(hyp_lcc_verts$vic.day==day)]
+  for (lambda in lambdas){
+    combined$comb = lambda*combined$dem + (1-lambda)*combined$cas
+    c_idx = which(lambdas==lambda)
+    r_idx = head(which(is.na(correct_rank[,c_idx])),length(infected_irs))
+    # !! order should be first: rank of (3,5,5,7) should be (1,2,2,4), may need to do n-rank
+    correct_rank[r_idx,c_idx] = match(infected_irs, combined$ir[order(combined$comb, decreasing=T)])
+    # maybe should also mark down vic/nonvic status of each?
+  }
+  
+}
+print(proc.time()-ptm)
author	Ben Green <ben@SEASITs-MacBook-Pro.local>	2015-06-28 17:38:33 -0400
committer	Ben Green <ben@SEASITs-MacBook-Pro.local>	2015-06-28 17:38:33 -0400
commit	6e527bbf612465bf5d739b9652abc0165550993c (patch)
tree	9525bed16d9e4568747855afd84a03937090f1cb /R Scripts/predict-victims.R
parent	7167a81cfb8b872dd1547e5a8669004b191417db (diff)
download	criminal_cascades-6e527bbf612465bf5d739b9652abc0165550993c.tar.gz