Immanuel Purushothaman ipurusho

## select.model
#Identify working design model among numerous covariates
# Returns design that can be used directly by DESeq2
#Usage:
#      select.model(covariates,main,region)
#      covariates: character list of covariates in meta data matrix (column names of meta data matrix)
#      main: main factor forumula (can include covariates)
#      region: brain region (temprorarily hard-coded for the immediate analysis)
#Example:
#       select.model(c("Antidepressant","Alcool","History.of.Abuse","Cause.of.death","PMI"),
#                      "RIN+Age.+Gender+Phenotype+Gender:Phenotype",

## RRHO_Modified.R
generate.rrho<-function(pval.data,logfc.data,list,outdir){

  max.scale<-list()

  for(i in 1:nrow(list)){

    list1<-cbind(rownames(pval.data),-1*log10(pval.data[,as.character(list[i,1])])*sign(logfc.data[,as.character(list[i,1])]))
    list2<-cbind(rownames(pval.data),-1*log10(pval.data[,as.character(list[i,2])])*sign(logfc.data[,as.character(list[i,2])]))

    print(head(list1))

## analyze.proteomic.data.R
analyze.proteomic.data<-function(intensities,meta_data,condA,condB){

  #parse conditions to prepare for t test with replicates
  colnames(intensities)<-meta_data

  condA.regex<-paste("^",condA,"$",sep="")
  condB.regex<-paste("^",condB,"$",sep="")

  condA.indices<-grep(condA.regex,colnames(intensities))
  condB.indices<-grep(condB.regex,colnames(intensities))

## sort_clusters.sh
#!/bin/bash
filename=$1
awk -F "\t" '{split($9,a,";");print a[1], $10}' -v awk_file=filename | cut -d ' ' -f2,3 | sort -u | sort -k2 -n

## diff_analysis_example.R
library(biomaRt)
library(stringr)

#######get counts #########
setwd("/path/to/count/directory")
data = list.files(pattern = 'htseq_counts.txt'); #detect count files based on file type
count_list = lapply(data,read.table,header=F,sep="\t",row.names=1) #read files in batch, save to list
counts<-do.call(cbind, count_list) #create count data frame
colnames(counts)<-data #set column names
colnames(counts)<-str_replace(colnames(counts),".htseq_counts.txt","")#remove filename extension

## GC_calc.py
"""GC_calc.py"""
import sys
from pyspark import SparkContext
import re


#turns Fasta file into a list of sequences (for current understanding of pyspark SparkContext input)
fastaFile = sys.argv[1]

## serial_gc.py
def FASTA(filename):
  try:
    f = file(filename)
  except IOError:
    print "The file, %s, does not exist" % filename
    return


  sequences = {}


## featureCoverage.scala
def featureCoverage(reference: RDD[Feature],reads: RDD[AlignmentRecord],bins:Int): RDD[(String, Iterable[Double])] = {

 val getBinsForward = for{
    feature <- reference
    bin = bins
    interval = ((((feature.getEnd.toDouble-feature.getStart.toDouble)/bin).toDouble).ceil).toInt
    strand = feature.getFeatureType.toString
    start = feature.getStart.toInt
    end = feature.getEnd.toInt
    refName = feature.getContig.getContigName.toString

## evaluate_covariates.R
evaluate.covariates<-function(x,pc.percents,continuous,categorical){

  covariate.contribution<-function(x,continuous,categorical){

    #asinh transform continuous covariates
    asinh.continuous <- lapply(continuous,asinh)
    asinh.continuous <- as.data.frame(do.call(cbind,asinh.continuous))


    #discretize cateogorical covariates to perform lm

## bin_index_ucsc.scala
import scala.collection.mutable.ArrayBuffer

def binFromRange(start: Int, end: Int): ArrayBuffer[Int] ={

  val bin_offsets = Array(512+64+8+1,64+8+1,8+1,0)
  val binFirstShift = 17
  val binNextShift = 3


  var startBin = start >> binFirstShift
	#Identify working design model among numerous covariates
	# Returns design that can be used directly by DESeq2
	#Usage:
	# select.model(covariates,main,region)
	# covariates: character list of covariates in meta data matrix (column names of meta data matrix)
	# main: main factor forumula (can include covariates)
	# region: brain region (temprorarily hard-coded for the immediate analysis)
	#Example:
	# select.model(c("Antidepressant","Alcool","History.of.Abuse","Cause.of.death","PMI"),
	# "RIN+Age.+Gender+Phenotype+Gender:Phenotype",
	generate.rrho<-function(pval.data,logfc.data,list,outdir){

	max.scale<-list()

	for(i in 1:nrow(list)){

	list1<-cbind(rownames(pval.data),-1log10(pval.data[,as.character(list[i,1])])sign(logfc.data[,as.character(list[i,1])]))
	list2<-cbind(rownames(pval.data),-1log10(pval.data[,as.character(list[i,2])])sign(logfc.data[,as.character(list[i,2])]))

	print(head(list1))
	analyze.proteomic.data<-function(intensities,meta_data,condA,condB){

	#parse conditions to prepare for t test with replicates
	colnames(intensities)<-meta_data

	condA.regex<-paste("^",condA,"$",sep="")
	condB.regex<-paste("^",condB,"$",sep="")

	condA.indices<-grep(condA.regex,colnames(intensities))
	condB.indices<-grep(condB.regex,colnames(intensities))
	#!/bin/bash
	filename=$1
	awk -F "\t" '{split($9,a,";");print a[1], $10}' -v awk_file=filename \| cut -d ' ' -f2,3 \| sort -u \| sort -k2 -n
	library(biomaRt)
	library(stringr)

	#######get counts #########
	setwd("/path/to/count/directory")
	data = list.files(pattern = 'htseq_counts.txt'); #detect count files based on file type
	count_list = lapply(data,read.table,header=F,sep="\t",row.names=1) #read files in batch, save to list
	counts<-do.call(cbind, count_list) #create count data frame
	colnames(counts)<-data #set column names
	colnames(counts)<-str_replace(colnames(counts),".htseq_counts.txt","")#remove filename extension
	"""GC_calc.py"""
	import sys
	from pyspark import SparkContext
	import re



	#turns Fasta file into a list of sequences (for current understanding of pyspark SparkContext input)
	fastaFile = sys.argv[1]
	def FASTA(filename):
	try:
	f = file(filename)
	except IOError:
	print "The file, %s, does not exist" % filename
	return


	sequences = {}
	def featureCoverage(reference: RDD[Feature],reads: RDD[AlignmentRecord],bins:Int): RDD[(String, Iterable[Double])] = {

	val getBinsForward = for{
	feature <- reference
	bin = bins
	interval = ((((feature.getEnd.toDouble-feature.getStart.toDouble)/bin).toDouble).ceil).toInt
	strand = feature.getFeatureType.toString
	start = feature.getStart.toInt
	end = feature.getEnd.toInt
	refName = feature.getContig.getContigName.toString
	evaluate.covariates<-function(x,pc.percents,continuous,categorical){

	covariate.contribution<-function(x,continuous,categorical){

	#asinh transform continuous covariates
	asinh.continuous <- lapply(continuous,asinh)
	asinh.continuous <- as.data.frame(do.call(cbind,asinh.continuous))


	#discretize cateogorical covariates to perform lm
	import scala.collection.mutable.ArrayBuffer

	def binFromRange(start: Int, end: Int): ArrayBuffer[Int] ={

	val bin_offsets = Array(512+64+8+1,64+8+1,8+1,0)
	val binFirstShift = 17
	val binNextShift = 3


	var startBin = start >> binFirstShift