Aditya Ambati adiamb

## convert-formats.sh
# ------------------
# from bgen to bed
# ------------------
plink2 --bgen myfile.bgen \
  # filter by chr or by snps names
  --chr 1 --extract {params.snps} \
  --make-bed --out myoutput
# 1. plink will create temporary/intermediate files such as *-temporary.{pgen,psam,pvar}
# 2. sample ids in .fam will be `ID1_ID1`

## mnist.py
import pandas as pd
import numpy as np
import keras
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

## AdventOfCode.py
import re
import math
import sys
## Part 1
FileIn = 'D1_INPUT.txt'
CurFreq =0
with open(FileIn) as FreqIn:
	for line in FreqIn:
		FreqAdju = int(line.strip())
		CurFreq += FreqAdju

## gen_gen.py
import re
import subprocess
from subprocess import PIPE
import sys
import time
import numpy as np
import numpy


impute_file = sys.argv[1]

## make_BC_list_Oct27_2017_final.py
from __future__ import print_function
import re
import subprocess
import sys

file_in = sys.argv[1]
#file_out = sys.argv[2]

### define functions
def num_ret(str=str):

## COUNTS_PROTEIN_CONTENT_Oct13.py
import sys
import time
import subprocess
from subprocess import PIPE
import re
from itertools import chain
import pandas as pd
import numpy as np
import copy
## import filenames as a list

## CDR3_COUNTS_BETA_SEP29.py
import re
import subprocess
from subprocess import PIPE
import pandas as pd
import numpy as np
import scipy.stats as stats
import glob
import scipy
############################ read in the DBID and TCR identifiers from ling's csv file

## CDR3_COUNTS_ALPHAS_OCT2.py
import re
import subprocess
from subprocess import PIPE
import pandas as pd
import numpy as np
import scipy.stats as stats
import glob
import scipy

## retreive_memory_TCells_Seq.py
import pandas as pd
import numpy as np


total_TCR = pd.read_excel('total done list 7-18-17.xlsx', sheetname='total file')
TCR_5merBC = pd.read_excel('early deep SEQ with 5 barcode.xlsx', sheetname='total file')

TCR_5mer_sub=TCR_5merBC.loc[:, ('DbID','cell type', 'Dx', '# to SEQ1', 'alpha', '# to SEQ2', 'beta')]
TCR_5mer_sub.groupby(['cell type', 'Dx']).size()

## pipeline_part2_test_aug10_2017.py

import sys
clone_sum=0
validclones=0
outfile = open('HS115_clustered_low_rem.rcl', 'w')
with open('HS115_CLUSTERED.rcl') as rclfile:
	for rcl in rclfile:
		if rcl:
			parsedrcl= rcl.strip('\r\n').split(',')
			if int(parsedrcl[7]) > 2 :
	# ------------------
	# from bgen to bed
	# ------------------
	plink2 --bgen myfile.bgen \
	# filter by chr or by snps names
	--chr 1 --extract {params.snps} \
	--make-bed --out myoutput
	# 1. plink will create temporary/intermediate files such as *-temporary.{pgen,psam,pvar}
	# 2. sample ids in .fam will be `ID1_ID1`
	import pandas as pd
	import numpy as np
	import keras
	from sklearn.model_selection import train_test_split
	from sklearn.preprocessing import OneHotEncoder
	from sklearn.preprocessing import StandardScaler
	import matplotlib.pyplot as plt
	%matplotlib inline
	from sklearn.model_selection import train_test_split
	from sklearn.metrics import confusion_matrix
	import re
	import math
	import sys
	## Part 1
	FileIn = 'D1_INPUT.txt'
	CurFreq =0
	with open(FileIn) as FreqIn:
	for line in FreqIn:
	FreqAdju = int(line.strip())
	CurFreq += FreqAdju
	import re
	import subprocess
	from subprocess import PIPE
	import sys
	import time
	import numpy as np
	import numpy


	impute_file = sys.argv[1]
	from __future__ import print_function
	import re
	import subprocess
	import sys

	file_in = sys.argv[1]
	#file_out = sys.argv[2]

	### define functions
	def num_ret(str=str):
	import pandas as pd
	import numpy as np


	total_TCR = pd.read_excel('total done list 7-18-17.xlsx', sheetname='total file')
	TCR_5merBC = pd.read_excel('early deep SEQ with 5 barcode.xlsx', sheetname='total file')

	TCR_5mer_sub=TCR_5merBC.loc[:, ('DbID','cell type', 'Dx', '# to SEQ1', 'alpha', '# to SEQ2', 'beta')]
	TCR_5mer_sub.groupby(['cell type', 'Dx']).size()

	import sys
	clone_sum=0
	validclones=0
	outfile = open('HS115_clustered_low_rem.rcl', 'w')
	with open('HS115_CLUSTERED.rcl') as rclfile:
	for rcl in rclfile:
	if rcl:
	parsedrcl= rcl.strip('\r\n').split(',')
	if int(parsedrcl[7]) > 2 :