elyase/count_motifs.py

## count_motifs.py
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

def tokenizer(s):
    width = 7
    return [s[i:i+width] for i in range(len(s)-width+1)]

def count_chunks(sequence_list):
    vectorizer = CountVectorizer(tokenizer=tokenizer)
    X = vectorizer.fit_transform(sequence_list)
    counts = (X.toarray()>0).astype(int).sum(axis=0)
    return vectorizer.get_feature_names(), counts

#import data
data = np.genfromtxt('data.txt', dtype=(str))
down = data[:,1].astype(float) < -0.5
down_list = data[:,2][down]         # down_list.size == 5534
not_down_list = data[:,2][~down]    # not_down_list.size == 6312

#calculate counts
down_names, down_counts = count_chunks(down_list)
not_down_names, not_down_counts = count_chunks(not_down_list)

# to get the negative counts just substract, for example

no_down_counts = down_list.size - down_counts
	from sklearn.feature_extraction.text import CountVectorizer
	import numpy as np

	def tokenizer(s):
	width = 7
	return [s[i:i+width] for i in range(len(s)-width+1)]

	def count_chunks(sequence_list):
	vectorizer = CountVectorizer(tokenizer=tokenizer)
	X = vectorizer.fit_transform(sequence_list)
	counts = (X.toarray()>0).astype(int).sum(axis=0)
	return vectorizer.get_feature_names(), counts

	#import data
	data = np.genfromtxt('data.txt', dtype=(str))
	down = data[:,1].astype(float) < -0.5
	down_list = data[:,2][down] # down_list.size == 5534
	not_down_list = data[:,2][~down] # not_down_list.size == 6312

	#calculate counts
	down_names, down_counts = count_chunks(down_list)
	not_down_names, not_down_counts = count_chunks(not_down_list)

	# to get the negative counts just substract, for example

	no_down_counts = down_list.size - down_counts