Tathagata tathagata

## modify-encoding.py
#!/usr/bin/python2.7 -S
import sys
sys.setdefaultencoding("utf-8")
import site

## default-system-encoding.py
>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> sys.getfilesystemencoding()
'UTF-8'

## codecs-read.py
corpus_words = set(map(lambda s: s.strip(),\
  	codecs.open(file, encoding='Windows‑1252').readlines()))
for i in sorted(corpus_words):
	print i.encode("Windows‑1252")

## detect_encoding.sh
file -bi uniq_words_in_corpus.txt
#output: text/plain; charset=unknown-8bit

## chardet_test.py
#file to parse: https://dl.dropbox.com/u/18146922/uniq_words_in_corpus.txt
def getEncoding(infile):
  import chardet
	rawdata = open(infile, "r").read()
	result = chardet.detect(rawdata)
	charenc = result['encoding']
	print charenc

#output: ISO-8859-2.

## identifierSplitting.py
def identifierSplitByFolder(folderA,folderB):
  """ usage: identifierSplitByFolder(folderWithJavaFiles,folderWithJavaFilesIdentifierSplit ) """
  import re, string, os

	for root, directory, files in os.walk(folderA):
		for file in files:
			absfnA = os.path.join(folderA,file)
			absfnB = os.path.join(folderB,file)

			words=open(absfnA).read().replace("\r\n"," ").split(" ")

## syndict.py
def createSynsetDict():
  import pymysql
	conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='', db='multiwordnet')
	cur = conn.cursor()

	syndict={}

	fp = open("C:\Users\Tathagata\projects\NewTracelabData\EX3\Albergate\AlbergateIdentifierJDKMethods201304040238SplitTransUniqWordsCopy.txt")
	content = fp.read()
	words = content.decode("utf-8").lower().split()

## last_updated_files.sh
find $1 -type f -print0 | xargs -0 stat --format '%Y :%y %n' | sort -nr | cut -d: -f2- | head

## random_word
sed `perl -e "print int rand(99999)"`"q;d" /usr/share/dict/words

## dircompare.py
import os
folder_A=r'''path/to/folder/A'''
folder_B=r'''path/to/folder/B'''
for root_A, dirnames_A, filenames_A in os.walk(folder_A):
	for root_B, dirnames_B, filenames_B in os.walk(folder_B):
		print set(filenames_A) == set(filenames_B)
		print set(filenames_A) - set(filenames_B)
	#!/usr/bin/python2.7 -S
	import sys
	sys.setdefaultencoding("utf-8")
	import site
	>>> import sys
	>>> sys.getdefaultencoding()
	'ascii'
	>>> sys.getfilesystemencoding()
	'UTF-8'
	corpus_words = set(map(lambda s: s.strip(),\
	codecs.open(file, encoding='Windows‑1252').readlines()))
	for i in sorted(corpus_words):
	print i.encode("Windows‑1252")
	file -bi uniq_words_in_corpus.txt
	#output: text/plain; charset=unknown-8bit
	#file to parse: https://dl.dropbox.com/u/18146922/uniq_words_in_corpus.txt
	def getEncoding(infile):
	import chardet
	rawdata = open(infile, "r").read()
	result = chardet.detect(rawdata)
	charenc = result['encoding']
	print charenc

	#output: ISO-8859-2.
	def identifierSplitByFolder(folderA,folderB):
	""" usage: identifierSplitByFolder(folderWithJavaFiles,folderWithJavaFilesIdentifierSplit ) """
	import re, string, os

	for root, directory, files in os.walk(folderA):
	for file in files:
	absfnA = os.path.join(folderA,file)
	absfnB = os.path.join(folderB,file)

	words=open(absfnA).read().replace("\r\n"," ").split(" ")
	def createSynsetDict():
	import pymysql
	conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='', db='multiwordnet')
	cur = conn.cursor()

	syndict={}

	fp = open("C:\Users\Tathagata\projects\NewTracelabData\EX3\Albergate\AlbergateIdentifierJDKMethods201304040238SplitTransUniqWordsCopy.txt")
	content = fp.read()
	words = content.decode("utf-8").lower().split()
	import os
	folder_A=r'''path/to/folder/A'''
	folder_B=r'''path/to/folder/B'''
	for root_A, dirnames_A, filenames_A in os.walk(folder_A):
	for root_B, dirnames_B, filenames_B in os.walk(folder_B):
	print set(filenames_A) == set(filenames_B)
	print set(filenames_A) - set(filenames_B)