Matt Menzenski menzenski

## rncfrequencyfinder.py
#! /usr/bin/env python
# -*- coding: utf-8 -*-

##########
## rncfrequencyfinder.py Version 1.0 (2014-10-20)
##
## Original author: Matthew Menzenski (menzenski@ku.edu)
##
## License: CC-BY-4.0 ( https://creativecommons.org/licenses/by/4.0/ )
##########

## helloworld.py
print "Hello World"

## syuzhet_mwe.r
### set the working directory---you'll need to redefine this for your local system
setwd("~/Documents/School/Kansas/Coding/2015_02_12_RCorpusLingTools/JockersDataFiles/code")

#library("syuzhet")
library("syuzhet", lib.loc="/Library/Frameworks/R.framework/Versions/3.1/Resources/library")

### define our text file (here, it's in the current working directory)
### downloaded from http://www.gutenberg.org/cache/epub/2600/pg2600.txt
text.v <- scan("WarAndPeaceEnglish.txt", what="character",sep="\n")

## keybase.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                menzenski
                / keybase.md
            
            
              Created
              June 3, 2015 01:49
            
          
    Keybase proof

I hereby claim:

I am menzenski on github.
I am menzenski (https://keybase.io/menzenski) on keybase.
I have a public key whose fingerprint is F234 E6EF 8850 46E2 2CF5  A17E D4BB 348E 8D5E 6908

To claim this, I am signing this object:

  
## RusTokenizer
#! /usr/bin/env python
# -*- coding: utf-8 -*-

import nltk
import codecs
from urllib import urlopen

def print_list(mylist):
    '''Print a list containing unicode characters.'''
    print '[' + ', '.join(

## RusTokenizerResults
139942
31179
[Мастер, и, Маргарита, Мастер, и, Маргарита, Михаил, Булгаков, , Москва, 1984, г., Текст, печатается, в, последней, прижизнен-, ной, редакции, (, рукописи, хранятся, в, руко-, писном, отделе, Государственной, библио-, теки, СССР, имени, В., И., Ленина, ), ,, а, также, с, исправлениями, и, дополнениями, ,, сделан-, ными, под, диктовку, писателя, его, женой, ,, Е., С., Булгаковой., Содержание, глава, I., Никогда, не, разговаривайте, с, неизвестными, /, 9, глава, II., Понтий, Пилат, /, 23, глава, III., седьмое, доказательство, /, 49, глава, IV., Погоня, /, 55, глава, V., Было, дело, в, грибоедове, /, 63, глава, VI., Шизофрения, ,, как, и, было, сказано, /, 77, глава, VII., Нехорошая, квартирка, /, 87, глава, VIII., Поединок, между, профессором, и, поэтом, /, 99, глава, IX., Коровьевские, штуки, /, 109, глава, X., Вести, из, Ялты, /, 119, глава, XI., раздвоение, ивана, /, 131, глава, XII., Черная, магия, и, ее, разоблачение, /, 135, глава, XIII., Явление, героя, /, 151, глава, XIV., слава, петуху,

## FoundDiminutives
лиц 202
буфетчик 72
наконец 66
ник 66
лестниц 44
аннушк 41
улиц 34
милиц 33
пок 33
маленьк 31

## RussianDiminutiveEndings
# possible endings of diminutive stems
diminutive_endings = (
    # first degree of expressiveness
    #u"к",
    u"ик",
    u"чик",
    u"ок", #u"ек",
    u"ец", u"иц",
    u"енок", u"онок", u"еныш",
    u"инк", u"инок",

## ImportStemmer.py
from nltk.stem import SnowballStemmer

## russian_stemmer.py
stemmer = SnowballStemmer("russian")

stemlist = []

for item in tokens:
    barestem = stemmer.stem(unicode(item))
    stemlist.append(barestem)
	#! /usr/bin/env python
	# -- coding: utf-8 --

	##########
	## rncfrequencyfinder.py Version 1.0 (2014-10-20)
	##
	## Original author: Matthew Menzenski (menzenski@ku.edu)
	##
	## License: CC-BY-4.0 ( https://creativecommons.org/licenses/by/4.0/ )
	##########
	### set the working directory---you'll need to redefine this for your local system
	setwd("~/Documents/School/Kansas/Coding/2015_02_12_RCorpusLingTools/JockersDataFiles/code")

	#library("syuzhet")
	library("syuzhet", lib.loc="/Library/Frameworks/R.framework/Versions/3.1/Resources/library")

	### define our text file (here, it's in the current working directory)
	### downloaded from http://www.gutenberg.org/cache/epub/2600/pg2600.txt
	text.v <- scan("WarAndPeaceEnglish.txt", what="character",sep="\n")
	#! /usr/bin/env python
	# -- coding: utf-8 --

	import nltk
	import codecs
	from urllib import urlopen

	def print_list(mylist):
	'''Print a list containing unicode characters.'''
	print '[' + ', '.join(
	139942
	31179
	[Мастер, и, Маргарита, Мастер, и, Маргарита, Михаил, Булгаков, , Москва, 1984, г., Текст, печатается, в, последней, прижизнен-, ной, редакции, (, рукописи, хранятся, в, руко-, писном, отделе, Государственной, библио-, теки, СССР, имени, В., И., Ленина, ), ,, а, также, с, исправлениями, и, дополнениями, ,, сделан-, ными, под, диктовку, писателя, его, женой, ,, Е., С., Булгаковой., Содержание, глава, I., Никогда, не, разговаривайте, с, неизвестными, /, 9, глава, II., Понтий, Пилат, /, 23, глава, III., седьмое, доказательство, /, 49, глава, IV., Погоня, /, 55, глава, V., Было, дело, в, грибоедове, /, 63, глава, VI., Шизофрения, ,, как, и, было, сказано, /, 77, глава, VII., Нехорошая, квартирка, /, 87, глава, VIII., Поединок, между, профессором, и, поэтом, /, 99, глава, IX., Коровьевские, штуки, /, 109, глава, X., Вести, из, Ялты, /, 119, глава, XI., раздвоение, ивана, /, 131, глава, XII., Черная, магия, и, ее, разоблачение, /, 135, глава, XIII., Явление, героя, /, 151, глава, XIV., слава, петуху,
	лиц 202
	буфетчик 72
	наконец 66
	ник 66
	лестниц 44
	аннушк 41
	улиц 34
	милиц 33
	пок 33
	маленьк 31
	# possible endings of diminutive stems
	diminutive_endings = (
	# first degree of expressiveness
	#u"к",
	u"ик",
	u"чик",
	u"ок", #u"ек",
	u"ец", u"иц",
	u"енок", u"онок", u"еныш",
	u"инк", u"инок",
	stemmer = SnowballStemmer("russian")

	stemlist = []

	for item in tokens:
	barestem = stemmer.stem(unicode(item))
	stemlist.append(barestem)