Skip to content

Instantly share code, notes, and snippets.

View menzenski's full-sized avatar

Matt Menzenski menzenski

View GitHub Profile
@menzenski
menzenski / rncfrequencyfinder.py
Created October 21, 2014 18:05
This Python script takes a list of words and returns the frequency with which each word occurs in the Russian National Corpus.
#! /usr/bin/env python
# -*- coding: utf-8 -*-
##########
## rncfrequencyfinder.py Version 1.0 (2014-10-20)
##
## Original author: Matthew Menzenski (menzenski@ku.edu)
##
## License: CC-BY-4.0 ( https://creativecommons.org/licenses/by/4.0/ )
##########
@menzenski
menzenski / helloworld.py
Created February 4, 2015 15:24
Hello World in Python
print "Hello World"
### set the working directory---you'll need to redefine this for your local system
setwd("~/Documents/School/Kansas/Coding/2015_02_12_RCorpusLingTools/JockersDataFiles/code")
#library("syuzhet")
library("syuzhet", lib.loc="/Library/Frameworks/R.framework/Versions/3.1/Resources/library")
### define our text file (here, it's in the current working directory)
### downloaded from http://www.gutenberg.org/cache/epub/2600/pg2600.txt
text.v <- scan("WarAndPeaceEnglish.txt", what="character",sep="\n")

Keybase proof

I hereby claim:

  • I am menzenski on github.
  • I am menzenski (https://keybase.io/menzenski) on keybase.
  • I have a public key whose fingerprint is F234 E6EF 8850 46E2 2CF5 A17E D4BB 348E 8D5E 6908

To claim this, I am signing this object:

@menzenski
menzenski / RusTokenizer
Created September 12, 2013 04:02
tokenizes Russian text
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import nltk
import codecs
from urllib import urlopen
def print_list(mylist):
'''Print a list containing unicode characters.'''
print '[' + ', '.join(
@menzenski
menzenski / RusTokenizerResults
Created September 12, 2013 04:04
results of tokenizing Russian text
139942
31179
[Мастер, и, Маргарита, Мастер, и, Маргарита, Михаил, Булгаков, , Москва, 1984, г., Текст, печатается, в, последней, прижизнен-, ной, редакции, (, рукописи, хранятся, в, руко-, писном, отделе, Государственной, библио-, теки, СССР, имени, В., И., Ленина, ), ,, а, также, с, исправлениями, и, дополнениями, ,, сделан-, ными, под, диктовку, писателя, его, женой, ,, Е., С., Булгаковой., Содержание, глава, I., Никогда, не, разговаривайте, с, неизвестными, /, 9, глава, II., Понтий, Пилат, /, 23, глава, III., седьмое, доказательство, /, 49, глава, IV., Погоня, /, 55, глава, V., Было, дело, в, грибоедове, /, 63, глава, VI., Шизофрения, ,, как, и, было, сказано, /, 77, глава, VII., Нехорошая, квартирка, /, 87, глава, VIII., Поединок, между, профессором, и, поэтом, /, 99, глава, IX., Коровьевские, штуки, /, 109, глава, X., Вести, из, Ялты, /, 119, глава, XI., раздвоение, ивана, /, 131, глава, XII., Черная, магия, и, ее, разоблачение, /, 135, глава, XIII., Явление, героя, /, 151, глава, XIV., слава, петуху,
лиц 202
буфетчик 72
наконец 66
ник 66
лестниц 44
аннушк 41
улиц 34
милиц 33
пок 33
маленьк 31
# possible endings of diminutive stems
diminutive_endings = (
# first degree of expressiveness
#u"к",
u"ик",
u"чик",
u"ок", #u"ек",
u"ец", u"иц",
u"енок", u"онок", u"еныш",
u"инк", u"инок",
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("russian")
stemlist = []
for item in tokens:
barestem = stemmer.stem(unicode(item))
stemlist.append(barestem)