I hereby claim:
- I am menzenski on github.
- I am menzenski (https://keybase.io/menzenski) on keybase.
- I have a public key whose fingerprint is F234 E6EF 8850 46E2 2CF5 A17E D4BB 348E 8D5E 6908
To claim this, I am signing this object:
#! /usr/bin/env python | |
# -*- coding: utf-8 -*- | |
########## | |
## rncfrequencyfinder.py Version 1.0 (2014-10-20) | |
## | |
## Original author: Matthew Menzenski (menzenski@ku.edu) | |
## | |
## License: CC-BY-4.0 ( https://creativecommons.org/licenses/by/4.0/ ) | |
########## |
print "Hello World" |
### set the working directory---you'll need to redefine this for your local system | |
setwd("~/Documents/School/Kansas/Coding/2015_02_12_RCorpusLingTools/JockersDataFiles/code") | |
#library("syuzhet") | |
library("syuzhet", lib.loc="/Library/Frameworks/R.framework/Versions/3.1/Resources/library") | |
### define our text file (here, it's in the current working directory) | |
### downloaded from http://www.gutenberg.org/cache/epub/2600/pg2600.txt | |
text.v <- scan("WarAndPeaceEnglish.txt", what="character",sep="\n") |
I hereby claim:
To claim this, I am signing this object:
#! /usr/bin/env python | |
# -*- coding: utf-8 -*- | |
import nltk | |
import codecs | |
from urllib import urlopen | |
def print_list(mylist): | |
'''Print a list containing unicode characters.''' | |
print '[' + ', '.join( |
139942 | |
31179 | |
[Мастер, и, Маргарита, Мастер, и, Маргарита, Михаил, Булгаков, , Москва, 1984, г., Текст, печатается, в, последней, прижизнен-, ной, редакции, (, рукописи, хранятся, в, руко-, писном, отделе, Государственной, библио-, теки, СССР, имени, В., И., Ленина, ), ,, а, также, с, исправлениями, и, дополнениями, ,, сделан-, ными, под, диктовку, писателя, его, женой, ,, Е., С., Булгаковой., Содержание, глава, I., Никогда, не, разговаривайте, с, неизвестными, /, 9, глава, II., Понтий, Пилат, /, 23, глава, III., седьмое, доказательство, /, 49, глава, IV., Погоня, /, 55, глава, V., Было, дело, в, грибоедове, /, 63, глава, VI., Шизофрения, ,, как, и, было, сказано, /, 77, глава, VII., Нехорошая, квартирка, /, 87, глава, VIII., Поединок, между, профессором, и, поэтом, /, 99, глава, IX., Коровьевские, штуки, /, 109, глава, X., Вести, из, Ялты, /, 119, глава, XI., раздвоение, ивана, /, 131, глава, XII., Черная, магия, и, ее, разоблачение, /, 135, глава, XIII., Явление, героя, /, 151, глава, XIV., слава, петуху, |
лиц 202 | |
буфетчик 72 | |
наконец 66 | |
ник 66 | |
лестниц 44 | |
аннушк 41 | |
улиц 34 | |
милиц 33 | |
пок 33 | |
маленьк 31 |
# possible endings of diminutive stems | |
diminutive_endings = ( | |
# first degree of expressiveness | |
#u"к", | |
u"ик", | |
u"чик", | |
u"ок", #u"ек", | |
u"ец", u"иц", | |
u"енок", u"онок", u"еныш", | |
u"инк", u"инок", |
from nltk.stem import SnowballStemmer |
stemmer = SnowballStemmer("russian") | |
stemlist = [] | |
for item in tokens: | |
barestem = stemmer.stem(unicode(item)) | |
stemlist.append(barestem) |