Skip to content

Instantly share code, notes, and snippets.

@AlexDel
AlexDel / view_video.php
Created January 24, 2012 08:16
Вью для видео
<link rel="stylesheet" href="/static/js/fancybox-1.3.1/jquery.fancybox-1.3.1.css" media="screen" type="text/css" />
<script type='text/javascript' src='/static/js/jquery.js'></script>
<script type='text/javascript' src='/static/js/fancybox-1.3.1/jquery.fancybox-1.3.1.js'></script>
<script type='text/javascript'>
$(document).ready(function(){
$('#main-video-block #preview_texts a').mouseenter(function () {
if (!$(this).hasClass('current')) {
@AlexDel
AlexDel / gist:1683242
Created January 26, 2012 15:20
NLTK Ex 2.25 Ищем из какого языка слово используя декларацию прав человека
import nltk
def find_language(word):
#загружаем декларацию
from nltk.corpus import udhr
#заготавливаем пустой массив
result_lang = []
#перебираем тексты с латинской транскрипцией
@AlexDel
AlexDel / gist:1683351
Created January 26, 2012 15:44
NLTK Ex 2.26 Вычисляем среднее значение количества детей (гипонимов) у синсетов
import nltk
#имплортируем wordnet
from nltk.corpus import wordnet as wn
#инициализируем переменные для аггегации
hyponyms_number = 0
synsets_with_hyponyms = 0
for synset in list(wn.all_synsets('n')): # перебираем все синсеты с существительными
@AlexDel
AlexDel / gist:1687834
Created January 27, 2012 08:52
статистика: вычисляем (среднее арифметическу, вероятнояностную дисперсию, стандартное отклонение)
from __future__ import division
def stand_dev(mylist, random_selection = 0):
mean = sum(mylist)/len(mylist)
#если стоит флаг случайной выборки, уменьшаем знаменатель на 1
if random_selection != 0:
denominator = len(mylist)-1
else:
denominator = len(mylist)
@AlexDel
AlexDel / gist:1924225
Created February 27, 2012 14:30
NLTK упр 21. Выводим слова из сайта, которых нет в корпусе слов (типа неизвестные)
#NLTK упр 21. Выводим слова из сайта, которых нет в корпусе слов (типа неизвестные)
def unknown(url):
#загружаем фигню
import nltk, urllib
#читаем url
html = urllib.urlopen(url).read()
raw = nltk.clean_html(html)
tokens = set(nltk.word_tokenize(raw))
@AlexDel
AlexDel / gist:1925119
Created February 27, 2012 16:31
NLTk упр 24. Функция кодирует английский текст, заменяя буквы на всякую фигню с помощью регулярок
#NLTk упр 24. Функция кодирует английский текст, заменяя буквы на всякую фигню
# с помощью регулярок
import nltk,re
def hackerize(text):
#делаем буквы строчными
text = text.lower()
#список кортежей "регулярка-замена"
@AlexDel
AlexDel / gist:1991365
Created March 7, 2012 06:06
Формула Герона. Вычисляем площадь треугольника по 3 сторонам
from __future__ import division
from math import sqrt
def heron(a,b,c):
perimeter = a+b+c
halfp = perimeter/2
square = sqrt(halfp*(halfp-a)*(halfp-b)*(halfp-c))
return square
@AlexDel
AlexDel / gist:2464585
Created April 22, 2012 15:15
NLTk Ex 3.25 метод преобразует слово на английском в "поросячью латынь" (поддержка начальных qu и y)
import nltk, re
def piglatinize(word):
plword = re.findall(r'^(y|qu|[bcdfghgklmprstvwzx]*)(.*)', word)
if plword != []:
plword = plword[0][1] + plword[0][0]
else:
plword = word
@AlexDel
AlexDel / gist:2949180
Created June 18, 2012 16:17
скрипт удаляет тэги и нормализует пробелы
#этот скрипт удаляет тэги и нормализует пробелы
import nltk,re
def normalize(text):
#список кортежей "регулярка-замена"
replaces = [('<[\/\!]*?[^<>]*?>',''),('\s+',' ')]
normtext = []
#цикл пробегает весь список, применяя каждый кортеж замен к тексту
for target,replace in replaces:
normtext = re.sub(target, replace, text)
@AlexDel
AlexDel / gist:3956431
Created October 26, 2012 01:12
Question parser (парсит вопросы из html - сделано по заказу Южаковой Е.М.)
# -*- coding: utf8 -*-
import lxml, lxml.html, re, random
from lxml import etree
text = lxml.html.parse('C:/Users/user/Desktop/темп/Новая папка/Билеты1.html').getroot()
ques = []
for child in text[0]:
html_text = re.sub("^\s+|\n|\r|\t|\s+$", '', lxml.html.tostring(child))
if child.tag == 'h1':