Skip to content

Instantly share code, notes, and snippets.

@peio
peio / Directive2Markdown.py
Created January 2, 2012 13:12
Annotate an EC Directive with MarkDown
#!/usr/local/bin/python
# -*- coding: utf-8 -*-
'''
Structure of a legal act
http://publications.europa.eu/code/en/en-120000.htm
# Bulgarian
#chapter_bg = re.compile('(^ГЛАВА [IVXLCDM]+)\s+([А-Яа-я0-9 ]{1,}$)', re.M | re.U)
'''
@peio
peio / md2kindle.sh
Created January 2, 2012 13:26
Convert and email a markdown file to my Kindle
#!/bin/bash
# Convert and email MarkDown file to Kindle
MD_FILE=$1
HTML_FILE=`basename "$MD_FILE" .md`
HTML_FILE='/tmp/'$HTML_FILE".html"
KINDLE_HEADER='/home/peio/bin/kindle.header'
# Create header
cat $KINDLE_HEADER > "$HTML_FILE"
@peio
peio / ru_regexps.py
Created March 28, 2012 17:04
Regular expressions to detect russian language
is_cyrilic = re.compile(u'а|е|и|о|у|ъ|я|ю', re.U) # Кирилска гласна
ru_extra_letters = re.compile(u'Ё|ё|Ы|ы|Э|э|ь[^о]+', re.U) # Специфични букви за руския език както и палатализация http://en.wikipedia.org/wiki/Russian_phonology#Palatalization
ru_j = re.compile(u' ж[ \.!?,;]', re.U) # в руския се среща ж като самостоятелна част в изречение "Впрочем, что ж я"
ru_k = re.compile(u' к[ \.!?,;]', re.U|re.I) # в руския се среща к като предлог
bg_definite_article = re.compile(u'\wът[ \.!?,;]', re.U)
@peio
peio / opendata-pub-reccomendations.bg.md
Created June 19, 2012 17:06
Препоръки за публикуване на отворени правителствени данни

Препоръки за публикуване на отворени правителствени данни

Формати

Най-бързият и лесен начин да се направят определени данни достъпни онлайн е да се публикуват в суровия "изходен" формат (примерно XML файловете с имотните декларации на лицата, заемащи висши държавни длъжности). Важно е данните да бъдат добре структурирани. Структурата позволява автоматизирания достъп и обработка на данните. Добре познати и разпространени формати за структуриране на данни са XML, RDF и CSV. Файлови формати, които позволяват на данните да бъдат видяни, без да бъдат извлечени и обработени (примерно изображения на документи), не са използваеми и следва да бъдат избягвани.

Каталог

Създайте онлайн каталог на достъпните данни, който да позволи на хората лесно да откриват достъпната информация. Данните следва да бъдат добре описани и документирани, защото в противен случай тяхната използваемост би била минимална. Популярните методи за съхранение в Excel, Word, PDF и други двоични формати следва да бъдат избягвани.

@peio
peio / OD-PublicCapital.md
Created July 9, 2012 12:50
Отворените данни като обществен капитал

Отворените данни като граждански капитал Как могат да са полезни отворените данни

Отворените данни могат да направят света едно по-добро място и това не е преувеличение. Информацията е основна движеща сила за иновациите. Тя е уникален ресурс, т. нар. "неизчерпаемо обществено благо". Употребата на информация от едно лице не намалява възможността на останалите да я ползват. Ето защо ползата от информацията може да се простира далеч отвъд първоначалната й цел. Като основен източник на информация, Правителството е в силна позиция по отношение стимулиране на иновациите чрез предоставяне на по-широк достъп до отворени данни за управлението. (Виж Sean Gorman "Information as a Public Good".) Вероятно е по-лесно да си представим как научни данни, държавна собственост, например научни изследвания в областта на биотехнологиите и фармацията, могат да подобрят живота повече от информацията за управленската дейност. Истината е, че във всички видове данни за управлението, можем да намерим много примери, при които споделяне

@peio
peio / xmlspend2csv.py
Created July 9, 2012 19:20
Covert XML BG Gov spending to csv
#!/usr/local/bin/python
# -*- coding: utf-8 -*-
from lxml import etree
import ucsv as csv
import codecs
f = codecs.open("Data/10950.xml",'r','utf=8')
xml_contents = f.read()
f.close()
@peio
peio / suncho.txt
Created August 29, 2012 20:29
Suncho's Favourite Words
# In response to @suncho's: "Харесвам думи, на които всяка втора буква е една и съща, като "фоторобот" и "хътъмълъ". Това какъв regexp го match-ва? ":
# re_match_second_letter = re.compile(ur"[а-я]([а-я])[а-я]\1(?:[а-я]\1)*?[а-я]?$")
# re_match_second_letter.match(word).group(0).encode('utf-8')
токов
залая
накарам
залая
захар
далак
повод
@peio
peio / suncho-pos-syl.txt
Created August 29, 2012 21:53
Suncho's Favourite Words POS - Syl
# Харесваните думи от @suncho, в готов за създаване на автоматично хайку вид от @buhtum и @bozhobg
# Ако хайкуто се състои от три реда по 5-7-5 срички, то едно автоматично хайку може да се създаде като се комбинират: прилагателно-съществително;глагол-съществително-прилагателно;съществително-прилагателно като се ползва долния списък.
# Форматът е Част на речта: ДУМА брой срички
Съществително: захар 2
Съществително: далак 2
Съществително: повод 2
Съществително: анонс 2
Съществително: хумус 2
Съществително: кана 2
Съществително: бала 2
#!/usr/bin/python
# -*- coding: utf-8 -*-
'Execute from command line or include in cron'
import tweepy, sys
'Follow the instructions at: http://talkfast.org/2010/05/31/twitter-from-the-command-line-in-python-using-oauth/'
# Twitter oAuth
CONSUMER_KEY = ''
CONSUMER_SECRET = ''
Плевнелиев: Скъпи сънародници,
LSI : Скъпи сънародници,
Rank : 1.0
LDA : Скъпи сънародници,
Rank : 1.0
Tfidf LSI: Скъпи сънародници,
Rank : 1.0
LogEnt LSI: Скъпи сънародници,
Rank : 1.0