#A Collection of NLP notes
##N-grams
###Calculating unigram probabilities:
P( wi ) = count ( wi ) ) / count ( total number of words )
In english..
#A Collection of NLP notes
##N-grams
###Calculating unigram probabilities:
P( wi ) = count ( wi ) ) / count ( total number of words )
In english..
from conllu.parser import parse, parse_tree | |
import pandas as pd | |
import random | |
#PATH = 'BNC/2554/download/Texts/A/A0' | |
CONLLU_PATH = 'test.conllu' | |
RELS = {'acl', 'amod'} | |
DATA_NUM = 1000 | |
from urllib.request import urlopen | |
import numpy as np | |
import time | |
# DONE 1. Сортируем видео по приоритетности. Приоритетность = Size * sum(num_requests) | |
# DONE 2. Берем видео, начиная с самого приоритетного. | |
# DONE 3. Для видео находим приоритетный Endpoint. Приоритетный Endpoint = max(serv_latency) * число реквестов для этого видео | |
# DONE 4. Для текущего Endpoint перебираем кэши со свободным местом. | |
# DONE 5. Из этих кэшей них берем с самым быстрым соединением min(latency). Проверяем, что это быстрее, чем с датацентром. | |
# DONE 4. Туда и складываем. |
#!/usr/bin/env python3 | |
# coding: utf-8 | |
import sys | |
import gensim, logging | |
# Что вообще происходит? | |
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) | |
from lxml import etree | |
import re | |
regAna = re.compile('lex="(.*?)" gr="(.*?)"') | |
def open_xml(fname): | |
tree = etree.parse(fname).getroot() | |
return tree |
# статья про шифр -- https://ru.wikipedia.org/wiki/%D0%A8%D0%B8%D1%84%D1%80_%D0%92%D0%B8%D0%B6%D0%B5%D0%BD%D0%B5%D1%80%D0%B0 | |
# 1. Создать таблицу | |
# 2. Спросить слово и ключ | |
# 3. Преобразовать ключ до нужной длины | |
# 4. Посимвольно кодирую | |
# таблица выглядит так [[], [], [], [], ...] | |
alphabet = list('abcdefghijklmnopqrstuvwxyz') | |
table = [] |