Skip to content

Instantly share code, notes, and snippets.

@Koziev
Koziev / knowledge_mining_1.py
Created Sep 12, 2021
Оценка вариантов подстановки прямого дополнения в клаузу SVO с помощью GPT
View knowledge_mining_1.py
import io
import itertools
import pickle
import collections
import glob
import os
import tqdm
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
@Koziev
Koziev / generate_invalid_syntax_samples3.py
Created Apr 22, 2019
Использование ruword2tags.RuFlexer (а также rulemma, rupostagger, rutokenizer) для полуавтоматической генерации NLP датасета
View generate_invalid_syntax_samples3.py
# -*- coding: utf-8 -*-
"""
Подбор сырья для формирования датасета для тренировки валидатора синтаксиса.
Берем фразы с правильным синтаксисом и заменяем в них предлоги на рандомные,
при необходимости пересогласуя подчиненные существительные и прилагательные.
"""
from __future__ import division # for python2 compatibility
from __future__ import print_function
@Koziev
Koziev / pretrained_bert_autoencoder.py
Created Jun 11, 2021
Training the sentence autoencoder on the top of DeepPavlov's BERT token embeddings
View pretrained_bert_autoencoder.py
"""
Эксперимент с моделью несимметричного автоэнкодера с энкодером на базе претренированной модели BERT
"""
import io
import os
import random
import numpy as np
import sklearn.model_selection
@Koziev
Koziev / bert_autoencoder.py
Created Jun 11, 2021
Training autoencoder on the top of BERT model BPE token embeddings
View bert_autoencoder.py
# -*- coding: utf-8 -*-
"""
Использование модели BERT, натренированной кодом train_bert.py, в качестве энкодера
в автоэнкодерной модели.
Для экспериментов по изучению зависимости качества декодирования от сложности BERT.
"""
import random
import numpy as np
@Koziev
Koziev / train_bert.py
Created Jun 11, 2021
Training BERT from the scratch using keras-bert
View train_bert.py
# -*- coding: utf-8 -*-
"""
Тренировка BERT с заданной конфигурацией на небольшом корпусе
"""
import numpy as np
import keras
import os
import collections
import pickle
@Koziev
Koziev / chatbot_tester.dialogues.txt
Created Jul 23, 2020
Тестовые диалоги ботов
View chatbot_tester.dialogues.txt
========== dialog_id=1 ==========
B: Привет, давай поболтаем?
H: горячо приветствую
B: что будем обсуждать?
H: давай тебя
B: Я готова отвечать на вопросы о себе.
H: ты кто?
B: я чатбот
B: Скажи, пожалуйста, кто ты?
@Koziev
Koziev / test_chat_output.0.0.2.15.txt
Created Jul 12, 2020
Тестовые вопросы и ответы чатбота в релизе 0.0.2.15
View test_chat_output.0.0.2.15.txt
B: День добрый
H: кто ты?
B: я чатбот
B: Скажи, пожалуйста, кто ты?
H: ты чатбот?
B: ведь , честно говоря , я тоже являюсь чатботом !
H: ты человек?
@Koziev
Koziev / synonymy_detector_via_bert3.py
Created Mar 13, 2020
Бинарный классификатор на Keras с BERT для определения перефразировок
View synonymy_detector_via_bert3.py
# coding: utf-8
import pandas as pd
import os
import numpy as np
import logging
import gc
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score
@Koziev
Koziev / synonymy_model_bert.py
Created Mar 13, 2020
Реализация модели детектора перефразировок с BERT в pytorch transformers
View synonymy_model_bert.py
"""
Тренировка модели детектора синонимичности двух фраз с использованием претренированной модели BERT на PyTorch
09.03.2020 Добавлен расчет метрики MRR (mean reciprocal rank)
"""
import pandas as pd
import numpy as np
import random
@Koziev
Koziev / synonymy_model_pytorch.py
Created Feb 22, 2020
Модель детектора синонимичности двух фраз: сиамская рекуррентная сетка на PyTorch
View synonymy_model_pytorch.py
""" Тренировка модели детектора синонимичности двух фраз (сиамская рекуррентная сетка) на PyTorch """
import io
import pandas as pd
import numpy as np
import itertools
import random
import tqdm
from sklearn.model_selection import train_test_split