Skip to content

Instantly share code, notes, and snippets.

@Koziev
Koziev / generate_interpretations_5.py
Created May 30, 2022 07:41
Генерация синтетических данных для расширения датасета модели в задаче Incomplete Response Restoration
"""
Генерация датасета для интерпретации вопросов:
- что анализирую?
- изображение | я анализирую изображение
30-08-2020 Добавлена проверка, что сгенерированный сэмпл не имеется в датасетах qa.txt и interpretations.txt
28-04-2021 Доработки для получения сырого датасета из assertions_1s.txt
"""
@Koziev
Koziev / knowledge_mining_1.py
Created September 12, 2021 13:57
Оценка вариантов подстановки прямого дополнения в клаузу SVO с помощью GPT
import io
import itertools
import pickle
import collections
import glob
import os
import tqdm
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
@Koziev
Koziev / pretrained_bert_autoencoder.py
Created June 11, 2021 04:15
Training the sentence autoencoder on the top of DeepPavlov's BERT token embeddings
"""
Эксперимент с моделью несимметричного автоэнкодера с энкодером на базе претренированной модели BERT
"""
import io
import os
import random
import numpy as np
import sklearn.model_selection
@Koziev
Koziev / bert_autoencoder.py
Created June 11, 2021 04:13
Training autoencoder on the top of BERT model BPE token embeddings
# -*- coding: utf-8 -*-
"""
Использование модели BERT, натренированной кодом train_bert.py, в качестве энкодера
в автоэнкодерной модели.
Для экспериментов по изучению зависимости качества декодирования от сложности BERT.
"""
import random
import numpy as np
@Koziev
Koziev / train_bert.py
Created June 11, 2021 04:11
Training BERT from the scratch using keras-bert
# -*- coding: utf-8 -*-
"""
Тренировка BERT с заданной конфигурацией на небольшом корпусе
"""
import numpy as np
import keras
import os
import collections
import pickle
@Koziev
Koziev / chatbot_tester.dialogues.txt
Created July 23, 2020 08:14
Тестовые диалоги ботов
========== dialog_id=1 ==========
B: Привет, давай поболтаем?
H: горячо приветствую
B: что будем обсуждать?
H: давай тебя
B: Я готова отвечать на вопросы о себе.
H: ты кто?
B: я чатбот
B: Скажи, пожалуйста, кто ты?
@Koziev
Koziev / test_chat_output.0.0.2.15.txt
Created July 12, 2020 06:15
Тестовые вопросы и ответы чатбота в релизе 0.0.2.15
B: День добрый
H: кто ты?
B: я чатбот
B: Скажи, пожалуйста, кто ты?
H: ты чатбот?
B: ведь , честно говоря , я тоже являюсь чатботом !
H: ты человек?
@Koziev
Koziev / synonymy_detector_via_bert3.py
Created March 13, 2020 11:00
Бинарный классификатор на Keras с BERT для определения перефразировок
# coding: utf-8
import pandas as pd
import os
import numpy as np
import logging
import gc
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score
@Koziev
Koziev / synonymy_model_bert.py
Created March 13, 2020 10:32
Реализация модели детектора перефразировок с BERT в pytorch transformers
"""
Тренировка модели детектора синонимичности двух фраз с использованием претренированной модели BERT на PyTorch
09.03.2020 Добавлен расчет метрики MRR (mean reciprocal rank)
"""
import pandas as pd
import numpy as np
import random
@Koziev
Koziev / synonymy_model_pytorch.py
Created February 22, 2020 15:42
Модель детектора синонимичности двух фраз: сиамская рекуррентная сетка на PyTorch
""" Тренировка модели детектора синонимичности двух фраз (сиамская рекуррентная сетка) на PyTorch """
import io
import pandas as pd
import numpy as np
import itertools
import random
import tqdm
from sklearn.model_selection import train_test_split