Skip to content

Instantly share code, notes, and snippets.

@Koziev
Koziev / train_bert.py
Created June 11, 2021 04:11
Training BERT from the scratch using keras-bert
# -*- coding: utf-8 -*-
"""
Тренировка BERT с заданной конфигурацией на небольшом корпусе
"""
import numpy as np
import keras
import os
import collections
import pickle
@Koziev
Koziev / bert_autoencoder.py
Created June 11, 2021 04:13
Training autoencoder on the top of BERT model BPE token embeddings
# -*- coding: utf-8 -*-
"""
Использование модели BERT, натренированной кодом train_bert.py, в качестве энкодера
в автоэнкодерной модели.
Для экспериментов по изучению зависимости качества декодирования от сложности BERT.
"""
import random
import numpy as np
@Koziev
Koziev / pretrained_bert_autoencoder.py
Created June 11, 2021 04:15
Training the sentence autoencoder on the top of DeepPavlov's BERT token embeddings
"""
Эксперимент с моделью несимметричного автоэнкодера с энкодером на базе претренированной модели BERT
"""
import io
import os
import random
import numpy as np
import sklearn.model_selection
@Koziev
Koziev / knowledge_mining_1.py
Created September 12, 2021 13:57
Оценка вариантов подстановки прямого дополнения в клаузу SVO с помощью GPT
import io
import itertools
import pickle
import collections
import glob
import os
import tqdm
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer
@Koziev
Koziev / generate_interpretations_5.py
Created May 30, 2022 07:41
Генерация синтетических данных для расширения датасета модели в задаче Incomplete Response Restoration
"""
Генерация датасета для интерпретации вопросов:
- что анализирую?
- изображение | я анализирую изображение
30-08-2020 Добавлена проверка, что сгенерированный сэмпл не имеется в датасетах qa.txt и interpretations.txt
28-04-2021 Доработки для получения сырого датасета из assertions_1s.txt
"""
@Koziev
Koziev / tsne_vizualisation_of_gpt_token_embeddings.py
Created July 29, 2022 15:06
Эксперимент с визуализацией эмбеддингов токенов в rugpt
"""
Эксперимент с визуализацией эмбеддингов токенов в rugpt.
"""
import os
import io
import collections
import torch
import transformers
@Koziev
Koziev / validate_npqa.py
Created October 28, 2022 11:49
Код оценки точности решения арифметических задач разными моделями читчата
"""
Автоматическая оценка точности генерации цифрового ответа для p(0)qa сэмплов.
13.10.2022 Добавил валидацию модели на T5
"""
import os
import io
import re
import time
"""
Файнтюн rugpt на датасете перефразировок с использованием GPT2DoubleHeadsModel (https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel)
Для проектов чатбота и генеративных стихов.
Используется датасет перефразировок из проекта чатбота с добавленными сэмплами проекта генеративных стихов.
В качестве дистракторов используем негативные примеры перефразировок из этого же датасета плюс рандомные выборки.
04.01.2023 Заранее подготовленный датасет загружаем из paraphrases.json (см. публичную версию https://huggingface.co/datasets/inkoziev/paraphrases)
"""
"""
Эксперимент с файнтюном: токены исходного текста не включаем в backprop, присваивая соответствующим целям (labels) значение -100
"""
import os
import json
import io
import random
import itertools
@Koziev
Koziev / service_text2image.py
Created April 6, 2023 08:03
Пайплайн генерации изображений для текстов, сгенерированных гэпэтэхой в хайку-боте
import io
import argparse
import logging
import random
from flask import Flask, request
from flask import jsonify
import transformers
from kandinsky2 import get_kandinsky2