Илья Козиев Koziev

## trajectory_explorer.py
import random
import os

import torch
import transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import deepspeed
import matplotlib.pyplot as plt


## finetune_chitchat_fredt5_with_trainer.py
"""
Тренировка модели болталки Axioma на FRED T5 для проекта https://github.com/Koziev/chatbot
Эксперимент с файнтюном: токены истории диалога не включаем в backprop, присваивая соответствующим целям (labels) значение -100
Прочие хинты по тренировке: https://kelijah.livejournal.com/315826.html
"""

import os
import json
import sys
import io

## explore_memoization_for_fredt5.py
"""
Определение склонности моделей rugpt к запоминанию обучающего датасета
"""
import collections
import os
import json
import itertools
import sys
import argparse
import random

## explore_memoization_for_rugpt.py
"""
Определение склонности моделей rugpt к запоминанию обучающего датасета
"""
import collections
import os
import json
import itertools
import sys
import argparse
import random

## run_chitchat_fredt5.py
import os
import argparse

import torch
import transformers
from transformers import T5Config


if __name__ == '__main__':
    proj_dir = os.path.expanduser('~/polygon/chatbot')

## service_text2image.py
import io
import argparse
import logging
import random

from flask import Flask, request
from flask import jsonify

import transformers
from kandinsky2 import get_kandinsky2

## finetune_paraphraser_with_prompt_masking.py
"""
Эксперимент с файнтюном: токены исходного текста не включаем в backprop, присваивая соответствующим целям (labels) значение -100
"""

import os
import json
import io
import random
import itertools

## train_paraphraser_with_gpt2doublehead.py
"""
Файнтюн rugpt на датасете перефразировок с использованием GPT2DoubleHeadsModel (https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel)
Для проектов чатбота и генеративных стихов.

Используется датасет перефразировок из проекта чатбота с добавленными сэмплами проекта генеративных стихов.
В качестве дистракторов используем негативные примеры перефразировок из этого же датасета плюс рандомные выборки.

04.01.2023 Заранее подготовленный датасет загружаем из paraphrases.json (см. публичную версию https://huggingface.co/datasets/inkoziev/paraphrases)
"""

## validate_npqa.py
"""
Автоматическая оценка точности генерации цифрового ответа для p(0)qa сэмплов.

13.10.2022 Добавил валидацию модели на T5
"""

import os
import io
import re
import time

## tsne_vizualisation_of_gpt_token_embeddings.py
"""
Эксперимент с визуализацией эмбеддингов токенов в rugpt.
"""

import os
import io
import collections

import torch
import transformers
	import random
	import os

	import torch
	import transformers
	from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
	import deepspeed
	import matplotlib.pyplot as plt
	"""
	Тренировка модели болталки Axioma на FRED T5 для проекта https://github.com/Koziev/chatbot
	Эксперимент с файнтюном: токены истории диалога не включаем в backprop, присваивая соответствующим целям (labels) значение -100
	Прочие хинты по тренировке: https://kelijah.livejournal.com/315826.html
	"""

	import os
	import json
	import sys
	import io
	"""
	Определение склонности моделей rugpt к запоминанию обучающего датасета
	"""
	import collections
	import os
	import json
	import itertools
	import sys
	import argparse
	import random
	import io
	import argparse
	import logging
	import random

	from flask import Flask, request
	from flask import jsonify

	import transformers
	from kandinsky2 import get_kandinsky2
	"""
	Эксперимент с файнтюном: токены исходного текста не включаем в backprop, присваивая соответствующим целям (labels) значение -100
	"""

	import os
	import json
	import io
	import random
	import itertools
	"""
	Файнтюн rugpt на датасете перефразировок с использованием GPT2DoubleHeadsModel (https://huggingface.co/docs/transformers/model_doc/gpt2#transformers.GPT2DoubleHeadsModel)
	Для проектов чатбота и генеративных стихов.

	Используется датасет перефразировок из проекта чатбота с добавленными сэмплами проекта генеративных стихов.
	В качестве дистракторов используем негативные примеры перефразировок из этого же датасета плюс рандомные выборки.

	04.01.2023 Заранее подготовленный датасет загружаем из paraphrases.json (см. публичную версию https://huggingface.co/datasets/inkoziev/paraphrases)
	"""
	"""
	Автоматическая оценка точности генерации цифрового ответа для p(0)qa сэмплов.

	13.10.2022 Добавил валидацию модели на T5
	"""

	import os
	import io
	import re
	import time
	"""
	Эксперимент с визуализацией эмбеддингов токенов в rugpt.
	"""

	import os
	import io
	import collections

	import torch
	import transformers