Илья Козиев Koziev

## generate_interpretations_5.py
"""
Генерация датасета для интерпретации вопросов:
- что анализирую?
- изображение | я анализирую изображение

30-08-2020 Добавлена проверка, что сгенерированный сэмпл не имеется в датасетах qa.txt и interpretations.txt

28-04-2021 Доработки для получения сырого датасета из assertions_1s.txt
"""

## knowledge_mining_1.py
import io
import itertools
import pickle
import collections
import glob
import os
import tqdm

import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer

## pretrained_bert_autoencoder.py
"""
Эксперимент с моделью несимметричного автоэнкодера с энкодером на базе претренированной модели BERT
"""

import io
import os
import random

import numpy as np
import sklearn.model_selection

## bert_autoencoder.py
# -*- coding: utf-8 -*-
"""
Использование модели BERT, натренированной кодом train_bert.py, в качестве энкодера
в автоэнкодерной модели.

Для экспериментов по изучению зависимости качества декодирования от сложности BERT.
"""

import random
import numpy as np

## train_bert.py
# -*- coding: utf-8 -*-
"""
Тренировка BERT с заданной конфигурацией на небольшом корпусе
"""

import numpy as np
import keras
import os
import collections
import pickle

## chatbot_tester.dialogues.txt
 ========== dialog_id=1 ==========

B: Привет, давай поболтаем?
H: горячо приветствую
B: что будем обсуждать?
H: давай тебя
B: Я готова отвечать на вопросы о себе.
H: ты кто?
B: я чатбот
B: Скажи, пожалуйста, кто ты?

## test_chat_output.0.0.2.15.txt
B: День добрый

H: кто ты?
B: я чатбот
B: Скажи, пожалуйста, кто ты?

H: ты чатбот?
B: ведь , честно говоря , я тоже являюсь чатботом !

H: ты человек?

## synonymy_detector_via_bert3.py
# coding: utf-8


import pandas as pd
import os
import numpy as np
import logging
import gc

from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score

## synonymy_model_bert.py
"""
Тренировка модели детектора синонимичности двух фраз с использованием претренированной модели BERT на PyTorch

09.03.2020 Добавлен расчет метрики MRR (mean reciprocal rank)
"""

import pandas as pd
import numpy as np
import random

## synonymy_model_pytorch.py
""" Тренировка модели детектора синонимичности двух фраз (сиамская рекуррентная сетка) на PyTorch """

import io
import pandas as pd
import numpy as np
import itertools
import random

import tqdm
from sklearn.model_selection import train_test_split
	"""
	Генерация датасета для интерпретации вопросов:
	- что анализирую?
	- изображение \| я анализирую изображение

	30-08-2020 Добавлена проверка, что сгенерированный сэмпл не имеется в датасетах qa.txt и interpretations.txt

	28-04-2021 Доработки для получения сырого датасета из assertions_1s.txt
	"""
	import io
	import itertools
	import pickle
	import collections
	import glob
	import os
	import tqdm

	import torch
	from transformers import GPT2LMHeadModel, GPT2Tokenizer
	"""
	Эксперимент с моделью несимметричного автоэнкодера с энкодером на базе претренированной модели BERT
	"""

	import io
	import os
	import random

	import numpy as np
	import sklearn.model_selection
	# -- coding: utf-8 --
	"""
	Использование модели BERT, натренированной кодом train_bert.py, в качестве энкодера
	в автоэнкодерной модели.

	Для экспериментов по изучению зависимости качества декодирования от сложности BERT.
	"""

	import random
	import numpy as np
	# -- coding: utf-8 --
	"""
	Тренировка BERT с заданной конфигурацией на небольшом корпусе
	"""

	import numpy as np
	import keras
	import os
	import collections
	import pickle
	========== dialog_id=1 ==========

	B: Привет, давай поболтаем?
	H: горячо приветствую
	B: что будем обсуждать?
	H: давай тебя
	B: Я готова отвечать на вопросы о себе.
	H: ты кто?
	B: я чатбот
	B: Скажи, пожалуйста, кто ты?
	B: День добрый

	H: кто ты?
	B: я чатбот
	B: Скажи, пожалуйста, кто ты?

	H: ты чатбот?
	B: ведь , честно говоря , я тоже являюсь чатботом !

	H: ты человек?
	# coding: utf-8


	import pandas as pd
	import os
	import numpy as np
	import logging
	import gc

	from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score
	"""
	Тренировка модели детектора синонимичности двух фраз с использованием претренированной модели BERT на PyTorch

	09.03.2020 Добавлен расчет метрики MRR (mean reciprocal rank)
	"""

	import pandas as pd
	import numpy as np
	import random
	""" Тренировка модели детектора синонимичности двух фраз (сиамская рекуррентная сетка) на PyTorch """

	import io
	import pandas as pd
	import numpy as np
	import itertools
	import random

	import tqdm
	from sklearn.model_selection import train_test_split