thistleknot/dataset_distillation.py

## dataset_distillation.py
import torch
import torch.nn.functional as F
from transformers import GPTNeoForCausalLM, AutoTokenizer
from datasets import load_dataset
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import random

# Parameters
NUM_EPOCHS = 100
LEARNING_RATE = 1e-4
NUM_DISTILLED_DATA = 10  # Number of synthetic data points
DISTILLED_SEQ_LEN = 21  # Length of sequences for distillation
EMBEDDING_SIZE = 768  # Adjust based on the model
EVAL_INTERVAL = 1

# Load GPT-Neo model and tokenizer
model_name = "EleutherAI/gpt-neo-125M"
model = GPTNeoForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# Function to extract embeddings
def extract_embeddings(data, tokenizer, model):
    inputs = tokenizer(data, return_tensors="pt", padding=True, truncation=True)
    outputs = model(**inputs, output_hidden_states=True)
    return outputs.hidden_states[-1].detach()

# Custom GPT-Neo model for direct embedding input
class CustomGPTNeo(GPTNeoForCausalLM):
    def forward(self, embeddings, labels=None):
        transformer_outputs = self.transformer(inputs_embeds=embeddings, return_dict=True)
        hidden_states = transformer_outputs.last_hidden_state
        lm_logits = self.lm_head(hidden_states)
        return lm_logits

# Function to get labels from logits
def get_labels_from_logits(logits, tokenizer):
    probs = torch.softmax(logits, dim=-1)
    _, predicted_token_ids = torch.max(probs, dim=-1)
    return [tokenizer.decode(token_id) for token_id in predicted_token_ids]

# Evaluation function
def evaluate_model(model, synthetic_data, eval_embeddings, num_samples):
    sampled_indices = random.sample(range(len(eval_embeddings)), num_samples)
    sampled_eval_embeddings = torch.stack([eval_embeddings[i] for i in sampled_indices])

    # Remove extra dimension if necessary
    sampled_eval_embeddings = sampled_eval_embeddings.squeeze(1)

    with torch.no_grad():
        synthetic_logits = model(synthetic_data)
        eval_logits = model(sampled_eval_embeddings)
        eval_loss = F.kl_div(F.log_softmax(synthetic_logits, dim=-1), F.softmax(eval_logits, dim=-1), reduction='batchmean')
    return eval_loss.item()

# Load and preprocess dataset
dataset = load_dataset("Abirate/english_quotes")
quotes = [item['quote'] for item in dataset['train']]
filtered_quotes = [q for q in quotes if len(tokenizer.encode(q, truncation=True)) == DISTILLED_SEQ_LEN]
train_quotes, eval_quotes = train_test_split(filtered_quotes, test_size=0.2, random_state=42)

# Extract embeddings
train_embeddings = [extract_embeddings(text, tokenizer, model) for text in train_quotes]
eval_embeddings = [extract_embeddings(text, tokenizer, model) for text in eval_quotes]

# Initialize synthetic dataset
synthetic_data = torch.randn(NUM_DISTILLED_DATA, DISTILLED_SEQ_LEN, EMBEDDING_SIZE, requires_grad=True)

# Optimization setup
custom_model = CustomGPTNeo.from_pretrained(model_name)
optimizer = torch.optim.Adam([synthetic_data], lr=LEARNING_RATE)

# Distillation process
for epoch in range(NUM_EPOCHS):
    shuffled_indices = random.sample(range(len(train_embeddings)), len(train_embeddings))
    total_loss = 0.0
    num_batches = len(train_embeddings) // NUM_DISTILLED_DATA

    for batch_idx in range(num_batches):
        optimizer.zero_grad()
        batch_indices = shuffled_indices[batch_idx * NUM_DISTILLED_DATA:(batch_idx + 1) * NUM_DISTILLED_DATA]
        batch_train_embeddings = torch.stack([train_embeddings[i] for i in batch_indices])

        # Remove extra dimension
        batch_train_embeddings = batch_train_embeddings.squeeze(1)  # Removing the second dimension

        # Diagnostic print statements (optional, for confirmation)
        #print("Adjusted batch_train_embeddings shape:", batch_train_embeddings.shape)

        synthetic_logits = custom_model(synthetic_data)
        batch_train_logits = custom_model(batch_train_embeddings)
        loss = F.kl_div(F.log_softmax(synthetic_logits, dim=-1), F.softmax(batch_train_logits, dim=-1), reduction='batchmean')
        total_loss += loss.item()  # Accumulate the loss

        # Print training loss every batch
        print(f"Batch {batch_idx}: Training Loss {loss.item()}")

        loss.backward()
        optimizer.step()

        # Calculate the average loss for the epoch
        avg_training_loss = total_loss / num_batches

        # Evaluate at the end of the epoch
        if epoch % EVAL_INTERVAL == 0 and batch_idx == num_batches - 1:
            eval_loss = evaluate_model(custom_model, synthetic_data, eval_embeddings, NUM_DISTILLED_DATA)
            print(f"Epoch {epoch}: Average Training Loss {avg_training_loss}, Evaluation Loss {eval_loss}")

# Save synthetic dataset
synthetic_labels = get_labels_from_logits(custom_model(synthetic_data), tokenizer)
pd.DataFrame([' '.join(t) for t in synthetic_labels]).to_csv('distilled_dataset.csv')
	import torch
	import torch.nn.functional as F
	from transformers import GPTNeoForCausalLM, AutoTokenizer
	from datasets import load_dataset
	from sklearn.model_selection import train_test_split
	import pandas as pd
	import numpy as np
	import random

	# Parameters
	NUM_EPOCHS = 100
	LEARNING_RATE = 1e-4
	NUM_DISTILLED_DATA = 10 # Number of synthetic data points
	DISTILLED_SEQ_LEN = 21 # Length of sequences for distillation
	EMBEDDING_SIZE = 768 # Adjust based on the model
	EVAL_INTERVAL = 1

	# Load GPT-Neo model and tokenizer
	model_name = "EleutherAI/gpt-neo-125M"
	model = GPTNeoForCausalLM.from_pretrained(model_name)
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	tokenizer.pad_token = tokenizer.eos_token

	# Function to extract embeddings
	def extract_embeddings(data, tokenizer, model):
	inputs = tokenizer(data, return_tensors="pt", padding=True, truncation=True)
	outputs = model(**inputs, output_hidden_states=True)
	return outputs.hidden_states[-1].detach()

	# Custom GPT-Neo model for direct embedding input
	class CustomGPTNeo(GPTNeoForCausalLM):
	def forward(self, embeddings, labels=None):
	transformer_outputs = self.transformer(inputs_embeds=embeddings, return_dict=True)
	hidden_states = transformer_outputs.last_hidden_state
	lm_logits = self.lm_head(hidden_states)
	return lm_logits

	# Function to get labels from logits
	def get_labels_from_logits(logits, tokenizer):
	probs = torch.softmax(logits, dim=-1)
	_, predicted_token_ids = torch.max(probs, dim=-1)
	return [tokenizer.decode(token_id) for token_id in predicted_token_ids]

	# Evaluation function
	def evaluate_model(model, synthetic_data, eval_embeddings, num_samples):
	sampled_indices = random.sample(range(len(eval_embeddings)), num_samples)
	sampled_eval_embeddings = torch.stack([eval_embeddings[i] for i in sampled_indices])

	# Remove extra dimension if necessary
	sampled_eval_embeddings = sampled_eval_embeddings.squeeze(1)

	with torch.no_grad():
	synthetic_logits = model(synthetic_data)
	eval_logits = model(sampled_eval_embeddings)
	eval_loss = F.kl_div(F.log_softmax(synthetic_logits, dim=-1), F.softmax(eval_logits, dim=-1), reduction='batchmean')
	return eval_loss.item()

	# Load and preprocess dataset
	dataset = load_dataset("Abirate/english_quotes")
	quotes = [item['quote'] for item in dataset['train']]
	filtered_quotes = [q for q in quotes if len(tokenizer.encode(q, truncation=True)) == DISTILLED_SEQ_LEN]
	train_quotes, eval_quotes = train_test_split(filtered_quotes, test_size=0.2, random_state=42)

	# Extract embeddings
	train_embeddings = [extract_embeddings(text, tokenizer, model) for text in train_quotes]
	eval_embeddings = [extract_embeddings(text, tokenizer, model) for text in eval_quotes]

	# Initialize synthetic dataset
	synthetic_data = torch.randn(NUM_DISTILLED_DATA, DISTILLED_SEQ_LEN, EMBEDDING_SIZE, requires_grad=True)

	# Optimization setup
	custom_model = CustomGPTNeo.from_pretrained(model_name)
	optimizer = torch.optim.Adam([synthetic_data], lr=LEARNING_RATE)

	# Distillation process
	for epoch in range(NUM_EPOCHS):
	shuffled_indices = random.sample(range(len(train_embeddings)), len(train_embeddings))
	total_loss = 0.0
	num_batches = len(train_embeddings) // NUM_DISTILLED_DATA

	for batch_idx in range(num_batches):
	optimizer.zero_grad()
	batch_indices = shuffled_indices[batch_idx * NUM_DISTILLED_DATA:(batch_idx + 1) * NUM_DISTILLED_DATA]
	batch_train_embeddings = torch.stack([train_embeddings[i] for i in batch_indices])

	# Remove extra dimension
	batch_train_embeddings = batch_train_embeddings.squeeze(1) # Removing the second dimension

	# Diagnostic print statements (optional, for confirmation)
	#print("Adjusted batch_train_embeddings shape:", batch_train_embeddings.shape)

	synthetic_logits = custom_model(synthetic_data)
	batch_train_logits = custom_model(batch_train_embeddings)
	loss = F.kl_div(F.log_softmax(synthetic_logits, dim=-1), F.softmax(batch_train_logits, dim=-1), reduction='batchmean')
	total_loss += loss.item() # Accumulate the loss

	# Print training loss every batch
	print(f"Batch {batch_idx}: Training Loss {loss.item()}")

	loss.backward()
	optimizer.step()

	# Calculate the average loss for the epoch
	avg_training_loss = total_loss / num_batches

	# Evaluate at the end of the epoch
	if epoch % EVAL_INTERVAL == 0 and batch_idx == num_batches - 1:
	eval_loss = evaluate_model(custom_model, synthetic_data, eval_embeddings, NUM_DISTILLED_DATA)
	print(f"Epoch {epoch}: Average Training Loss {avg_training_loss}, Evaluation Loss {eval_loss}")

	# Save synthetic dataset
	synthetic_labels = get_labels_from_logits(custom_model(synthetic_data), tokenizer)
	pd.DataFrame([' '.join(t) for t in synthetic_labels]).to_csv('distilled_dataset.csv')