radi-cho/data-mt5-tutorial.py

## data-mt5-tutorial.py
dataset = load_dataset("csv", data_files="train.csv")
dataset = dataset["train"].shuffle(seed=42)

def preprocess_function(examples):
    padding = "max_length"
    max_length = 200

    inputs = [ex for ex in examples["Text"]]
    targets = [ex for ex in examples["Expected"]]
    model_inputs = tokenizer(inputs, max_length=max_length, padding=padding, truncation=True)
    labels = tokenizer(targets, max_length=max_length, padding=padding, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs
	dataset = load_dataset("csv", data_files="train.csv")
	dataset = dataset["train"].shuffle(seed=42)

	def preprocess_function(examples):
	padding = "max_length"
	max_length = 200

	inputs = [ex for ex in examples["Text"]]
	targets = [ex for ex in examples["Expected"]]
	model_inputs = tokenizer(inputs, max_length=max_length, padding=padding, truncation=True)
	labels = tokenizer(targets, max_length=max_length, padding=padding, truncation=True)

	model_inputs["labels"] = labels["input_ids"]
	return model_inputs