priya-dwivedi/gec_trainer.py

## gec_trainer.py
# defining training related arguments
batch_size = 16
args = Seq2SeqTrainingArguments(output_dir="/content/drive/MyDrive/c4_200m/weights",
                        evaluation_strategy="steps",
                        per_device_train_batch_size=batch_size,
                        per_device_eval_batch_size=batch_size,
                        learning_rate=2e-5,
                        num_train_epochs=1,
                        weight_decay=0.01,
                        save_total_limit=2,
                        predict_with_generate=True,
                        fp16 = True,
                        gradient_accumulation_steps = 6,
                        eval_steps = 500,
                        save_steps = 500,
                        load_best_model_at_end=True,
                        logging_dir="/logs",
                        report_to="wandb")


# defining trainer using 🤗
trainer = Seq2SeqTrainer(model=model,
                args=args,
                train_dataset= GrammarDataset(train_dataset, tokenizer),
                eval_dataset=GrammarDataset(test_dataset, tokenizer),
                tokenizer=tokenizer,
                data_collator=data_collator,
                compute_metrics=compute_metrics)

##Training the model
trainer.train()
	# defining training related arguments
	batch_size = 16
	args = Seq2SeqTrainingArguments(output_dir="/content/drive/MyDrive/c4_200m/weights",
	evaluation_strategy="steps",
	per_device_train_batch_size=batch_size,
	per_device_eval_batch_size=batch_size,
	learning_rate=2e-5,
	num_train_epochs=1,
	weight_decay=0.01,
	save_total_limit=2,
	predict_with_generate=True,
	fp16 = True,
	gradient_accumulation_steps = 6,
	eval_steps = 500,
	save_steps = 500,
	load_best_model_at_end=True,
	logging_dir="/logs",
	report_to="wandb")


	# defining trainer using 🤗
	trainer = Seq2SeqTrainer(model=model,
	args=args,
	train_dataset= GrammarDataset(train_dataset, tokenizer),
	eval_dataset=GrammarDataset(test_dataset, tokenizer),
	tokenizer=tokenizer,
	data_collator=data_collator,
	compute_metrics=compute_metrics)

	##Training the model
	trainer.train()