bigsnarfdude/testing_perplexity.py

## testing_perplexity.py
# https://huggingface.co/docs/transformers/perplexity

import datasets
import numpy as np
import torch
from torch.nn import CrossEntropyLoss
from transformers import AutoModelForCausalLM, AutoTokenizer

import evaluate
from evaluate import logging


perplexity = evaluate.load("perplexity", module_type="metric")
input_texts = ["lorem ipsum", "Happy Birthday!", "Bienvenue"]

results = perplexity.compute(model_id='gpt2',
                             add_start_token=False,
                             predictions=input_texts)


print(list(results.keys()))
print(round(results["mean_perplexity"], 0))
print(round(results["perplexities"][0], 0))


from datasets import load_dataset
perplexity = evaluate.load("perplexity", module_type="metric")
input_texts = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")["text"]
input_texts = [s for s in input_texts if s!='']
results = perplexity.compute(model_id='gpt2',
                             predictions=input_texts)
print(list(results.keys()))
print(round(results["mean_perplexity"], 2))
print(round(results["perplexities"][0], 2))
	# https://huggingface.co/docs/transformers/perplexity

	import datasets
	import numpy as np
	import torch
	from torch.nn import CrossEntropyLoss
	from transformers import AutoModelForCausalLM, AutoTokenizer

	import evaluate
	from evaluate import logging



	perplexity = evaluate.load("perplexity", module_type="metric")
	input_texts = ["lorem ipsum", "Happy Birthday!", "Bienvenue"]

	results = perplexity.compute(model_id='gpt2',
	add_start_token=False,
	predictions=input_texts)


	print(list(results.keys()))
	print(round(results["mean_perplexity"], 0))
	print(round(results["perplexities"][0], 0))





	from datasets import load_dataset
	perplexity = evaluate.load("perplexity", module_type="metric")
	input_texts = load_dataset("wikitext", "wikitext-2-raw-v1", split="test")["text"]
	input_texts = [s for s in input_texts if s!='']
	results = perplexity.compute(model_id='gpt2',
	predictions=input_texts)
	print(list(results.keys()))
	print(round(results["mean_perplexity"], 2))
	print(round(results["perplexities"][0], 2))