lostella/gluonts_datasets_sanity_check.py

## gluonts_datasets_sanity_check.py
from gluonts.dataset.repository.datasets import get_dataset, dataset_names

def check_train_test_split(dataset):
    prediction_length = dataset.metadata.prediction_length

    train_end = {}
    for entry in dataset.train:
        assert entry["item_id"] not in train_end, f"item {k} is duplicate"
        train_end[entry["item_id"]] = entry["start"] + len(entry["target"]) * entry["start"].freq

    test_end = {}
    for entry in dataset.test:
        test_end[entry["item_id"]] = entry["start"] + len(entry["target"]) * entry["start"].freq

    for k in test_end:
        if k not in train_end:
            continue
        expected_end = train_end[k] + prediction_length * train_end[k].freq
        assert test_end[k] >= expected_end, f"test entry for item {k} ends at {test_end[k]} < {expected_end}"

for name in dataset_names:
    try:
        dataset = get_dataset(name)
    except RuntimeError:
        print(f"WARN dataset '{name}' could not be obtained")
        continue
    try:
        check_train_test_split(dataset)
    except AssertionError as err:
        print(f"ERR  dataset '{name}' has issues: {err}")
    else:
        print(f"✓    dataset '{name}' looks good")
	from gluonts.dataset.repository.datasets import get_dataset, dataset_names

	def check_train_test_split(dataset):
	prediction_length = dataset.metadata.prediction_length

	train_end = {}
	for entry in dataset.train:
	assert entry["item_id"] not in train_end, f"item {k} is duplicate"
	train_end[entry["item_id"]] = entry["start"] + len(entry["target"]) * entry["start"].freq

	test_end = {}
	for entry in dataset.test:
	test_end[entry["item_id"]] = entry["start"] + len(entry["target"]) * entry["start"].freq

	for k in test_end:
	if k not in train_end:
	continue
	expected_end = train_end[k] + prediction_length * train_end[k].freq
	assert test_end[k] >= expected_end, f"test entry for item {k} ends at {test_end[k]} < {expected_end}"

	for name in dataset_names:
	try:
	dataset = get_dataset(name)
	except RuntimeError:
	print(f"WARN dataset '{name}' could not be obtained")
	continue
	try:
	check_train_test_split(dataset)
	except AssertionError as err:
	print(f"ERR dataset '{name}' has issues: {err}")
	else:
	print(f"✓ dataset '{name}' looks good")