icoxfog417/chariot_demo2.py

## chariot_demo2.py
from chariot.dataset_preprocessor import DatasetPreprocessor
from chariot.transformer.formatter import Padding


dp = DatasetPreprocessor()
dp.process("review")\
    .by(ct.text.UnicodeNormalizer())\
    .by(ct.Tokenizer("en"))\
    .by(ct.token.StopwordFilter("en"))\
    .by(ct.Vocabulary(min_df=5, max_df=0.5))\
    .by(Padding(length=pad_length))\
    .fit(train_data["review"])
dp.process("polarity")\
    .by(ct.formatter.CategoricalLabel(num_class=3))


preprocessed = dp.preprocess(data)

# DatasetPreprocessor has multiple preprocessor.
# Because of this, save file format is `tar.gz`.
dp.save("my_dataset_preprocessor.tar.gz")

loaded = DatasetPreprocessor.load("my_dataset_preprocessor.tar.gz")
	from chariot.dataset_preprocessor import DatasetPreprocessor
	from chariot.transformer.formatter import Padding


	dp = DatasetPreprocessor()
	dp.process("review")\
	.by(ct.text.UnicodeNormalizer())\
	.by(ct.Tokenizer("en"))\
	.by(ct.token.StopwordFilter("en"))\
	.by(ct.Vocabulary(min_df=5, max_df=0.5))\
	.by(Padding(length=pad_length))\
	.fit(train_data["review"])
	dp.process("polarity")\
	.by(ct.formatter.CategoricalLabel(num_class=3))


	preprocessed = dp.preprocess(data)

	# DatasetPreprocessor has multiple preprocessor.
	# Because of this, save file format is `tar.gz`.
	dp.save("my_dataset_preprocessor.tar.gz")

	loaded = DatasetPreprocessor.load("my_dataset_preprocessor.tar.gz")