itsuncheng/preprocess.py

## preprocess.py
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Model parameter
MAX_SEQ_LEN = 128
PAD_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
UNK_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.unk_token)

# Fields

label_field = Field(sequential=False, use_vocab=False, batch_first=True, dtype=torch.float)
text_field = Field(use_vocab=False, tokenize=tokenizer.encode, lower=False, include_lengths=False, batch_first=True,
                   fix_length=MAX_SEQ_LEN, pad_token=PAD_INDEX, unk_token=UNK_INDEX)
fields = [('label', label_field), ('title', text_field), ('text', text_field), ('titletext', text_field)]

# TabularDataset

train, valid, test = TabularDataset.splits(path=source_folder, train='train.csv', validation='valid.csv',
                                           test='test.csv', format='CSV', fields=fields, skip_header=True)

# Iterators

train_iter = BucketIterator(train, batch_size=16, sort_key=lambda x: len(x.text),
                            device=device, train=True, sort=True, sort_within_batch=True)
valid_iter = BucketIterator(valid, batch_size=16, sort_key=lambda x: len(x.text),
                            device=device, train=True, sort=True, sort_within_batch=True)
test_iter = Iterator(test, batch_size=16, device=device, train=False, shuffle=False, sort=False)
	tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

	# Model parameter
	MAX_SEQ_LEN = 128
	PAD_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
	UNK_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.unk_token)

	# Fields

	label_field = Field(sequential=False, use_vocab=False, batch_first=True, dtype=torch.float)
	text_field = Field(use_vocab=False, tokenize=tokenizer.encode, lower=False, include_lengths=False, batch_first=True,
	fix_length=MAX_SEQ_LEN, pad_token=PAD_INDEX, unk_token=UNK_INDEX)
	fields = [('label', label_field), ('title', text_field), ('text', text_field), ('titletext', text_field)]

	# TabularDataset

	train, valid, test = TabularDataset.splits(path=source_folder, train='train.csv', validation='valid.csv',
	test='test.csv', format='CSV', fields=fields, skip_header=True)

	# Iterators

	train_iter = BucketIterator(train, batch_size=16, sort_key=lambda x: len(x.text),
	device=device, train=True, sort=True, sort_within_batch=True)
	valid_iter = BucketIterator(valid, batch_size=16, sort_key=lambda x: len(x.text),
	device=device, train=True, sort=True, sort_within_batch=True)
	test_iter = Iterator(test, batch_size=16, device=device, train=False, shuffle=False, sort=False)