dvsrepo/huggingface_rubrix_example_load_train.py

## huggingface_rubrix_example_load_train.py
from datasets import Dataset
import rubrix as rb

# load rubrix dataset
df = rb.load('unlabelled_dataset_zeroshot')

# inputs can be dicts to support multifield classifiers, we just use the text here.
df['text'] = df.inputs.transform(lambda r: r['text'])

# we flatten the annotations and create a dict for turning labels into numeric ids
df['labels'] = df.annotation.transform(lambda r: r[0])
label2id = {label:id for id,label in enumerate(set(df.labels.values))}


# create 🤗 dataset from pandas with labels as numeric ids
dataset = Dataset.from_pandas(df[['text', 'labels']])
dataset = dataset.map(lambda example: {'labels': label2id[example['labels']]})
	from datasets import Dataset
	import rubrix as rb

	# load rubrix dataset
	df = rb.load('unlabelled_dataset_zeroshot')

	# inputs can be dicts to support multifield classifiers, we just use the text here.
	df['text'] = df.inputs.transform(lambda r: r['text'])

	# we flatten the annotations and create a dict for turning labels into numeric ids
	df['labels'] = df.annotation.transform(lambda r: r[0])
	label2id = {label:id for id,label in enumerate(set(df.labels.values))}


	# create 🤗 dataset from pandas with labels as numeric ids
	dataset = Dataset.from_pandas(df[['text', 'labels']])
	dataset = dataset.map(lambda example: {'labels': label2id[example['labels']]})