thepycoder/transformers_endpoint.sh

## transformers_endpoint.sh
clearml-serving --id <your_service_ID> model add --engine triton \
    --endpoint "transformer_model" \
    --model-id <your_model_ID> \
    --preprocess examples/huggingface/preprocessing.py \
    --input-size "[-1]" "[-1]" "[-1]" \
    --input-type int32 int32 int32 \
    --input-name "input_ids" "token_type_ids" "attention_mask" \
    --output-size "[2]" \
    --output-type float32 \
    --output-name "output" \
    --aux-config platform=\"onnxruntime_onnx\" default_model_filename=\"model.bin\" dynamic_batching.preferred_batch_size="[1,2,4,8,16,32,64]" dynamic_batching.max_queue_delay_microseconds=5000000 max_batch_size=64
	clearml-serving --id <your_service_ID> model add --engine triton \
	--endpoint "transformer_model" \
	--model-id <your_model_ID> \
	--preprocess examples/huggingface/preprocessing.py \
	--input-size "[-1]" "[-1]" "[-1]" \
	--input-type int32 int32 int32 \
	--input-name "input_ids" "token_type_ids" "attention_mask" \
	--output-size "[2]" \
	--output-type float32 \
	--output-name "output" \
	--aux-config platform=\"onnxruntime_onnx\" default_model_filename=\"model.bin\" dynamic_batching.preferred_batch_size="[1,2,4,8,16,32,64]" dynamic_batching.max_queue_delay_microseconds=5000000 max_batch_size=64