Aishwarya Goel Inferless ( A.G.I) AGInfer

## gist:9b3dc89aeec5af613034a864e2b19627
pip install llama-cpp-python

## gist:83e57ccbd7055291fd9044d754833088
curl - location - request POST 'http://localhost:8000/v2/repository/models/nvidia-triton-llm-streaming/load'

## gist:acb47b5fab8cc2c675eb7441ec25d1cf
docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v ~/model_repo:/
models nvcr.io/nvidia/tritonserver:23.11-py3 tritonserver --model-repository=/
models --model-control-mode=explicit

## gist:8b43ef2de035276dc63395010daa7d40
pip install "autoawq==0.1.8"
pip install "torch==2.1.2"

## nv2
docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v ~/model_repo:/
models nvcr.io/nvidia/tritonserver:23.11-py3 tritonserver --model-repository=/
models --model-control-mode=explicit

## gist:253446da56be918a7334a96166bdc28e
 "autoawq==0.1.8"
    "torch==2.1.2"
	docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v ~/model_repo:/
	models nvcr.io/nvidia/tritonserver:23.11-py3 tritonserver --model-repository=/
	models --model-control-mode=explicit
	docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v ~/model_repo:/
	models nvcr.io/nvidia/tritonserver:23.11-py3 tritonserver --model-repository=/
	models --model-control-mode=explicit