agyaatcoder/hf-tei-modal-labs.py

## hf-tei-modal-labs.py
import subprocess
import os
from pathlib import Path
import socket

from modal import Image, Mount, Stub, Secret, web_server, gpu

MODEL_ID = "BAAI/bge-small-en-v1.5"
PORT = 8080
DOCKER_IMAGE = "ghcr.io/huggingface/text-embeddings-inference:86-0.4.0"

stub = Stub("text-embeddings-inference-2")
GPU_CONFIG = gpu.A10G()


tei_image = (
    Image.from_registry(DOCKER_IMAGE, add_python="3.10")
    .dockerfile_commands("ENTRYPOINT []")
    #.run_function(download_model, timeout=60 * 20, secrets=[Secret.from_name("huggingface-secret")])
)

@stub.function(
    image=tei_image,
    gpu=GPU_CONFIG,
    concurrency_limit=1,
)
@web_server(port=PORT, startup_timeout=120)
def run_server():
    model = MODEL_ID
    port = PORT
    cmd = f"text-embeddings-router --model-id {model} --hostname 0.0.0.0 --port {port} "
    subprocess.Popen(cmd, shell=True)
	import subprocess
	import os
	from pathlib import Path
	import socket

	from modal import Image, Mount, Stub, Secret, web_server, gpu

	MODEL_ID = "BAAI/bge-small-en-v1.5"
	PORT = 8080
	DOCKER_IMAGE = "ghcr.io/huggingface/text-embeddings-inference:86-0.4.0"

	stub = Stub("text-embeddings-inference-2")
	GPU_CONFIG = gpu.A10G()


	tei_image = (
	Image.from_registry(DOCKER_IMAGE, add_python="3.10")
	.dockerfile_commands("ENTRYPOINT []")
	#.run_function(download_model, timeout=60 * 20, secrets=[Secret.from_name("huggingface-secret")])
	)

	@stub.function(
	image=tei_image,
	gpu=GPU_CONFIG,
	concurrency_limit=1,
	)
	@web_server(port=PORT, startup_timeout=120)
	def run_server():
	model = MODEL_ID
	port = PORT
	cmd = f"text-embeddings-router --model-id {model} --hostname 0.0.0.0 --port {port} "
	subprocess.Popen(cmd, shell=True)