toranb/application.ex

## application.ex
  def serving() do
    mistral = {:hf, "HuggingFaceH4/zephyr-7b-alpha"}
    {:ok, spec} = Bumblebee.load_spec(mistral, module: Bumblebee.Text.Mistral, architecture: :for_causal_language_modeling)

    {:ok, model_info} = Bumblebee.load_model(mistral, spec: spec, backend: {EXLA.Backend, client: :host})
    {:ok, tokenizer} = Bumblebee.load_tokenizer(mistral, module: Bumblebee.Text.LlamaTokenizer)
    {:ok, generation_config} = Bumblebee.load_generation_config(mistral, spec_module: Bumblebee.Text.Mistral)

    generation_config = Bumblebee.configure(generation_config, max_new_tokens: 500)
    Bumblebee.Text.generation(model_info, tokenizer, generation_config, defn_options: [compiler: EXLA])
  end
	def serving() do
	mistral = {:hf, "HuggingFaceH4/zephyr-7b-alpha"}
	{:ok, spec} = Bumblebee.load_spec(mistral, module: Bumblebee.Text.Mistral, architecture: :for_causal_language_modeling)

	{:ok, model_info} = Bumblebee.load_model(mistral, spec: spec, backend: {EXLA.Backend, client: :host})
	{:ok, tokenizer} = Bumblebee.load_tokenizer(mistral, module: Bumblebee.Text.LlamaTokenizer)
	{:ok, generation_config} = Bumblebee.load_generation_config(mistral, spec_module: Bumblebee.Text.Mistral)

	generation_config = Bumblebee.configure(generation_config, max_new_tokens: 500)
	Bumblebee.Text.generation(model_info, tokenizer, generation_config, defn_options: [compiler: EXLA])
	end