Tom Aarsen tomaarsen

## update_e5_nl.py
import re
from huggingface_hub import get_collection, ModelCard
from sentence_transformers import SentenceTransformer
from sentence_transformers.models import Normalize

collection = get_collection(collection_slug="clips/e5-nl-68be9d3760240ce5c7d9f831")

ST_SNIPPET_PATTERN = r"""\
from sentence_transformers import SentenceTransformer
model = SentenceTransformer\((?:'|")([a-zA-Z0-9_\/\.-]+?)(?:'|")\)

## train_script.py
import argparse
import logging
import traceback
from collections import defaultdict
from collections.abc import Iterable
from enum import Enum, auto

import torch
from datasets import load_dataset
from torch import Tensor

## train_script.py
import logging
import traceback

import torch
from datasets import load_dataset

from sentence_transformers import SentenceTransformer
from sentence_transformers.cross_encoder import (
    CrossEncoder,
    CrossEncoderModelCardData,

## train_script.py
import logging

from datasets import load_dataset

from sentence_transformers import (
    SparseEncoder,
    SparseEncoderModelCardData,
    SparseEncoderTrainer,
    SparseEncoderTrainingArguments,
)

## export_locally.py
# requires sentence_transformers>=3.2.0
from sentence_transformers import SentenceTransformer, export_optimized_onnx_model, export_dynamic_quantized_onnx_model

# The model to export to ONNX (+ optimize, quantize), OpenVINO
model_id = "mixedbread-ai/mxbai-embed-large-v1"
# Where to save the exported models locally
output_dir = model_id.replace("/", "-")

onnx_model = SentenceTransformer(model_id, backend="onnx", model_kwargs={"export": True})
onnx_model.save_pretrained(output_dir)

## snowflake_arctic_trust_remote_code.ipynb

      
              1 file
            
          
              0 forks
            
          
                0 comments
              
            
              0 stars
            
          
                tomaarsen
                / snowflake_arctic_trust_remote_code.ipynb
            
            
              Created
              April 24, 2024 15:16
            
              
                Snowflake_Arctic_trust_remote_code.ipynb
              
          
      Loading

      Sorry, something went wrong. Reload?
      Sorry, we cannot display this file.
      Sorry, this file is invalid so it cannot be displayed.
      
          Viewer requires iframe.
      
    
## mrl_eval.py

from functools import partial
import datasets
from sentence_transformers import (
    SentenceTransformer,
    evaluation,
)
from torch.nn import functional as F

stsb = datasets.load_dataset("mteb/stsbenchmark-sts", split="test")

## demo.py
from transformers import AutoTokenizer, SinkCache, LlamaForCausalLM, TextStreamer
import torch

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
model = LlamaForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf", device_map="auto", torch_dtype=torch.float16
)

inputs = tokenizer(["Vaswani et al. (2017) introduced the Transformers"], return_tensors="pt").to(model.device)
cache = SinkCache(window_length=256, num_sink_tokens=4)

## handler.py
from typing import Any, Dict, List

from span_marker import SpanMarkerModel


class EndpointHandler:
    def __init__(self, model_id: str) -> None:
        self.model = SpanMarkerModel.from_pretrained(model_id)
        # Try to place it on CUDA, do nothing if it fails
        self.model.try_cuda()

## train_span_marker_keyphrase.py
from datasets import load_dataset, concatenate_datasets
from transformers import TrainingArguments
from span_marker import SpanMarkerModel, Trainer


def main() -> None:
    # Load the dataset, ensure "tokens" and "ner_tags" columns, and get a list of labels
    dataset = load_dataset("midas/inspec", "extraction")
    dataset = dataset.rename_columns({"document": "tokens", "doc_bio_tags": "ner_tags"})
    # Map string labels to integer labels instead
	import re
	from huggingface_hub import get_collection, ModelCard
	from sentence_transformers import SentenceTransformer
	from sentence_transformers.models import Normalize

	collection = get_collection(collection_slug="clips/e5-nl-68be9d3760240ce5c7d9f831")

	ST_SNIPPET_PATTERN = r"""\
	from sentence_transformers import SentenceTransformer
	model = SentenceTransformer\((?:'\|")([a-zA-Z0-9_\/\.-]+?)(?:'\|")\)
	import argparse
	import logging
	import traceback
	from collections import defaultdict
	from collections.abc import Iterable
	from enum import Enum, auto

	import torch
	from datasets import load_dataset
	from torch import Tensor
	import logging

	from datasets import load_dataset

	from sentence_transformers import (
	SparseEncoder,
	SparseEncoderModelCardData,
	SparseEncoderTrainer,
	SparseEncoderTrainingArguments,
	)
	# requires sentence_transformers>=3.2.0
	from sentence_transformers import SentenceTransformer, export_optimized_onnx_model, export_dynamic_quantized_onnx_model

	# The model to export to ONNX (+ optimize, quantize), OpenVINO
	model_id = "mixedbread-ai/mxbai-embed-large-v1"
	# Where to save the exported models locally
	output_dir = model_id.replace("/", "-")

	onnx_model = SentenceTransformer(model_id, backend="onnx", model_kwargs={"export": True})
	onnx_model.save_pretrained(output_dir)

	from functools import partial
	import datasets
	from sentence_transformers import (
	SentenceTransformer,
	evaluation,
	)
	from torch.nn import functional as F

	stsb = datasets.load_dataset("mteb/stsbenchmark-sts", split="test")
	from transformers import AutoTokenizer, SinkCache, LlamaForCausalLM, TextStreamer
	import torch

	tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
	model = LlamaForCausalLM.from_pretrained(
	"meta-llama/Llama-2-7b-hf", device_map="auto", torch_dtype=torch.float16
	)

	inputs = tokenizer(["Vaswani et al. (2017) introduced the Transformers"], return_tensors="pt").to(model.device)
	cache = SinkCache(window_length=256, num_sink_tokens=4)
	from typing import Any, Dict, List

	from span_marker import SpanMarkerModel


	class EndpointHandler:
	def __init__(self, model_id: str) -> None:
	self.model = SpanMarkerModel.from_pretrained(model_id)
	# Try to place it on CUDA, do nothing if it fails
	self.model.try_cuda()
	from datasets import load_dataset, concatenate_datasets
	from transformers import TrainingArguments
	from span_marker import SpanMarkerModel, Trainer


	def main() -> None:
	# Load the dataset, ensure "tokens" and "ner_tags" columns, and get a list of labels
	dataset = load_dataset("midas/inspec", "extraction")
	dataset = dataset.rename_columns({"document": "tokens", "doc_bio_tags": "ner_tags"})
	# Map string labels to integer labels instead