Skip to content

Instantly share code, notes, and snippets.

@CookieBox26
Created January 7, 2026 01:47
Show Gist options
  • Select an option

  • Save CookieBox26/c78bec13a34d00ad4a64f203865d31e2 to your computer and use it in GitHub Desktop.

Select an option

Save CookieBox26/c78bec13a34d00ad4a64f203865d31e2 to your computer and use it in GitHub Desktop.
トークン数を確認するスクリプト
import torch
from transformers import AutoTokenizer, AutoModel
class Embedder:
def __init__(self):
self.model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
self.device = "cuda" if torch.cuda.is_available() else "cpu"
self.tokenizer = AutoTokenizer.from_pretrained(self.model_name)
text = """
回答は日本語で行ってください。私が明示的に依頼しない限り、コードを実装しようとしないでください。「どう実装するとよいですか」と尋ねた場合は、実装案の提示のみにしてください。コードを書かないでください。「その案で実装してください」と明示した場合のみ、実装を行ってください。私がコード実装を依頼した場合、以下を守ってください。一度に大量に実装することは避け、少量ずつ実装しながら都度私に内容のレビューを求めてください。ここでいう「レビュー」は、途中で選択肢の提示を挟んで済ませるという意味ではありません。
""".strip()
texts = [text]
embedder = Embedder()
encoded = embedder.tokenizer(texts, padding=True, truncation=True, return_tensors="pt")
print(encoded['input_ids'][0].size()) # torch.Size([134])
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment