Created
January 7, 2026 01:47
-
-
Save CookieBox26/c78bec13a34d00ad4a64f203865d31e2 to your computer and use it in GitHub Desktop.
トークン数を確認するスクリプト
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
| import torch | |
| from transformers import AutoTokenizer, AutoModel | |
| class Embedder: | |
| def __init__(self): | |
| self.model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2" | |
| self.device = "cuda" if torch.cuda.is_available() else "cpu" | |
| self.tokenizer = AutoTokenizer.from_pretrained(self.model_name) | |
| text = """ | |
| 回答は日本語で行ってください。私が明示的に依頼しない限り、コードを実装しようとしないでください。「どう実装するとよいですか」と尋ねた場合は、実装案の提示のみにしてください。コードを書かないでください。「その案で実装してください」と明示した場合のみ、実装を行ってください。私がコード実装を依頼した場合、以下を守ってください。一度に大量に実装することは避け、少量ずつ実装しながら都度私に内容のレビューを求めてください。ここでいう「レビュー」は、途中で選択肢の提示を挟んで済ませるという意味ではありません。 | |
| """.strip() | |
| texts = [text] | |
| embedder = Embedder() | |
| encoded = embedder.tokenizer(texts, padding=True, truncation=True, return_tensors="pt") | |
| print(encoded['input_ids'][0].size()) # torch.Size([134]) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment