Yuyang Lan y-lan

## longest_japanese_tokens_gpt4o.py
import tiktoken
import langdetect

#https://github.com/openai/tiktoken/blob/c0ba74c238d18b4824c25f3c27fc8698055b9a76/tiktoken/model.py#L9
T = tiktoken.get_encoding("o200k_base")

length_dict = {}

for i in range(T.n_vocab):
    try:

## create_huggingface_dataset.py
from datasets import Dataset, DatasetDict
import pandas as pd

train_ratio = 0.9

tdf = df.sample(frac=train_ratio, random_state=14)
vdf = df.drop(tdf.index)

tds = Dataset.from_pandas(tdf, preserve_index=False)
vds = Dataset.from_pandas(vdf, preserve_index=False)

## langchain_llm_logging.py
from typing import Any, Dict, List, Optional
from uuid import UUID
from langchain.callbacks.base import BaseCallbackHandler
from langchain.schema import LLMResult
import json
import time


class LLMLoggingCallbackHandler(BaseCallbackHandler):

## llm_logging.py
from typing import Any, Dict, List, Optional
from uuid import UUID
from langchain.callbacks.base import BaseCallbackHandler
from langchain.schema import LLMResult
import json
import time


class LLMLoggingCallbackHandler(BaseCallbackHandler):

## count_llama_tokens.py
from transformers import LlamaTokenizer

tokenizer = LlamaTokenizer.from_pretrained('decapoda-research/llama-7b-hf')

def count(text):
  return len(tokenizer(text)['input_ids'])

def parallel_count(texts):
  from joblib import Parallel, delayed
  results = Parallel(n_jobs=-1)(delayed(count)(text) for text in texts)

## AI_news_letter.2023-03-26.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                y-lan
                / AI_news_letter.2023-03-26.md
            
            
              Last active
              March 27, 2023 16:58
            
          
    2023-03-26


#1
Up to 80 percent of workers could see jobs impacted by AI

(AIによって最大80％の労働者の仕事が影響を受ける可能性がある)
米国の労働者の80％が、ChatGPTと呼ばれるAIチャットボットの導入によって、少なくとも10％の業務に影響を受ける可能性があると、OpenAIとペンシルバニア大学の研究者が主張している。研究者たちは、高収入の仕事ほどGPTによる影響を受けやすいと結論づけたが、ほとんどの業界で影響が及ぶと予測している。研究は、GPTまたはGPTパワードシステムへのアクセスが、人間が業務を実行する時間を少なくとも50％短縮するかどうかを測定する「露出」を調べた。研究者たちは、露出がGPTによる完全な自動化を意味するわけではないと強調した。研究によると、数学者、通訳、会計士、法律秘書、作家などの職業が最も高い露出率を持っている。一方、鉄道整備作業員、調理師、メカニック、床屋、肉詰め作業員、石工などの低賃金の仕事には、露出がないとされた。

  
## beta_bandit.py
from numpy import *
from scipy.stats import beta


class BetaBandit(object):
    def __init__(self, num_options=2, prior=(1.0,1.0)):
        self.trials = zeros(shape=(num_options,), dtype=int)
        self.successes = zeros(shape=(num_options,), dtype=int)
        self.num_options = num_options
        self.prior = prior

## Golang Essentials.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                y-lan
                / Golang Essentials.md
            
            
              Created
              January 28, 2016 04:39
                — forked from Integralist/Golang Essentials.md
            
              
                Golang Essentials
              
          
Install
Shell exports
Directory explanations
Automatic Imports
Private repo access
Guard (automatic go run)
Godo
Spurious
AWS SDK with Go (OLD!)
Build and Compilation


## presto_kill_all.js
function kill(u) {
    var rq = d3.selectAll('.query-row')[0].filter(function(d, i) {
        var owner = d.querySelector('div.col-md-3.col-lg-3 div.row:nth-child(2)').textContent.trim();

        return (d.querySelector('div.col-md-4.col-lg-3 div.row:nth-child(2)').textContent === 'RUNNING') &&
             (u === undefined || owner == u);
    }).map(function(d,i){
        return d.dataset['reactid'].split('$')[1]; })

    console.log(rq)

## 0_reuse_code.js
// Use Gists to store code you would like to remember later on
console.log(window); // log the "window" object to the console
	import tiktoken
	import langdetect

	#https://github.com/openai/tiktoken/blob/c0ba74c238d18b4824c25f3c27fc8698055b9a76/tiktoken/model.py#L9
	T = tiktoken.get_encoding("o200k_base")

	length_dict = {}

	for i in range(T.n_vocab):
	try:
	from datasets import Dataset, DatasetDict
	import pandas as pd

	train_ratio = 0.9

	tdf = df.sample(frac=train_ratio, random_state=14)
	vdf = df.drop(tdf.index)

	tds = Dataset.from_pandas(tdf, preserve_index=False)
	vds = Dataset.from_pandas(vdf, preserve_index=False)
	from typing import Any, Dict, List, Optional
	from uuid import UUID
	from langchain.callbacks.base import BaseCallbackHandler
	from langchain.schema import LLMResult
	import json
	import time


	class LLMLoggingCallbackHandler(BaseCallbackHandler):
	from transformers import LlamaTokenizer

	tokenizer = LlamaTokenizer.from_pretrained('decapoda-research/llama-7b-hf')

	def count(text):
	return len(tokenizer(text)['input_ids'])

	def parallel_count(texts):
	from joblib import Parallel, delayed
	results = Parallel(n_jobs=-1)(delayed(count)(text) for text in texts)
	from numpy import *
	from scipy.stats import beta


	class BetaBandit(object):
	def __init__(self, num_options=2, prior=(1.0,1.0)):
	self.trials = zeros(shape=(num_options,), dtype=int)
	self.successes = zeros(shape=(num_options,), dtype=int)
	self.num_options = num_options
	self.prior = prior
	function kill(u) {
	var rq = d3.selectAll('.query-row')[0].filter(function(d, i) {
	var owner = d.querySelector('div.col-md-3.col-lg-3 div.row:nth-child(2)').textContent.trim();

	return (d.querySelector('div.col-md-4.col-lg-3 div.row:nth-child(2)').textContent === 'RUNNING') &&
	(u === undefined \|\| owner == u);
	}).map(function(d,i){
	return d.dataset['reactid'].split('$')[1]; })

	console.log(rq)
	// Use Gists to store code you would like to remember later on
	console.log(window); // log the "window" object to the console