yasark

## mathpix2gpt.py
import requests
import time
import os
import sys
import openai
import tiktoken
from termcolor import colored

openai.api_key = open(os.path.expanduser('~/.openai')).read().strip()

## pegasus_fine_tune.py
"""Script for fine-tuning Pegasus
Example usage:
  # use XSum dataset as example, with first 1000 docs as training data
  from datasets import load_dataset
  dataset = load_dataset("xsum")
  train_texts, train_labels = dataset['train']['document'][:1000], dataset['train']['summary'][:1000]

  # use Pegasus Large model as base for fine-tuning
  model_name = 'google/pegasus-large'
  train_dataset, _, _, tokenizer = prepare_data(model_name, train_texts, train_labels)

## 07b-viterbi-gist.py
import argparse
import itertools
import numpy as np
import operator
import os
import pickle
import spacy
import scispacy
import time

## get_entity_pairs.py
import pandas as pd
import re
import spacy
import neuralcoref

nlp = spacy.load('en_core_web_lg')
neuralcoref.add_to_pipe(nlp)


def get_entity_pairs(text, coref=True):

## min-char-rnn.py
"""
Minimal character-level Vanilla RNN model. Written by Andrej Karpathy (@karpathy)
BSD License
"""
import numpy as np

# data I/O
data = open('input.txt', 'r').read() # should be simple plain text file
chars = list(set(data))
data_size, vocab_size = len(data), len(chars)

## latency.txt
Latency Comparison Numbers (~2012)
----------------------------------
L1 cache reference                           0.5 ns
Branch mispredict                            5   ns
L2 cache reference                           7   ns                      14x L1 cache
Mutex lock/unlock                           25   ns
Main memory reference                      100   ns                      20x L2 cache, 200x L1 cache
Compress 1K bytes with Zippy             3,000   ns        3 us
Send 1K bytes over 1 Gbps network       10,000   ns       10 us
Read 4K randomly from SSD*             150,000   ns      150 us          ~1GB/sec SSD

## Using JSTATD deamon with VisualVM for remote profiling
1. create tools.policy file:

grant {
  permission java.security.AllPermission;
};

2. run to start jstatd:

jstatd -J-Djava.security.policy=tools.policy
	import requests
	import time
	import os
	import sys
	import openai
	import tiktoken
	from termcolor import colored

	openai.api_key = open(os.path.expanduser('~/.openai')).read().strip()
	"""Script for fine-tuning Pegasus
	Example usage:
	# use XSum dataset as example, with first 1000 docs as training data
	from datasets import load_dataset
	dataset = load_dataset("xsum")
	train_texts, train_labels = dataset['train']['document'][:1000], dataset['train']['summary'][:1000]

	# use Pegasus Large model as base for fine-tuning
	model_name = 'google/pegasus-large'
	train_dataset, _, _, tokenizer = prepare_data(model_name, train_texts, train_labels)
	import argparse
	import itertools
	import numpy as np
	import operator
	import os
	import pickle
	import spacy
	import scispacy
	import time
	import pandas as pd
	import re
	import spacy
	import neuralcoref

	nlp = spacy.load('en_core_web_lg')
	neuralcoref.add_to_pipe(nlp)


	def get_entity_pairs(text, coref=True):
	"""
	Minimal character-level Vanilla RNN model. Written by Andrej Karpathy (@karpathy)
	BSD License
	"""
	import numpy as np

	# data I/O
	data = open('input.txt', 'r').read() # should be simple plain text file
	chars = list(set(data))
	data_size, vocab_size = len(data), len(chars)
	Latency Comparison Numbers (~2012)
	----------------------------------
	L1 cache reference 0.5 ns
	Branch mispredict 5 ns
	L2 cache reference 7 ns 14x L1 cache
	Mutex lock/unlock 25 ns
	Main memory reference 100 ns 20x L2 cache, 200x L1 cache
	Compress 1K bytes with Zippy 3,000 ns 3 us
	Send 1K bytes over 1 Gbps network 10,000 ns 10 us
	Read 4K randomly from SSD* 150,000 ns 150 us ~1GB/sec SSD
	1. create tools.policy file:

	grant {
	permission java.security.AllPermission;
	};

	2. run to start jstatd:

	jstatd -J-Djava.security.policy=tools.policy