Nick Doiron mapmeld

## 1draft.py
from allennlp.predictors import Predictor
from transformers.tokenization_gpt2 import GPT2Tokenizer
from transformers import pipeline

class HuggingFacePredictor(Predictor):
    def __init__(self) -> None:
        self.tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
        self.model = pipeline('question-answering')

    def predict(self, passage='', question=''):

## qa.py
from allennlp.predictors.predictor import Predictor
predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models/bidaf-elmo-model-2018.11.30-charpad.tar.gz")

qas = open("simplified-nq-test.jsonl").read().split("\n")
for qa in qas:
  rep = json.loads(qa)
  best = rep['long_answer_candidates'][0]
  print(rep['question_text'])
  print('AllenNLP: ')
  print(predictor.predict(

## state_specific.py
from sys import argv
import json

# pip install fiona shapely shapely-geojson
import fiona
from shapely.geometry import shape
from shapely_geojson import dumps

if len(argv) < 2:
    print('usage: gen_map.py "New Mexico" > output.geojson')

## 2020_ml.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                mapmeld
                / 2020_ml.md
            
            
              Last active
              December 30, 2019 16:36
            
              
                2020_ml_problems.md
              
          
    The number of awesome ML projects is limitless, but:
This lists project ideas which I grouped together as awesome and seemingly achievable:
Open-ended Datasets


Twitter disinformation datasets https://about.twitter.com/en_us/values/elections-integrity.html#data
DuoLingo language development - https://research.duolingo.com/
YouTube reccomendations https://github.com/markledwich2/YouTubeNetworks
fake news dataset https://github.com/jgolbeck/fakenews
https://factordaily.com/indigenous-datasets-from-india/ - do MNIST in different languages


## mentionsum.py
import pandas as pd
for lang in ['ar', 'en', 'ru', 'ja', 'tr', 'fa']:
    mentionsum = {}
    for doc in range(1, 10): # ends at 9
        print(doc)
        df = pd.read_csv("saudi_arabia_112019_tweets_csv_hashed_" + str(doc) + ".csv")
        rows = df[df['tweet_language'] == lang][['user_mentions']].values.tolist()
        df = None # clear memory
        for row in rows:
            mentions = row[0].replace('[','').replace(']','').replace('\'','').split(', ')

## langsum.py
import pandas as pd
dflangsum = None
for doc in range(1, 10): # ends at 9
    df = pd.read_csv("saudi_arabia_112019_tweets_csv_hashed_" + str(doc) + ".csv")
    langcount =  df[df['is_retweet'] == False].groupby(['tweet_language']).count()['tweetid']
    if dflangsum is not None:
        dflangsum += langcount
    else:
        dflangsum = langcount
    df = None # memory

## face_classifier.py
"""
# BASH dependencies
apt-get install python-opencv ffmpeg
pip install keras numpy shap matplotlib pillow

rm ./drive/My\ Drive/mlin/training/*/*.jpg
rm ./drive/My\ Drive/mlin/validation/*/*.jpg

"""
# native imports

## config.json
# set config.json for LJSpeech
%%writefile config.json
{
        "run_name": "mozilla-tacotron-tagent-bn",
        "run_description": "Xhosa",

        "audio":{
            // Audio processing parameters
            "num_mels": 80,         // size of the mel spec frame.
            "num_freq": 1201,       // number of stft frequency levels. Size of the linear spectogram frame.

## localeCompare.js
const fs = require('fs');

const en = JSON.parse(fs.readFileSync('en.json'));
const fa = JSON.parse(fs.readFileSync('fa.json'));

let terms = Object.keys(en);
let missing = {};

terms.forEach((term) => {
  if (!fa[term]) {

## word_flatten.py
text_src = item['text']
del item['text']
words = wordpunct_tokenize(text_src)
sentence_vecs = []
for w in range(0, len(words)):
    word = words[w]
    if word in ar_model:
        word_vec = ar_model[word]
    else:
        word_vec = ar_model['the']
	from allennlp.predictors import Predictor
	from transformers.tokenization_gpt2 import GPT2Tokenizer
	from transformers import pipeline

	class HuggingFacePredictor(Predictor):
	def __init__(self) -> None:
	self.tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
	self.model = pipeline('question-answering')

	def predict(self, passage='', question=''):
	from allennlp.predictors.predictor import Predictor
	predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models/bidaf-elmo-model-2018.11.30-charpad.tar.gz")

	qas = open("simplified-nq-test.jsonl").read().split("\n")
	for qa in qas:
	rep = json.loads(qa)
	best = rep['long_answer_candidates'][0]
	print(rep['question_text'])
	print('AllenNLP: ')
	print(predictor.predict(
	from sys import argv
	import json

	# pip install fiona shapely shapely-geojson
	import fiona
	from shapely.geometry import shape
	from shapely_geojson import dumps

	if len(argv) < 2:
	print('usage: gen_map.py "New Mexico" > output.geojson')
	import pandas as pd
	for lang in ['ar', 'en', 'ru', 'ja', 'tr', 'fa']:
	mentionsum = {}
	for doc in range(1, 10): # ends at 9
	print(doc)
	df = pd.read_csv("saudi_arabia_112019_tweets_csv_hashed_" + str(doc) + ".csv")
	rows = df[df['tweet_language'] == lang][['user_mentions']].values.tolist()
	df = None # clear memory
	for row in rows:
	mentions = row[0].replace('[','').replace(']','').replace('\'','').split(', ')
	import pandas as pd
	dflangsum = None
	for doc in range(1, 10): # ends at 9
	df = pd.read_csv("saudi_arabia_112019_tweets_csv_hashed_" + str(doc) + ".csv")
	langcount = df[df['is_retweet'] == False].groupby(['tweet_language']).count()['tweetid']
	if dflangsum is not None:
	dflangsum += langcount
	else:
	dflangsum = langcount
	df = None # memory
	"""
	# BASH dependencies
	apt-get install python-opencv ffmpeg
	pip install keras numpy shap matplotlib pillow

	rm ./drive/My\ Drive/mlin/training//.jpg
	rm ./drive/My\ Drive/mlin/validation//.jpg

	"""
	# native imports
	# set config.json for LJSpeech
	%%writefile config.json
	{
	"run_name": "mozilla-tacotron-tagent-bn",
	"run_description": "Xhosa",

	"audio":{
	// Audio processing parameters
	"num_mels": 80, // size of the mel spec frame.
	"num_freq": 1201, // number of stft frequency levels. Size of the linear spectogram frame.
	const fs = require('fs');

	const en = JSON.parse(fs.readFileSync('en.json'));
	const fa = JSON.parse(fs.readFileSync('fa.json'));

	let terms = Object.keys(en);
	let missing = {};

	terms.forEach((term) => {
	if (!fa[term]) {
	text_src = item['text']
	del item['text']
	words = wordpunct_tokenize(text_src)
	sentence_vecs = []
	for w in range(0, len(words)):
	word = words[w]
	if word in ar_model:
	word_vec = ar_model[word]
	else:
	word_vec = ar_model['the']