Andreas Stöckl astoeckl

## get newsgroups
import pandas as pd
from transformers import GPT2TokenizerFast
from sklearn.datasets import fetch_20newsgroups

newsgroups_train = fetch_20newsgroups(subset='train')
print(list(newsgroups_train.target_names))
print(newsgroups_train.data[:3])
print(newsgroups_train.target[:3])

df_news = pd.DataFrame(list(newsgroups_train.data), columns=['Text'])

## Codex call
import openai

openai.api_key = XXX-YOURKEY

prompt = “Here the command in natural language is formulated”

response = openai.Completion.create(
  engine="davinci-codex",
  prompt= prompt,
  temperature=0,

## Result part 1
import pandas as pd
from sklearn.datasets import fetch_20newsgroups

# load the dataset into a dataframe
df = pd.DataFrame(fetch_20newsgroups().data, columns=['text'])

# print the first 10 rows
df.head(10)

"""

## Result part 2
import gensim
from gensim import corpora, models

# Tokenize the documents
tokenized_docs = [doc.split() for doc in df['text']]

# Create a dictionary from the tokenized documents
dictionary = corpora.Dictionary(tokenized_docs)

# Create a corpus from the tokenized documents

## gist:d4012d2cbb0852ea8cbae9543a347980
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

dfmai = pd.read_csv("artikel.csv", sep = ";", encoding='utf-8')
orte = pd.read_csv("ortsliste.csv", sep = ";", encoding='utf-8')
ortliste = list(orte["Unnamed: 3"][3:-2])
plzliste = list(orte["Unnamed: 4"][3:-2])
dforte = dfmai[["title","body","published_at","domain","words_count"]]

## leadprediction
# Importing libraries
import pandas as pd

import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE

#Import data

## gist:0697cea926cff487488c75392e44ccf7
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (20,10)

from sklearn.manifold import TSNE

def tsnescatterplot(model, word_labels):

    arr = np.empty((0,100), dtype='f')

## gist:40f904f81e6db9a0cc67f135749402df
model.wv.similar_by_word('d4')

## gist:6e8c7cdfdd72874810767cb4615f4453
model.wv['d4']

## gist:b73bee5b2605d795050bd2f598b510e9
%%time

import gensim
from gensim.models import Word2Vec

model = Word2Vec(sentences=df, size=100, window=3, workers=4)
model.save("word2vec.model")
	import pandas as pd
	from transformers import GPT2TokenizerFast
	from sklearn.datasets import fetch_20newsgroups

	newsgroups_train = fetch_20newsgroups(subset='train')
	print(list(newsgroups_train.target_names))
	print(newsgroups_train.data[:3])
	print(newsgroups_train.target[:3])

	df_news = pd.DataFrame(list(newsgroups_train.data), columns=['Text'])
	import openai

	openai.api_key = XXX-YOURKEY

	prompt = “Here the command in natural language is formulated”

	response = openai.Completion.create(
	engine="davinci-codex",
	prompt= prompt,
	temperature=0,
	import pandas as pd
	from sklearn.datasets import fetch_20newsgroups

	# load the dataset into a dataframe
	df = pd.DataFrame(fetch_20newsgroups().data, columns=['text'])

	# print the first 10 rows
	df.head(10)

	"""
	import gensim
	from gensim import corpora, models

	# Tokenize the documents
	tokenized_docs = [doc.split() for doc in df['text']]

	# Create a dictionary from the tokenized documents
	dictionary = corpora.Dictionary(tokenized_docs)

	# Create a corpus from the tokenized documents
	import pandas as pd
	import warnings
	warnings.filterwarnings('ignore')

	dfmai = pd.read_csv("artikel.csv", sep = ";", encoding='utf-8')
	orte = pd.read_csv("ortsliste.csv", sep = ";", encoding='utf-8')
	ortliste = list(orte["Unnamed: 3"][3:-2])
	plzliste = list(orte["Unnamed: 4"][3:-2])
	dforte = dfmai[["title","body","published_at","domain","words_count"]]
	# Importing libraries
	import pandas as pd

	import statsmodels.api as sm
	from sklearn.model_selection import train_test_split
	from sklearn.preprocessing import StandardScaler
	from sklearn.linear_model import LogisticRegression
	from sklearn.feature_selection import RFE

	#Import data
	import numpy as np
	import matplotlib.pyplot as plt
	plt.rcParams["figure.figsize"] = (20,10)

	from sklearn.manifold import TSNE

	def tsnescatterplot(model, word_labels):

	arr = np.empty((0,100), dtype='f')
	%%time

	import gensim
	from gensim.models import Word2Vec

	model = Word2Vec(sentences=df, size=100, window=3, workers=4)
	model.save("word2vec.model")