Christopher Peters statwonk

## ai_data_engineer_copilot.py
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

class AIDataEngineer:
    def __init__(self):
        self.data = None
        self.model = None
        self.X_train = None

## ivermectin.R
library(tidyverse)
library(brms)
library(tidybayes)
# https://docs.google.com/spreadsheets/d/1vG0WdjZaYlS4_7_if-OaE3uMv3aX6zfvQMx5JvDREF0/edit?usp=sharing

# Chi.sq
prop.test(c(103, 135), c(5947, 5609),
          alternative = "less",
          conf.level = 0.99)

## religiousity_by_firearm_deaths.R
library(tidyverse)
read_csv("~/Downloads/Religion by Firearm Deaths Data - Firearm Deaths by State.csv",
         skip = 4) %>%
  janitor::clean_names() -> firearm_deaths

read_csv("~/Downloads/Religion by Firearm Deaths Data - Religiousity by State.csv",
         skip = 3) %>%
  janitor::clean_names() %>%
  rename(state = region) %>%
  mutate(religious = 1 - irreligion_percent/100) %>%

## inflation.R
library(tidyverse)

# CPI
# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
readxl::read_xlsx("~/Downloads/SeriesReport-20220817182003_bb0f80.xlsx", skip = 10) %>%
  mutate(date = seq.POSIXt(as.POSIXct("1957-02-01"), by = "month", length.out = n())) %>%
  select(date, cpi = Value) %>%
  inner_join(
    # Short-term Interest Rates - https://fred.stlouisfed.org/series/DGS1MO
    read_csv("~/Downloads/DGS1MO (1).csv", col_types = cols(

## gist:55a29e2a8792b6f2d6833d376d4754da
library(tidyverse)

# CPI
# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
readxl::read_xlsx("~/Downloads/SeriesReport-20220807120638_733b06.xlsx", skip = 10) %>%
  mutate(date = seq.POSIXt(as.POSIXct("1947-02-01"), by = "month", length.out = n())) %>%
  select(date, cpi = Value) -> cpi

cpi %>%
  filter(date >= as.POSIXct("1949-01-01")) %>%

## inflation.R
library(tidyverse)
library(forecast)
library(urca)
library(dynlm)
library(lmtest)
library(sandwich)

# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
read_csv("~/Downloads/inflation.csv", skip = 11) %>%
  janitor::clean_names() %>%

## stock_prices.R
library(tidyverse)
library(gamlss); select <- dplyr::select
library(fmpapi)
library(Quandl)

fmp_daily_prices("ASAN") -> d
fmp_daily_prices("TEAM") -> team
Quandl("USTREASURY/YIELD") -> yc

yc %>%

## clustering.R
library(tidyverse)
library(lmtest)
library(sandwich)

5e2 -> students
20 -> schools

tibble(student_id = 1:students) %>%
  mutate(school_id = rep(1:schools, max(student_id) / schools)) %>%
  left_join(tibble(school_id = 1:schools, school_effect = rnorm(schools)),

## massive_logistic.R
library(tidyverse)
1e4 -> N
0.03 -> p
# author: twitter.com/statwonk
# showing how cases can be discarded in logistic regression while preserving an unbiased estimator
seq_len(1e3) %>%
  map_dbl(function(x) {
    rbinom(N, 1, p) -> y
    tibble(
      all_data = tibble(y = y) %>% glm(y ~ 1, "binomial", .) %>% coef() %>% plogis(),

## sk_learn_logistic.Rmd
---
title: "Testing sklearn's Stochastic Gradient Descent Algo"
author: "Statwonk"
date: "2/07/2021"
output: html_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(reticulate)
	import pandas as pd
	import statsmodels.api as sm
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import LinearRegression

	class AIDataEngineer:
	def __init__(self):
	self.data = None
	self.model = None
	self.X_train = None
	library(tidyverse)
	library(brms)
	library(tidybayes)
	# https://docs.google.com/spreadsheets/d/1vG0WdjZaYlS4_7_if-OaE3uMv3aX6zfvQMx5JvDREF0/edit?usp=sharing

	# Chi.sq
	prop.test(c(103, 135), c(5947, 5609),
	alternative = "less",
	conf.level = 0.99)
	library(tidyverse)
	read_csv("~/Downloads/Religion by Firearm Deaths Data - Firearm Deaths by State.csv",
	skip = 4) %>%
	janitor::clean_names() -> firearm_deaths

	read_csv("~/Downloads/Religion by Firearm Deaths Data - Religiousity by State.csv",
	skip = 3) %>%
	janitor::clean_names() %>%
	rename(state = region) %>%
	mutate(religious = 1 - irreligion_percent/100) %>%
	library(tidyverse)

	# CPI
	# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
	readxl::read_xlsx("~/Downloads/SeriesReport-20220817182003_bb0f80.xlsx", skip = 10) %>%
	mutate(date = seq.POSIXt(as.POSIXct("1957-02-01"), by = "month", length.out = n())) %>%
	select(date, cpi = Value) %>%
	inner_join(
	# Short-term Interest Rates - https://fred.stlouisfed.org/series/DGS1MO
	read_csv("~/Downloads/DGS1MO (1).csv", col_types = cols(
	library(tidyverse)
	library(forecast)
	library(urca)
	library(dynlm)
	library(lmtest)
	library(sandwich)

	# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
	read_csv("~/Downloads/inflation.csv", skip = 11) %>%
	janitor::clean_names() %>%
	library(tidyverse)
	library(gamlss); select <- dplyr::select
	library(fmpapi)
	library(Quandl)

	fmp_daily_prices("ASAN") -> d
	fmp_daily_prices("TEAM") -> team
	Quandl("USTREASURY/YIELD") -> yc

	yc %>%
	library(tidyverse)
	1e4 -> N
	0.03 -> p
	# author: twitter.com/statwonk
	# showing how cases can be discarded in logistic regression while preserving an unbiased estimator
	seq_len(1e3) %>%
	map_dbl(function(x) {
	rbinom(N, 1, p) -> y
	tibble(
	all_data = tibble(y = y) %>% glm(y ~ 1, "binomial", .) %>% coef() %>% plogis(),
	---
	title: "Testing sklearn's Stochastic Gradient Descent Algo"
	author: "Statwonk"
	date: "2/07/2021"
	output: html_document
	---

	```{r setup, include=FALSE}
	knitr::opts_chunk$set(echo = TRUE)
	library(reticulate)