Christopher Peters statwonk

## ai_data_engineer_copilot.py
import pandas as pd
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

class AIDataEngineer:
    def __init__(self):
        self.data = None
        self.model = None
        self.X_train = None

## ivermectin.R
library(tidyverse)
library(brms)
library(tidybayes)
# https://docs.google.com/spreadsheets/d/1vG0WdjZaYlS4_7_if-OaE3uMv3aX6zfvQMx5JvDREF0/edit?usp=sharing

# Chi.sq
prop.test(c(103, 135), c(5947, 5609),
          alternative = "less",
          conf.level = 0.99)

## religiousity_by_firearm_deaths.R
library(tidyverse)
read_csv("~/Downloads/Religion by Firearm Deaths Data - Firearm Deaths by State.csv",
         skip = 4) %>%
  janitor::clean_names() -> firearm_deaths

read_csv("~/Downloads/Religion by Firearm Deaths Data - Religiousity by State.csv",
         skip = 3) %>%
  janitor::clean_names() %>%
  rename(state = region) %>%
  mutate(religious = 1 - irreligion_percent/100) %>%

## inflation.R
library(tidyverse)

# CPI
# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
readxl::read_xlsx("~/Downloads/SeriesReport-20220817182003_bb0f80.xlsx", skip = 10) %>%
  mutate(date = seq.POSIXt(as.POSIXct("1957-02-01"), by = "month", length.out = n())) %>%
  select(date, cpi = Value) %>%
  inner_join(
    # Short-term Interest Rates - https://fred.stlouisfed.org/series/DGS1MO
    read_csv("~/Downloads/DGS1MO (1).csv", col_types = cols(

## gist:55a29e2a8792b6f2d6833d376d4754da
library(tidyverse)

# CPI
# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
readxl::read_xlsx("~/Downloads/SeriesReport-20220807120638_733b06.xlsx", skip = 10) %>%
  mutate(date = seq.POSIXt(as.POSIXct("1947-02-01"), by = "month", length.out = n())) %>%
  select(date, cpi = Value) -> cpi

cpi %>%
  filter(date >= as.POSIXct("1949-01-01")) %>%

## inflation.R
library(tidyverse)
library(forecast)
library(urca)
library(dynlm)
library(lmtest)
library(sandwich)

# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
read_csv("~/Downloads/inflation.csv", skip = 11) %>%
  janitor::clean_names() %>%

## stock_prices.R
library(tidyverse)
library(gamlss); select <- dplyr::select
library(fmpapi)
library(Quandl)

fmp_daily_prices("ASAN") -> d
fmp_daily_prices("TEAM") -> team
Quandl("USTREASURY/YIELD") -> yc

yc %>%

## clustering.R
library(tidyverse)
library(lmtest)
library(sandwich)

5e2 -> students
20 -> schools

tibble(student_id = 1:students) %>%
  mutate(school_id = rep(1:schools, max(student_id) / schools)) %>%
  left_join(tibble(school_id = 1:schools, school_effect = rnorm(schools)),

## beta_interval_data.R
library(tidyverse)
library(fitdistrplus)
dplyr::select -> select
.Machine$double.eps -> eps
1975 -> N # number of responses

tibble(lower = c(0, 0.25, 0.5, 0.75), # lower bins
       upper = c(0.25 + eps, 0.5 + eps, 0.75 + eps, 1), # upper bins
       pct = c(0.32, 0.51, 0.15, 1 - sum(0.32, 0.51, 0.15)), # response shares
       n = floor(pct * N)) %>% # implied responses + eps

## mktcap.R
library(tidyverse)
library(rvest)
library(gamlss)
library(brms)
library(tidybayes)
select <- dplyr::select

####################################################################################
# Model the market capitalizations of members of the S&P 500.
####################################################################################
	import pandas as pd
	import statsmodels.api as sm
	from sklearn.model_selection import train_test_split
	from sklearn.linear_model import LinearRegression

	class AIDataEngineer:
	def __init__(self):
	self.data = None
	self.model = None
	self.X_train = None
	library(tidyverse)
	library(brms)
	library(tidybayes)
	# https://docs.google.com/spreadsheets/d/1vG0WdjZaYlS4_7_if-OaE3uMv3aX6zfvQMx5JvDREF0/edit?usp=sharing

	# Chi.sq
	prop.test(c(103, 135), c(5947, 5609),
	alternative = "less",
	conf.level = 0.99)
	library(tidyverse)
	read_csv("~/Downloads/Religion by Firearm Deaths Data - Firearm Deaths by State.csv",
	skip = 4) %>%
	janitor::clean_names() -> firearm_deaths

	read_csv("~/Downloads/Religion by Firearm Deaths Data - Religiousity by State.csv",
	skip = 3) %>%
	janitor::clean_names() %>%
	rename(state = region) %>%
	mutate(religious = 1 - irreligion_percent/100) %>%
	library(tidyverse)

	# CPI
	# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
	readxl::read_xlsx("~/Downloads/SeriesReport-20220817182003_bb0f80.xlsx", skip = 10) %>%
	mutate(date = seq.POSIXt(as.POSIXct("1957-02-01"), by = "month", length.out = n())) %>%
	select(date, cpi = Value) %>%
	inner_join(
	# Short-term Interest Rates - https://fred.stlouisfed.org/series/DGS1MO
	read_csv("~/Downloads/DGS1MO (1).csv", col_types = cols(
	library(tidyverse)
	library(forecast)
	library(urca)
	library(dynlm)
	library(lmtest)
	library(sandwich)

	# https://data.bls.gov/timeseries/CUSR0000SA0&output_view=pct_1mth
	read_csv("~/Downloads/inflation.csv", skip = 11) %>%
	janitor::clean_names() %>%
	library(tidyverse)
	library(gamlss); select <- dplyr::select
	library(fmpapi)
	library(Quandl)

	fmp_daily_prices("ASAN") -> d
	fmp_daily_prices("TEAM") -> team
	Quandl("USTREASURY/YIELD") -> yc

	yc %>%
	library(tidyverse)
	library(fitdistrplus)
	dplyr::select -> select
	.Machine$double.eps -> eps
	1975 -> N # number of responses

	tibble(lower = c(0, 0.25, 0.5, 0.75), # lower bins
	upper = c(0.25 + eps, 0.5 + eps, 0.75 + eps, 1), # upper bins
	pct = c(0.32, 0.51, 0.15, 1 - sum(0.32, 0.51, 0.15)), # response shares
	n = floor(pct * N)) %>% # implied responses + eps
	library(tidyverse)
	library(rvest)
	library(gamlss)
	library(brms)
	library(tidybayes)
	select <- dplyr::select

	####################################################################################
	# Model the market capitalizations of members of the S&P 500.
	####################################################################################