Ian Cook ianmcook

## write_parquet_float.cpp
#include <iostream>
#include <random>
#include <arrow/api.h>
#include <arrow/io/api.h>
#include <parquet/arrow/writer.h>


float GetRandomFloat()
{
    static std::default_random_engine e;

## write_wide_parquet.cpp
#include <iostream>
#include <random>
#include <vector>
#include <string>
#include <arrow/api.h>
#include <arrow/io/api.h>
#include <parquet/arrow/writer.h>

std::vector<std::string> GenerateUniqueStrings() {
  // generates 26^4 = 456,976 unique 4-letter combinations

## arrow_is_in.cpp
#include <iostream>
#include <arrow/api.h>
#include <arrow/compute/api.h>

int main(int, char**) {

  // lookup set
  std::shared_ptr<arrow::Array> array;
  arrow::Int32Builder builder;
  if (!builder.Append(5).ok()) return 1;

## substrait_pyarrow_dataset_expressions.py
import tempfile
import pathlib
import numpy as np
import pyarrow as pa
import pyarrow.compute as pc
import pyarrow.parquet as pq
import pyarrow.dataset as ds


# create a small dataset for example purposes

## acero_sort.cpp
#include <iostream>
#include <arrow/api.h>
#include <arrow/result.h>
#include <arrow/compute/api.h>
#include <arrow/compute/exec/exec_plan.h>

arrow::Status ExecutePlanAndCollectAsTable(
  std::shared_ptr<arrow::compute::ExecPlan> plan,
  std::shared_ptr<arrow::Schema> schema,
  arrow::AsyncGenerator<std::optional<arrow::compute::ExecBatch>> sink_gen) {

## ibis_bigquery_github_nested.py
import google.auth
import ibis
from ibis import _

credentials, billing_project = google.auth.default()

conn = ibis.bigquery.connect(billing_project, 'bigquery-public-data.samples')
t = conn.table('github_nested')

expr = (

## ibis_snowflake_tpc-h_1.py
# before running:
# 1. install Ibis and its Snowflake backend: https://ibis-project.org/backends/Snowflake/
# 2. create and activate a Snowflake trial account
# 3. set environment variables SNOWSQL_USER, SNOWSQL_PWD, SNOWSQL_ACCOUNT

import os
import ibis
from ibis import _

ibis.options.interactive = True

## ibis_trino.py
# before running:
# 1. install Ibis and its Trino backend: https://ibis-project.org/backends/Trino/
# 2. pull and run the Trino docker container: https://trino.io/docs/current/installation/containers.html

import ibis
from ibis import _

# connect to Trino
conn = ibis.trino.connect(database='memory', schema='default')

## duckdb_ibis_example.py
# pip install 'ibis-framework[duckdb]'

import pandas as pd
import ibis
from ibis import _

# create a pandas DataFrame and write it to a Parquet file
df = pd.DataFrame(data={'repo': ['pandas', 'duckdb', 'ibis'],
                        'stars': [36622, 8074, 2336]})
df.to_parquet('repo_stars.parquet')

## clean_github_jira_ids.R
# run this script second

library(dplyr)

df <- read.csv("dirty.csv")

agg <- df %>%
  group_by(jira, github) %>%
  summarise(n = n(), .groups = "keep") %>%
  ungroup() %>%
	#include <iostream>
	#include <random>
	#include <arrow/api.h>
	#include <arrow/io/api.h>
	#include <parquet/arrow/writer.h>


	float GetRandomFloat()
	{
	static std::default_random_engine e;
	#include <iostream>
	#include <random>
	#include <vector>
	#include <string>
	#include <arrow/api.h>
	#include <arrow/io/api.h>
	#include <parquet/arrow/writer.h>

	std::vector<std::string> GenerateUniqueStrings() {
	// generates 26^4 = 456,976 unique 4-letter combinations
	#include <iostream>
	#include <arrow/api.h>
	#include <arrow/compute/api.h>

	int main(int, char**) {

	// lookup set
	std::shared_ptr<arrow::Array> array;
	arrow::Int32Builder builder;
	if (!builder.Append(5).ok()) return 1;
	import tempfile
	import pathlib
	import numpy as np
	import pyarrow as pa
	import pyarrow.compute as pc
	import pyarrow.parquet as pq
	import pyarrow.dataset as ds


	# create a small dataset for example purposes
	#include <iostream>
	#include <arrow/api.h>
	#include <arrow/result.h>
	#include <arrow/compute/api.h>
	#include <arrow/compute/exec/exec_plan.h>

	arrow::Status ExecutePlanAndCollectAsTable(
	std::shared_ptr<arrow::compute::ExecPlan> plan,
	std::shared_ptr<arrow::Schema> schema,
	arrow::AsyncGenerator<std::optional<arrow::compute::ExecBatch>> sink_gen) {
	import google.auth
	import ibis
	from ibis import _

	credentials, billing_project = google.auth.default()

	conn = ibis.bigquery.connect(billing_project, 'bigquery-public-data.samples')
	t = conn.table('github_nested')

	expr = (
	# before running:
	# 1. install Ibis and its Snowflake backend: https://ibis-project.org/backends/Snowflake/
	# 2. create and activate a Snowflake trial account
	# 3. set environment variables SNOWSQL_USER, SNOWSQL_PWD, SNOWSQL_ACCOUNT

	import os
	import ibis
	from ibis import _

	ibis.options.interactive = True
	# before running:
	# 1. install Ibis and its Trino backend: https://ibis-project.org/backends/Trino/
	# 2. pull and run the Trino docker container: https://trino.io/docs/current/installation/containers.html

	import ibis
	from ibis import _

	# connect to Trino
	conn = ibis.trino.connect(database='memory', schema='default')
	# pip install 'ibis-framework[duckdb]'

	import pandas as pd
	import ibis
	from ibis import _

	# create a pandas DataFrame and write it to a Parquet file
	df = pd.DataFrame(data={'repo': ['pandas', 'duckdb', 'ibis'],
	'stars': [36622, 8074, 2336]})
	df.to_parquet('repo_stars.parquet')
	# run this script second

	library(dplyr)

	df <- read.csv("dirty.csv")

	agg <- df %>%
	group_by(jira, github) %>%
	summarise(n = n(), .groups = "keep") %>%
	ungroup() %>%