kade kxzk

## reciprocal.py
df["age_reciprocal"] = 1.0 / df["age"]

## boxcox.py
from scipy import stats

# Must be positive
stats.boxcox(df["sales"])[0]

## log.py
# For positive data with no zeroes
np.log(df["sales"])

# For positive data with zeroes
np.log1p(df["sales"])

# Convert back - get predictions if target is log transformed
np.expm1(df["sales"])

## zscore.py
df["salary_zscore"] = (df["salary"] - df["salary"].mean()) / df["salary"].std()

## min_max.py
df["salary_minmax"] = (
    df["salary"] - df["salary"].min()) / (df["salary"].max() - df["salary"].min()
)

## first_dim.py
df.sort_values(by = "variable").groupby("dimension").first()

## dummy.py
# Use drop_first = True to avoid collinearity
pd.get_dummies(df, drop_first = True)

## binning.py
pd.qcut(data["measure"], q = 4, labels = False)

# Numeric
pd.cut(df["measure"], bins = 4, labels = False)

# Dimension
pd.cut(df["age"], bins = [0, 18, 25, 99], labels = ["child", "young adult", "adult"])

## user_item.py
df.groupby("customer_id")["products"].value_counts().unstack().fillna(0)

## list_agg.py
df["unique_products"] = df.groupby("customer_id").agg({"products": "unique"})

# Transform each element -> row - Pandas >= 0.25
df["unique_products"].explode()
	from scipy import stats

	# Must be positive
	stats.boxcox(df["sales"])[0]
	# For positive data with no zeroes
	np.log(df["sales"])

	# For positive data with zeroes
	np.log1p(df["sales"])

	# Convert back - get predictions if target is log transformed
	np.expm1(df["sales"])
	df["salary_minmax"] = (
	df["salary"] - df["salary"].min()) / (df["salary"].max() - df["salary"].min()
	)
	# Use drop_first = True to avoid collinearity
	pd.get_dummies(df, drop_first = True)
	pd.qcut(data["measure"], q = 4, labels = False)

	# Numeric
	pd.cut(df["measure"], bins = 4, labels = False)

	# Dimension
	pd.cut(df["age"], bins = [0, 18, 25, 99], labels = ["child", "young adult", "adult"])
	df["unique_products"] = df.groupby("customer_id").agg({"products": "unique"})

	# Transform each element -> row - Pandas >= 0.25
	df["unique_products"].explode()