Susensio/pandas_groupby_mostfrequent.py

## pandas_groupby_mostfrequent.py
# Default way of handling groupby and mostfrequent is slow
df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0])

# if there are nan's in df:
df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0] if not x.isnull().all() else np.nan)

# faster way: use value_counts and keep first value
(df
 .groupby(groupby_column)[null_column]
 .value_counts(sort=True, dropna=False)
 .reset_index(name='Counts')
 .drop_duplicates(subset=groupby_column, keep='first')
 .set_index(groupby_column)
 .drop(columns='Counts')
 .squeeze()
)
	# Default way of handling groupby and mostfrequent is slow
	df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0])

	# if there are nan's in df:
	df.groupby(groupby_column)[null_column].agg(lambda x: x.iat[0] if not x.isnull().all() else np.nan)

	# faster way: use value_counts and keep first value
	(df
	.groupby(groupby_column)[null_column]
	.value_counts(sort=True, dropna=False)
	.reset_index(name='Counts')
	.drop_duplicates(subset=groupby_column, keep='first')
	.set_index(groupby_column)
	.drop(columns='Counts')
	.squeeze()
	)