gjreda/pandas-groupby-cumsum.py

## pandas-groupby-cumsum.py
"""
add grouped cumulative sum column to pandas dataframe

Add a new column to a pandas dataframe which holds the cumulative sum for a given grouped window

Desired output:
user_id,day,session_minutes,cumulative_minutes
516530,0,NaN,0
516530,1,0,0
516532,0,5,5
516532,1,33,38
516534,0,32,32
516534,1,104,136
516535,0,5,5
516535,1,0,5
"""
import pandas as pd
from StringIO import StringIO

data = """
user_id,day,session_minutes
516530,0,NaN
516530,1,0
516532,0,5
516532,1,33
516534,0,32
516534,1,104
516535,0,5
516535,1,0
"""

df = pd.read_csv(StringIO(data))
cumsums = df.groupby(['user_id', 'day']).sum().fillna(0).groupby(level=0).cumsum()
df.set_index(['user_id', 'day'], inplace=True)
df['cumulative_minutes'] = cumsums
df.reset_index(inplace=True)
print(df)

#   user_id  day  session_minutes  cumulative_minutes
# 0   516530    0              NaN                   0
# 1   516530    1                0                   0
# 2   516532    0                5                   5
# 3   516532    1               33                  38
# 4   516534    0               32                  32
# 5   516534    1              104                 136
# 6   516535    0                5                   5
# 7   516535    1                0                   5
	"""
	add grouped cumulative sum column to pandas dataframe

	Add a new column to a pandas dataframe which holds the cumulative sum for a given grouped window

	Desired output:
	user_id,day,session_minutes,cumulative_minutes
	516530,0,NaN,0
	516530,1,0,0
	516532,0,5,5
	516532,1,33,38
	516534,0,32,32
	516534,1,104,136
	516535,0,5,5
	516535,1,0,5
	"""
	import pandas as pd
	from StringIO import StringIO

	data = """
	user_id,day,session_minutes
	516530,0,NaN
	516530,1,0
	516532,0,5
	516532,1,33
	516534,0,32
	516534,1,104
	516535,0,5
	516535,1,0
	"""

	df = pd.read_csv(StringIO(data))
	cumsums = df.groupby(['user_id', 'day']).sum().fillna(0).groupby(level=0).cumsum()
	df.set_index(['user_id', 'day'], inplace=True)
	df['cumulative_minutes'] = cumsums
	df.reset_index(inplace=True)
	print(df)

	# user_id day session_minutes cumulative_minutes
	# 0 516530 0 NaN 0
	# 1 516530 1 0 0
	# 2 516532 0 5 5
	# 3 516532 1 33 38
	# 4 516534 0 32 32
	# 5 516534 1 104 136
	# 6 516535 0 5 5
	# 7 516535 1 0 5