Kirili4ik/IV_and_WoE.py

## IV_and_WoE.py
def get_IV(df, feature, target):
    lst = []

    # optional
    # df[feature] = df[feature].fillna("NULL")

    unique_values = df[feature].unique()
    for val in unique_values:
        lst.append([feature,                                                        # Feature name
                    val,                                                            # Value of a feature (unique)
                    df[(df[feature] == val) & (df[target] == 0)].count()[feature],  # Good (Fraud == 0)
                    df[(df[feature] == val) & (df[target] == 1)].count()[feature]   # Bad  (Fraud == 1)
                   ])

    data = pd.DataFrame(lst, columns=['Variable', 'Value', 'Good', 'Bad'])


    total_bad = df[df[target] == 1].count()[feature]
    total_good = df.shape[0] - total_bad

    data['Distribution Good'] = data['Good']/ total_good
    data['Distribution Bad'] = data['Bad'] / total_bad
    data['WoE'] = np.log(data['Distribution Good'] / data['Distribution Bad'])

    data = data.replace({'WoE': {np.inf: 0, -np.inf: 0}})

    data['IV'] = data['WoE'] * (data['Distribution Good'] - data['Distribution Bad'])

    data = data.sort_values(by=['Variable', 'Value'], ascending=[True, True])
    data.index = range(len(data.index))

    iv = data['IV'].sum()

    return iv, data
	def get_IV(df, feature, target):
	lst = []

	# optional
	# df[feature] = df[feature].fillna("NULL")

	unique_values = df[feature].unique()
	for val in unique_values:
	lst.append([feature, # Feature name
	val, # Value of a feature (unique)
	df[(df[feature] == val) & (df[target] == 0)].count()[feature], # Good (Fraud == 0)
	df[(df[feature] == val) & (df[target] == 1)].count()[feature] # Bad (Fraud == 1)
	])

	data = pd.DataFrame(lst, columns=['Variable', 'Value', 'Good', 'Bad'])


	total_bad = df[df[target] == 1].count()[feature]
	total_good = df.shape[0] - total_bad

	data['Distribution Good'] = data['Good']/ total_good
	data['Distribution Bad'] = data['Bad'] / total_bad
	data['WoE'] = np.log(data['Distribution Good'] / data['Distribution Bad'])

	data = data.replace({'WoE': {np.inf: 0, -np.inf: 0}})

	data['IV'] = data['WoE'] * (data['Distribution Good'] - data['Distribution Bad'])

	data = data.sort_values(by=['Variable', 'Value'], ascending=[True, True])
	data.index = range(len(data.index))

	iv = data['IV'].sum()

	return iv, data