patrickbrus/imports_plus_pandas_read.py

## imports_plus_pandas_read.py
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# read in data from csv file
df = pd.read_csv(r"data\healthcare-dataset-stroke-data.csv")

print(df.head()) # helpful as first dive into data and features

# call df.describe() to get some statistics of numerical columns
df.describe()

# call df.info to get data types and count of null values per column
df.info()

# check unique values and drop columns only containing one unique value per row -> no learnings
for column in df.columns:
    print(f"Column {column} contains {df[column].unique().shape[0]} unique values. { 100 * df[column].unique().shape[0] / df[column].shape[0]}% of total data. \n")
	import numpy as np
	import matplotlib.pyplot as plt
	import pandas as pd
	import seaborn as sns

	# read in data from csv file
	df = pd.read_csv(r"data\healthcare-dataset-stroke-data.csv")

	print(df.head()) # helpful as first dive into data and features

	# call df.describe() to get some statistics of numerical columns
	df.describe()

	# call df.info to get data types and count of null values per column
	df.info()

	# check unique values and drop columns only containing one unique value per row -> no learnings
	for column in df.columns:
	print(f"Column {column} contains {df[column].unique().shape[0]} unique values. { 100 * df[column].unique().shape[0] / df[column].shape[0]}% of total data. \n")