lundquist-ecology-lab/pca.py

## pca.py
# Running a principal components analysis (PCA) in Python
#%%

import pandas as pd
# pip install scikit-learn
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import seaborn as sns


# Import data
url = "https://raw.githubusercontent.com/lundquist-ecology-lab/biostatistics/main/example_data/iris.csv"
data = pd.read_csv(url)

# Scale data
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data.iloc[:,[0,3]])

# Perform PCA
pca = PCA(n_components=2)
pca.fit(data_scaled)

# Project data onto first two principal components
data_pca = pca.transform(data_scaled)

# Plot PCA
sns.scatterplot(x=data_pca[:, 0], y=data_pca[:, 1], hue=data['Species'], palette='Set1')
plt.xlabel("First Principal Component")
plt.ylabel("Second Principal Component")
plt.show()
# %%
	# Running a principal components analysis (PCA) in Python
	#%%

	import pandas as pd
	# pip install scikit-learn
	from sklearn.decomposition import PCA
	import matplotlib.pyplot as plt
	import seaborn as sns


	# Import data
	url = "https://raw.githubusercontent.com/lundquist-ecology-lab/biostatistics/main/example_data/iris.csv"
	data = pd.read_csv(url)

	# Scale data
	from sklearn.preprocessing import StandardScaler
	scaler = StandardScaler()
	data_scaled = scaler.fit_transform(data.iloc[:,[0,3]])

	# Perform PCA
	pca = PCA(n_components=2)
	pca.fit(data_scaled)

	# Project data onto first two principal components
	data_pca = pca.transform(data_scaled)

	# Plot PCA
	sns.scatterplot(x=data_pca[:, 0], y=data_pca[:, 1], hue=data['Species'], palette='Set1')
	plt.xlabel("First Principal Component")
	plt.ylabel("Second Principal Component")
	plt.show()
	# %%