ivopbernardo

## sakila_data_manipulation.py
import pandas as pd
import pyodbc

#Ask for user and password input

user = input('Provide user: \n')
pwd = input('Provide password: \n')

#Make connection to My SQL local host
mydb = pyodbc.connect("DRIVER={MySQL ODBC 8.0 ANSI Driver}; SERVER=localhost; PORT=3306;DATABASE=sakila; UID=%s; PASSWORD=%s;" % (user, pwd))

## cleaning_data.R
# Loading readxl library
library(readxl)

clean_crime_data <- function(path) {
  # Load the Data
  crime_data <- read_xls(path)

  # Assigning colnames
  colnames(crime_data) <- crime_data[3,]


## text_representation.py
# Import sklearn vectorizers and pandas
import pandas as pd
from sklearn.feature_extraction.text import (
  CountVectorizer,
  TfidfVectorizer
)


# Defining our sentence examples
sentence_list = [

## stemming_example.py
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, SnowballStemmer, LancasterStemmer

porter = PorterStemmer()
snowball = SnowballStemmer(language='english')
lanc = LancasterStemmer()

sentence_example = (
  'This is definitely a controversy as the attorney labeled the case "extremely controversial"'
)

## cooccurrence_example.py
import wikipedia
import pandas as pd
import numpy as np
import string
from nltk.tokenize import word_tokenize
from sklearn.metrics.pairwise import cosine_similarity

def retrieve_page(page_name: str) -> list:
    '''
    Retrieves page data from wikipedia

## rf_demo.R
# Don't forget to download the train.csv file
# to make this gist work.

# Download it at: https://www.kaggle.com/c/titanic/data?select=train.csv

# You also need to install ROCR and rpart libraries

# Reading the titanic train dataset
titanic <- read.csv('./train.csv')

## geoprocess_dd_post.py
# Getting Latitude and Longitude from Nominatim

from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter

geocoder = Nominatim(user_agent="FindAddress")
geocode = RateLimiter(
    geocoder.geocode,
    min_delay_seconds = 1,
    return_value_on_exception = None

## convert_dataframe_to_geodataframe.py
import geopandas as gpd

house_data_gdf = gpd.GeoDataFrame(
    house_data,
    geometry=gpd.points_from_xy(
       house_data.longitude,
       house_data.latitude
    ),
    crs="epsg:4326",
)

## read_shapefile_and_join.py
# Read data directly from the portuguese gov website.
parishes_url = "zip+https://dados.gov.pt/s/resources/freguesias-de-portugal/20181112-195834/cont-aad-caop2017.zip"
parishes = gpd.read_file(parishes_url)

# Left Join the house data to the parishes data, if house is `within` parish.
house_data_gdf = gpd.sjoin(house_data_gdf, parishes, how="left", op="within")

## count_hospitals_in_1km.py
# Public Hospitals in Lisbon
hospitals_url = "https://opendata.arcgis.com/datasets/172678f193144512860a397fde991361_4.geojson" # GeoJSON
hospitals_gdf = gpd.read_file(hospitals_url).to_crs(epsg=3857)
hospitals_gdf.head()

# Buffer the house locations by 1km
house_data_gdf_buffer = (
   house_data_gdf
   .copy()
   .assign(geometry_buffer = lambda d: d.buffer(1000))
	import pandas as pd
	import pyodbc

	#Ask for user and password input

	user = input('Provide user: \n')
	pwd = input('Provide password: \n')

	#Make connection to My SQL local host
	mydb = pyodbc.connect("DRIVER={MySQL ODBC 8.0 ANSI Driver}; SERVER=localhost; PORT=3306;DATABASE=sakila; UID=%s; PASSWORD=%s;" % (user, pwd))
	# Loading readxl library
	library(readxl)

	clean_crime_data <- function(path) {
	# Load the Data
	crime_data <- read_xls(path)

	# Assigning colnames
	colnames(crime_data) <- crime_data[3,]
	# Import sklearn vectorizers and pandas
	import pandas as pd
	from sklearn.feature_extraction.text import (
	CountVectorizer,
	TfidfVectorizer
	)


	# Defining our sentence examples
	sentence_list = [
	from nltk.tokenize import word_tokenize
	from nltk.stem import PorterStemmer, SnowballStemmer, LancasterStemmer

	porter = PorterStemmer()
	snowball = SnowballStemmer(language='english')
	lanc = LancasterStemmer()

	sentence_example = (
	'This is definitely a controversy as the attorney labeled the case "extremely controversial"'
	)
	import wikipedia
	import pandas as pd
	import numpy as np
	import string
	from nltk.tokenize import word_tokenize
	from sklearn.metrics.pairwise import cosine_similarity

	def retrieve_page(page_name: str) -> list:
	'''
	Retrieves page data from wikipedia
	# Don't forget to download the train.csv file
	# to make this gist work.

	# Download it at: https://www.kaggle.com/c/titanic/data?select=train.csv

	# You also need to install ROCR and rpart libraries

	# Reading the titanic train dataset
	titanic <- read.csv('./train.csv')
	# Getting Latitude and Longitude from Nominatim

	from geopy.geocoders import Nominatim
	from geopy.extra.rate_limiter import RateLimiter

	geocoder = Nominatim(user_agent="FindAddress")
	geocode = RateLimiter(
	geocoder.geocode,
	min_delay_seconds = 1,
	return_value_on_exception = None
	import geopandas as gpd

	house_data_gdf = gpd.GeoDataFrame(
	house_data,
	geometry=gpd.points_from_xy(
	house_data.longitude,
	house_data.latitude
	),
	crs="epsg:4326",
	)
	# Read data directly from the portuguese gov website.
	parishes_url = "zip+https://dados.gov.pt/s/resources/freguesias-de-portugal/20181112-195834/cont-aad-caop2017.zip"
	parishes = gpd.read_file(parishes_url)

	# Left Join the house data to the parishes data, if house is `within` parish.
	house_data_gdf = gpd.sjoin(house_data_gdf, parishes, how="left", op="within")
	# Public Hospitals in Lisbon
	hospitals_url = "https://opendata.arcgis.com/datasets/172678f193144512860a397fde991361_4.geojson" # GeoJSON
	hospitals_gdf = gpd.read_file(hospitals_url).to_crs(epsg=3857)
	hospitals_gdf.head()

	# Buffer the house locations by 1km
	house_data_gdf_buffer = (
	house_data_gdf
	.copy()
	.assign(geometry_buffer = lambda d: d.buffer(1000))