avdata99/Idecor.r

## Idecor.r


#######################################
#### CARGAR MAPAS DESDE DISTINTOS GEOSERVICIOS ######################
##################################################################

rm(list=ls())

library(sf)
library(mapview)

setwd(choose.dir(getwd(), "Seleccione Dirección de Trabajo"))

################### Geoservicio IDECOR#

## Visualizar las capas disponibles en WFS
idecor <- "WFS:http://idecor-ws.mapascordoba.gob.ar/geoserver/idecor/wms?request=GetCapabilities"

capas_idecor <- st_layers(idecor)

## Cargar capa de parcelas
parcelas <- st_read(idecor,"idecor:parcelas_cba")

names(parcelas)
parcelas = parcelas[,c("Superficie_Mejoras", "Superficie_Tierra_Urbana",
                       "vut_vigente", "Cantidad_Cuentas")]

summary(parcelas$geom)
parcelas = st_cast(parcelas, "GEOMETRYCOLLECTION") %>%    # Cambiar geometria a poligono
  st_collection_extract("POLYGON")

summary(parcelas)

## Cargar capa de escuelas mediante archvo .shp
escuelaspriv <- st_read("establecimientos_privado.shp")
escuelasest  <- st_read("establecimientos_estatales.shp")

names(escuelaspriv)
table(escuelasest$departamen)
table(escuelaspriv$departamen)

escuelaspriv <- subset(escuelaspriv, departamen=="CAPITAL")
escuelasest<- subset(escuelasest, departamen=="CAPITAL")

escuelas<- rbind(escuelasest[,c("sector", "geometry")],escuelaspriv[,c("sector","geometry")])
escuelas <- st_transform(escuelas, 22174)
table(escuelas$sector)

################## GEOSERVICIOS INDEC#

## Visualizar las capas disponibles en WFS
indec <- "WFS:http://geoservicios.indec.gov.ar/geoserver/ows?service=wfs&version=1.3.0&request=GetCapabilities"

capas_indec <- st_layers(indec)

## Cargar radios censales
radios = st_read(indec, "geocenso2010:radios_codigo")

names(radios)
radios = subset(radios, radios$codpcia=="14" & radios$coddpto=="014") # Unicamente Ciudad de Cordoba

summary(radios$geom)
radios = st_cast(radios, "GEOMETRYCOLLECTION") %>%   # Cambiar geometria a poligono
  st_collection_extract("POLYGON")

radios = st_transform(radios, 22174)   # Cambiar sistema de coordenadas

mapview(radios)

## Cargar NBI y otras variables para caracterizar los radios censales
nbi <- st_read(indec,"geocenso2010:nbi_radio")
nbi <- st_drop_geometry(nbi)
names(nbi)
nbi<- nbi[,c("link", "personas_con_nbi_porc", "total_pob", "hogares_con_nbi_porc", "total_hog")]

calidad_construccion <- st_read(indec, "geocenso2010:incalcons_radios")
calidad_construccion <- st_drop_geometry(calidad_construccion)
names(calidad_construccion)
calidad_construccion<- calidad_construccion[,c("link", "satisfactoria_porcentaje", "basico_porcentaje",
                                               "insuficiente_porcentaje")]

names(calidad_construccion)[names(calidad_construccion)=="satisfactoria_porcentaje"] <- "cons_sat"
names(calidad_construccion)[names(calidad_construccion)=="basico_porcentaje"] <- "cons_bas"
names(calidad_construccion)[names(calidad_construccion)=="insuficiente_porcentaje"] <- "cons_insf"


calidad_servicios <- st_read(indec, "geocenso2010:incalserv_radio")
calidad_servicios <- st_drop_geometry(calidad_servicios)
names(calidad_servicios)
calidad_servicios<- calidad_servicios[,c("link", "satisfactoria_porcentaje", "basica_porcentaje",
                                         "insuficiente_porcentaje")]

names(calidad_servicios)[names(calidad_servicios)=="satisfactoria_porcentaje"] <- "serv_sat"
names(calidad_servicios)[names(calidad_servicios)=="basica_porcentaje"] <- "serv_bas"
names(calidad_servicios)[names(calidad_servicios)=="insuficiente_porcentaje"] <- "serv_insf"


calidad_materiales <- st_read(indec, "geocenso2010:inmat_radio")
calidad_materiales <- st_drop_geometry(calidad_materiales)
names(calidad_materiales)
calidad_materiales<- calidad_materiales[,c("link", "calidad_1_porcentaje", "calidad_2_porcentaje",
                                           "calidad_3_porcentaje", "calidad_4_porcentaje")]

names(calidad_materiales)[names(calidad_materiales)=="calidad_1_porcentaje"] <- "mat_1"
names(calidad_materiales)[names(calidad_materiales)=="calidad_2_porcentaje"] <- "mat_2"
names(calidad_materiales)[names(calidad_materiales)=="calidad_3_porcentaje"] <- "mat_3"
names(calidad_materiales)[names(calidad_materiales)=="calidad_4_porcentaje"] <- "mat_4"


actividad <- st_read(indec, "geocenso2010:actividad_radio")
actividad <- st_drop_geometry(actividad)
actividad<- actividad[,c("link", "ocupada", "desocupada", "inactiva", "pea", "población_14_años_y_más",
                         "tasa_actividad", "tasa_empleo", "tasa_desocupacion")]
names(actividad)

##### UNION DE BASES - UNIFICACION DE LA INFORMACION #

## Escuelas con radios censales
aux <- st_join(radios["link"], escuelas, join=st_intersects)
names(aux)
summary(aux$sector)

aux$escuelaspriv <- ifelse(aux$sector=="Privado", 1, 0)
aux$escuelasest <- ifelse(aux$sector=="Estatal", 1, 0)

table(aux$escuelaspriv)

# agrupar las escuelas por radios (variable link)
library(tidyverse)
radios_escuela = aux %>%
  group_by(link) %>%
  summarise(priv = sum(escuelaspriv, na.rm=TRUE),
            est = sum(escuelasest, na.rm=TRUE))

table(radios_escuela$priv)
table(radios_escuela$est)


class(radios_escuela)
radios_escuela <- st_drop_geometry(radios_escuela)


## Parcelas con radios censales
parcelas_link = st_join(parcelas, radios["link"], join = st_intersects)
names(parcelas_link)
summary(parcelas_link)
parcelas_link = subset(parcelas_link, is.na(link)==FALSE)
parcelas_link = st_drop_geometry(parcelas_link)


# agrupar las parcelas por radios (variable link)
library(tidyverse)
radios_parcelas = parcelas_link %>%
  group_by(link) %>%
  summarise(vut = mean(vut_vigente, na.rm=TRUE),
            edif = mean(Superficie_Mejoras, na.rm=TRUE),
            sup = mean(Superficie_Tierra_Urbana, na.rm=TRUE),
            ctas = sum(Cantidad_Cuentas, na.rm=TRUE))
summary(radios_parcelas)

radios_parcelas <- na.omit(radios_parcelas)

## Union de parcelas y escuelas por radio censal (variable = link)
aux2 <-left_join(radios_parcelas, radios_escuela, by="link")
names(aux2)

## Union de NBI (variables = link)
aux3 <- left_join(aux2, nbi, by="link")
names(aux3)

##
aux4 <- left_join(aux3, calidad_construccion, by="link")
names(aux4)

aux5 <- left_join(aux4, calidad_servicios, by="link")
names(aux5)

aux6 <- left_join(aux5, calidad_materiales, by="link")
names(aux6)

aux7 <- left_join(aux6, actividad, by="link")
names(aux7)
summary(aux7)

names(radios)
base_final <-left_join(radios[,c("link", "geom")], aux7, by="link")
names(base_final)
summary(base_final)
base_final <- na.omit(base_final)


# Se agregan las coordenadas como variables

aux8 <-st_centroid(base_final)

library(tidyverse)
coords <- do.call(rbind, st_geometry(aux8)) %>%
  as_tibble() %>% setNames(c("x","y"))

base_final$x <- coords$x
base_final$y <- coords$y

# Eliminación de outlier

base_final <- subset(base_final, link != "140140515")

# Mapa de la base final

mapview::mapview(base_final)
names(base_final)

# Guardar base final

st_write(base_final, "base_final.gpkg", delete_dsn = T, delete_layer = T)


#####################################################################
#### CLUSTERIZACION - Tecnica FUZZY C-MEANs #########################
##################################################################

rm(list=ls())

setwd(choose.dir(getwd(), "Seleccione Dirección de Trabajo"))

library(sf)
library(clValid)
library(cluster)
library(factoextra)
library(devtools)
library(corrplot)
library(e1071)
library(caret)
library(dplyr)

base_final <- st_read("base_final.gpkg")

## Para clusterizar es necesario que todas las variables sean numéricas. Entonces:

# Se elimina la geometría

datos <-st_drop_geometry(base_final)

# Se eligen las variables (numericas) para realizar la clusterizacion

names(datos)

datos <- datos[c("vut" , "edif" , "sup" , "ctas" , "priv" , "est" ,
                 "personas_con_nbi_porc" , "hogares_con_nbi_porc" ,
                 "cons_sat" , "cons_bas" , "cons_insf" , "serv_sat" ,
                 "serv_bas" , "serv_insf" , "mat_1" , "mat_2" , "mat_3" ,
                 "mat_4" , "x" , "y" , "ocupada" , "desocupada" , "inactiva" ,
                 "pea" , "población_14_años_y_más" , "tasa_actividad" ,
                 "tasa_empleo" , "tasa_desocupacion")]


# Se estandariza las variables, por alguna tecnica de centrado

pre_proceso <- preProcess(datos, method = c("center", "scale"))

# Se calculan los datos estandarizado - quedan todas las variables en la misma escala

datos_est <- predict(pre_proceso, datos)

## Definir el numero de zonas

# Elbow Method

set.seed(7)
wss <- sapply(1:15,function(k){kmeans(datos_est, k, nstart=50,iter.max = 15 )$tot.withinss})
plot(1:15, wss, type="b", pch = 19, frame = FALSE, xlab="Number of clusters K", ylab="Total within-clusters sum of squares")

# Coeficiente de Particion, Entropia de Particion, Indice XieBeni

cant_zonas<-function(grupo) {

  MC_2 <- cmeans(datos_est,grupo,100,method="cmeans",m=1.1)

  I2CM <- fclustIndex(MC_2,datos_est, index=c("xie.beni", "fukuyama.sugeno",
                                              "partition.coefficient",
                                              "partition.entropy",
                                              "proportion.exponent" ))
  Indices0 <- cbind(I2CM)

  XieBeni <-Indices0[1,]
  FukSug <-Indices0[2,]
  CoefPart_1 <-Indices0[3,]
  CoefPart <- 1/CoefPart_1
  EntrPart <-Indices0[4,]
  ExpProp <-Indices0[5,]

  Indices <- as.data.frame(rbind(XieBeni,CoefPart,EntrPart))
  Indices

  return(Indices)

}

tabla_cant_zonas <- do.call("cbind",lapply (4:8,cant_zonas))
colnames(tabla_cant_zonas) <- c("4","5","6", "7", "8")
tabla_cant_zonas

## CLUSTERIZACION ##

# Se eligen 4 zonas para clusterizar - se aplica fuzzy c means

grupo = 4

set.seed (7)
zona <- cmeans(datos_est,grupo,100,method="cmeans",m=1.1)

radios_zona <- base_final[,c("link","vut" , "edif" , "sup" , "ctas" , "priv" , "est" ,
                             "personas_con_nbi_porc" , "hogares_con_nbi_porc" ,
                             "cons_sat" , "cons_bas" , "cons_insf" , "serv_sat" ,
                             "serv_bas" , "serv_insf" , "mat_1" , "mat_2" , "mat_3" ,
                             "mat_4" , "x" , "y" , "ocupada" , "desocupada" , "inactiva" ,
                             "pea" , "población_14_años_y_más" , "tasa_actividad" ,
                             "tasa_empleo" , "tasa_desocupacion")]

radios_zona$cluster <- zona$cluster

radios_zona$zona <- case_when(radios_zona$cluster==1 ~ "A",
                              radios_zona$cluster==4 ~ "B",
                              radios_zona$cluster==3 ~ "C",
                              radios_zona$cluster==2 ~ "D")

table(radios_zona$zona)

radios_zona$cluster <- NULL


library(mapview)
library(RColorBrewer)

# Definir paleta de colores

col <- c("#d7191c", "#fdae61", "#ffffbf", "#a6d96a")

# Mapa de las zonas

mapview::mapview(radios_zona,  zcol="zona", col.regions = col, gl =TRUE,
                 alpha.region = 1 , lwd = 1, alpha = 0.3)

# Guardar la base

getwd()
st_write(radios_zona, "radios_zona.gpkg", delete_dsn = T, delete_layer = T)

#####################################################################
#### ANALISIS DE COMPONENTES PRINCIPALES ############################
##################################################################

library(factoextra)
library(sf)

rm(list=ls())

setwd(choose.dir(getwd(), "Seleccione Dirección de Trabajo"))

radios_zona <- st_read("radios_zona.gpkg")

# Se elimina la geometria

acp <- st_drop_geometry(radios_zona)

# Se genera una semilla para que siempre surja el mismo valor

set.seed (7)

# observo nombre de las variables

names(acp)

# Los componentes principales se encuentran escalados

res.pca <- prcomp(acp[,c(-1,-20,-21,-30)], scale = TRUE) # Se hace el análisis de CP y se los escala
eig.val <- get_eigenvalue(res.pca) # Se calculan los valores propios - Landa - que acopaña a cada CP
round(eig.val, digits = 2) # se los redondea a dos decimales

# Se obtienen los valores para las variables

res.var <- get_pca_var(res.pca) # Calcula las componentes principales
round(res.var$coord, digits = 2)  # Coordinates
round(res.var$contrib, digits = 2) # Contributions to the PCs
round(res.var$cos2, digits = 2)    # Quality of representation

round(res.var$coord[,1], digits = 2)
round(res.var$coord[,2], digits = 2)

fviz_eig(res.pca, ylab= "% CP", xlab= "Comp. Principales", main = "Componentes Principales", font.tickslab = c(12, "bold", "black"), font.title= 20,font.y=15, font.x=15)
fviz_contrib(res.pca, choice = "var",  axes = 1, fill="#06623b", top = 10, font.tickslab = c(12, "bold", "black"), font.title= 20,font.y=15, title=" Contribución CP 1")
fviz_contrib(res.pca, choice = "var", axes = 2,  fill="#6f0000", top = 10, font.tickslab = c(14, "bold", "black"), font.title= 20,font.y=15, title=" Contribución CP 2")
fviz_contrib(res.pca, choice = "var", axes = 3,  fill="#00263b", top = 10,font.tickslab = c(14, "bold", "black"), font.title= 20,font.y=15,  title=" Contribución CP 3")

# Graficar las variables y las CP


col<-c("#000000") # color hunt -https://colorhunt.co/ -

fviz_pca_var(res.pca,
             col.var = "contrib", # Color by contributions to the PC
             gradient.cols = col,
             axes=c(1, 2),
             title="Comp. Princ. Variables Economicos",
             repel = TRUE    # Avoid text overlapping
)

# Se obtienen los valores para las observaciones - individuos-

res.ind <- get_pca_ind(res.pca)
res.ind$coord          # Coordinates
res.ind$contrib        # Contributions to the PCs
res.ind$cos2           # Quality of representation

groups <- as.factor(radios_zona$zona)

col <- c("#d7191c", "#a6d96a", "#ffffbf", "#fdae61")


fviz_pca_ind(res.pca,
             col.ind = groups, # color by groups
             palette = col,
             addEllipses = TRUE,
             legend.title = "Grupos",
             axes=c(1, 2),
             geom = c("point"),
             title="CP observaciones",
             alpha=1 ) # Concentration ellipses

## Observar tanto varables como observaciones en las CP

fviz_pca_biplot(res.pca,
                col.ind = groups, # color by groups
                palette = col,
                col.var = "#000000",
                gradient.cols = "fff3af",
                addEllipses = TRUE,
                legend.title = "Grupos",
                axes=c(1, 2),
                geom = c("point"),
                jitter = list(what = "label", width = NULL, height = NULL),
                title="BI - Plot variables - Individuos",
                alpha=1 )


names(radios_zona)

col1 <- c("#d7191c", "#a6d96a", "#ffffbf", "#fdae61")

mapview::mapview(radios_zona,  zcol="zona", col.regions = col1, gl =TRUE,
                 alpha.region = 1 , lwd = 1, alpha = 0.3)



	#######################################
	#### CARGAR MAPAS DESDE DISTINTOS GEOSERVICIOS ######################
	##################################################################

	rm(list=ls())

	library(sf)
	library(mapview)

	setwd(choose.dir(getwd(), "Seleccione Dirección de Trabajo"))

	################### Geoservicio IDECOR#

	## Visualizar las capas disponibles en WFS
	idecor <- "WFS:http://idecor-ws.mapascordoba.gob.ar/geoserver/idecor/wms?request=GetCapabilities"

	capas_idecor <- st_layers(idecor)

	## Cargar capa de parcelas
	parcelas <- st_read(idecor,"idecor:parcelas_cba")

	names(parcelas)
	parcelas = parcelas[,c("Superficie_Mejoras", "Superficie_Tierra_Urbana",
	"vut_vigente", "Cantidad_Cuentas")]

	summary(parcelas$geom)
	parcelas = st_cast(parcelas, "GEOMETRYCOLLECTION") %>% # Cambiar geometria a poligono
	st_collection_extract("POLYGON")

	summary(parcelas)

	## Cargar capa de escuelas mediante archvo .shp
	escuelaspriv <- st_read("establecimientos_privado.shp")
	escuelasest <- st_read("establecimientos_estatales.shp")

	names(escuelaspriv)
	table(escuelasest$departamen)
	table(escuelaspriv$departamen)

	escuelaspriv <- subset(escuelaspriv, departamen=="CAPITAL")
	escuelasest<- subset(escuelasest, departamen=="CAPITAL")

	escuelas<- rbind(escuelasest[,c("sector", "geometry")],escuelaspriv[,c("sector","geometry")])
	escuelas <- st_transform(escuelas, 22174)
	table(escuelas$sector)

	################## GEOSERVICIOS INDEC#

	## Visualizar las capas disponibles en WFS
	indec <- "WFS:http://geoservicios.indec.gov.ar/geoserver/ows?service=wfs&version=1.3.0&request=GetCapabilities"

	capas_indec <- st_layers(indec)

	## Cargar radios censales
	radios = st_read(indec, "geocenso2010:radios_codigo")

	names(radios)
	radios = subset(radios, radios$codpcia=="14" & radios$coddpto=="014") # Unicamente Ciudad de Cordoba

	summary(radios$geom)
	radios = st_cast(radios, "GEOMETRYCOLLECTION") %>% # Cambiar geometria a poligono
	st_collection_extract("POLYGON")

	radios = st_transform(radios, 22174) # Cambiar sistema de coordenadas

	mapview(radios)

	## Cargar NBI y otras variables para caracterizar los radios censales
	nbi <- st_read(indec,"geocenso2010:nbi_radio")
	nbi <- st_drop_geometry(nbi)
	names(nbi)
	nbi<- nbi[,c("link", "personas_con_nbi_porc", "total_pob", "hogares_con_nbi_porc", "total_hog")]

	calidad_construccion <- st_read(indec, "geocenso2010:incalcons_radios")
	calidad_construccion <- st_drop_geometry(calidad_construccion)
	names(calidad_construccion)
	calidad_construccion<- calidad_construccion[,c("link", "satisfactoria_porcentaje", "basico_porcentaje",
	"insuficiente_porcentaje")]

	names(calidad_construccion)[names(calidad_construccion)=="satisfactoria_porcentaje"] <- "cons_sat"
	names(calidad_construccion)[names(calidad_construccion)=="basico_porcentaje"] <- "cons_bas"
	names(calidad_construccion)[names(calidad_construccion)=="insuficiente_porcentaje"] <- "cons_insf"


	calidad_servicios <- st_read(indec, "geocenso2010:incalserv_radio")
	calidad_servicios <- st_drop_geometry(calidad_servicios)
	names(calidad_servicios)
	calidad_servicios<- calidad_servicios[,c("link", "satisfactoria_porcentaje", "basica_porcentaje",
	"insuficiente_porcentaje")]

	names(calidad_servicios)[names(calidad_servicios)=="satisfactoria_porcentaje"] <- "serv_sat"
	names(calidad_servicios)[names(calidad_servicios)=="basica_porcentaje"] <- "serv_bas"
	names(calidad_servicios)[names(calidad_servicios)=="insuficiente_porcentaje"] <- "serv_insf"



	calidad_materiales <- st_read(indec, "geocenso2010:inmat_radio")
	calidad_materiales <- st_drop_geometry(calidad_materiales)
	names(calidad_materiales)
	calidad_materiales<- calidad_materiales[,c("link", "calidad_1_porcentaje", "calidad_2_porcentaje",
	"calidad_3_porcentaje", "calidad_4_porcentaje")]

	names(calidad_materiales)[names(calidad_materiales)=="calidad_1_porcentaje"] <- "mat_1"
	names(calidad_materiales)[names(calidad_materiales)=="calidad_2_porcentaje"] <- "mat_2"
	names(calidad_materiales)[names(calidad_materiales)=="calidad_3_porcentaje"] <- "mat_3"
	names(calidad_materiales)[names(calidad_materiales)=="calidad_4_porcentaje"] <- "mat_4"


	actividad <- st_read(indec, "geocenso2010:actividad_radio")
	actividad <- st_drop_geometry(actividad)
	actividad<- actividad[,c("link", "ocupada", "desocupada", "inactiva", "pea", "población_14_años_y_más",
	"tasa_actividad", "tasa_empleo", "tasa_desocupacion")]
	names(actividad)

	##### UNION DE BASES - UNIFICACION DE LA INFORMACION #

	## Escuelas con radios censales
	aux <- st_join(radios["link"], escuelas, join=st_intersects)
	names(aux)
	summary(aux$sector)

	aux$escuelaspriv <- ifelse(aux$sector=="Privado", 1, 0)
	aux$escuelasest <- ifelse(aux$sector=="Estatal", 1, 0)

	table(aux$escuelaspriv)

	# agrupar las escuelas por radios (variable link)
	library(tidyverse)
	radios_escuela = aux %>%
	group_by(link) %>%
	summarise(priv = sum(escuelaspriv, na.rm=TRUE),
	est = sum(escuelasest, na.rm=TRUE))

	table(radios_escuela$priv)
	table(radios_escuela$est)


	class(radios_escuela)
	radios_escuela <- st_drop_geometry(radios_escuela)


	## Parcelas con radios censales
	parcelas_link = st_join(parcelas, radios["link"], join = st_intersects)
	names(parcelas_link)
	summary(parcelas_link)
	parcelas_link = subset(parcelas_link, is.na(link)==FALSE)
	parcelas_link = st_drop_geometry(parcelas_link)


	# agrupar las parcelas por radios (variable link)
	library(tidyverse)
	radios_parcelas = parcelas_link %>%
	group_by(link) %>%
	summarise(vut = mean(vut_vigente, na.rm=TRUE),
	edif = mean(Superficie_Mejoras, na.rm=TRUE),
	sup = mean(Superficie_Tierra_Urbana, na.rm=TRUE),
	ctas = sum(Cantidad_Cuentas, na.rm=TRUE))
	summary(radios_parcelas)

	radios_parcelas <- na.omit(radios_parcelas)

	## Union de parcelas y escuelas por radio censal (variable = link)
	aux2 <-left_join(radios_parcelas, radios_escuela, by="link")
	names(aux2)

	## Union de NBI (variables = link)
	aux3 <- left_join(aux2, nbi, by="link")
	names(aux3)

	##
	aux4 <- left_join(aux3, calidad_construccion, by="link")
	names(aux4)

	aux5 <- left_join(aux4, calidad_servicios, by="link")
	names(aux5)

	aux6 <- left_join(aux5, calidad_materiales, by="link")
	names(aux6)

	aux7 <- left_join(aux6, actividad, by="link")
	names(aux7)
	summary(aux7)

	names(radios)
	base_final <-left_join(radios[,c("link", "geom")], aux7, by="link")
	names(base_final)
	summary(base_final)
	base_final <- na.omit(base_final)


	# Se agregan las coordenadas como variables

	aux8 <-st_centroid(base_final)

	library(tidyverse)
	coords <- do.call(rbind, st_geometry(aux8)) %>%
	as_tibble() %>% setNames(c("x","y"))

	base_final$x <- coords$x
	base_final$y <- coords$y

	# Eliminación de outlier

	base_final <- subset(base_final, link != "140140515")

	# Mapa de la base final

	mapview::mapview(base_final)
	names(base_final)

	# Guardar base final

	st_write(base_final, "base_final.gpkg", delete_dsn = T, delete_layer = T)


	#####################################################################
	#### CLUSTERIZACION - Tecnica FUZZY C-MEANs #########################
	##################################################################

	rm(list=ls())

	setwd(choose.dir(getwd(), "Seleccione Dirección de Trabajo"))

	library(sf)
	library(clValid)
	library(cluster)
	library(factoextra)
	library(devtools)
	library(corrplot)
	library(e1071)
	library(caret)
	library(dplyr)

	base_final <- st_read("base_final.gpkg")

	## Para clusterizar es necesario que todas las variables sean numéricas. Entonces:

	# Se elimina la geometría

	datos <-st_drop_geometry(base_final)

	# Se eligen las variables (numericas) para realizar la clusterizacion

	names(datos)

	datos <- datos[c("vut" , "edif" , "sup" , "ctas" , "priv" , "est" ,
	"personas_con_nbi_porc" , "hogares_con_nbi_porc" ,
	"cons_sat" , "cons_bas" , "cons_insf" , "serv_sat" ,
	"serv_bas" , "serv_insf" , "mat_1" , "mat_2" , "mat_3" ,
	"mat_4" , "x" , "y" , "ocupada" , "desocupada" , "inactiva" ,
	"pea" , "población_14_años_y_más" , "tasa_actividad" ,
	"tasa_empleo" , "tasa_desocupacion")]


	# Se estandariza las variables, por alguna tecnica de centrado

	pre_proceso <- preProcess(datos, method = c("center", "scale"))

	# Se calculan los datos estandarizado - quedan todas las variables en la misma escala

	datos_est <- predict(pre_proceso, datos)

	## Definir el numero de zonas

	# Elbow Method

	set.seed(7)
	wss <- sapply(1:15,function(k){kmeans(datos_est, k, nstart=50,iter.max = 15 )$tot.withinss})
	plot(1:15, wss, type="b", pch = 19, frame = FALSE, xlab="Number of clusters K", ylab="Total within-clusters sum of squares")

	# Coeficiente de Particion, Entropia de Particion, Indice XieBeni

	cant_zonas<-function(grupo) {

	MC_2 <- cmeans(datos_est,grupo,100,method="cmeans",m=1.1)

	I2CM <- fclustIndex(MC_2,datos_est, index=c("xie.beni", "fukuyama.sugeno",
	"partition.coefficient",
	"partition.entropy",
	"proportion.exponent" ))
	Indices0 <- cbind(I2CM)

	XieBeni <-Indices0[1,]
	FukSug <-Indices0[2,]
	CoefPart_1 <-Indices0[3,]
	CoefPart <- 1/CoefPart_1
	EntrPart <-Indices0[4,]
	ExpProp <-Indices0[5,]

	Indices <- as.data.frame(rbind(XieBeni,CoefPart,EntrPart))
	Indices

	return(Indices)

	}

	tabla_cant_zonas <- do.call("cbind",lapply (4:8,cant_zonas))
	colnames(tabla_cant_zonas) <- c("4","5","6", "7", "8")
	tabla_cant_zonas

	## CLUSTERIZACION ##

	# Se eligen 4 zonas para clusterizar - se aplica fuzzy c means

	grupo = 4

	set.seed (7)
	zona <- cmeans(datos_est,grupo,100,method="cmeans",m=1.1)

	radios_zona <- base_final[,c("link","vut" , "edif" , "sup" , "ctas" , "priv" , "est" ,
	"personas_con_nbi_porc" , "hogares_con_nbi_porc" ,
	"cons_sat" , "cons_bas" , "cons_insf" , "serv_sat" ,
	"serv_bas" , "serv_insf" , "mat_1" , "mat_2" , "mat_3" ,
	"mat_4" , "x" , "y" , "ocupada" , "desocupada" , "inactiva" ,
	"pea" , "población_14_años_y_más" , "tasa_actividad" ,
	"tasa_empleo" , "tasa_desocupacion")]

	radios_zona$cluster <- zona$cluster

	radios_zona$zona <- case_when(radios_zona$cluster==1 ~ "A",
	radios_zona$cluster==4 ~ "B",
	radios_zona$cluster==3 ~ "C",
	radios_zona$cluster==2 ~ "D")

	table(radios_zona$zona)

	radios_zona$cluster <- NULL


	library(mapview)
	library(RColorBrewer)

	# Definir paleta de colores

	col <- c("#d7191c", "#fdae61", "#ffffbf", "#a6d96a")

	# Mapa de las zonas

	mapview::mapview(radios_zona, zcol="zona", col.regions = col, gl =TRUE,
	alpha.region = 1 , lwd = 1, alpha = 0.3)

	# Guardar la base

	getwd()
	st_write(radios_zona, "radios_zona.gpkg", delete_dsn = T, delete_layer = T)

	#####################################################################
	#### ANALISIS DE COMPONENTES PRINCIPALES ############################
	##################################################################

	library(factoextra)
	library(sf)

	rm(list=ls())

	setwd(choose.dir(getwd(), "Seleccione Dirección de Trabajo"))

	radios_zona <- st_read("radios_zona.gpkg")

	# Se elimina la geometria

	acp <- st_drop_geometry(radios_zona)

	# Se genera una semilla para que siempre surja el mismo valor

	set.seed (7)

	# observo nombre de las variables

	names(acp)

	# Los componentes principales se encuentran escalados

	res.pca <- prcomp(acp[,c(-1,-20,-21,-30)], scale = TRUE) # Se hace el análisis de CP y se los escala
	eig.val <- get_eigenvalue(res.pca) # Se calculan los valores propios - Landa - que acopaña a cada CP
	round(eig.val, digits = 2) # se los redondea a dos decimales

	# Se obtienen los valores para las variables

	res.var <- get_pca_var(res.pca) # Calcula las componentes principales
	round(res.var$coord, digits = 2) # Coordinates
	round(res.var$contrib, digits = 2) # Contributions to the PCs
	round(res.var$cos2, digits = 2) # Quality of representation

	round(res.var$coord[,1], digits = 2)
	round(res.var$coord[,2], digits = 2)

	fviz_eig(res.pca, ylab= "% CP", xlab= "Comp. Principales", main = "Componentes Principales", font.tickslab = c(12, "bold", "black"), font.title= 20,font.y=15, font.x=15)
	fviz_contrib(res.pca, choice = "var", axes = 1, fill="#06623b", top = 10, font.tickslab = c(12, "bold", "black"), font.title= 20,font.y=15, title=" Contribución CP 1")
	fviz_contrib(res.pca, choice = "var", axes = 2, fill="#6f0000", top = 10, font.tickslab = c(14, "bold", "black"), font.title= 20,font.y=15, title=" Contribución CP 2")
	fviz_contrib(res.pca, choice = "var", axes = 3, fill="#00263b", top = 10,font.tickslab = c(14, "bold", "black"), font.title= 20,font.y=15, title=" Contribución CP 3")

	# Graficar las variables y las CP


	col<-c("#000000") # color hunt -https://colorhunt.co/ -

	fviz_pca_var(res.pca,
	col.var = "contrib", # Color by contributions to the PC
	gradient.cols = col,
	axes=c(1, 2),
	title="Comp. Princ. Variables Economicos",
	repel = TRUE # Avoid text overlapping
	)

	# Se obtienen los valores para las observaciones - individuos-

	res.ind <- get_pca_ind(res.pca)
	res.ind$coord # Coordinates
	res.ind$contrib # Contributions to the PCs
	res.ind$cos2 # Quality of representation

	groups <- as.factor(radios_zona$zona)

	col <- c("#d7191c", "#a6d96a", "#ffffbf", "#fdae61")


	fviz_pca_ind(res.pca,
	col.ind = groups, # color by groups
	palette = col,
	addEllipses = TRUE,
	legend.title = "Grupos",
	axes=c(1, 2),
	geom = c("point"),
	title="CP observaciones",
	alpha=1 ) # Concentration ellipses

	## Observar tanto varables como observaciones en las CP

	fviz_pca_biplot(res.pca,
	col.ind = groups, # color by groups
	palette = col,
	col.var = "#000000",
	gradient.cols = "fff3af",
	addEllipses = TRUE,
	legend.title = "Grupos",
	axes=c(1, 2),
	geom = c("point"),
	jitter = list(what = "label", width = NULL, height = NULL),
	title="BI - Plot variables - Individuos",
	alpha=1 )



	names(radios_zona)

	col1 <- c("#d7191c", "#a6d96a", "#ffffbf", "#fdae61")

	mapview::mapview(radios_zona, zcol="zona", col.regions = col1, gl =TRUE,
	alpha.region = 1 , lwd = 1, alpha = 0.3)