rocarvaj/comandos-r.md

## comandos-r.md

      
    Raw
  

              comandos-r.md
            
          
    Lista de comandos útiles

Nota: Varios de estos comandos pertenecen al Tidyverse, por lo que se asume que se ha instalado y cargado tidyverse.
Generales


Comando
Descripción
Ejemplo


install.packages()
Instalar paquete (es necesario hacer sólo una vez)
install.packages("tidyverse")


library()
Cargar paquete
library(tidyverse)


read_csv()
Cargar datos en formato .csv (separado por comas)
read_csv("carpeta/misdatos.csv")


read_excel()
Cargar datos desde un archivo Excel (requiere cargar paquete readxl)
read_excel("misdatos.xlsx", sheet = "Hoja1")


glimpse()
Entrega un resumen de un data frame (variables y observaciones)
glimpse(mpg)


$
Seleccionar una variable de un data frame
dataframe$edad


table()
Generar una tabla de frecuencia para la(s) variable(s)
table(dataframe$comuna, dataframe$carrera)


Manipulación de datos (dplyr)

Nota: Como varios de estos comandos se usan usualmente con el operador "pipe" (%>%), en los ejemplos usamos df como nombre del data frame sobre el cual se aplica la función.


Comando
Descripción
Ejemplo


filter()
Seleccionar (filtrar) observaciones (filas) de un data frame
df %>% filter(edad >= 18 & comuna == "Concon")


select()
Seleccionar variables (columnas) de un data frame
df %>% select(edad, comuna, carrera)


Al usar select() con - se seleccionan todas las variables, excepto las indicadas
df %>% select(-comuna)


rename()
Renombrar variables de un data frame
df %>% rename(edad = edad.del.individuo)


mutate()
Modificar variables y entregar el resultado en otra variable
df %>% mutate(ptos.totales = ptos.local + ptos.visita)


summarise()
Generar alguna estadística a partir de las variables del data frame (reducir varios valores a uno solo)
df %>% summarise(edad.promedio = mean(edad))


group_by()
Agrupar las observaciones según una o más variables para luego calcular alguna estadística por grupo
df %>% group_by(carrera) %>% summarise(edad.promedio = mean(edad))


arrange()
Reordenar observaciones según una o más variables (usar - para orden descendiente)
df %>% arrange(edad, -ingresos)


Modelos


Comando
Descripción
Ejemplo


lm()
Modelo de regresión lineal
lm(var.dep ~ var1 + var2 + var 3, data = df)


glm()
Modelo lineal generalizado (usar family = binomial para reg. logísitca)
glm(var.dep ~ var1 + var2, data = df, family = binomial)


summary()
Obtener un resumen del modelo y su calidad
summary(modelo)


predict()
Usar un modelo para predecir el valor de la variable dependiente para nuevas observaciones
predict(modelo, newdata = otrodf)


Para regresiones logísticas, usar el parámetro type = "response"
predict(modelolog, type = "response", newdata = otrodf)


sample.split()
Dividir una base de datos para generar set de entrenamiento y de prueba (requiere el paquete caTools)
indices <- sample.split(df$var.dep, SplitRatio = 0.75)


Luego de generar indices, se seleccionan las observaciones correspondientes desde el data frame original
dftrain <- df[indices, ]
Comando	Descripción	Ejemplo
`install.packages()`	Instalar paquete (es necesario hacer sólo una vez)	`install.packages("tidyverse")`
`library()`	Cargar paquete	`library(tidyverse)`
`read_csv()`	Cargar datos en formato .csv (separado por comas)	`read_csv("carpeta/misdatos.csv")`
`read_excel()`	Cargar datos desde un archivo Excel (requiere cargar paquete `readxl`)	`read_excel("misdatos.xlsx", sheet = "Hoja1")`
`glimpse()`	Entrega un resumen de un data frame (variables y observaciones)	`glimpse(mpg)`
`$`	Seleccionar una variable de un data frame	`dataframe$edad`
`table()`	Generar una tabla de frecuencia para la(s) variable(s)	`table(dataframe$comuna, dataframe$carrera)`
Comando	Descripción	Ejemplo
`filter()`	Seleccionar (filtrar) observaciones (filas) de un data frame	`df %>% filter(edad >= 18 & comuna == "Concon")`
`select()`	Seleccionar variables (columnas) de un data frame	`df %>% select(edad, comuna, carrera)`
	Al usar `select()` con `-` se seleccionan todas las variables, excepto las indicadas	`df %>% select(-comuna)`
`rename()`	Renombrar variables de un data frame	`df %>% rename(edad = edad.del.individuo)`
`mutate()`	Modificar variables y entregar el resultado en otra variable	`df %>% mutate(ptos.totales = ptos.local + ptos.visita)`
`summarise()`	Generar alguna estadística a partir de las variables del data frame (reducir varios valores a uno solo)	`df %>% summarise(edad.promedio = mean(edad))`
`group_by()`	Agrupar las observaciones según una o más variables para luego calcular alguna estadística por grupo	`df %>% group_by(carrera) %>% summarise(edad.promedio = mean(edad))`
`arrange()`	Reordenar observaciones según una o más variables (usar `-` para orden descendiente)	`df %>% arrange(edad, -ingresos)`
Comando	Descripción	Ejemplo
`lm()`	Modelo de regresión lineal	`lm(var.dep ~ var1 + var2 + var 3, data = df)`
`glm()`	Modelo lineal generalizado (usar `family = binomial` para reg. logísitca)	`glm(var.dep ~ var1 + var2, data = df, family = binomial)`
`summary()`	Obtener un resumen del modelo y su calidad	`summary(modelo)`
`predict()`	Usar un modelo para predecir el valor de la variable dependiente para nuevas observaciones	`predict(modelo, newdata = otrodf)`
	Para regresiones logísticas, usar el parámetro `type = "response"`	`predict(modelolog, type = "response", newdata = otrodf)`
`sample.split()`	Dividir una base de datos para generar set de entrenamiento y de prueba (requiere el paquete `caTools`)	`indices <- sample.split(df$var.dep, SplitRatio = 0.75)`
	Luego de generar `indices`, se seleccionan las observaciones correspondientes desde el data frame original	`dftrain <- df[indices, ]`