Las variables categóricas se dividen en dos tipos importantes:
Nominales
Ordinales
Variable categórica nominal
Una variable categórica es nominal si sus categorías no tienen orden.
Por ejemplo:
Afiliación a partidos políticos (demócrata o republicano).
Tipo de perro (pastor, sabueso, terrier, otro).
Sistema operativo de la computadora (Windows, macOS, Linux).
Variable categórica ordinal
Una variable categórica es ordinal si sus categorías tienen orden.
Por ejemplo:
Talla de camiseta (pequeña, mediana, grande).
Nivel de educación (secundaria, universidad, posgrado).
Nivel de ingreso (menos de $250K, $250k-$500K, mas de $500K).
Interesante…
Valores enteros (por ejemplo, 1, 2, 3, …, 5) pueden representar categóricas nominales u ordinales.
Representación
1
2
3
4
Tipo de Sangre
A
B
AB
O
Reseña
Mala
Regular
Buena
Muy Buena
En la práctica, los valores booleanos (TRUE y FALSE) a menudo representan categorías nominales.
Recuerda
Un a diferencia general es …
Variables cuantitativas (discretas o continuas) son en las cuales la suma o resta de sus valores tiene sentido.
Variables categóricas (nominales u ordinales) son en las cuales la suma o resta de sus valores no tiene sentido.
¿Cómo checar el tipo de variable en R?
Una ves cargando los datos en R, podemos ver el tipo de variable al imprimir la tabla de datos. Por ejemplo, consideremos el conjunto de datos penguins.xlsx:
# Imprime las primeras 6 filas de los datos.head(penguins_data)
# A tibble: 6 × 8
species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
<chr> <chr> <dbl> <dbl> <dbl> <dbl>
1 Adelie Torgersen 39.1 18.7 181 3750
2 Adelie Torgersen 39.5 17.4 186 3800
3 Adelie Torgersen 40.3 18 195 3250
4 Adelie Torgersen NA NA NA NA
5 Adelie Torgersen 36.7 19.3 193 3450
6 Adelie Torgersen 39.3 20.6 190 3650
# ℹ 2 more variables: sex <chr>, year <dbl>
Las abreviaturas de letras debajo de los nombres de las columnas. Estos describen el tipo de cada variable:
dbl significa dobles o números reales. Para variables continuas.
int significa enteros. Para variables discretas.
fctr significa factores, que R usa para representar variables categóricas nominales y ordinales con valores posibles fijos.
lgl significa lógico, vectores que solo contienen TRUE o FALSE. Para variables categóricas nominales.
También hay otros tres tipos especiales de variables:
dttm significa fechas y horas (una fecha + una hora).
date significa fechas.
chr significa vectores de caracteres o cadenas.
Más adelante veremos como transformar una variable chr en fctr.
Actividad (solo mode)
Ve a la sección de Módulos en nuestra página de CANVAS.
Realiza la Actividad 2.1: Tipos de Variable individualmente.
20:00
dplyr
Una nueva librería: dplyr
dplyr permite manipular datos y generar resúmenes estadísticos.
Es parte de una colección de paquetes de ciencia de datos llamado tidyverse.
Uno de los comandos más importantes de dplyr es pipe que se ejecuta con el operador %>%. Este operador envía un objeto a una función o expresión de llamada.
La grámatica para usar pipe es la siguiente:
Los verbos de dplyr
dplyr es una gramática de manipulación de datos que proporciona un conjunto de verbos (funciones) para resolver los desafíos más comunes de manipulación de datos:
filter() selecciona observaciones según sus valores.
select() selecciona variables según sus nombres.
mutate() agrega nuevas variables que son funciones de variables existentes
arrange() cambia el orden de las filas.
summarise() reduce múltiples valores a un único resumen numérico.
Para esto, usaremos el conjunto de datos penguins_data.
# A tibble: 6 × 3
species body_mass_g sex
<chr> <dbl> <chr>
1 Gentoo 4500 female
2 Gentoo 5700 male
3 Gentoo 4450 female
4 Gentoo 5700 male
5 Gentoo 5400 male
6 Gentoo 4550 female
mutate()
Con mutate(), podemos agregar nuevas columnas (variables) que son funciones de las columnas en los datos. Por ejemplo, podemos calcular la división de bill_length_mm y bill_depth_mm.