Repaso del Curso

IN2039: Visualización de Datos

Alan R. Vázquez

Departamento de Ingeniería Industrial

Visualización de datos y sus principios

¿Qué es la visualización de datos?

“Una visualización [de datos] es cualquier presentación visual destinada a revelar evidencia, haciendo visible lo invisible” Alberto Cairo (2015).

En esencia, una visualización de datos te permite profundizar en conjuntos de datos complejos para obtener información significativa mediante el uso de pantallas gráficas.


Las visualizaciones de datos se ocupan principalmente de proporcionar evidencia y permitir que la audiencia explore y llegue a sus propias conclusiones sobre lo que las visualizaciones revelan sobre los datos.

Los 3 principios de la visualización de datos

Principio 1: Formula el mensaje

Muchas veces el mensaje se obtiene al contestar una pregunta de interés.

Be ready to lose all your money on bitcoin, FCA tells consumers" Financial newspaper  headline in Guardian 12 January 2021 Great Britain UK Europe Stock Photo -  Alamy

Principio 2: Convierte los datos en información

Tu gráfica debe de usar los datos para transmitir el mensaje o contestar la pregunta. Es decir, debe de convertir los datos en información.

Principio 3: Aplica los principios del diseño gráfico

  1. Es fácil identificar objetos por color.
  2. Utiliza etiquetas directas en lugar de una leyenda.
  3. Elementos como texto, líneas, y formas que tengan la misma naturaleza deben parecerse.
  4. Equilibra gráficos y texto.
  5. Ten cuidado con las opciones predeterminadas del software de visualización.
  6. Usa un diseño de cuadrícula para organizar su visualización.

Tipos de Variables

Tipos de Variables

Los tipos de variable definen nuestro análisis

  • Ayudan a especificar las operaciones, visualizaciones y modelos que podemos aplicar a los datos.

  • Existen gráficas apropiadas o diseñadas para visualizar variables numéricas o categóricas.

Resúmenes estadísticos

Resúmenes Estadísticos para variables categóricas

Un resumen estadístico nos ayuda a resumir un conjunto de observaciones de una manera simple.

Los resúmenes estadísticos más utilizados para datos categóricos son:

  • La frecuencia de una categoría es el número de observaciones que pertenecen a esa categoría.

  • La frecuencia relativa es la frecuencia dividida por el número total de observaciones.

Resúmenes Estadísticos para variables numéricas

Los resúmenes estadísticos más utilizados para datos numéricos son:

  • Promedio
  • Varianza y desviación estándar
  • Mediana y cuartiles
  • Máximo y mínimo

Gráficas por tipo y numero de variables

Gráficos para 1 variable

Tipo Gráfica
Categórica Barras y circular

Gráficos para 1 variable

Tipo Gráfica
Numérica Histograma y gráfica de caja

Gráficos para 2 variables

Tipo Gráfica
Numéricas Dispersión y Lineas

Gráficos para 2 variables

Tipo Gráfica
Categóricas Barras lado a lado y barras apiladas

Gráficos para 2 o más variables

Tipo Gráfica
Mixta Cleveland, dispersión por color y forma, varias lineas, área, facetas

Gráficos para 2 o más variables

Tipo Gráfica
Mixta Cleveland, dispersión por color y forma, varias lineas, área, facetas

Regresión lineal

Modelo de regresión lineal

Una función \(f(X)\) muy común para predecir una respuesta (\(Y\)) es el modelo de regresión lineal.

Tiene la forma matemática:

\[ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i, \]

  • Donde \(i\) es el indice de las \(n\) observaciones, y
  • \(\hat{Y}_i\) es la predicción del valor real de la respuesta \(Y\) asociada a un valor del predictor igual a \(X_i\).
  • Los valores \(\hat{\beta}_0\) y \(\hat{\beta}_1\) se llaman coeficientes del modelo.

Para nuestro ejemplo

\(\hat{Y}_i = 46.32 -0.0076 X_i\)

La fórmula

\(\text{mpg}_i = 46.32 - 0.0076 \times \text{peso}_i\)

¿Es esto el final?

Para más sobre visualizaciones efectivas, visita https://www.storytellingwithdata.com/.

Regresar a página principal