Pruebas de Hipótesis

IN2032: Análisis Estadístico de Datos

Alan R. Vazquez

Department of Industrial Engineering

Agenda

Conceptos Básicos
Pruebas de Muestras Pequeñas
Comentarios Finales

Carguemos las librerías

Antes de empezar, carguemos las librerías que usaremos hoy.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import sem, t, ttest_ind, ttest_1samp

En el cógido de arriba, indicamos que utilizaremos la función sem() de la librería scipy.stats.

Conceptos Básicos

Introducción

Recuerda que el objetivo de la estadística es hacer inferencias sobre parámetros poblacionales desconocidos basándose en la información contenida en los datos de la muestra.

Estas inferencias se expresan de dos maneras:

Intervalos de confianza de un parámetro.
Prueba de hipótesis sobre su valor.

Idea general

Consideremos una población (distribución) en estudio con un parámetro objetivo. Una prueba de hipótesis sigue los pasos generales siguientes.

Plantear una hipótesis sobre el parámetro. Por ejemplo, equivale a un valor especificado por el usuario.
Recolectar una muestra de la población y comparar los valores observados con la hipótesis.
Si las observaciones no están de acuerdo con la hipótesis, la rechazamos. De lo contrario, concluimos que la hipótesis es verdadera o que la muestra no proporcionó suficiente información para la prueba.

Paso 1. Hipótesis

Una hipótesis es una afirmación sobre un parámetro de población.

Hay dos tipos de hipótesis:

La hipótesis nula se denota con \(H_0\).

La hipótesis alternativa se denota con \(H_1\).

Para un parámetro objetivo \(\mu\) y un valor hipotético (especificado por el usuario) \(\mu_0\), nos concentraremos en hipótesis del siguiente tipo:

\(H_0: \mu = \mu_0\) contra \(H_1: \mu \neq \mu_0\)

\(H_0: \mu \leq \mu_0\) contra \(H_1: \mu > \mu_0\)

\(H_0: \mu \geq \mu_0\) contra \(H_1: \mu < \mu_0\)

La hipótesis alternativa suele ser la hipótesis que buscamos sustentar con base en la información contenida en la muestra.

A veces, también escribimos la hipótesis nula de esta manera:

\(H_0: \mu = \mu_0\) contra \(H_1: \mu \neq \mu_0\)

\(H_0: \mu = \mu_0\) contra \(H_1: \mu > \mu_0\)

\(H_0: \mu = \mu_0\) contra \(H_1: \mu < \mu_0\)

Esto es como asumir el valor más extremo posible de \(\mu\) bajo \(H_0\).

Es decir, el valor mínimo (o máximo) para que \(H_0\) sea verdadera.

Ejemplo 1

Pregunta de investigación 1: ¿El alquiler mensual promedio de un apartamento de un dormitorio en la zona Tec es mayor a 15,000 pesos? \(H_0: \mu \leq 15,000\) contra \(H_1: \mu > 15,000\), donde \(\mu\) es el alquiler mensual promedio de todos los apartamentos de un dormitorio en la zona Tec.
Pregunta de investigación 2: ¿La mayoría de los estudiantes del campus del Tec tienen un perro? \(H_0: p = 0.5\) contra \(H_1: p > 0.5\), donde \(p\) es la proporción de todos de estudiantes que poseen un perro.

Paso 2. Muestra y Estadístico de Prueba

Normalmente, una prueba de hipótesis se especifica en términos de estadístico de prueba \(T\).

Un estadístico de prueba es una función de la muestra \(Y_1, \ldots, Y_n\), en la que se basará la decisión estadística. Por tanto, también es una variable aleatoria.

Una estadístico de prueba tiene una distribución de probabilidad asociada, que depende de la hipótesis asumida (\(H_0\) o \(H_1\)).

Ejemplo: Prueba de hipótesis sobre la media

Considera una muestra pequeña \(y_1, \ldots, y_n\) que se distribuye como \(N(\mu, \sigma^2)\).

Hipótesis nula: \(H_0: \mu = \mu_0\) donde \(\mu\) es un valor (constante) elegido por el usuario.

Posibles Hipótesis Alternativas:

\(H_1: \mu > \mu_0\)
\(H_1: \mu < \mu_0\)
\(H_1: \mu \neq \mu_0\)

Estadístico de Prueba:

\(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) donde \(\bar{y}\) y \(s\) son el promedio y desviación estándar de la muestra observada.

Distribución del estadístico de prueba

Si \(H_0: \mu = \mu_0\) es verdadera, \(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) sigue una distribución \(t\) con \(n-1\) grados de libertad.

Paso 3. Rechazar o no rechazar \(H_0\)

Al realizar una prueba de hipótesis, existen dos decisiones posibles: rechazar o no rechazar \(H_0\).

Para ello, comprobamos si el valor observado del estadístico de prueba es poco o muy probable asumiendo que \(H_0\) es verdadera.

Si \(H_0: \mu = \mu_0\) es verdadera, \(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) sigue una distribución \(t\) con \(n-1\) grados de libertad.

Si \(H_0\) es verdad, \(t_0\) debería de estar cerca de 0, el valor con más densidad de la distribución \(t\).

Si \(H_0: \mu = \mu_0\) no es verdadera, entonces \(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) deberá estar lejos de 0, el valor con más densidad de la distribución \(t\).

Por ejemplo, si \(H_1: \mu > \mu_0\) es verdad, entonces \(t_0\) debería de estar lejos de 0 hacia la derecha. En otras palabras, \(t_0\) es poco probable asumiendo que \(H_0\) es verdadera.

Valor p

Definición: El valor p es la probabilidad de observar un valor al menos tan extremo como el valor observado de un estadístico \(T,\) cuando \(H_0\) es verdadera.

Un p-valor pequeño es equivalente a decir que \(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) esta “lejos” de 0.

Sugiriendo que la hipótesis nula \(H_0\) no es verdadera.

Para \(H_0: \mu = \mu_0\) vs \(H_1: \mu < \mu_0\), el p-valor se calcula usando la cola izquierda de la distribución \(t\).

De la misma manera, un p-valor pequeño es equivalente a decir que \(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) esta “lejos” de 0.

Sugiriendo que la hipótesis nula \(H_0\) no es verdadera.

Para \(H_0: \mu = \mu_0\) vs \(H_1: \mu \neq \mu_0\), el p-valor se calcula usando las dos colas de la distribución \(t\).

Usamos las dos colas porque la hipótesis alternativa se enfoca en una diferencia entre el valor real \(\mu\) y el asumido \(\mu_0\) si importar si esta diferencia es positiva o negativa.

El valor p no es la probabilidad de que \(H_0\) sea cierta

Dado que el valor p es una probabilidad, y dado que los valores p pequeños indican que es poco probable que \(H_0\) sea cierta, es tentador pensar que el valor p representa la probabilidad de que \(H_0\)sea cierta.

¡Este no es el caso!

El concepto de probabilidad que se analiza aquí sólo es útil cuando se aplica a resultados que pueden producirse de diferentes maneras cuando se repiten los experimentos.

¿Qué tan pequeño debe de ser el p valor para rechazar \(H_0\)?

Respuesta: ¡Muy pequeño!
Pero, ¿qué tan pequeño?
Respuesta: ¡Muy pequeño!
Pero, dime ¿qué tan pequeño?
Respuesta: Esta bien! Debe de ser menor que un valor llamado \(\alpha\) el cual suele ser 0.1, 0.05, o 0.01.
¡Gracias!

Sir. Ronald Fisher

Significancia estadística

Siempre que el valor p es inferior al valor fijado de \(\alpha\), se dice que el resultado es “estadísticamente significativo” en ese nivel.

Es decir, si \(\alpha = 0.05\) y el p valor es menor que \(\alpha\), el resultado es estadísticamente significativo en el nivel 5%.

Y si \(\alpha = 0.01\) y el p valor es menor que \(\alpha\), el resultado es estadísticamente significativo al nivel 1%.

Resumen

Los elementos de una prueba estadística son:

Hipótesis nula, \(H_0\).
Hipótesis alternativa, \(H_1\).
Estadístico de prueba.
Región de rechazo.

Pruebas de Muestras Pequeñas

Prueba de hipótesis sobre la media

Considera una muestra pequeña \(y_1, \ldots, y_n\) que se distribuye como \(N(\mu, \sigma^2)\).

Hipótesis nula: \(H_0: \mu = \mu_0\) donde \(\mu\) es un valor (constante) elegido por el usuario.

Estadístico de Prueba: \(t_0 = \frac{\bar{y} - \mu_0}{s/\sqrt{n}}\) donde \(\bar{y}\) y \(s\) son el promedio y desviación estándar de la muestra observada.

Sea \(T\) una variable aleatoria que sigue una distribución \(t\) con \(n-1\) grados de libertad.

Ejemplo 3

Una bióloga estudia el peso corporal (en gramos) de cobayas al nacer. Ella recolectó una muestra de pesos de 27 cobayas recien nacidas. Los datos están en el archivo “Guinea_Pigs.xlsx” en CANVAS.

La bióloga quiere probar la hipótesis de que el peso corporal medio es menor a 300 gramos. Técnicamente, quiere probar la hipótesis:

\(H_0: \mu = 300\) contra \(H_1: \mu < 300\)

Donde \(\mu\) es la media o promedio teórico de los pesos de todas las cobayas recien nacidas. Utiliza \(\alpha = 0.05\).

En Python

Primero, leamos los datos en el archivo “Guinea_Pigs.xlsx”.

guinea_data = pd.read_excel("Guinea_Pigs.xlsx")
guinea_data.head()

	Weight
0	421.0
1	452.6
2	456.1
3	90.5
4	110.7

Visualización simple a través de un histograma

Code

plt.figure(figsize=(7,4)) 
sns.histplot(data = guinea_data, x = 'Weight') 
plt.title("Histograma de Peso") 
plt.xlabel("Peso (en gramos)") 
plt.show()

Para llevar a cabo una prueba de hipótesis de una muestra, usamos la función ttest_1samp de scipy.stats. En la función, el parámetro popmean especifica e valor asumido \(\mu_0\) en \(H_0\). Además, el parámetro alternative indica el tipo de \(H_1\).

hip_test = ttest_1samp(guinea_data, popmean = 300, 
                       alternative = 'less')

En este caso, \(H_0: \mu = 300\) contra \(H_1: \mu < 300\). Entonces popmean = 300 y alternative = 'less'.

Usando hip_test, podemos preguntar sobre el p-valor de la prueba de hipótesis como sigue.

hip_test.pvalue

array([0.74450596])

Como el p-valor es mayor que \(\alpha=0.05\), no rechazamos \(H_0\). En otras palabras, concluimos que la muestra no nos da información suficiente para decir que el promedio teórico de las cobayas recién nacidas es menor a 300.

Intervalo de confianza

Usando el mismo objeto hip_test, también podemos obtener un intervalo de confianza usando la función .confidence_interval().

ci = hip_test.confidence_interval(confidence_level=0.95)
ci

ConfidenceInterval(low=array([-inf]), high=array([390.74691499]))

En este caso, el intervalo de confianza es de un solo lado ya que usamos \(H_1: \mu < 300\). En este caso, el intervalo de confianza del 95% es \([-\infty, 390.74]\) o \(\mu \leq 390.74\).

Pruebas para la diferencia de dos medias

Recuerda que si la muestra aleatoria \(Y_1, \ldots, Y_{n_y}\) sigue una distribución \(N(\mu_y, \sigma_{y}^2)\), entonces \(\bar{Y} \sim N\left(\mu_y, \frac{\sigma_{y}^2}{n_y}\right)\).

Además, si la muestra aleatoria \(X_1, \ldots, X_{n_x}\) sigue una distribución \(N(\mu_x, \sigma_{x}^2)\), entonces \(\bar{X} \sim N\left(\mu_x, \frac{\sigma_{x}^2}{n_x}\right)\).

El esquema

Para definir los intervalos de confianza, necesitamos definir lo siguiente:

Para la primera muestra de observaciones \(y_1, y_2, \ldots, y_{n_y}\):

\(n_y\) es el número de observaciones.
\(\bar{y} = \frac{1}{n_y}\sum_{i=1}^{n_y} y_i\) es la media muestral.
\(s^2_y =\frac{1}{n_y-1} \sum_{i=1}^{n_y} (y_i - \bar{y})^2\) es la varianza muestral.

Para la segunda muestra de observaciones \(x_1, x_2, \ldots, x_{n_x}\):

\(n_x\) es el número de observaciones.
\(\bar{x} = \frac{1}{n_x}\sum_{i=1}^{n_x} x_i\) es la media muestral.
\(s^2_{x} =\frac{1}{n_x -1} \sum_{i=1}^{n_x} (x_i - \bar{x})^2\) es la varianza muestral.

Si las dos muestras son independientes, entonces un estadístico de prueba para la hipótesis sobre \(\mu_y - \mu_x\) es

\[T = \frac{ (\bar{y} - \bar{x}) - (\mu_{y0} - \mu_{x0})}{\text{ME}}\]

donde \(\mu_{y0} - \mu_{x0}\) es la diferencia asumida en la hipótesis nula (\(H_0\)), y ME es el margen de error.

Existen dos valores posibles para ME según los casos:

Las varianzas téoricas de las distribuciones son iguales (\(\sigma_y^{2} = \sigma_x^{2}\)).
Las varianzas téoricas de las distribuciones no son iguales (\(\sigma_y^{2} \neq \sigma_x^{2}\)).

Cuando las distribuciones tienen la misma varianza

Si las distribuciones tienen la misma varianza teórica, entonces

\[\text{ME} = s_p = \sqrt{ \frac{ (n_y - 1)s^2_{x} + (n_x - 1)s^2_{y} }{n_y + n_x - 2} },\]

donde \(s_p\) es la desviación estándar agrupada.

Pruebas sobre la diferencia de dos medias

Cuando las distribuciones tienen diferentes varianzas

Si las distribuciones tienen diferentes varianzas teóricas, entonces

\[\text{ME} = \sqrt{\frac{s_{y}^2}{n_y} + \frac{s_{x}^2}{n_x}}.\]

Pruebas sobre la diferencia de dos medias

Ejemplo 4

La resistencia a la rotura de los ejes de los palos de hockey fabricados con dos compuestos diferentes de grafito arroja los siguientes resultados (en newtons):

R: 487.3, 444.5, 467.7, 456.3, 449.7, 459.2, 478.9, 461.5, 477.2.

B: 488.5, 501.2, 475.3, 467.2, 462.5, 499.7, 470.0, 469.5, 481.5, 485.2, 509.3, 479.3, 478.3, 491.5.

¿Éxiste alguna diferencia entre la resistencia a la rotura de los palos de hockey producidos por los dos sompuestos?

En otras palabras, prueba \(H_0: \mu_R = \mu_B\) contra \(H_1: \mu_R \neq \mu_B\) donde \(\mu_R\) y \(\mu_B\) son los promedios teóricos de rotura de los palos de hockey producidos por el compuesto R y B, respectivamente. Usa \(\alpha = 0.05\).

En Python

Antes de empezar, carguemos los datos que están en el archivo “Hockey.xlsx”

hockey_data = pd.read_excel("Hockey.xlsx")
hockey_data.head()

	Compuesto	Resistencia
0	R	487.3
1	R	444.5
2	R	467.7
3	R	456.3
4	R	449.7

Visualización

Podemos visualizar los datos de los dos grupos definidos por los compuestos R y B usando gráficas de cajas lado a lado.

Code

plt.figure(figsize=(7,4)) 
sns.boxplot(data = hockey_data, x = 'Compuesto', y = 'Resistencia') 
plt.ylabel("Resistencia") 
plt.xlabel("Compuesto") 
plt.show()

Configuración

Un problema con los datos actuales es que no están en el formato requerido para la función de Python que construye intervalos de confianza. Está función necesita que los datos de los dos grupos estén en dos columnas separadas.

Sin embargo, podemos crear las dos columnas con nuestras funciones de pandas.

Res_CompA = (hockey_data
  .query("Compuesto == 'R'")
  .filter(['Resistencia'])
)

Res_CompB = (hockey_data
  .query("Compuesto == 'B'")
  .filter(['Resistencia'])
)

Prueba de hipótesis

Para llevar a cabo una prueba de hipótesis de dos muestras, usamos la función ttest_ind de scipy.stats. En la función, el parámetro alternative indica el tipo de \(H_1\). En este caso, alternative = 'two-sided' ya que \(H_1: \mu_R \neq \mu_B\).

prueba_hip = ttest_ind(Res_CompB, Res_CompA, alternative = 'two-sided', 
                       equal_var = False)

Recuerda que el parámetro equal_var indica si asumimos que las varianzas son iguales o diferentes. Asumamos que son diferentes.

Usando prueba_hip, podemos preguntar sobre el p-valor de la prueba de hipótesis como sigue.

prueba_hip.pvalue

array([0.00812422])

Como el p-valor es menor que \(\alpha=0.0081\), rechazamos \(H_0\).

En otras palabras, concluimos que la muestra nos da información suficiente para decir que los promedios de resistencia de los palos de hockey bajo los dos compuestos es diferente.

Intervalo de confianza

Recuerda que podemos obtener un intervalo de confianza usando .confidence_interval().

ci = prueba_hip.confidence_interval(confidence_level = 0.95)
ci

ConfidenceInterval(low=array([5.3518092]), high=array([30.81961937]))

El intervalo es \([5.35, 30.82]\) o \(5.35 \leq \mu_B - \mu_A \leq 30.82\).

Esto lo sabemos por el orden en que especificamos las muestras en

ttest_ind(Res_CompB, Res_CompA, alternative = 'two-sided', equal_var = False)

No asumas que las varianzas son iguales

El supuesto de que las varianzas teóricas de las distribuciones son iguales es muy estricto.
El método puede resultar poco fiable si se utiliza cuando las varianzas teóricas no son iguales.
Como normalmente no conocemos las varianzas, suele ser imposible estar seguro de que sean iguales.
Solución: La mejor práctica es asumir que las varianzas son desiguales a menos que esté bastante seguro de que son iguales.

Comentarios Finales

Significativo no implica importante

En el uso común, la palabra significativo significa “importante”.

Por tanto, resulta tentador pensar que los resultados estadísticamente significativos siempre deben ser importantes. Este no es el caso.

A veces, los resultados estadísticamente significativos no tienen ninguna importancia científica o práctica. En otras palabras, no son prácticamente significativos.

Conclusión de los resultados

Las únicas dos conclusiones a las que se puede llegar en una prueba de hipótesis son:

Rechazamos \(H_0\). En otras palabras, concluimos que \(H_0\) es falsa.
No rechazamos \(H_0\). En otras palabras, \(H_0\) es plausible. Nunca podemos concluir que \(H_0\) sea cierto. Podemos simplemente concluir que \(H_0\) podría ser plausible.

Debemos decidir si el nivel de desacuerdo, medido con el valor p, es lo suficientemente grande como para hacer que la hipótesis nula sea inverosímil.

Elije \(H_1\) para responder la pregunta

Al realizar una prueba de hipótesis, es importante elegir \(H_0\) y \(H_1\) apropiadamente para que el resultado de la prueba pueda ser útil para llegar a una conclusión.

Recordemos que lo que nos importa es la hipótesis alternativa \(H_1\).

Por ejemplo, en aplicaciones médicas, las pruebas de hipótesis se utilizan para comprobar el efecto de un nuevo tratamiento. Esto se afirma en \(H_1\), mientras que \(H_0\) afirma que el tratamiento no tiene ningún efecto.

Preguntas de práctica para examen

Se realizó un experimento para determinar la viscosidad del aceite de auto de dos diferentes marcas, A y B. Los resultados de las mediciones de viscosidad se muestran abajo:

Marca A	10.28	10.27	10.30	10.32	10.27	10.27	10.28	10.29
Marca B	10.31	10.31	10.26	10.30	10.27	10.31	10.29	10.26

Prueba la hipótesis \(H_0: \mu_A = \mu_B\) contra \(H_0: \mu_A \neq \mu_B\) usando \(\alpha = 0.05\). Asume que las observaciones siguen una distribución normal para cada grupo, y que las varianzas de estas distribuciones son diferentes.

Pruebas de Hipótesis

Agenda

Carguemos las librerías

Conceptos Básicos

Introducción

Idea general

Paso 1. Hipótesis

Ejemplo 1

Paso 2. Muestra y Estadístico de Prueba

Ejemplo: Prueba de hipótesis sobre la media

Distribución del estadístico de prueba

Paso 3. Rechazar o no rechazar \(H_0\)

Valor p

El valor p no es la probabilidad de que \(H_0\) sea cierta

¿Qué tan pequeño debe de ser el p valor para rechazar \(H_0\)?

Significancia estadística

Resumen

Pruebas de Muestras Pequeñas

Prueba de hipótesis sobre la media

Ejemplo 3

En Python

Visualización simple a través de un histograma

Intervalo de confianza

Pruebas para la diferencia de dos medias

El esquema

Cuando las distribuciones tienen la misma varianza

Pruebas sobre la diferencia de dos medias

Cuando las distribuciones tienen diferentes varianzas

Pruebas sobre la diferencia de dos medias

Ejemplo 4

En Python

Visualización

Configuración

Prueba de hipótesis

Intervalo de confianza

No asumas que las varianzas son iguales

Comentarios Finales

Significativo no implica importante

Conclusión de los resultados

Elije \(H_1\) para responder la pregunta

Preguntas de práctica para examen

Return to main page