Qué es el análisis de correlación lineal ? Es una herramienta estadística que podemos usar para describir el grado de relación lineal entre las variables. Variable Independiente (X) Tipos de Variables (determinística, es decir no aleatoria.) Variable Dependiente (Y) aleatoria Ejemplos X: Número de llamadas telefónicas realizadas por un vendedor promocionando un producto. Y: Unidades vendidas por el vendedor. X: Tiempo que dedica un estudiante a una materia. Y : Evaluación que obtiene el estudiante en la materia. Ejercicio Modelo En una ciudad de Canadá, las personas al comprar casas se interesan por el precio del costo de la calefacción. Se ha determinado que un grupo de factores pueden estar relacionados con el costo ( en dólares): •Temperatura exterior. (Grados Fahrenheit) •Aislante térmico en el desván. (en pulgadas) •Antigüedad del calefactor. •Área de la sala principal del apartamento. (en metros cuadrados). Un cliente le ha preguntado a un vendedor: Si usted me brinda la información de las variables anteriores de un apartamento, ¿cómo puedo saber yo aproximadamente cuanto pagaré en calefacción?. ¿Cuan confiable será la información que usted me brinde? Pasos en el Análisis de Correlación 1. Determinar cuál es la variable dependiente. Y: Costo. 2. Seleccionar una muestra de tamaño n de ambas variables X e Y, con lo que se obtienen n pares de observaciones (x1 , y1) , (x2 , y2)… (xn , yn). En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se midieron todas las variables independientes para cada uno de ellos. 3. Mostrar la relación en un diagrama de dispersión: Gráfico de X vs. Y. Se aprecia de manera descriptiva el sentido y la intensidad de relación entre las variables. Se realizaran los 4 gráficos que corresponden a cada una de las variables independientes consideradas. Temperatura Exterior vs. Costo 450 400 Relación Inversa fuerte r = -0.812 350 Costo 300 250 200 150 100 50 0 0 10 20 30 40 Temp 50 60 70 Aislante térmico vs. Costo. 450 Relación Inversa débil r = -0.257 400 350 Costo 300 250 200 150 100 50 0 0 2 4 6 Aislante 8 10 12 14 Antiguedad del calefactor vs. Costo Relación Directa moderada r =0,512 450 400 350 Costo 300 250 200 150 100 50 0 0 5 10 Antiguedad 15 20 Tamaño sala vs. Costo Relación directa fuerte aunque se aprecia una tendencia no lineal r = 0.991 450 400 350 Costo 300 250 200 150 100 50 0 0 5 10 15 Tamaño 20 25 4. Calcular un coeficiente de correlación lineal r a partir de la muestra, como aproximación de la verdadera relación lineal ρ (rho) entre las variables. r n x n xy x y 2 x 2 n y 1 r 1 2 y 2 Interpretación: 1. El valor absoluto de r indica la fuerza de la relación entre Y y X. 2. El signo la dirección de la relación (directa o inversamente proporcional) (tener cuidado con relaciones espúreas) r=1 r = -1 r=0 correlación positiva perfecta. correlación negativa perfecta. no hay relación lineal entre Y y X. Si hay presencia de varias variables independientes, entonces podemos agrupar todas las correlaciones en la Matriz de Correlaciones. Costo Temp Aislante Antigüedad Costo 1.00 Temp -.812 1.00 Aislante -.257 -.103 1.00 Antigüedad .537 -.486 .064 1.00 Tamaño .991 -.831 -.253 .482 1.000 Interpretación de las Correlaciones lineales e Identificación de las Variables independientes con mayor correlación lineal. Temperatura. Una correlación de -0,812 indica alta correlación, inversamente proporcional: A mayor Temperatura exterior, menor el costo en calefacción y viceversa. Aislante. La correlación de 0,257 es baja, así que no existe relación lineal entre las variables. Antigüedad. Una correlación de 0,512; es moderada, directamente proporcional, a mayor antigüedad del calefactor, mayor costo y viceversa. Tamaño de la sala principal. Una correlación de 0,991; es alta y directamente proporcional: A mayor tamaño de la sala, mayor costo de la calefacción 5. Prueba de Hipótesis para analizar si las correlaciones son significativamente diferentes de cero. H 0 : 0 H 1 : 0 Las correlaciones que son significativas aparecen reflejados en el cálculo de la matriz de correlaciones Costo Costo 1.000 Temp -.812 Aislante -.257 Antigüedad .537 Tamaño .991 ± .444 critical value Seleccionamos .05 (two-tail) Conclusión Parcial: a las variables Temperatura y Tamaño ± .561 critical value .01 (two-tail) para continuar el análisis acerca del Esto quiere decir que la correlación de -,812 entre Costo. Temperatura y Costo y la de ,991 entre Tamaño y Costo es significativa si consideramos un nivel de confianza del 99% (α = 0,01) si bajamos el nivel de confianza a un 95% (α = 0,05), también es significativa la relación de ,537 entre Antigüedad y Costo. Qué es el análisis de regresión lineal ? Es modelar la dependencia de la variable Y de la variable X a través de una recta a. Cálculo de la recta de regresión que expresa la relación entre: Temperatura y Costo. Y α 0 α1X ε α0 y α1 parámetros ; ε error aleatorio. α0 y α1 son estimados a partir de la muestra obteniendo la recta Constante de regresión Y = a0 + a1X + e Coeficiente de regresión Interpretación de la pendiente: Cuánto cambia la variable dependiente Y, por cada unidad que varíe la variable independiente X. Estimación de los parámetros: Método de los mínimos cuadrados. La recta de regresión hace mínimos los cuadrados de las distancias verticales desde cada punto de una observación a la recta. Yi es un valor observado real de la variable Y Yˆi es un valor de la recta predicho por la ecuación 2 (Y Y ) i i min min es el número más pequeño que se puede obtener si se suman estas desviaciones verticales elevadas al cuadrado entre los puntos y la recta. Yi Yi Los coeficientes a1 y a0 se obtienen mediante las expresiones a1 n xy x y n x 2 x 2 a 0 y a1x Aplicamos MegaStat para realizar el Análisis de Regresión MegaStat Correlation/Regresión Regresión Análisis Y marcamos en la nueva ventana las opciones que aparecen en la pantalla siguiente que nos mostrarán todas las salidas que son de nuestro interés para el análisis de regresión Salida r² 0.659 Adjusted r² 0.640 r -0.812 Std. Error 63.553 20 observations 1 predictor variable Costo is the dependent variable Salida ANOVA table Source SS Regression 140,214.9411 Residual 72,700.8089 Total 212,915.7500 df 1 18 19 MS F 140,214.9411 34.72 4,038.9338 Regression output variables intercept Temp coefficients 388.8020 -4.9342 std. error t (df=18) 34.2408 11.355 0.8374 -5.892 p-value 1.41E-05 confidence interval p-value 95% lower 95% upper 1.22E-09 316.8646 460.7393 1.41E-05 -6.6936 -3.1748 Recta de regresión estimada Ŷ 388,8020 - 4,9342X Esta es la ecuación de la recta de regresión pintada en el diagrama de dispersión, que fue mostrada anteriormente Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la relación es inversa, análogo al signo del coeficiente de correlación (-.812). El valor de la pendiente significa que por cada grado que descienda la temperatura exterior habrá un aumento promedio de 5 dólares en el costo de la calefacción. b. Cálculo del error estándar de la estimación Mide la variabilidad o dispersión de los valores observados alrededor de la línea de regresión. Y Ŷ 2 Se y sobre x n - k -1 Si se trabaja con una recta, se puede calcular el error mediante Se y sobre x 2 y a 0 y a 1 xy n2 En nuestro el error estándar estimación se comete al usar Mientrasejemplo más grande sea el error de estándar de la que estimación, mayor serálala recta para estimar el puntos costo esalrededor de 63,553 dispersión de los de$la línea de regresión c. Cálculo del Coeficiente de Determinación Mide el poder explicativo del modelo de regresión, es decir, la parte de la variación de Y explicada por la variación de X El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa que el 70% de la variación de Y está explicada por las variaciones de X. Es evidente que cuanto mayor sea r2, mayor poder explicativo tendrá nuestro modelo. En nuestro ejemplo Si analizamos el valor del coeficiente de determinación r ² = 0.659, apreciamos que aproximadamente el 66% de la variabilidad del costo esta determinado por la variabilidad en la Temperatura exterior. d. Prueba de Hipótesis para analizar si la pendiente es significativa H 0 : 1 0 H1 : 1 0 Para tomar una decisión podemos comparar el valor de un estadístico con un percentil, o utilizar un criterio equivalente, usado en los paquetes de Estadística: Comparar el p-valor con el nivel de significación Regla de Decisión: Rechazar Ho si p < α En el ejemplo p = 1.41E-05 < 0.05, así que rechazamos H0 por lo que el valor de la pendiente es significativamente diferente de cero. Conclusión: La relación entre la Temperatura Exterior y el Costo es significativa. e. Predicciones e.1) Cálculo de una predicción puntual. Suponga que se desea un estimador puntual del costo de un apartamento, si la temperatura exterior es de 35 grados Sol: Sustitución del valor de x = 35, en la ecuación de la recta para obtener un valor ŷ y 8,8020 - 4,9342x y 8,8020 - 4,9342 * 35 y 216,05 e.2) Cálculo de un intervalo de Predicción Se desea calcular una estimación por intervalo con un nivel del confianza del 95% para el apartamento específico en un día considerado con temperatura de 35 grados. Aquí calculamos un intervalo de predicción. Yˆ t1 / 2 (n 2) * S p Sp Se 1 1 n x x 2 0 x 2 nx 2 e.3) Cálculo del Intervalo de Confianza para el Costo Promedio de todos los apartamentos, para una temperatura dada. Se desea calcular una estimación por Intervalo, del costo promedio de la calefacción de todos los apartamentos considerados en los que la temperatura es de 35 grados. Aquí calculamos un intervalo de confianza. Con el Uso del Programa MegaStat Marcar en la ventana correspondiente a Análisis de Regresión el valor de predicción de interés, en nuestro caso 35. La salida obtenida con el programa es Predicted values for: Costo 95% Confidence Interval Temp 35 Predicted 216.105 lower 186.000 95% Prediction Interval upper lower upper 246.211 79.234 352.976 Leverage 0.051 Conclusiones Nota: Observe que el tamaño del intervalo de confianza (para todos los apartamentos con temperaturade exterior de 35 grados), es menor quede el35 e.1 El costo por la calefacción un apartamento con Temperatura intervalo (para un solo apartamento con temperatura grados esde depredicción 216,105 dólares. exterior de 35 grados). Es de una mucho ya que habrá e.2 Con un nivel de confianza del amplitud 95% el costo por menor, la calefacción de un mayor variación el estimadode del para una entre observación para apartamento conen Temperatura 35costo grados oscila 79,234 yque 352,976$ un grupo. e.3 El costo promedio de la calefacción de los apartamentos para una temperatura de 35 grados se encuentra entre 186,000 246,211 $; con una confianza del 95%. Análisis de las suposiciones realizadas para la recta de regresión Debemos comprobar que se cumplen dos condiciones fundamentales: a. Los residuos siguen una distribución aproximadamente Normal. Para ello realizamos el gráfico de Probabilidad Normal, obteniendo Normal Probability Plot of Residuals 150,0 Se aprecia que se ajustan aproximadamente a la recta x = y, por lo que puede concluirse que los residuos tienen una distribución aproximadamente normal. 100,0 Residual 50,0 0,0 -50,0 -100,0 -150,0 -3,0 -2,0 -1,0 0,0 Normal Score 1,0 2,0 3,0 b. La variabilidad de los residuos y - ŷ no varía en dependencia del valor estimado ŷ Esto lo apreciamos en el gráfico de los residuos. En este caso nuestro valor estimado ŷ, es el costo estimado Efectivamente se observa un comportamiento aleatorio de los residuales Residuals by Predicted Costo Residual (gridlines = std. error) 190,7 Con esto se concluye que todo el análisis de regresión efectuado hasta el momento es valido. 127,1 63,6 0,0 -63,6 -127,1 0 100 200 Predicted Costo 300 400 Un análisis análogo podemos realizar para analizar la relación entre el Tamaño de la sala principal y el costo del calefactor, dado que la correlación obtenida es alta: 0,991. Sin embargo el análisis seria muy similar, excepto algo muy importante que es el análisis de los residuales. Veamos los gráficos a. Grafico de Probabilidades Normales Se observa un comportamiento análogo al anterior, es decir los residuales siguen una distribución normal. Normal Probability Plot of Residuals 40,0 30,0 Residual 20,0 10,0 0,0 -10,0 -20,0 -3,0 -2,0 -1,0 0,0 Normal Score 1,0 2,0 3,0 b. Gráfico de los valores estimados vs. Residuos. Residual (gridlines = std. error) Residuals by Predicted Costo 44,4 29,6 14,8 0,0 -14,8 -29,6 0 100 200 Predicted Costo 300 400 Esto significa no essí En este caso losque residuos valido el variación modelo de muestran en regresión realizado dependencia de los valores previamente. Las vemos estimados del costo, consecuencias de no que valores muy pequeños este análisis es orealizar muy altos tienen que las estimaciones de variabilidad mayor que los los están coeficientes dede la un que alrededor regresión pueden nono ser costo de 200, es decir adecuados y las hay un comportamiento predicciones pueden ser aleatorio. incorrectas.