ESTADÍSTICA CÁTEDRA I Unidad 7 UNIDAD 7: La relación entre variables. Contenidos Distribución conjunta de dos variables. Diagrama de dispersión. Distribuciones marginales y condicionales. Correlación. El coeficiente La prueba 2 (chi cuadrado) de independencia. El coeficiente de correlación lineal r de Pearson. Las rectas de regresión. (tau) de Kendall. El η2 (eta cuadrado). Estudio de la relación entre variables cuantitativas Análisis de Correlación Análisis de Regresión Ejemplo 1. Sea la tabla de Distribución Conjunta de X e Y, de puntajes en dos tests verbales administrados a 150 adolescentes de cierto curso 0 y 7 6 13 15 21 23 21 22 12 10 1 1 10 1 9 1 2 2 5 8 1 1 3 4 4 3 7 2 2 5 7 3 1 6 2 2 2 6 6 5 1 5 3 3 7 5 3 2 1 1 4 4 5 4 1 1 1 1 4 3 1 1 2 4 3 2 2 3 3 1 1 1 2 1 2 1 1 1 0 1 0 1 150 3 10 16 20 24 24 20 15 11 6 1 1 2 3 4 5 6 7 8 9 10 X Veamos Diagramas de Dispersión con diferentes configuraciones de puntos Figura 1 Relación lineal de sentido directo o positivo Figura 3 Figura 2 Figura 4 Relación lineal nula Relación lineal de sentido inverso o negativo SPXY x x .y y El signo de SPxy indica el sentido de la relación lineal I II Y III IV X Coeficiente de Correlación lineal r de Pearson r SPxy SCx .SCy El signo del Coeficiente de Correlación lineal r de Pearson indica el sentido de la relación lineal. En general: 1 r 1 Casos Particulares r = -1 r=1 Relación lineal perfecta, o de intensidad máxima, con sentido directo o positivo. Relación lineal perfecta, o de intensidad máxima, con sentido inverso o negativo. r=0 Relación lineal nula Ejemplo 2: Datos de Agotamiento Emocional (AE) y Tensión Laboral (TL) de docentes de Nivel Medio de la C.A.B.A. AE TL 1 12 54 2 18 64 3 17 70 4 17 72 5 19 74 6 28 82 7 25 87 8 27 88 9 21 90 10 33 91 11 24 92 12 35 96 36 Agotamiento Emocional Sujeto Diagrama de Dispersión 28 20 12 53 62 71 80 Tensión Laboral Correlations (Pearson) AE TL 0.8534 89 98 Sea (xi, yi) un punto de la Nube de Puntos, e y’i el valor correspondiente a xi sobre una recta que atraviesa la nube, denominamos residuo o error en el pronóstico a yi - y'i Diagrama de Dispersión Diagrama de Dispersión 80 Agotamiento Emocional Agotamiento Emocional 80 60 40 60 40 20 20 0 0 70 70 150 230 150 310 230 310 Tensión Laboral Tensión Laboral Diagrama de Dispersión Diagrama de Dispersión 80 80 Agotamiento Emocional Agotamiento Emocional 230 310 60 40 20 0 60 40 20 0 70 150 230 Tensión Laboral 310 70 150 Tensión Laboral Se elige como recta de regresión de Y sobre X a la que hace mínima a (yi-y’i)2 (Criterio de mínimos cuadrados) Scatter Plot of AE vs TL Agotamiento Emocional 36 28 20 12 53 62 71 80 Tensión Laboral 89 98 La recta de regresión de Y sobre X: permite predecir o estimar un valor de Y tomando a X como variable predictora. Su expresión es: Y' = a + b. X donde b = SPxy SC x y a y - b.x Y' es el valor pronosticado o estimado por la recta de regresión. Fragmento de la Salida del Análisis de Regresión en Statistix para el Ejemplo 2 Unweighted Least Squares Linear Regression of AE Predictor Variables Constant TL Coefficient -13.2781 0.45348 Std Error 7.09165 0.08759 T -1.87 5.18 Agotamiento Emocional P 0.0907 0.0004 AE’=-13.2781+0.45348*TL Análogamente para predecir o estimar un valor de X, tomando a Y como variable predictora, se calcula la recta de regresión de X sobre Y. Su expresión es: X' = c + d. Y , donde d= SPxy SC y y c x - d.y X' es el valor pronosticado o estimado por la recta de regresión Fragmento de la salida del Análisis de Regresión en Statistix para el Ejemplo 2 Unweighted Least Squares Linear Regression of TL Predictor Variables Constant AE Coefficient 43.0606 1.60606 Std Error 7.42537 0.31020 T 5.80 5.18 Tensión Laboral P 0.0002 0.0004 TL’=43.0606+1.60606*AE Coeficiente de Determinación (r2), indica que parte de la variabilidad total es explicada por el modelo de regresión. En el modelo de regresión lineal r2 2 SPxy SC x.SC y Propiedades: 1. El coeficiente de determinación está comprendido entre cero y uno: 0 r2 1 2. 3. Si Si 4. Dadas las rectas de regresión, el producto de sus pendientes es igual al coeficiente de determinación: b.d = r2 r2 = 1, la relación lineal es perfecta. r2 = 0, la relación lineal es nula. Estudio de la relación entre variables cualitativas Prueba chi-cuadrado de Independencia Sean X e Y dos variables cualitativas de nivel nominal Ejemplo presentado en Reuchlin(1980, p.112) Tipo de Estudio (X) y Género (Y) (Literarios,Científicos y Técnicos)(Muchachos, Muchachas) En una Tabla de Contingencia, con tantas filas como valores tome X y tantas columnas como valores tome Y, se presentan las frecuencias observadas en una muestra de tamaño n. 3 filas y 2 columnas La Hipótesis Nula sostiene que las variables X e Y son independientes y la Hipótesis Alternativa sostiene que las variables X e Y no son independientes El Estadístico de Prueba es nF nC X 2 i 1 j 1 Oij Tij 2 Tij Donde i:1,…,nF indica la fila j:1,…,nC indica la columna Oij es la frecuencia observada en la celda ij, y Tij es la frecuencia teórica, o esperada bajo la hipótesis nula, para la celda ij El Estadístico de Prueba X2, tiene, bajo la Hipótesis Nula, distribución chi-cuadrado con (nº de filas -1)*(nº de columnas -1) grados de libertad Ejemplo 3 Presentado en Reuchlin (1980, p.112) Chi-Square Test for Heterogeneity or Independence Sexo Estudios Muchachos Muchachas Totales Tipo de Estudios +-----------+-----------+ 1 Observed | 60 | 60 | 120 Literarios Expected | 72.00 | 48.00 | Cell Chi-Sq | 2.00 | 3.00 | +-----------+-----------+ Científicos 2 Observed | 42 | 18 | 60 Expected | 36.00 | 24.00 | Cell Chi-Sq | 1.00 | 1.50 | +-----------+-----------+ Técnicos 3 Observed | 18 | 2 | 20 Expected | 12.00 | 8.00 | Cell Chi-Sq | 3.00 | 4.50 | +-----------+-----------+ Totales 120 80 200 Overall Chi-Square P-Value Degrees of Freedom Cases Included 6 15.00 0.0006 2 Missing Cases 0 Referencia Bibliográfica: Reuchlin, M. (1980). Compendio de Estadística. Método conceptual. Madrid: Pablo del Río Editor.