Unidad 7

Anuncio
ESTADÍSTICA
CÁTEDRA I
 Unidad 7
UNIDAD 7:
La relación entre variables.
Contenidos

Distribución conjunta de dos variables. Diagrama de dispersión.

Distribuciones marginales y condicionales.

Correlación.

El coeficiente

La prueba 2 (chi cuadrado) de independencia.

El coeficiente de correlación lineal r de Pearson.

Las rectas de regresión.

(tau) de Kendall. El η2 (eta cuadrado).
Estudio de la relación entre variables cuantitativas
Análisis de Correlación
Análisis de Regresión
Ejemplo 1.
Sea la tabla de Distribución Conjunta de X e Y, de puntajes en dos tests
verbales administrados a 150 adolescentes de cierto curso
0
y
7
6
13
15
21
23
21
22
12
10
1
1
10
1
9
1
2
2
5
8
1
1
3
4
4
3
7
2
2
5
7
3
1
6
2
2
2
6
6
5
1
5
3
3
7
5
3
2
1
1
4
4
5
4
1
1
1
1
4
3
1
1
2
4
3
2
2
3
3
1
1
1
2
1
2
1
1
1
0
1
0
1
150
3
10
16
20
24
24
20
15
11
6
1
1
2
3
4
5
6
7
8
9
10
X
Veamos Diagramas de Dispersión con diferentes configuraciones de puntos
Figura 1 Relación lineal de sentido directo o positivo
Figura 3
Figura 2
Figura 4
Relación lineal nula
Relación lineal de sentido inverso o negativo
SPXY   x  x .y  y 
El signo de SPxy
indica el sentido de la relación
lineal
I
II
Y
III
IV
X
Coeficiente de Correlación lineal r de Pearson
r
SPxy
SCx .SCy
El signo del Coeficiente de Correlación lineal r de Pearson indica
el sentido de la relación lineal.
En general:
1  r  1
Casos Particulares
r = -1
r=1
Relación lineal perfecta, o de intensidad máxima,
con sentido directo o positivo.
Relación lineal perfecta, o de intensidad máxima,
con sentido inverso o negativo.
r=0
Relación lineal nula
Ejemplo 2:
Datos de Agotamiento Emocional (AE) y Tensión Laboral (TL) de docentes
de Nivel Medio de la C.A.B.A.
AE
TL
1
12
54
2
18
64
3
17
70
4
17
72
5
19
74
6
28
82
7
25
87
8
27
88
9
21
90
10
33
91
11
24
92
12
35
96
36
Agotamiento Emocional
Sujeto
Diagrama de Dispersión
28
20
12
53
62
71
80
Tensión Laboral
Correlations (Pearson)
AE
TL
0.8534
89
98
Sea (xi, yi) un punto de la Nube de Puntos, e y’i el valor correspondiente
a xi sobre una recta que atraviesa la nube, denominamos residuo o
error en el pronóstico a yi - y'i
Diagrama de Dispersión
Diagrama de Dispersión
80
Agotamiento Emocional
Agotamiento Emocional
80
60
40
60
40
20
20
0
0
70
70
150
230
150
310
230
310
Tensión Laboral
Tensión Laboral
Diagrama de Dispersión
Diagrama de Dispersión
80
80
Agotamiento Emocional
Agotamiento Emocional
230
310
60
40
20
0
60
40
20
0
70
150
230
Tensión Laboral
310
70
150
Tensión Laboral
Se elige como recta de regresión de Y sobre X a la que hace mínima a (yi-y’i)2
(Criterio de mínimos cuadrados)
Scatter Plot of AE vs TL
Agotamiento Emocional
36
28
20
12
53
62
71
80
Tensión Laboral
89
98
La recta de regresión de Y sobre X: permite predecir o estimar un
valor de Y tomando a X como variable predictora.
Su expresión es: Y' = a + b. X
donde b =
SPxy
SC x
y
a  y - b.x
Y' es el valor pronosticado o estimado por la recta de regresión.
Fragmento de la Salida del Análisis de Regresión en Statistix para el Ejemplo 2
Unweighted Least Squares Linear Regression of AE
Predictor
Variables
Constant
TL
Coefficient
-13.2781
0.45348
Std Error
7.09165
0.08759
T
-1.87
5.18
Agotamiento Emocional
P
0.0907
0.0004
AE’=-13.2781+0.45348*TL
Análogamente para predecir o estimar un valor de X, tomando a Y como
variable predictora, se calcula la recta de regresión de X sobre Y.
Su expresión es: X' = c + d. Y , donde d=
SPxy
SC y
y
c  x - d.y
X' es el valor pronosticado o estimado por la recta de regresión
Fragmento de la salida del Análisis de Regresión en Statistix para el Ejemplo 2
Unweighted Least Squares Linear Regression of TL
Predictor
Variables
Constant
AE
Coefficient
43.0606
1.60606
Std Error
7.42537
0.31020
T
5.80
5.18
Tensión Laboral
P
0.0002
0.0004
TL’=43.0606+1.60606*AE
Coeficiente de Determinación (r2), indica que parte de la
variabilidad total es explicada por el modelo de regresión.
En el modelo de regresión lineal
r2 
2
SPxy
SC x.SC y
Propiedades:
1.
El coeficiente de determinación está comprendido entre cero y uno:
0  r2  1
2.
3.
Si
Si
4.
Dadas las rectas de regresión, el producto de sus pendientes es
igual al coeficiente de determinación: b.d = r2
r2 = 1, la relación lineal es perfecta.
r2 = 0, la relación lineal es nula.
Estudio de la relación entre variables cualitativas
Prueba chi-cuadrado de Independencia
Sean X e Y dos variables cualitativas de nivel nominal Ejemplo presentado en
Reuchlin(1980, p.112)
Tipo de Estudio (X) y Género (Y)
(Literarios,Científicos y Técnicos)(Muchachos, Muchachas)
En una Tabla de Contingencia, con tantas filas como valores tome X y tantas
columnas como valores tome Y, se presentan las frecuencias observadas en
una muestra de tamaño n.
3 filas y 2 columnas
La Hipótesis Nula sostiene que las variables X e Y son independientes y
la Hipótesis Alternativa sostiene que las variables X e Y no son independientes
El Estadístico de Prueba es
nF
nC
X 2  
i 1 j 1
Oij  Tij 
2
Tij
Donde i:1,…,nF indica la fila
j:1,…,nC indica la columna
Oij es la frecuencia observada en la celda ij, y
Tij es la frecuencia teórica, o esperada bajo la hipótesis nula, para la celda ij
El Estadístico de Prueba X2, tiene, bajo la Hipótesis Nula, distribución chi-cuadrado con
(nº de filas -1)*(nº de columnas -1) grados de libertad
Ejemplo 3 Presentado en Reuchlin (1980, p.112)
Chi-Square Test for Heterogeneity or Independence
Sexo
Estudios
Muchachos
Muchachas
Totales
Tipo de Estudios
+-----------+-----------+
1
Observed |
60
|
60
|
120
Literarios
Expected |
72.00 |
48.00 |
Cell Chi-Sq |
2.00 |
3.00 |
+-----------+-----------+
Científicos
2
Observed |
42
|
18
|
60
Expected |
36.00 |
24.00 |
Cell Chi-Sq |
1.00 |
1.50 |
+-----------+-----------+
Técnicos
3
Observed |
18
|
2
|
20
Expected |
12.00 |
8.00 |
Cell Chi-Sq |
3.00 |
4.50 |
+-----------+-----------+
Totales
120
80
200
Overall Chi-Square
P-Value
Degrees of Freedom
Cases Included 6
15.00
0.0006
2
Missing Cases 0
Referencia Bibliográfica:
Reuchlin, M. (1980). Compendio de Estadística. Método
conceptual. Madrid: Pablo del Río Editor.
Descargar