Clase_Distribuciones_muestrales.pdf

Anuncio
Distribuciones muestrales
Biometría
1
¿Qué tienen en común
estos ejemplos?
2
Inferencia estadística
„
„
Población o universo es el conjunto de todas
las unidades de interés
interés. Normalmente es
demasiado grande para poder abarcarla. El
estudio de toda la población se denomina
censo.
N
n
Muestra es un subconjunto suyo al que
tenemos acceso y sobre el q
que realmente
hacemos las observaciones (mediciones)
La inferencia estadística consiste en generalizar
g
las conclusiones extraídas de una muestra
sobre la población
3
Parámetros y estimadores
„
„
Parámetro: Es una cantidad numérica calculada sobre
la población
Estimador: Es una cantidad numérica calculada sobre
la muestra
¿Y en los ejemplos?
„
„
Población
Parámetro
„
„
Muestra
Estimador
Pero ¿y cómo generalizamos? ¿podemos equivocarnos?
Necesitamos manejar probabilidades
4
Una situación supuesta
POBLACIÓN
44
34
42
53
54
41
61
44
44
52
59
36
57
61
60
53
54
43
48
57
43
51
51
52
32
45
55
36
47
49
42
38
71
46
54
27
55
45
42
46
45
58
53
43
42
54
44
39
49
62
54
36
61
59
57
43
63
47
49
32
56
44
44
53
49
45
52
58
59
42
67
58
32
39
48
37
49
47
64
52
33
35
51
41
45
47
46
55
42
43
50
61
47
67
57
49
57
52
47
„
„
„
Contamos con una población integrada
por 100 individuos; es decir N=100
La media de la p
población es 50; es
decir µ=50
La variabilidad de la población es de
10; es decir σ = 10
PROMEDIO μ =50
DESVÍO STD σ =10
Histograma
0,30
0,25
frecuencia rela
ativa
41
0,20
0,15
0,10
0 05
0,05
0,00
20
25
30
35
40
45
50
x
55
60
65
70
575
80
Y si sacamos una muestra?
POBLACIÓN
41
44
34
42
53
54
41
61
44
44
52
59
36
57
61
60
53
54
43
48
MUESTRA
57
43
51
51
52
44
32
45
55
36
47
49
42
38
71
46
54
27
55
45
42
46
45
58
53
43
42
54
44
39
49
62
54
36
61
59
57
43
63
47
49
32
56
44
44
53
49
45
52
58
59
42
67
58
32
39
48
37
49
47
64
52
33
35
51
41
45
47
46
55
42
43
50
61
47
67
57
49
57
52
47
52
n=5
47
PROMEDIO
33
42
43.6
6
x = 43
‰ El promedio de la muestra no coincide
con el de la población…
‰ La diferencia entre el valor muestral y
el poblacional se denomina error
muestral.
En este caso
caso, EM
EM=43.6-50=
43 6 50 -6.4
64
‰ Es el costo que pagamos por no haber
efectuado un censo
PROMEDIO μ =50
DESVÍO STD σ =10
6
Y si sacamos otra muestra?
POBLACIÓN
41
44
34
42
53
54
41
61
44
44
52
59
36
57
61
60
53
54
43
48
MUESTRA
57
43
51
51
52
61
32
45
55
36
47
49
42
38
71
46
54
27
55
45
42
46
45
58
53
43
42
54
44
39
49
62
54
36
61
59
57
43
63
47
49
32
56
44
44
53
49
45
52
58
59
42
67
58
32
39
48
37
49
47
64
52
33
35
51
41
45
47
46
55
42
43
50
61
47
67
57
49
57
52
47
45
n=5
38
PROMEDIO
67
51
52.4
4
x = 52
EM=52
EM
52.4
4-50=
50 2.4
24
Los parámetros se calculan sobre los N
valores de la población, por lo tanto no
cambian a menos que cambie la
población, son constantes.
Los estimadores se calculan sobre n
valores
alores muestrales,
m estrales por lo tanto varían
arían
de muestra en muestra y por lo tanto
son variables aleatorias.
PROMEDIO μ =50
DESVÍO STD σ =10
7
POBLACIÓN
41
44
34
42
53
54
41
61
44
44
52
59
36
57
61
60
53
54
43
48
57
43
51
51
52
32
45
55
36
47
49
42
38
71
46
54
27
55
45
42
46
45
58
53
43
42
54
44
39
49
62
54
36
61
59
57
43
63
47
49
32
56
44
44
53
49
45
52
58
59
42
67
58
32
39
48
37
49
47
64
52
33
35
51
41
45
47
46
55
42
43
50
61
47
67
57
49
57
52
47
Si repitiésemos este proceso
¿q
muchas veces,, ¿qué
comportamiento esperaríamos
para los 75.287.520 promedios
muestrales posibles?
MUESTRAS
44
52
61
47
45
51
n=5
33
38
54
x1
x2
x3
42
67
50
51
33
71
...........
41
58
49
34
...
49
x75287520
?
PROMEDIO μ =50
DESVÍO STD σ =10
8
Distribuciones muestrales
Definición: La distribución muestral de un estimador es la
distribución de probabilidades de todos los posibles valores
de un estimador que se pueden obtener extrayendo
“infinitas” muestras aleatorias de tamaño n de la población.
La distribución de un estimador, como la de cualquier
variable aleatoria, se pueden caracterizar por:
‰ tendencia central
‰ variabilidad
‰ función de probabilidad
Las distribuciones muestrales de los estimadores pueden
ser:
‰ aproximadas mediante técnicas de simulación
9
‰ derivadas matemáticamente
Volviendo al ejemplo
Distribución muestral de x
DATOS ORIGINALES
0,3
frecuenci a relativa
frecuenciia relativa
0,3
0,2
0,1
0,2
0,1
0,0
0,0
20
MEDIAS MUESTRALES
30
40
50
60
x
PROMEDIO μ =50
DESVÍO STD σ =10
70
80
20
30
40
50
60
70
80
Media(n=5)
10
Distribución muestral de x
¿Y si promediamos
¿
p
todas las medias muestrales?
µx = µ
ESTIMADOR
INSESGADO
¿Cuál será la variabilidad de las medias muestrales?
σx = σ
n
El desvío estándar de un estimador se conoce como
error estándar y da idea de la precisión en la
estimación
11
Distribución muestral de x
x
¿Cuál será la distribución de probabilidades
¿
p
de
DATOS ORIGINALES
MEDIAS MUESTRALES
DISTR.
DISTR
NORMAL
0,2
0,1
0,0
20
0,3
frecuencia
a relativa
frecuenciia
frecuenci
a relativa
0,3
?
DISTR.
NORMAL
0,2
0,1
0,0
30
40
40
50
50
60
60
xx
PROMEDIO μ =50
DESVÍO STD σ =10
70
70
80
80
20
30
40
50
60
70
80
Media(n=5)
PROMEDIO µx =50
ERROR STD σ x =4.5
12
¿Y si los datos originales
no siguen una distribución normal?
0,3
0,3
μ =50
σ =40
0,3
frecuenciarela
relativa
ativa
frecuencia
frecuencia re
elativa
DATOS ORIGINALES
0,1
0
50
100
150
200
μ =50
σ =9
9
0,2
0,2
DISTR.
NORMAL!
0,1
0,1
0,0
0,0
0,0
MEDIAS MUESTRALES
25
25
250
35
35
45
45
0,3
n=5
0,1
0,0
150
Media(n=5)
200
250
0,2
n=10
10
0,1
frecuencia relativa
frecuencia re
elativa
frecuencia rela
ativa
0,2
100
75
75
85
85
0,3
0,3
50
65
65
Media(n=20)
Media(n=20)
(
)
X
0
55
55
0,0
amplia
ando…
04
0,4
0,2
n=20
0,1
0,0
0
50
100
150
Media(n=10)
200
250
0
50
100
150
Media(n=20)
200
13
250
Teorema central del límite
Si de una población con distribución no normal
o desconocida con media µ y desvío estándar
σ se extraen infinitas muestras aleatorias de
t
tamaño
ñ n y a cada
d una d
de ellas
ll se lle calcula
l l ell
promedio x , se demuestra que dicho promedio
se comporta según una variable aleatoria
continua con distribución normal si n es lo
suficientemente grande
14
¿A qué consideramos un n “lo
suficientemente
fi i t
t grande”?
d ”?
‰ Si la variable original
g
es normal,, entonces x será
normal, para cualquier n
x
‰ Si la variable original es aproximadamente
simétrica
x tenderá
y unimodal,
i d l entonces
t
t d á a una distribución
di t ib ió
aproximadamente normal para n relativamente bajos
‰ Si la variable original es marcadamente asimétrica,
entonces n deberá ser de mayor para que la
distribución de x sea normal
15
En resumen:
st buc ó muestral
uest a de
Distribución
1.
2.
3.
cuando
do σ es co
conocido
oc do
x cua
La media de x es: µx = µ
n
El desvío estándar de x (EE) es: σ x = σ
Si el tamaño de la muestra es lo suficientemente
grande o x es normal
normal, la distribución de x es
normal
Por lo tanto es posible calcular probabilidades
utilizando:
x−µ
z=
σ
n
16
¿Es útil conocer la distribución
de un estimador?
Nos permite calcular probabilidades ⇒ es la clave para
hacer inferencia!
Por ejemplo:
– Se sabe que el peso de la placenta de embarazos
normales a término sigue una distribución normal con un
promedio de 500g y un desvío estándar de 50g.
– Se determinó el p
peso de la p
placenta en 50 p
partos a
término de madres fumadoras elegidas al azar y se
obtuvo un promedio de 480g.
– ¿Cuál es la probabilidad de que la media muestral sea
de 480g o menor?
17
MEDIAS MUESTRALES
0,008
,
0,057
0,006
0,043
Densidad
Densidad
DATOS ORIGINALES
0,004
0,002
0,029
0,014
0,000
250
375
500
625
750
0,000
250
375
500
625
750
Peso de la placenta
peso medio de 50 placentas
PROMEDIO μ =500
DESVÍO STD σ =50
50
PROMEDIO µx =500
ERROR STD σ x =50/√50=7
P(x < 480) = F (2.86) = 0.002
z=
x −µ
σx
P l
P-valor
480− 500
=
= 2.86
7
18
¿Qué necesitamos para hacer
i f
inferencia?
i ?
‰ una muestra aleatoria
‰ observaciones independientes
‰ un tamaño de muestra lo suficientemente
grande
19
Algunas dudas que surgen…
‰ ¿es necesario sacar muchas (infinitas)
muestras para poder aplicar el TCL?
‰¿
¿A mayor
y n más cerca del parámetro
p
estará
mi estimador?
¿A mayor
y n menor variabilidad de los datos?
‰¿
20
Distribución muestral de x cuando el desvío
estándar
tá d poblacional
bl i
l es d
desconocido
id
‰
‰
‰
En la práctica es habitual que TODOS los parámetros
poblacionales sean desconocidos, es decir que ni el
promedio μ ni el desvío estándar poblacional σ son
conocidos!
Como se desconoce σ se utiliza su estimador s →
mayor incertidumbre
No es correcto utilizar la distribución normal para x
x−µ
z=
σ n
‰
Se demuestra que la media muestral en estos casos
ajusta a una distribución conocida como t de Student
x −µ
tGL =
s n
21
Distribución t de Student
‰ Tiene forma acampanada como la normal estándar, pero su
dispersión es mayor (es más aplanada). Esto se debe a que
al desconocer σ hay mayor incertidumbre
‰ Es simétrica con respecto al cero, es decir que µ=0
‰ No se trata de una única curva, sino de infinitas curvas, cada
una caracterizada p
por un p
parámetro denominado g
grados de
libertad (GL)
‰ Los GL indican la cantidad de datos independientes, es
decir el número de observaciones de la variable menos el
número de restricciones que verifican
‰ Los GL dependen del tamaño
de la muestra y en este caso valen n-1
‰ A medida que aumentan los GL
más se asemeja a la normal estándar
(porque
(p
q s converge
g a σ))
22
Distribución muestral de
cuando no se conoce σ
1.
2.
3.
x
La media de x es: µx = µ
El desvío estándar (EE) de x es: σ x = s n
Si el tamaño de la muestra es lo
suficientemente grande o x es normal, la
distribución de x es t de Student,
Student con n-1
n1
grados de libertad
Por lo tanto es posible calcular probabilidades
utilizando:
x−µ
t n −1 =
s n
23
Descargar