Distribuciones muestrales Biometría 1 ¿Qué tienen en común estos ejemplos? 2 Inferencia estadística Población o universo es el conjunto de todas las unidades de interés interés. Normalmente es demasiado grande para poder abarcarla. El estudio de toda la población se denomina censo. N n Muestra es un subconjunto suyo al que tenemos acceso y sobre el q que realmente hacemos las observaciones (mediciones) La inferencia estadística consiste en generalizar g las conclusiones extraídas de una muestra sobre la población 3 Parámetros y estimadores Parámetro: Es una cantidad numérica calculada sobre la población Estimador: Es una cantidad numérica calculada sobre la muestra ¿Y en los ejemplos? Población Parámetro Muestra Estimador Pero ¿y cómo generalizamos? ¿podemos equivocarnos? Necesitamos manejar probabilidades 4 Una situación supuesta POBLACIÓN 44 34 42 53 54 41 61 44 44 52 59 36 57 61 60 53 54 43 48 57 43 51 51 52 32 45 55 36 47 49 42 38 71 46 54 27 55 45 42 46 45 58 53 43 42 54 44 39 49 62 54 36 61 59 57 43 63 47 49 32 56 44 44 53 49 45 52 58 59 42 67 58 32 39 48 37 49 47 64 52 33 35 51 41 45 47 46 55 42 43 50 61 47 67 57 49 57 52 47 Contamos con una población integrada por 100 individuos; es decir N=100 La media de la p población es 50; es decir µ=50 La variabilidad de la población es de 10; es decir σ = 10 PROMEDIO μ =50 DESVÍO STD σ =10 Histograma 0,30 0,25 frecuencia rela ativa 41 0,20 0,15 0,10 0 05 0,05 0,00 20 25 30 35 40 45 50 x 55 60 65 70 575 80 Y si sacamos una muestra? POBLACIÓN 41 44 34 42 53 54 41 61 44 44 52 59 36 57 61 60 53 54 43 48 MUESTRA 57 43 51 51 52 44 32 45 55 36 47 49 42 38 71 46 54 27 55 45 42 46 45 58 53 43 42 54 44 39 49 62 54 36 61 59 57 43 63 47 49 32 56 44 44 53 49 45 52 58 59 42 67 58 32 39 48 37 49 47 64 52 33 35 51 41 45 47 46 55 42 43 50 61 47 67 57 49 57 52 47 52 n=5 47 PROMEDIO 33 42 43.6 6 x = 43 El promedio de la muestra no coincide con el de la población… La diferencia entre el valor muestral y el poblacional se denomina error muestral. En este caso caso, EM EM=43.6-50= 43 6 50 -6.4 64 Es el costo que pagamos por no haber efectuado un censo PROMEDIO μ =50 DESVÍO STD σ =10 6 Y si sacamos otra muestra? POBLACIÓN 41 44 34 42 53 54 41 61 44 44 52 59 36 57 61 60 53 54 43 48 MUESTRA 57 43 51 51 52 61 32 45 55 36 47 49 42 38 71 46 54 27 55 45 42 46 45 58 53 43 42 54 44 39 49 62 54 36 61 59 57 43 63 47 49 32 56 44 44 53 49 45 52 58 59 42 67 58 32 39 48 37 49 47 64 52 33 35 51 41 45 47 46 55 42 43 50 61 47 67 57 49 57 52 47 45 n=5 38 PROMEDIO 67 51 52.4 4 x = 52 EM=52 EM 52.4 4-50= 50 2.4 24 Los parámetros se calculan sobre los N valores de la población, por lo tanto no cambian a menos que cambie la población, son constantes. Los estimadores se calculan sobre n valores alores muestrales, m estrales por lo tanto varían arían de muestra en muestra y por lo tanto son variables aleatorias. PROMEDIO μ =50 DESVÍO STD σ =10 7 POBLACIÓN 41 44 34 42 53 54 41 61 44 44 52 59 36 57 61 60 53 54 43 48 57 43 51 51 52 32 45 55 36 47 49 42 38 71 46 54 27 55 45 42 46 45 58 53 43 42 54 44 39 49 62 54 36 61 59 57 43 63 47 49 32 56 44 44 53 49 45 52 58 59 42 67 58 32 39 48 37 49 47 64 52 33 35 51 41 45 47 46 55 42 43 50 61 47 67 57 49 57 52 47 Si repitiésemos este proceso ¿q muchas veces,, ¿qué comportamiento esperaríamos para los 75.287.520 promedios muestrales posibles? MUESTRAS 44 52 61 47 45 51 n=5 33 38 54 x1 x2 x3 42 67 50 51 33 71 ........... 41 58 49 34 ... 49 x75287520 ? PROMEDIO μ =50 DESVÍO STD σ =10 8 Distribuciones muestrales Definición: La distribución muestral de un estimador es la distribución de probabilidades de todos los posibles valores de un estimador que se pueden obtener extrayendo “infinitas” muestras aleatorias de tamaño n de la población. La distribución de un estimador, como la de cualquier variable aleatoria, se pueden caracterizar por: tendencia central variabilidad función de probabilidad Las distribuciones muestrales de los estimadores pueden ser: aproximadas mediante técnicas de simulación 9 derivadas matemáticamente Volviendo al ejemplo Distribución muestral de x DATOS ORIGINALES 0,3 frecuenci a relativa frecuenciia relativa 0,3 0,2 0,1 0,2 0,1 0,0 0,0 20 MEDIAS MUESTRALES 30 40 50 60 x PROMEDIO μ =50 DESVÍO STD σ =10 70 80 20 30 40 50 60 70 80 Media(n=5) 10 Distribución muestral de x ¿Y si promediamos ¿ p todas las medias muestrales? µx = µ ESTIMADOR INSESGADO ¿Cuál será la variabilidad de las medias muestrales? σx = σ n El desvío estándar de un estimador se conoce como error estándar y da idea de la precisión en la estimación 11 Distribución muestral de x x ¿Cuál será la distribución de probabilidades ¿ p de DATOS ORIGINALES MEDIAS MUESTRALES DISTR. DISTR NORMAL 0,2 0,1 0,0 20 0,3 frecuencia a relativa frecuenciia frecuenci a relativa 0,3 ? DISTR. NORMAL 0,2 0,1 0,0 30 40 40 50 50 60 60 xx PROMEDIO μ =50 DESVÍO STD σ =10 70 70 80 80 20 30 40 50 60 70 80 Media(n=5) PROMEDIO µx =50 ERROR STD σ x =4.5 12 ¿Y si los datos originales no siguen una distribución normal? 0,3 0,3 μ =50 σ =40 0,3 frecuenciarela relativa ativa frecuencia frecuencia re elativa DATOS ORIGINALES 0,1 0 50 100 150 200 μ =50 σ =9 9 0,2 0,2 DISTR. NORMAL! 0,1 0,1 0,0 0,0 0,0 MEDIAS MUESTRALES 25 25 250 35 35 45 45 0,3 n=5 0,1 0,0 150 Media(n=5) 200 250 0,2 n=10 10 0,1 frecuencia relativa frecuencia re elativa frecuencia rela ativa 0,2 100 75 75 85 85 0,3 0,3 50 65 65 Media(n=20) Media(n=20) ( ) X 0 55 55 0,0 amplia ando… 04 0,4 0,2 n=20 0,1 0,0 0 50 100 150 Media(n=10) 200 250 0 50 100 150 Media(n=20) 200 13 250 Teorema central del límite Si de una población con distribución no normal o desconocida con media µ y desvío estándar σ se extraen infinitas muestras aleatorias de t tamaño ñ n y a cada d una d de ellas ll se lle calcula l l ell promedio x , se demuestra que dicho promedio se comporta según una variable aleatoria continua con distribución normal si n es lo suficientemente grande 14 ¿A qué consideramos un n “lo suficientemente fi i t t grande”? d ”? Si la variable original g es normal,, entonces x será normal, para cualquier n x Si la variable original es aproximadamente simétrica x tenderá y unimodal, i d l entonces t t d á a una distribución di t ib ió aproximadamente normal para n relativamente bajos Si la variable original es marcadamente asimétrica, entonces n deberá ser de mayor para que la distribución de x sea normal 15 En resumen: st buc ó muestral uest a de Distribución 1. 2. 3. cuando do σ es co conocido oc do x cua La media de x es: µx = µ n El desvío estándar de x (EE) es: σ x = σ Si el tamaño de la muestra es lo suficientemente grande o x es normal normal, la distribución de x es normal Por lo tanto es posible calcular probabilidades utilizando: x−µ z= σ n 16 ¿Es útil conocer la distribución de un estimador? Nos permite calcular probabilidades ⇒ es la clave para hacer inferencia! Por ejemplo: – Se sabe que el peso de la placenta de embarazos normales a término sigue una distribución normal con un promedio de 500g y un desvío estándar de 50g. – Se determinó el p peso de la p placenta en 50 p partos a término de madres fumadoras elegidas al azar y se obtuvo un promedio de 480g. – ¿Cuál es la probabilidad de que la media muestral sea de 480g o menor? 17 MEDIAS MUESTRALES 0,008 , 0,057 0,006 0,043 Densidad Densidad DATOS ORIGINALES 0,004 0,002 0,029 0,014 0,000 250 375 500 625 750 0,000 250 375 500 625 750 Peso de la placenta peso medio de 50 placentas PROMEDIO μ =500 DESVÍO STD σ =50 50 PROMEDIO µx =500 ERROR STD σ x =50/√50=7 P(x < 480) = F (2.86) = 0.002 z= x −µ σx P l P-valor 480− 500 = = 2.86 7 18 ¿Qué necesitamos para hacer i f inferencia? i ? una muestra aleatoria observaciones independientes un tamaño de muestra lo suficientemente grande 19 Algunas dudas que surgen… ¿es necesario sacar muchas (infinitas) muestras para poder aplicar el TCL? ¿ ¿A mayor y n más cerca del parámetro p estará mi estimador? ¿A mayor y n menor variabilidad de los datos? ¿ 20 Distribución muestral de x cuando el desvío estándar tá d poblacional bl i l es d desconocido id En la práctica es habitual que TODOS los parámetros poblacionales sean desconocidos, es decir que ni el promedio μ ni el desvío estándar poblacional σ son conocidos! Como se desconoce σ se utiliza su estimador s → mayor incertidumbre No es correcto utilizar la distribución normal para x x−µ z= σ n Se demuestra que la media muestral en estos casos ajusta a una distribución conocida como t de Student x −µ tGL = s n 21 Distribución t de Student Tiene forma acampanada como la normal estándar, pero su dispersión es mayor (es más aplanada). Esto se debe a que al desconocer σ hay mayor incertidumbre Es simétrica con respecto al cero, es decir que µ=0 No se trata de una única curva, sino de infinitas curvas, cada una caracterizada p por un p parámetro denominado g grados de libertad (GL) Los GL indican la cantidad de datos independientes, es decir el número de observaciones de la variable menos el número de restricciones que verifican Los GL dependen del tamaño de la muestra y en este caso valen n-1 A medida que aumentan los GL más se asemeja a la normal estándar (porque (p q s converge g a σ)) 22 Distribución muestral de cuando no se conoce σ 1. 2. 3. x La media de x es: µx = µ El desvío estándar (EE) de x es: σ x = s n Si el tamaño de la muestra es lo suficientemente grande o x es normal, la distribución de x es t de Student, Student con n-1 n1 grados de libertad Por lo tanto es posible calcular probabilidades utilizando: x−µ t n −1 = s n 23