Estadística descriptiva PARAMETROS Y ESTADISTICOS Marta Alperin Profesora Adjunta de Estadística [email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica • Medidas de tendencia central: Moda, Mediana, Media aritmética, propiedades, ventajas e inconvenientes, Media geométrica. • Medidas de dispersión: Rango, Rango intercuartilico, Varianza, Desvío estándar. • Medidas de forma: asimetría y apuntamiento o curtosis. • Ejemplo de cálculo con datos agrupados. Estadística descriptiva: Descripción de los datos con estadísticos y parámetros Para inferir como es la población necesitamos medidas rigurosamente definidas. Para describir las distribuciones se definen medidas o valores que dan cuenta de la: a. Tendencia central a. Dispersión o variabilidad de los datos c. Forma Nuestro interés es describir la muestra y la población. Cualquier medida referida a la: • el tamaño de muestra lo representaremos con n, los de la población con N. • MUESTRA recibe el nombre de “Estadístico o Estadística” y se designa con letras • POBLACIÓN recibe el nombre de “Parámetros” y se designan con letras griegas (σ, ρ, ц, Ф, γ, etc.). mayúsculas (X, Y, W, con algún adorno). a.Tendencia central 1. Moda 2. Mediana 3. Promedio o Media Aritmética 4. Media Geométrica 1. Moda: la Moda X̂ de una serie de datos es el valor que aparece con más frecuencia que cualquier otro. Ejemplo: para el siguiente conjunto de datos del largo del ala de mariposas emperador (mm) A B C D E F G 6,2 9,3 4,8 7,2 5,5 5,5 5,5 moda Datos agrupados La moda se encuentra en la clase de mayor frecuencia, la clase modal. L.inf.mod = límite inferior de la clase modal, Δ1 = valor absoluto de la diferencia entre la frecuencia de la clase premodal y modal Δ2 = valor absoluto de la diferencia entre la frecuencia de la clase posmodal y modal C = amplitud del intervalo de la clase modal 25 20 No. de datos 1 ˆ X L. inf . mod . C 1 2 Histograma 30 15 10 5 0 0 5 Contenido de Limo (g) 10 15 20 25 30 Valor de la MODA Observación: la moda es inestable ya que puede cambiar con el método de redondeo de los datos. En distribuciones que aumentan o disminuyen continuamente y a ritmo constante, la moda podrá ser un valor extremo más que un valor de tendencia central. Puede haber distribuciones con 2 modas (bimodales) o mas de 2 (multimodales). ~ Mediana: La Mediana X de una serie, cuando los valores se disponen según sus magnitudes, es el valor medio. Es una medida de posición que divide a una serie dejando a su izquierda el 50% de los valores menores a él y a su derecha el 50% de los valores mayores a él. -Datos sin agrupar. n impar, el valor coincide con el valor central. n par, se encuentra entre los dos valores centrales. Ejemplo: para el siguiente de datos del diámetro de concreciones del Valle de la Luna (mm): A B C D E 6,2 9,3 4,8 7,2 5,5 {4,8; 5,5; 6,2; 7,2; 9,3} mediana -Datos agrupados La clase mediana es la clase cuya frecuencia acumulada supera primero el valor de la mitad mas uno de los datos [(n+1)/2] Lme = límite inferior de la clase mediana fap = frecuencia acumulada en la clase que precede inmediatamente a la clase que tiene a la mediana fme = frecuencia de la clase que tiene a la mediana C = amplitud del intervalo OJIVA 100 80 60 50 40 20 F(x) n 1 / 2 fap ~ C X L. inf .med . fme Polígono de frecuencia acumulada (Ojiva) 4 8 Contenido de limo (g) 12 15 19 23 Valor de la Mediana Observación: una característica importante de la mediana es que no se deja influenciar con la magnitud de los valores de las colas de una distribución. 27 Promedio o Media Aritmética: la media aritmética, X , para un conjunto de “n” observaciones {x1, x2, ..., xn}, es igual a las suma de los “n” valores dividido el número total de valores (n). La media poblacional se designa con μ. n x x2 ... xn X 1 n x X i i 1 n 1 n X xi n i 1 Ejemplo: para el siguiente conjunto de datos de diámetro cefálico de cobayos (mm) A B C D E 6,2 9,3 4,8 7,2 5,5 6,2 9,3 4,8 7,2 5,5 X 6,6 mm 5 Para datos agrupados • Discretos n X i 1 f i ai n fi: frecuencia a: valor de la variable •Continuos n X i 1 f i ci n fi: frecuencia del intervalo de clase c: marca de clase del intervalo Propiedades: 1º Es un valor típico, es el centro de gravedad, es un punto de equilibrio. Su valor puede sustituir al valor de cada dato de la serie sin cambiar el total dado que: 1 n X xi n i 1 n nX xi i 1 2º La suma algebraica de las desviaciones con relación a la media es “0” x n i 1 i X 0 3º La suma del cuadrado de las desviaciones de los datos respecto a la media es menor que las desviaciones al cuadrado de cualquier otro punto. x n i 1 i X 2 mínimo Observación: una característica importante de la media es su inestabilidad. Por ejemplo con el agregado de datos extremos su valor cambia sustancialmente. Media Geométrica: la media geométrica, G, para un conjunto de n observaciones {x1, x2, ..., xn}, es igual a la raíz n-ésima del producto de las n observaciones. G n x1 x2 xn Ejemplo: para el siguiente conjunto de datos de leyes de Cu (ppm) A B C D E 6,2 9,3 4,8 7,2 5,5 Para datos agrupados G 5 6,2 9,3 4,8 7,2 5,5 5 10960,0 6,4 ppm G n x 1f 1 x2f 2 ...xnfn Observaciones - G de un conjunto de números positivos es siempre menor a la media aritmética. - G es un mejor estimador de tendencia central cuando la distribución de frecuencias es de asimetría a la derecha (ej. distribución lognormal). - Se utiliza para calcular medidas de tendencia central de datos que se expresan como porcentajes, los llamados datos composicionales. Relaciones entre Mediana, Moda, Media •En distribuciones simétricas Media = Mediana =Moda •Distribución con asimetría positiva o cola a la derecha: Moda>Mediana>Media •Distribución con asimetría negativa o de cola izquierda Media>Mediana>Moda Ejemplo: el partido de Bolivar se ubica en el centro de la provincia de Buenos Aires, en la Pampa húmeda. Pose relieve ligeramente ondulado con muy buenas condiciones físicas. Los suelos son aptos para una amplia gama de usos como los cultivos de cereales y oleaginosas, así como de pasturas implantadas. La precipitación es una variable muy importante para establecer no solo el balance hidrológico de una región, sino también para planificar el uso del suelo. Se presenta la distribución de la precipitación caída en Bolivar desde 1911-2002 durante el mes de noviembre agrupada en 5 clases Marca de Clase (ci) Frecuencia observada (fi) Frecuencia acumulada Frecuencia relativa % 25 75 21 21 22,58 22,58 34 55 36,56 59,14 26 81 27,96 87,10 150-200 125 175 8 89 8,60 95,70 200-250 225 4 93 4,30 100,0 Precipitación (mm) 0-50 50-100 100-150 Frecuencia relativa acumulada % 100 PR EC IPITAC IO N ES D E N O VIEMBR E 45 90 40 80 Frecuencia relativa acumulda % 35 No . d e o b se r va cio n e s . 30 25 20 15 10 70 60 50 40 30 20 5 10 0 0 50 100 150 Precipitaciones (mm) 200 250 0 50 100 150 Precipitación (mm) 200 Estadísticos de tendencia central Precipitación (mm) Marca de Clase (ci) Frecuencia observada (fi) Frecuencia acumulada (fi ac.) 25 75 125 175 225 21 34 26 8 4 93 21 55 81 89 93 0-50 50-100 100-150 150-200 200-250 Suma n Promedio X i 1 Moda ci f i n n c i 1 i ci fi 525 2550 3250 1400 900 8625 Distribución con asimetría positiva o cola a la derecha: Moda> Mediana>Media 80,95>88,24>97,74 f i (25 21) (75 4) (125 26) (175 8) (225 4) 8625 1 Xˆ L. inf . mod C 1 2 X 8625 97,74mm 93 13 Xˆ 50 50 80,95mm 13 8 Clase que contiene la moda: [50-100] L.inf.mod: 50 Δ1 = 21 - 34 = 13 C = 50 Δ2 = 26 - 34 = 8 ~ n 1 / 2 fap C fme Mediana X L. inf .med . (n+1)/2= (93+1)/2 = 47 Clase que contiene a la mediana: [50-100] L.inf.med. = 50 fme = 34 fap = 21 C = 50 ~ 47 21 X 50 50 88,24 mm 34 b. Dispersión 1. Amplitud, rango o recorrido 2. Rango intercuartilico 3. Varianza o variancia 4. Desvío estándar 5. Coeficiente de variación Amplitud, rango ó recorrido: El rango para un conjunto de n observaciones {x1, x2, ..., xn}, es la diferencia entre el valor máximo y el mínimo. Ejemplo: largo (cm) de lombrices californianas A B C D E 6,2 9,3 4,8 7,2 5,5 En este caso la amplitud es: A = 9,3 - 4,8 = 4,5 cm Otras medidas de dispersión: Existen otros valores de la variable semejantes a la Mediana que dividen a la población y la muestra en 4 (cuartiles), 10 (deciles) y 100 (percentiles). Definición: El cuantil xα divide a la muestra de datos en dos partes: el α% de los valores es menor que α y el (1 – α) de los valores es mayor que xα. X% ( %) N fap C L. inf . % fm L.inf.α% : límite inferior de la clase α% %: el total de observaciones que quedan a la izquierda de α% Fap: frecuencia acumulada en la clase que precede inmediatamente a la clase que tiene al α% fm: frecuencia de la clase que tiene al α% C : amplitud del intervalo Rango inercuartilico Los cuartiles son 3: X0,25 (primer cuartil); X0,50 (segundo cuartil o mediana) y X0,75 (tercer cuartil). • • El rango intercuartilico cuartiles. RI es una medida de dispersión basada en el recorrido de los RI = X0,75 – X0,25 Otros autores prefieren usar el recorrido basado en los percentiles RI = X0,90 – X0,10 Varianza Podríamos pensar en expresar la variación de los datos con respecto a la media como el promedio de las diferencias entre cada dato a la media. ( x1 X ), ( x2 X ),..., ( xn X ) x1 X x2 X ... xn X n Especimen A B C D E F G H Suma Promedio: xi 9 2 7 5 4 6 5 2 40 40/8=5 xi - X 4 -3 2 0 -1 1 0 -3 0 pero x1 x2 ... xn X 0 n Recordar la 2º propiedad de la media: el promedio de las desviaciones respecto a la Media siempre es cero. Varianza es el promedio del cuadrado de las desviaciones de los datos con respecto a la media: Población x1 2 x2 2 ... xn 2 2 Muestra 2 N 1 N N x i 1 2 i 1 n 2 S x X i n 1 i 1 2 la S2 se usa para calcular σ2, la 3º propiedad de la media tiende a subestimar S2 . El sesgo se reduce cuando se usa (n -1) lo que produce un estimador mayor de σ 2. Cuando Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino de Magallanes de Punta Tombo: Especimen A B C D E F G H Suma Promedio: Varianza: xi 9 2 7 5 4 6 5 2 40 40/8=5 40/8=5 xi - X 4 -3 2 0 -1 1 0 -3 0 (xi - X)2 16 9 4 0 1 1 0 9 40 La varianza se expresa en el cuadrado de las unidades de la variable. Observación: Los valores altos tienen gran influencia en la varianza Desvío estándar La desvío estándar de n observaciones (x1 , x2 , ... , xn), es la raíz cuadrada positiva de la varianza: para la Población 1 N para la Muestra N ( xi ) 2 S i 1 1 n ( xi X ) 2 n 1 i 1 Datos agrupados N i 1 ci 2 f i N ci: marca de intervalo de clase fi: frecuencia de intervalo de clase S N i 1 c X fi n 1 2 i Ejemplo: para la población del número de individuos de parásitos encontrados en el intestino del Pingüino de Magallanes de Punta Tombo: 2 5 5 2,23 parasitos Coeficiente de variación • Es una medida que da cuenta de la variabilidad relativa de las observaciones. • Se calcula como el cociente entre el desvío estándar y la media. Para la población: γ = σ/μ Para la muestra CV = S / X • Puede tomar valores positivos o negativos. • Carece de unidades pero suele expresarse en forma porcentual. Para el ejemplo del número de parásitos de los pingüinos magallanes Promedio: 4 parásitos y Desvío estándar: 2,23 parásitos Coeficiente de variación: 0,5575 o 55,75% Observaciones: • El coeficiente de variación refleja una mezcla desconocida de la variabilidad natural, la variabilidad introducida durante el proceso de muestreo y de causas aleatorias. • El coeficiente de variación es útil para comparar la variabilidad entre varias muestras, aun si las mediciones fueran realizadas en diferentes unidades. • Es una medida que se utiliza como guía para evaluar la conveniencia de efectuar o no la transformaciones de los datos. Estadísticos de dispersión Marca de Frecuencia Precipitación Clase (c ) observada i (mm) (fi) 0-50 50-100 100-150 150-200 200-250 Suma Rango o Amplitud 25 75 125 175 225 ci 2 ci fi 21 34 26 8 4 93 525 2550 3250 1400 900 8625 A:Valor máximo – Valor mínimo c i 2 fi 625 5625 15625 30625 50625 13125 191250 406250 245000 202500 1058125 A=250-0 = 250 mm 2 n n n 1 1 2 2 s ( c X ) f c f c f n Varianza i i i i i i n 1 i 1 n 1 i 1 i 1 n c i 1 2 i f i (25 2.21) (75 2.34) (125 2.26) (175 2.8) (225 2.4) 1058125 2 n ci f i 8625 2 74390625 i 1 Desvío estándar s Coeficiente de variación s2 1 n 2 n c i f i ci f i 2 n n 1 i 1 i 1 CV = S /X 1058125 799899,19 2806,8mm 2 93 1 s 2806,80 52,98mm CV 52,98mm 0,54 97,74mm CV%=54% c. Forma 1. Coeficiente de Simetría 2. Curtosis Coeficiente de simetría: Informa si los datos están equilibrados en torno a la media o si hay mas a la derecha o izquierda. Se define como: X3 CS 3 S donde: 1 n 3 X xi X n i 1 3 Se puede demostrar que: CS < 0, la asimetría es negativa (a) CS > 0, la asimetría es positiva (b) CS = 0 asimetría nula (simetría) (c) Coeficiente de Exceso E o de Kurtosis o Curtosis K mide el grado de achatamiento de un histograma con respecto al modelo teórico Normal. Se define como: X4 E 4 S donde: 1 n 4 X xi X n i 1 4 Se puede demostrar que: E > 0, histograma más puntiagudo que el Normal (a) E < 0, histograma más achatado que el Normal (b) E = 0 histograma sin achatamiento (c) a) Histograma puntiagudo o leptocurtico b) Histograma achatado o platicurtico c) Histograma normal o mesocurtico Asimetría y Curtosis Ejemplos para distribuciones con la misma media y el mismo número de datos Las figuras de la izquierda (a, c y e) tienen bajo grado de asimetría. Las figuras de la derecha (b, d y f) son marcadamente asimétricas, la Moda está desplazada respecto a la media. Las 2 distribuciones de cada fila tienen curtosis semejantes: • a y b son las más “picudas” o leptocurticas, • c y d son mesocurticas ,y • e y f son las más “aplastadas” o platicurticas Estadísticos de forma Marca Frecuencia Precipitación de Clase observada (mm) (ci) (fi) X 97,74 0-50 50-100 100-150 150-200 200-250 Suma S= 52,98 25 75 125 175 225 X3 CS Coeficiente de Simetría S3 S3= 148708,53 X3 7888577,58 X4 donde, (xi- )3 fi (xi- )4 -384875.167 -8082378.5 -11759.0268 -399806.912 20257.1132 526684.943 461173.253 3689386.03 2060989.39 8243957.57 3977843.13 (xi- )4 fi 27995819.6 587912212 267400.27 9091609.18 552208.905 14357431.5 35630245.5 285041964 262281510 1049126041 1945529258 1 n X 3 ( xi X ) 3 n i 1 3977843,13 42772,5 93 Coeficiente de Exceso o de Curtosis S4= 21 34 26 8 4 93 (xi- )3 X E 44 S 1945529258 20919669,4 93 CS donde, 42772,51 0,29 148708,53 1 n X 4 ( xi X ) 4 n i 1 E CS>0 la disitribución tiene asimetría positiva (cola derecha) E >0 la distribución es mas puntiaguda que una distribución normal 20919669,4 2,66 7888577,58 Agradezco su atención