4 Estadı́stica Tema 1: Estadı́stica Descriptiva. Definición 1 Población es cualquier conjunto de datos, objetivo de nuestro interés que caracteriza un fenómeno que nos interesa. Definición 2 Muestra es un subconjunto de una población determinada. Interesan aquellas muestras que representan fielmente a la población. En ocasiones se utilizan las palabras población y muestra para representar los objetos que se someten a medición. Definición 3 La Estadı́stica Descriptiva es la rama de la Estadı́stica dedicada a la recogida, recopilación y reducción de unos datos a unas pocas medidas descriptivas y gráficos, permitiendo conocer las caracterı́sticas existentes en la población o conjunto de datos. Definición 4 La Inferencia Estadı́stica tiene por objeto obtener conocimientos sobre ciertas poblaciones a partir de las observaciones relativas a una muestra. Su instrumento matemático es el Cálculo de Probabilidades. 1 Variables estadı́sticas. Se va a trabajar con conjuntos de datos asociados al carácter o caracterı́stica objeto de estudio, que denominaremos variable estadı́stica y se representará por una letra mayúscula: X, Y, Z,. . . A partir de ahora nos referiremos a los conjuntos de datos como variables. Como en esta parte se va a tratar de describir y analizar estas variables, debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadı́sticas apropiadas. 1.1 Tipos de variables. Las variables estadı́sticas pueden ser de dos tipos: 1. Variables cualitativas o atributos: describen cualidades y no toman valores numéricos. Ejemplos: Provincias españolas, paı́ses de la U. E., nivel de estudios, meses del año, clasificar una pieza como aceptable o defectuosa, . . . 2. Variables cuantitativas: toman valores numéricos. A su vez pueden ser: 5 Estadı́stica • Discretas: Sólo toman un número finito o infinito numerable de valores distintos (generalmente números naturales o enteros). Ejemplos: número de compras de un producto en un mes, el año de fabricación de un vehı́culo, número de entradas de cine vendidas en un intervalo de tiempo, resultado de lanzar un dado, número de hijos,. . . • Continuas: Toman valores en un intervalo de IR. Generalmente corresponden a medir magnitudes continuas, por ejemplo, peso, altura, temperatura, intensidad de corriente, el tiempo entre dos llamadas telefónicas, el tiempo de servicio o de operación de una máquina, etc. Una caracterı́stica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida. Se va a suponer que el orden en que se recogen los datos es irrelevante. Cuando los datos se observan con una pauta fija (cada hora, semana, etc.), constituyen una serie temporal, y su análisis requiere otras técnicas especiales, que tengan en cuenta que el orden de los datos influye. A los distintos resultados que pueden presentar las variables estadı́sticas los denominaremos modalidades. Ejemplo: Si la caracterı́stica es el gusto, puede presentar cuatro modalidades: dulce, amargo, salado y ácido. Si es el sexo: hombre y mujer. 1.2 Presentación de datos. La forma más elemental de presentar los datos es por medio de una matriz en la que aparecen en la primera columna los individuos, representados de alguna forma (en muchas ocasiones se suele prescindir de esta columna) y en las restantes columnas las observaciones de las distintas variables (o caracterı́sticas) en estudio para cada uno de los individuos. Se la conoce como matriz de datos. (Presentación tı́pica de hoja de cáculo) Ejemplo: Individuo Individuo Individuo Individuo Individuo .. . 1 2 3 4 5 edad 21 19 19 18 20 .. . especialidad Estructuras Construcción de Maqu. Construcción de Maqu. Estructuras Construcción de Maqu. .. . sexo mujer hombre hombre mujer hombre .. . Normalmente se reserva el nombre de matriz de datos a la obtenida de la anterior, eliminando la primera columna. Cuando se estudia una sola variable, otra forma usual de presentar los datos es por medio de una matriz en la que cada valor corresponde a un individuo de la población. Ejemplo: Edades de 25 individuos encuestados: 12 32 23 24 17 17 23 15 11 39 16 23 16 34 19 23 36 24 37 31 39 23 17 24 16 6 Estadı́stica 1.3 Agrupación en clases. En ocasiones, y con objeto de facilitar la toma o presentación de datos cuantitativos, estos se agrupan en intervalos o clases. Por ejemplo, es más sencillo anotar cuántos individuos hay en una muestra con una estatura entre 1.70 y 1.80, que anotar exactamente la estatura de todos. No obstante, siempre se producirá una pérdida de información al agrupar los datos en intervalos, y dado que el uso de ordenadores y programas de cálculo suelen ser corriente, se suelen tratar los datos sin agrupar salvo para algunos resúmenes gráficos, cuando el número de valores distintos que toma una variable discreta sea grande, o cuando ésta sea continua. La primera cuestión que se nos plantea es elegir el número de clases y la longitud de cada clase. Si es posible, es recomendable que todas las clases tengan la misma longitud. En cuanto al número de clases, en general, se recomienda utilizar entre 5 y 20 ó 25 clases, de forma que ninguna contenga menos de 5 datos. Existen distintos criterios, para determinar un número adecuado de clases, todos ellos en función del número de datos. Nosotros utilizaremos para obtener una aproximación al número de clases k a utilizar o bien la fórmula de Sturges donde k es el entero más próximo a 1 + 10 log10 N siendo N el 3 √ número de datos o individuos o bien k el entero más próximo a N . En general, el número de clases debe ser suficientemente grande para que no se pierda excesiva información, pero no tanto que se pierda la simplicidad de la representación. Las clases o intervalos en que se agrupen los datos deben cumplir: • Ser disjuntas: un dato no puede estar en dos clases a la vez. • Ser exhaustivas: es decir, abarcar todo el rango de posibles valores de la variable. • Estar ordenadas de menor a mayor. En general, la forma de las clases que utilizaremos será: (L0 , L1 ], (L1 , L2 ], . . . (Lk−1 , Lk ] Elementos asociados a las clases o intervalos: • Lı́mites: Li−1 , Li (lı́mite inferior y lı́mite superior, respectivamente). • Amplitud de la clase: bi = Li − Li−1 . • Marca de la clase: ci = Li +Li−1 2 Observación 1 La marca de clase se considera el valor representativo de todos los valores de su intervalo. Por ello, deben elegirse los intervalos de forma que la marca sı́ sea un valor representativo. Puede ocurrir que la marca de clase tenga más cifras decimales que los datos (es decir, que no corresponda a un valor realmente observable) y lo mismo puede ocurrir con los lı́mites de clase. A veces, el primer y último intervalo, tienen respectivamente, el extremo inferior y superior indeterminados, con objeto de incluir observaciones poco frecuentes. Ejemplo de agrupación en clases: distancia de frenado en metros, en automóviles conducidos sobre una pista húmeda (mismo automóvil y velocidad en todos los casos). 7 Estadı́stica 35.8 39.2 35.3 40.1 30.5 41.9 37.3 36.1 35.9 38.6 35.6 37.0 41.6 39.2 38.0 39.5 35.9 37.3 36.7 38.3 Agrupación en clases: Clases N o de datos (30,32] 1 (32,34] 0 5 (34,36] (36,38] 6 (38,40] 5 3 (40,42] En este caso el número de clases es 5, los lı́mites son 30, 32, 34, 36, 38, 40 y 42; la amplitud es en todas las clases 2.4 y las marcas son, respectivamente: 31, 33, 35, 37, 39 y 41. Observación 2 Una agrupación más razonable que la equiespaciada que hemos dado, para estos datos, serı́a agrupar en las clases: (30, 36], (36, 38], (38, 40], (40, 42] ya que se tendrı́a un reparto más uniforme del número de datos en cada intervalo. 2 Distribuciones univariantes. A partir de ahora, vamos a considerar que tenemos datos correspondientes a una sola variable estadı́stica, que denominaremos X. (Se corresponderá a tratar con una de las columnas de la matriz de datos ya vista). Definición 5 Elementos que utilizaremos para resumir la información que ofrecen nuestros datos: • Se denomina frecuencia total al número total de individuos observados o número total de datos, N. • Se denomina frecuencia absoluta de la modalidad Mi (valor xi o intervalo Ii ), al número de individuos o número de datos que presentan esta modalidad, ni ,. • Se denomina frecuencia relativa de la modalidad Mi (valor xi o intervalo Ii ), al cociente fi = ni . N Si la variable considerada es cuantitativa, se pueden definir además: • Se denomina frecuencia absoluta acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al número de individuos o número de datos, Ni , que presentan una modalidad menor o igual que ésta; se define como Ni = n1 + n2 + · · · + ni = ij=1 nj . • Se denomina frecuencia relativa acumulada hasta la modalidad Mi , (valor xi o intervalo Ii ) al cociente: Fi = NNi o Fi = f1 + f2 + · · · + fi = ij=1 fj . 8 Estadı́stica Definición 6 Se dice que se ha dado la distribución de frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas) de la variable estadı́stica X si se dan las distintas modalidades de la variable y las correspondientes frecuencias (absolutas, relativas, absolutas acumuladas o relativas acumuladas, respectivamente) de cada modalidad. En ese caso, hablaremos de datos agrupados por frecuencias. La forma de dar estos valores es por medio de tablas, en las que aparecen una primera columna con las distintas modalidades de la variable (ordenadas de menor a mayor, si la variable es cuantitativa) y columnas correspondientes a las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas (estas dos últimas cuando tengan sentido). Mi M1 M2 .. . ni n1 n2 .. . fi f1 f2 .. . Ni N1 N2 .. . Fi F1 F2 .. . Mk nk fk Nk = N Fk = 1 Propiedades 1 Propiedades de las tablas: - k i=1 k i=1 ni = N fi = 1 - Nk = N. - Fk = 1 - Las frecuencias relativas y las frecuencias relativas acumuladas pueden interpretarse como porcentajes (tantos por ciento) de la siguiente forma: . fi 100% es el tanto por ciento de datos o individuos que están en la modalidad Mi . . Fi 100% es el tanto por ciento de datos o individuos que están en las modalidades M1 , M2 , . . . Mi . Tablas para datos agrupados: Cuando los datos aparecen agrupados por clases, se habla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas de cada clase. En este caso, las tablas de frecuencias tienen la forma: En el ejemplo anterior: (Li−1 − Li ] (L0 , L1 ] (L1 , L2 ] .. . ci c1 c2 .. . (Lk−1 , Lk ] ck nk fk Nk Fk ni n1 n2 .. . fi f1 f2 .. . Ni Fi N1 F1 N2 F2 .. . 9 Estadı́stica (Li−1 − Li ] (30, 32] (32, 34] (34, 36] (36, 38] (38, 40] (40, 42] ci ni 31 1 33 0 35 5 37 6 39 5 41 3 fi 0.05 0.00 0.25 0.30 0.25 0.15 Ni 1 1 6 12 17 20 Fi 0.05 0.05 0.30 0.60 0.85 1.00 Ejemplo 2: Número de unidades de ordenador vendidas en los 12 últimos meses: (Li−1 − Li ] (10, 15] (15, 20] (20, 30] ci 12.5 17.5 25.0 ni 3 6 3 fi Ni 0.25 3 0.50 9 0.25 12 Fi 0.25 0.75 1.00 Se observa cómo en este caso, la marca de clase puede no ser un valor posible de la variable, pero conserva su significado de valor representativo de todos los datos del intervalo. Observación 3 Al escribir una tabla es conveniente tener en cuenta los siguientes convenios para evitar ambigüedades: . Indicar la unidad de medida de cada variable. . Indicar con un 0 los valores con frecuencia 0. (Evitar las rayas, cuya interpretación es de falta de información sobre la frecuencia del valor). . Escribir todos los datos con igual número de decimales. 3 Representación gráfica de variables estadı́sticas unidimensionales. La representación gráfica de una distribución de frecuencias va a depender del tipo de variable considerada. 3.1 Representación gráfica de variables cualitativas y de variables cuantitativas con pocos valores distintos. Para ilustrar las principales representaciones gráficas, vamos a utilizar los datos del tipo de vehı́culos: TIPO deportivo furgoneta gran turismo monovolumen pequeño tamaño medio frecuencias 14 9 11 16 21 11 Estadı́stica 10 • Diagrama de barras. Esta representación gráfica consiste en construir tantos rectángulos como modalidades presente la variable cualitativa en estudio, todos ellos con base de igual amplitud (la que sea) y la altura se toma proporcional a la frecuencia absoluta o relativa (según cual estemos representando), obteniendo rectángulos con áreas proporcionales a las frecuencias que se quieran representar. • Diagrama de Pareto. Es un diagrama de rectángulos en el que los rectángulos se presentan en orden decreciente de altura. Se utilizan para variables cualitativas y son muy frecuentes en control de calidad y procesos, donde las alturas de los rectángulos a menudo representan frecuencias de problemas en el proceso de producción. Como los rectángulos están dispuestos en orden decreciente por altura, resulta fácil identificar las áreas con el mayor número de problemas. • Diagrama de sectores. Esta representación consiste en dividir un cı́rculo en tantos sectores circulares como modalidades presente la variable cualitativa, donde cada sector circular tendrá un área proporcional a la frecuencia absoluta (o relativa). Estadı́stica 3.2 11 Representación gráfica de variables cuantitativas que toman muchos valores distintos. • Histograma. Es la representación gráfica más frecuente y se realiza a partir de una grupación de los datos en intervalos. Consiste en un conjunto de rectángulos construidos de la siguiente forma: -Tiene como eje horizontal una escala de valores de la variable que se mide. Se marcan los lı́mites de las clases sobre la escala. - Como eje vertical, tiene una escala de alturas. Sobre cada clase se eleva un rectángulo tal que su área Ai = base · altura = (Li − Li−1 )hi sea proporcional a la frecuencia absoluta (o relativa) de la clase, es decir, λni ; entonces, despejando λni . tenemos que la altura es hi = Li −L i−1 Ejemplo: En el ejemplo de la distancia de frenado: Ejemplo: El siguiente ejemplo corresponde a clases no equiespaciadas: 12 Estadı́stica Si la distribución de la variable es: (Li−1 − Li ] ci ni (1.5, 3.5] 2.5 3 (3.5, 6.5] 5 4 un histograma correcto tendrı́a un primer rectángulo de altura 32 λ y un segundo rectángulo de altura 43 λ, dónde λ es un número real positivo cualquiera. Por ejemplo, para λ = 6, el histograma serı́a: 9 8 1.5 3.5 6.5 • Polı́gono de frecuencias acumuladas. Se construye de la siguiente forma: -Tiene como eje horizontal una escala de valores de la variable que se mide. Sobre él se marcan los lı́mites de las clases. - La escala vertical es una escala de frecuencias acumuladas (absolutas o relativas). En este plano, partiendo desde el punto sobre el eje OX que corresponde al lı́mite inferior del primer intervalo, se sitúan los pares formados por el lı́mite superior de clase y la correspondiente frecuencia acumulada de la clase y los puntos se unen por medio de segmentos, dando lugar a una gráfica creciente, que termina en una meseta de altura N, si se utilizan frecuencias acumuladas absolutas, o altura 100 si se utilizan porcentajes acumulados. Esta gráfica se conoce como ojiva de frecuencias. 13 Estadı́stica • Diagrama de tallo-hojas. (Stem and leaf) Se trata de un procedimiento semi-gráfico de presentar la información de variables cuantitativas, útil cuando el número de datos es pequeño (menor que 50), aunque con los ordenadores es posible utilizarlo con más datos. Los pasos para su construcción son: 1. Expresar los datos en unidades convenientes, redondearlos a dos o tres cifras significativas y ordenarlos de menor a mayor. 2. Colocarlos en una tabla con dos columnas separadas por una lı́nea como sigue: - Para los datos con dos dı́gitos, escribir a la izquierda de la lı́nea los dı́gitos de las decenas (que forman el tallo) y a la derecha los de las unidades (que forman las hojas). - Para datos con tres dı́gitos, el tallo estará formado por las centeneas y decenas, escritos a la izquierda, y las hojas serán las unidades. 3. Cada tallo define una clase y se escribe una sóla vez; el número de hojas representa la frecuencia de la clase correspondiente al tallo. Ejemplo: Para el ejemplo de la distancia de frenado, el diagrama de tallo-hojas serı́a: 1 1 1 1 1 6 8 (3) 9 6 3 2 30 31 32 33 34 35 36 37 38 39 40 41 5 3 1 0 0 2 1 6 6 7 3 3 2 8 9 9 3 6 5 9 Puede observarse que si se gira el diagrama, se obtiene una apariencia similar a la del histograma correspondiente. Los valores que aparecen a la izquierda se llaman profundidades e indican las frecuencias acumuladas, comenzando por arriba (de menor a mayor) y por abajo (de mayor a menor), hasta llegar al tallo en el que se encuentra el valor que ocupa la posición central; en este tallo, el valor aparece entre paréntesis e indica solo la frecuencia de ese tallo. Observación 4 Para facilitar la construcción del diagrama, para una cantidad numerosa de datos, puede ser conveniente escribir en primer lugar un diagrama “desordenado” anotando los tallos y las hojas sin ordenar de mayor a menor, y a partir de esta primera aproximación, construir el diagrama. A veces conviene subdividir los tallos para obtener mayor claridad, colocando por una parte las hojas del 0 al 4 y por otra las hojas de 5 a 9, en otros casos, las hojas 0 y 1, las 2 y 3, las 4 y 5, las 6 y 7 y, por último, las 8 y 9; por ejemplo: 14 Estadı́stica 1 1 14 (8) 20 12 7 3 1 4 5 5 6 6 7 7 8 8 9 2 6 0 8 2 6 0 8 2 0 8 2 6 0 8 0 8 2 6 4 0 8 2 6 4 0 8 2 6 0 4 8 8 2 2 4 4 4 8 2 4 4 Medidas caracterı́sticas de una distribución unidimensional. Vamos a definir en esta sección algunos valores numéricos que proporcionan información sobre cómo se distribuye un conjunto de datos homogéneo. Estas medidas además, permiten comparar distribuciones y en la tercera parte de la asignatura nos serán de utilidad para obtener conclusiones sobre la población cuando se trabaja con una muestra. 4.1 Medidas de posición o localización. Proporcionan uno o varios valores en torno a los cuales tienden a agruparse los datos. Entre ellas destacaremos las medidas de tendencia central. 1. Medidas de tendencia central. Vamos a estudiar tres: media aritmética, mediana y moda. • Media o media aritmética. Definición 7 Si x1 , . . . , xN son los datos directos de la variable, se define la media como: x̄ = N xi i=1 N Observación 5 Si los datos vienen dados por medio de una tabla de frecuencias: xi x1 x2 .. . ni n1 n2 .. . fi f1 f2 .. . xk nk fk entonces x̄ = k xi ni i=1 N = k i=1 xi fi 15 Estadı́stica Propiedades 2 (a) La media es el valor que equilibra las desviaciones positivas y negativas de los datos directos respecto a su valor: N 1 (xi − x̄) = 0. En ese sentido, se la puede considerar como centro de gravedad o centro geométrico de los datos. (b) Utiliza toda la información contenida en los datos (pues utiliza todos los datos). • Mediana. Definición 8 Llamaremos mediana y la denotaremos por Me al valor numérico que verifica que ordenados los datos de menor a mayor, el 50% son menores o iguales que este valor y el 50% son mayores o iguales. Cálculo de la mediana: Para calcular la mediana de un conjunto de datos, en primer lugar hay que ordenarlos de menor a mayor; denotaremos por x(i) el dato que ocupa el lugar i-ésimo una vez ordenados los datos de esta forma. x +x Si el número de datos, N, es par, el valor mediana es (N/2) 2((N/2)+1) , mientras que si el número de datos es impar, el valor mediana es x((N +1)/2) , supuestos los datos ordenados de menor a mayor. • Moda. Definición 9 La moda, se define como el valor o los valores más frecuentes de la variable, es decir, a los que corresponde la mayor frecuencia. Cuando los datos están agrupados por clases, no puede determinarse qué valor es la moda; en este caso llamaremos clase modal a aquella a la que corresponde la mayor altura en el histograma (que no tiene porqué coincidir con la clase de mayor frecuencia). Comparación entre las medidas de tendencia central Como ya hemos señalado al definirla, la media es una medida que utiliza toda la información disponible, pues tiene en cuenta el valor de todos los datos. En cambio, la mediana es, en ese sentido, menos informativa, pues sólo tiene en cuenta la posición y no el valor. Por esa misma razón, la media es muy sensible a valores extremos. Por ello, un error en los datos puede modificarla por completo. Ejemplo: Para los datos 10, 15, 21, 50, la media es 24, desplazada hacia el valor 50 que es un valor extremo. Si los datos correctos hubiesen sido 10, 15, 21, 20, la media serı́a 16.5. Sin embargo, la mediana queda menos afectada por ese dato extremo: en el primer caso serı́a 18 y en el segundo, 17.5. Observación 6 A veces, el conjunto de datos está dividido en subgrupos, por ejemplo, los individuos de una clase divididos en hombres y mujeres, y se conoce la media de una caracterı́stica en cada subgrupo. A partir de esta información se puede obtener la media del conjunto total de datos: si x¯1 , x¯2 , . . . , x¯s son las medias en s subgrupos (disjuntos) con n1 , n2 , . . . , ns individuos cada uno, la media total será: x̄ = n1 x¯1 + n2 x¯2 + . . . + ns x¯s n1 + n2 + . . . + ns 16 Estadı́stica 2. Otras medidas de posición: Percentiles. Definición 10 Para cada valor p ∈ (0, 1), se denomina p-percentil y se denota por qp , al valor de la variable que divide a la distribución de frecuencias en dos partes, de forma que al menos el 100p% de los datos son menores o iguales que qp . Cálculo de los percentiles: qp = ⎧ ⎪ ⎨ x([pN ]+1) ⎪ ⎩ x(pN ) + x(pN +1) 2 si pN no es entero si pN es entero Definición 11 Se denominan cuartiles a los percentiles que dividen a la distribución en 4 partes iguales, es decir, - el 0.25-percentil, llamado primer cuartil, y denotado por Q1 . - el 0.5-percentil, que es la mediana. - el 0.75-percentil, llamado tercer cuartil, y denotado por Q3 . Definición 12 Se denominan deciles a los percentiles que dividen a la distribución en 10 partes iguales. Se denotan por d1 , d2 , . . . , d9 , siendo di el 10i -percentil, i = 1, 2, · · · , 9. Observación 7 A veces solo disponemos de la informacin de los datos agrupados en clases y no el valor de los datos, en esos casos se calculan valores aproximados de los percentiles, tomando como valor qp el valor del eje X en el que el polı́gono de frecuencias relativas acumuladas tiene por altura p: Si F1 , F2 , . . . , Fk son las frecuencias relativas acumuladas de las clases en que se agrupan los datos, existe i ∈ {1, 2, . . . k} con Fi−1 ≤ p < Fi . ( Se considera F0 = 0). El p-percentil será: p − Fi−1 qp = Li−1 + bi fi 4.2 Medidas de dispersión. Estas medidas indican lo próximos o alejados que están los datos, bien entre sı́, o respecto a alguna medida de centralización. • Rango o recorrido. Definición 13 Si x(1) , x(2) , . . . , x(k) son los datos, ordenados de menor a mayor, se denomina recorrido a x(k) − x(1) , es decir, a la diferencia entre el mayor y el menor dato. El recorrido es fácil de calcular, lo que hace que sea una medida muy utilizada, por ejemplo en control de calidad. Además tiene idénticas unidades que la variable. Sin embargo, presenta el inconveniente de ser una medida muy sensible a valores extremos. 17 Estadı́stica • Varianza. Definición 14 Se define la varianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2 , al valor: N N (xi − x̄)2 1 x2i ) − x̄2 s2 = =( N N i=1 i=1 Observación 8 Si los datos vienen dados por medio de una tabla de frecuencias, entonces s2 = k k (xi − x̄)2 ni = (xi − x̄)2 fi N i=1 i=1 La varianza tiene en cuenta todos los datos, es fácil de calcular, pero no tiene las mismas unidades que la variable; este inconveniente se salva considerando su raı́z cuadrada, que se denomina desviación tı́pica. Observación 9 Por razones que veremos más adelante, en muchos casos se utiliza otra medida, llamada cuasivarianza, y que a la hora de hacer inferencias, tiene mejores propiedades que la varianza. Se define la cuasivarianza de los datos directos x1 , x2 , . . . , xN , y se denota por s2c al valor: N (xi − x̄)2 s2c = i=1 N − 1 Notar que N s2 = (N − 1) s2c , y que si N es grande, la diferencia entre ambas medidas (varianza y cuasivarianza) es pequeña. Observación 10 En muchos programas de software estadı́stico, se llama varianza a la cuasivarianza (entre ellos el programa de Statgraphics). • Desviación tı́pica. Definición 15 Se define la desviación tı́pica o estándar de los datos directos x1 , x2 , . . . , xN , y se denota por s, al valor: N (xi − x̄)2 s= N i=1 Observación 11 Si los datos vienen dados por medio de una tabla de frecuencias, entonces s= k (xi − N i=1 x̄)2 ni = k (x i=1 i − x̄)2 fi Observación 12 Se define también la cuasidesviación tı́pica como: sc = N (xi − x̄)2 i=1 N − 1 18 Estadı́stica La desviación estándar se expresa en las mismas unidades que la variable, dando una idea más precisa de la variabilidad respecto de la media, como veremos en el teorema siguiente. Teorema 1 Desigualdad de Chebychev. Sea X una variable estadı́stica y k ∈ IR con k ≥ 1. Entonces, en el intervalo [x̄ − ks, x̄ + ks] se halla más del (1 − k12 )100% de las observaciones. (Expresándolo de otra forma: la frecuencia relativa del intervalo [x̄ − ks, x̄ + ks] es mayor que (1 − k12 ).) Demostración: Vamos a denotar por fr la frecuencia relativa de un conjunto de datos y por x1 , x2 , . . . , xN los valores directos de la variable X. Sean A1 = {xi : |xi − x̄| > ks} y A2 = {xi : |xi − x̄| ≤ ks}. A partir de la definición de varianza, se obtienen las siguientes desigualdades: s2 = N (xi − x̄)2 (xi − x̄)2 (xi − x̄)2 = + ≥ N N N i=1 xi ∈A1 xi ∈A2 ≥ xi ∈A1 Despejando, fr (A1 ) < 1 . k2 (ks)2 (xi − x̄)2 > = (ks)2 fr (A1 ) N N xi ∈A1 Como fr (A1 ) + fr (A2 ) = 1, se tiene que fr (A2 ) = fr ({xi : |xi − x̄| ≤ ks}) > 1 − 1 k2 y teniendo en cuenta la interpretación de la frecuencia relativa como tanto por ciento, se obtiene el resultado. Observación 13 Tomando k = 2 en el intervalo [x̄ − 2s, x̄ + 2s] se encuentra como mı́nimo el 75% de los datos. Tomando k = 3 en el intervalo [x̄ − 3s, x̄ + 3s] se encuentra como mı́nimo el 89% de los datos. • Rango intercuartı́lico. Definición 16 Se define el rango intercuartı́lico, y se denota por IQR, a: IQR = Q3 − Q1 . El rango intercuartı́lico es una medida de dispersión utilizada en relación con la mediana e indica la dispersión del 50% central de los datos. 19 Estadı́stica 4.3 Medidas de posición y de variación utilizadas para comparar conjuntos de datos • Valores o puntuaciones z Los valores z indican la posición relativa de un dato, respecto del conjunto. Definición 17 Se define el valor z del dato xi como el valor xi −x̄ . s Nos indica cuántas desviaciones tı́picas se aleja el dato respecto del valor de la media. • Coeficiente de variación. Definición 18 Para datos todos positivos o todos negativos, se define el coeficiente de variación de Pearson de la variable estadı́stica X como: s CV = . |x̄| Es una medida adimensional de la variabilidad relativa, pues considera la variabilidad de los datos en relación al tamaño de su media ( no es lo mismo una variabilidad de 200 euros en ganacias del orden de 1000 euros, que en ganancias del orden de 1 millón). Por ello, es la medida adecuada para comparar la variabilidad de dos conjuntos de datos distintos. Se puede interpretar el CV como el promedio del error de medida. 4.4 Otras caracterı́sticas observables de una distribución de datos 1. Asimetrı́a. Diremos que una distribución es simétrica si al considerar la representación gráfica de la distribución de frecuencias y trazar una perpendicular al eje de abcisas por x̄ ocurre lo siguiente: Hay el mismo número de valores a ambos lados de la perpendicular, equidistantes de x̄ dos a dos y tales que cada par de valores equidistantes a x̄ tienen la misma frecuencia. En este caso, la mediana coincide con x̄. Las medidas de asimetrı́a existentes son válidas para las denominadas distribuciones con forma de campana (campaniformes): Distribuciones unimodales simétricas o con ligera asimetrı́a; y para las distribuciones en forma de U. Indicar que las distribuciones en forma de campana son las más usuales. Cuando la distribución de los datos es campaniforme, las distribuciones asimétricas se clasifican en distribuciones asimétricas con cola a la derecha y distribuciones asimétricas con cola a la izquierda; el valor de x̄ − Me proporciona información del tipo de asimetrı́a: asimetrı́a a la derecha simétrica asimetrı́a a la izquierda 20 Estadı́stica 2. Apuntamiento o curtosis. Llamamos curtosis o apuntamiento el grado de concentración de los datos alrededor de la media. Las medidas de curtosis se aplican a distribuciones campaniformes y para estudiarlas es necesario definir previamente una distribución “tipo”, que vamos a tomar como modelo de referencia. Esta distribución va a ser la llamada distribución normal, que corresponde a fenómenos muy corrientes en la naturaleza y cuya representación gráfica es una campana de Gauss, dada por la fórmula: 2 1 (x−µ) 1 f (x) = √ e− 2 σ2 , σ 2π donde µ y σ son respectivamente la media y la desviación tı́pica. A esta distribución se le llama normal porque se presenta en numerosos casos, e implica que la mayorı́a de los valores de la variable están cerca de la media, y aquellos que se encuentran muy distanciados de ella, a ambos lados son poco numerosos. Tomando esta distribución como referencia diremos que una distribución puede ser más apuntada que la normal, es decir, leptocúrtica o menos apuntada, es decir, platicúrtica. A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica platicúrtica mesocúrtica leptocúrtica En definitiva, aquı́ lo que se estudia es la deformación, en sentido vertical, respecto de la normal, de una distribución. 5 Diagramas de caja o “Box-Plot”. Este tipo de diagramas son una representación semigráfica de la distribución, que permite observar las caracterı́sticas principales de la distribución y detectar posibles valores atı́picos. Son especialmente útiles para comparar la distribución de una variable en distintas poblaciones. Se ha pospuesto su estudio hasta ahora pues para su construcción son necesarias algunas de las medidas caracterı́sticas de la distribución, definidas en el apartado anterior. Construcción del Box-Plot Los pasos para su construcción son: 1. Ordenar los datos de menor a mayor y obtener los cuartiles Q1 , Q2 y Q3 . Se obtienen también otros dos valores, llamados lı́mite inferior (LI) y lı́mite superior (LS), dados por: LI = Q1 − 1.5IQR LS = Q3 + 1.5IQR Estadı́stica 21 2. A continuación se sitúan en un eje graduado estos 5 valores y tomando como base el segmento [Q1 , Q3 ] se dibuja un rectángulo con altura arbitraria; en él se indica la posición de la mediana, mediante una lı́nea vertical que divida al rectángulo. 4. Desde el centro de los lados verticales del rectángulo se dibujan sendas lı́neas hasta el menor dato mayor o igual que LI y el mayor dato menor o igual que LS (es decir, los datos más extremos del intervalo (LI,LS)). 5. Los datos que queden fuera del intervalo [LI, LS] se marcan con un punto o un asterisco, a la altura de las dos lı́neas dibujadas. Se denominan datos atı́picos y se clasifican en próximos y lejanos, según estén en [Q1 − 3IQR, Q3 + 3IQR] o aún más alejados. Ejemplo: Para los datos de la distancia de frenado, los cinco valores son: Q1 = 35, 9, Q3 = 39, 2, Me = 37, 3, LI = 30, 95 y LS = 44, 15 y el gráfico: Observación 14 El Box-Plot permite ver fácilmente caracterı́sticas como asimetrı́a, apuntamiento, variabilidad y puesto que se basa en la mediana y los cuartiles, medidas poco influenciables por datos atı́picos, proporciona en general una imagen adecuada de la distribución. También permite hacer comparaciones entre conjuntos distintos de datos, o subgrupos. Los datos siguientes corresponden al tiempo en segundos en pasar de 0 a 100 Km/h en un conjunto de vehı́culos subdivididos en cuanto al tipo de vehı́culo. Es fácil observar en el gráfico, por ejemplo, que las furgonetas son las que presentan menor variabilidad y los de tamaño pequeño son los de mayor variación. 22 Estadı́stica 6 Datos atı́picos Son datos que se alejan del conjunto global de datos, por ser inusualmente grandes o pequeños. Pueden ser datos reales, como una puntuación de 10 en un examen en el que la mayorı́a de las puntuaciones están entre 3 y 6, o la estatura de un individuo que mide 2m 10cm, en una clase de individuos con estaturas normales. También en ocasiones, aparecen como consecuencia de haber registrado de forma incorrecta un dato. Existen varios métodos para detectar los datos atı́picos; indicaremos dos: • La proporcionada por el diagrama de caja: considerar como atı́picos todos los datos fuera del intervalo [LI,LS]. En el ejemplo de la distancia de frenado, serı́a el dato 30,5. • El criterio de 3s: considerar como atı́pico todo dato que se aleje más de 3s de la media de los datos ( recordar que según la desigualdad de Chebysev, al menos el 88.89% de los datos está en el intervalo [x̄ − 3s, x̄ + 3s]). En el ejemplo de la distancia de frenado, con este criterio no existirı́an datos atı́picos. 7 Transformaciones. El objetivo de la descripción de datos es obtener una visión lo más clara posible de los datos, por ello, en muchas ocasiones será necesario hacer traslaciones o cambios de escala para obtener datos lo más simples y manejables posible. En otras ocasiones, como los principales métodos estadı́sticos son aplicables sólo a distribuciones simétricas, nos interesará transformar unos datos asimétricos en otros que no lo sean tanto. Vamos a distinguir entre dos tipos de transformaciones: Transformaciones lineales: Son del tipo Y=aX+b, con a, b ∈ IR; a = 0, es decir, traslaciones y cambios de escala; por tanto, producen cambios en cuanto a posición y dispersión, pero no varı́an la forma de la distribución: si x1 , . . . , xN son los datos directos de la variable X, sus transformados serán los datos y1 , . . . , yN , con yi = axi + b. Propiedades 3 1. ȳ = ax̄ + b. En efecto: ȳ = N yi i=1 =a N = N axi + b = N i=1 N xi + b = ax̄ + b i=1 N 2. s2Y = a2 s2X En efecto: s2Y = N N (yi − ȳ)2 (axi + b − (ax̄ + b))2 = = N N i=1 i=1 = a2 N (xi − x̄)2 = a2 s2X N i=1 Estadı́stica 23 3. sY = |a|sX 4. Me (Y ) = aMe (X) + b En efecto, si a > 0, los datos conservan su orden y por tanto, la mediana de la variable X se transforma en la mediana de la variable Y. Si a < 0, entonces los datos invierten su orden, pero entonces, la transformada de la mediana sigue dejando un 50% de los datos a cada lado. 5. Moda(Y ) = aModa(X) + b 6. Si a > 0 entonces Q1 (Y ) = aQ1 (X) + b y Q3 (Y ) = aQ3 (X) + b. Si a < 0 entonces Q1 (Y ) = aQ3 (X) + b y Q3 (Y ) = aQ1 (X) + b. (Se razona de igual forma que en la propiedad anterior). 7. IQR(Y ) = |a|IQR(X). Transformaciones no lineales √ Las transformaciones no lineales más usuales son: Y = X 2 , Y = X, Y = ln X e Y = X1 . Producen, además de cambios en la posición y dispersión, cambios en la forma. Se utilizan principalmente para promover simetrı́a.