Estadística para Relaciones Laborales. TEMA IV 2ª Parte. TEMA 4 (II Parte). MEDIDAS DE DISPERSION Y FORMA. 4.5. MEDIDAS DE DISPERSIÓN. Cuando la mayoría de los valores de la variable se distribuyen muy cerca de los valores centrales de ésta ( X , M e ), decimos que la serie es concentrada y en caso contrario que es dispersa. Supongamos que las notas de dos alumnos en cuatro exámenes son las siguientes: Alumno A: 2, 8, 1, 9. Alumno B: 4, 5, 6, 5. Si calculamos la media aritmética veremos que en ambos casos vale 5, según esto los alumnos no se diferencian. Pero es fácil ver que el alumno A es muy irregular (sus notas se alejan del valor medio) cosa que no sucede para el alumno B, que obtuvo resultados próximos a 5. Los parámetros de dispersión diferencian estas dos situaciones; de aquí su importancia. 4.5.1. RECORRIDO O RANGO El recorrido o rango de una distribución se define como la diferencia entre los valores mayor y menor de la variable. R X max X min Cuanto menor es el recorrido de una distribución mayor es el grado de representatividad de los valores centrales. El recorrido presenta el inconveniente de que los datos extremos influyen mucho en su calculo. De esta forma basta que uno de ellos se separe mucho, para que el recorrido se vea sensiblemente afectado. Para paliar en alguna medida este inconveniente se utiliza en ocasiones otro tipo de rango, el rango intercuartilico, que además de solventar la dificultad expuesta anteriormente concentra el 50% de los valores centrales de la serie estadística . Rango intercuartilico: Q Q3 Q1 Ejemplo: Calcular el recorrido y el rango intercuartilico de la siguiente serie: 3, 7, 7, 7, 8, 8, 8, 8, 15. R 15 3 12 Q 87 1 3·9 6,75 4 1·9 Q1 2,25 4 Q3 7º elemento = 8 3er elemento = 7 Los procesos en los que mas se utiliza el Rango son en los controles de calidad, donde se prefijan unos determinados límites para los valores de la variable, fuera de los cuales se desecha el producto. El Rango no es una medida de dispersión muy significativa, pero es muy fácil de calcular. Profesor: Aristóteles de la E. Gosálbez. 28 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. 4.5.2.VARIANZA Y DESVIACIÓN TIPICA. Se define varianza de una distribución como la media aritmética de los cuadrados de las desviaciones de los datos (diferencia entre cada valor y la media) respecto de su media aritmética. La varianza se representa por S 2 , para su cálculo usaremos las siguientes fórmulas dependiendo del tipo de distribución: x n Para distribuciones de tipo I : S 2 i 1 X 2 i N x n Para distribuciones de tipo II y tipo III : S 2 i 1 X ·ni 2 i N Con frecuencia X no es un número entero, entonces las desviaciones ( xi X ) suelen ser números decimales. Las operaciones de elevar al cuadrado cada una de las desviaciones y multiplicarlas por las frecuencias respectivas pueden resultar sumamente laboriosas, por ello se suele usar otra fórmula en la que se evitan estos cálculos: n S 2 x i 1 2 i N ni X2 La desviación típica se obtiene de la raíz cuadrada positiva de la varianza, se representa por S . n S S = 2 x i 1 2 i N ni X2 Ejemplo: Averiguar la varianza y la desviación típica de la siguiente distribución (número de horas semanales en las que 63 personas realizan alguna actividad deportiva): xi ni 3 6 10 12 15 16 7 10 14 20 8 4 2 xi 9 36 100 144 225 256 N = 63 n S 2 x i 1 2 i N ni 2 xi ni 63 360 1400 2880 1800 1024 xi ni 7527 645 21 60 140 240 120 64 2 7527 645 X = 119,48 104,86 14,62 VARIANZA 63 63 2 S 14,62 3,82 DESVIACIÓN TIPICA Profesor: Aristóteles de la E. Gosálbez. 29 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. OBSERVACIONES: - Tanto la varianza como la desviación típica dependen de todos los valores de la distribución. - En la práctica estadística el cálculo de la varianza y de la desviación típica se convierte en el mejor estimador de la dispersión de los elementos de una distribución, utilizándose junto con las medidas de posición central, principalmente la media. - La varianza tiene el inconveniente de que no viene expresada en las mismas unidades que los datos, debido a que las desviaciones van elevadas al cuadrado. En cambio, la desviación típica viene expresada en las mismas unidades que los datos de la distribución, de ahí que la desviación típica resulte más interesante que la varianza. 4.6. UTILIZACIÓN CONJUNTA DE X Y S Ya hemos visto que la media de un conjunto de datos se encuentra, aproximadamente, hacia el centro de la distribución. La desviación típica nos informa sobre la dispersión que tienen los datos respecto de la media. Utilizando ambos parámetros conjuntamente podemos obtener resultados muy importantes sobre la distribución. Así, por ejemplo, en las distribuciones unimodales, simétricas o ligeramente asimétricas (Distribuciones Normales), se verifica que: - En el intervalo ( X S , X S ) se encuentra el 68% de los datos. - En el intervalo ( X 2S , X 2S ) se encuentra el 95% de los datos. - En el intervalo ( X 3S , X 3S ) se encuentra el 99% de los datos. Estos resultados son consecuencia de lo que en estadística se conoce con el nombre de desigualdades de Tchebicheff. Ejemplo: Se ha medido el peso de 46 personas, los datos vienen reflejados en la siguiente tabla: Peso Nº de personas 50-55 2 55-60 5 60-65 8 65-70 12 70-75 10 75-80 6 80-85 3 Calculando la media y la desviación típica tenemos: x 68,26 y S 7,58 Profesor: Aristóteles de la E. Gosálbez. 30 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. En el intervalo ( X S , X S ) = ( 68,26 7,58, 68,26 7,58 ) = (60,58 , 75,84) se encuentran 30 individuos, es decir, aproximadamente el 68% de la población. En el intervalo ( X 2S , X 2S ) = ( 68,26 2 7,58, 68,26 2 7,58 ) = (53,10 , 83,42) se encuentran 41 individuos, es decir, aproximadamente el 95% de la población. En el intervalo ( X 3S , X 3S ) = ( 68,26 3 7,58, 68,26 3 7,58 ) = (45,52, 91) se encuentran 46 individuos, es decir, el 100% de la población. 4.7. MEDIDAS DE DISPERSIÓN RELATIVA. COEFICIENTE DE VARIACIÓN. Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas por la misma unidad, se utiliza un nuevo parámetro, que llamaremos coeficiente de variación, se designa C V y viene dado por: S CV X Como el coeficiente de variación representa el número de veces que la desviación típica contiene a la media, cuanto mayor sea este coeficiente, mayor dispersión existirá por lo que menor será la representatividad de la media aritmética y menor será la homogeneidad de los valores de la distribución. Para el uso del coeficiente de variación se acostumbra a expresarlo en tantos por ciento: S C V ·100 X También podemos medir la representatividad de la media mediante el coeficiente de variación, valorando que a partir del 30% del su valor, la media empieza a ser poco representativa Ejemplo: En una empresa se determina el rendimiento medio de los trabajadores en una escala arbitraria que da 80 puntos de media y 20 de desviación típica. Se hace lo mismo con los ingresos, dando 12.000 € al año con una desviación típica de 2.500 €. Para averiguar qué serie contiene mayor dispersión no podemos comparar las desviaciones típicas de ambas series; ya que miden cosas distintas. El cálculo del coeficiente de variación indica que la serie que proporciona el rendimiento de los trabajadores es algo más dispersa que la de los ingresos: 20 ·100 25% 80 2500 21% Ingresos.................... CV 12000 Rendimiento ............C V 4.8. MEDIDAS DE FORMA. Para realizar un resumen completo de la variable objeto de estudio debemos analizar, además de las medidas de posición central y de dispersión, otra serie de medidas que caracterizan de forma más precisa el comportamiento de dicha variable ya que podemos encontrarnos con distribuciones que presenten el mismo valor central e igual grado de dispersión, y diferir, en la forma o aspecto del histograma o diagrama de barras. Estas medidas se conocen con el nombre de medidas de forma y pueden ser de dos tipos: de asimetría o de curtosis. Profesor: Aristóteles de la E. Gosálbez. 31 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. 4.8.1. MEDIDAS DE ASIMETRÍA. El objetivo de estas medidas es determinar, sin necesidad de dibujar la distribución de frecuencias, la deformación horizontal de los valores de la variable analizada respecto a un valor central, generalmente la media. Se trata realmente de determinar el grado de asimetría de la distribución (concepto que se explico en el apartado 4.3.). Una distribución es simétrica si a la izquierda y derecha de la media existe el mismo número de valores, de manera que equidisten dos a dos de la media y tengan, además, cada uno de ellos la misma frecuencia. El mayor o menor grado de desplazamiento se puede determinar mediante los siguientes coeficientes que cuantifican la asimetría de la variable. Coeficiente de asimetría de Pearson: Es el coeficiente de asimetría más utilizado, si bien solo es aplicable en las distribuciones que presentan una sola moda y cuya gráfica tiene forma de campana. Está dado por la fórmula: As X Mo S O también utilizando el valor de la mediana se podría obtener de forma aproximada con esta fórmula: 3X M e As S Obsérvese que el coeficiente de asimetría de Pearson no tiene unidades. Los valores que estos coeficientes adoptan pueden ser: Asimetría por la derecha: Mo< Me< X .............. As > 0 Simétrica: Mo = Me= X ............. As = 0 Asimétrica por la izquierda Mo> Me> X .............. As < 0 Coeficiente de asimetría de Fisher: Este coeficiente se define en la forma x n g1 1 i 1 · S3 X ni 3 i N Cuyo cálculo es más complicado que el anterior coeficiente, si bien tiene la ventaja de ser aplicable a toda distribución estadística y, además, es preferible su utilización cuando se trate de medir asimetrías relativamente pequeñas (con media aritmética y moda coincidentes o de gran proximidad). Cuando la simetría es perfecta el coeficiente g1 se hace igual a cero, tomando valores positivos o negativos, según que la asimetría sea derecha o izquierda, respectivamente. Profesor: Aristóteles de la E. Gosálbez. 32 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. 4.8.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS. Las medidas de apuntamiento o curtosis, que tratan de valorar la estilización de la representación gráfica de una distribución estadística, tienen significado válido únicamente en el caso de distribuciones con simetría o ligera asimetría. Estos parámetros tratan de medir la mayor o menor cantidad de datos que se agrupan en torno a la media, de tal forma, que cuanto mayor sea la concentración mayor será el apuntamiento, y viceversa. Esto siempre respecto de una distribución simétrica o casi. Los tres tipos de distribuciones atendiendo a la curtosis quedan reflejadas en las representaciones gráficas que se dan a continuación: A fin de medir el grado de apuntamiento de una distribución, utilizaremos el coeficiente de aplastamiento de Fisher, que viene dado por la siguiente fórmula: x n Ap 1 i 1 · S4 X ni 4 i N 3 Este coeficiente lo podemos interpretar de la siguiente forma: Ap>o Distribución leptocúrtica (apuntada). Ap=0 distribución mesocúrtica (normal). Ap<0 distribución platicúrtica (aplastada). Profesor: Aristóteles de la E. Gosálbez. 33 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. Ejemplo: La distribución de las acciones de una empresa entre sus propietarios está dada por la siguiente tabla, estudiar la simetría y el apuntamiento de esta distribución.: Acciones 0-4 4- 10 10-16 16-20 20-24 24-32 32-36 36-42 42-60 xi 2 7 13 18 22 28 34 39 51 TOTAL ni 2 5 8 15 30 16 7 6 1 x i ni 4 35 104 270 660 448 238 234 51 xi2 ni 8 245 1352 4860 14520 12544 8092 9126 2601 90 2044 53348 X hi 0,5 0,83 1,33 3,75 7,5 2 1,75 1 0,06 xi X -20,7 -15,7 -9,7 -4,7 -0,7 5,3 11,3 16,3 28,3 ( xi X ) 4 ni 367207 303787 70823 7320 7 12625 114133 423547 641425 1940874 2044 22,7 90 de donde: 2 ·4 21,4 2 3,75 M o 20 2 53348 2044 S 592,75 515,79 76,96 90 90 2 S 76,96 8,77 Como se trata de una distribución en forma de campana, con una sola moda, calcularíamos el coeficiente de asimetría de Pearson: As 22,7 21,14 0,15 8,77 Se trata, pues de una distribución que presenta una asimetría por la derecha. Para averiguar el tipo de apuntamiento vamos a calcular el coeficiente de aplastamiento de Fisher: x n Ap 1 i 1 · S4 X ni 4 i N 3= 1 1940874 · 3 0,6 90 8,774 Se trata de un una distribución de tipo leptocúrtico, esto quiere decir que una gran cantidad de datos se agrupan alrededor de la media. Profesor: Aristóteles de la E. Gosálbez. 34 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. 4.8. DIAGRAMAS DE CAJAS Y BIGOTE. Los diagramas de Cajas y Bigote, también llamados Boxplots o Box and Whiskers, son representaciones graficas muy útiles, en las de una forma fácil se pueden estudiar el centro, la dispersión y la simetría de un distribución estadística a través de cinco parámetros estadísticos: - Valor mínimo ( X min ) - Primer cuartil (Q1 ) - Mediana ( M e ) - Tercer cuartil (Q3 ) - Valor máximo ( X max ) A partir de estos cinco parámetros, podemos deducir otros dos: - El rango R X max X min El Rango intercuartilico Q Q3 Q1 Se construye de la siguiente forma: - Se dibuja una caja rectangular donde los bordes izquierdo y derecho se corresponden con el primer y tercer cuartil. ( CAJA ). - En la Caja se dibuja una línea vertical que corresponde a la mediana. - Por el borde izquierdo de la caja se dibujan dos líneas horizontales ( BIGOTES ) que van: la primera desde Q1 hasta un valor que es el máximo entre X min y Q1 1,5 Q , y la segunda, que va desde Q3 hasta un valor que es el mínimo entre X max y Q3 1,5 Q A la hora de interpretar un diagrama de caja hay que tener en cuenta las siguientes cuestiones: - Todo valor de la variable que quede fuera de los extremos de los bigotes se representa mediante un asterisco y se denomina valor atípico o OUTLIER. Estos valores hay que estudiarlos por separado, pues, si se estudian conjuntamente con los demás, pueden distorsionar la forma de la distribución en cuanto a su centro, simetría o concentración. - Cada uno de los cuatro tramos definidos en el diagrama tienen el mismo número de elementos, por lo que si un tramo es mas corto que otro, indica concentración de datos en ese tramo. Ejemplo: Los resultados del nivel de colesterol (ordenado de menor a mayor) medido en 36 personas a las que se ha practicado una analítica son: 128-129-134-137-147-147-148-149-150-150-156-156-157-158-158-159-160-162 167-169-177-177-179-185-186-190-198-203-209-210-220-230-250-255-270-290 Profesor: Aristóteles de la E. Gosálbez. 35 Estadística para Relaciones Laborales. TEMA IV 2ª Parte. Calculados los valores correspondientes: Media = 179,17 Mediana = 164,50 Desviación típica = 40,324 Rango = 162 Máximo = 128 Mínimo = 128 Cuartil 1º = 150 Cuartil 2º = 201,75 Rango intercuartilico = 51,75 Repasemos el cálculo de los valores que vamos a usar en la construcción del diagrama: - La caja queda delimitada por Q1 150 y Q3 201,75 . La mediana es M e 164,50 - El rango intercuartilico es Q Q3 Q1 51,75 . Así pues 1,5 Q 77,625 - El bigote de la izquierda llega hasta Max( X min y Q1 1,5 Q) Max(128 y 72,375) 128 - El bigote de la derecha llega Min ( X max y Q3 1,5 Q) Min (290 y 279,375) 279,375 128 150 164,5 201,75 279,35 Outlier (290) * Xmin Q1 Me Q3 Xmax En este diagrama se puede observar entre otras cosas: - El valor 290 es un outlier y habría que estudiarlo por separado. - El bigote de la izquierda es mas corto que el de la derecha. Esto se interpreta diciendo que la cuarta parte de los niveles mas bajos de colesterol están más concentrados que la cuarta parte de los niveles mas altos. - La parte izquierda de la caja (niveles entre 150 y 164,5) es menor que la parte derecha niveles entre (164,5 y 201,75). Diremos que los niveles de colesterol comprendidos entre el 25% y el 50% están más concentrados que los comprendidos entre el 50% y el 75%. - La distribución tiene una asimetría positiva o a la derecha. Profesor: Aristóteles de la E. Gosálbez. 36