T 04_2 - Monovardigital

Anuncio
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
TEMA 4 (II Parte).
MEDIDAS DE DISPERSION Y FORMA.
4.5. MEDIDAS DE DISPERSIÓN.
Cuando la mayoría de los valores de la variable se distribuyen muy cerca de los
valores centrales de ésta ( X , M e ), decimos que la serie es concentrada y en caso contrario que
es dispersa.
Supongamos que las notas de dos alumnos en cuatro exámenes son las siguientes:
Alumno A: 2, 8, 1, 9.
Alumno B: 4, 5, 6, 5.
Si calculamos la media aritmética veremos que en ambos casos vale 5, según esto los
alumnos no se diferencian. Pero es fácil ver que el alumno A es muy irregular (sus notas se
alejan del valor medio) cosa que no sucede para el alumno B, que obtuvo resultados próximos
a 5. Los parámetros de dispersión diferencian estas dos situaciones; de aquí su importancia.
4.5.1. RECORRIDO O RANGO
El recorrido o rango de una distribución se define como la diferencia entre los valores
mayor y menor de la variable.
R  X max  X min
Cuanto menor es el recorrido de una distribución mayor es el grado de representatividad
de los valores centrales. El recorrido presenta el inconveniente de que los datos extremos
influyen mucho en su calculo. De esta forma basta que uno de ellos se separe mucho, para que
el recorrido se vea sensiblemente afectado.
Para paliar en alguna medida este inconveniente se utiliza en ocasiones otro tipo de
rango, el rango intercuartilico, que además de solventar la dificultad expuesta anteriormente
concentra el 50% de los valores centrales de la serie estadística .
Rango intercuartilico: Q  Q3  Q1
Ejemplo: Calcular el recorrido y el rango intercuartilico de la siguiente serie:
3, 7, 7, 7, 8, 8, 8, 8, 15.
R  15  3  12
Q  87 1
3·9
 6,75
4
1·9
Q1 
 2,25
4
Q3 
7º elemento = 8
3er elemento = 7
Los procesos en los que mas se utiliza el Rango son en los controles de calidad, donde se
prefijan unos determinados límites para los valores de la variable, fuera de los cuales se
desecha el producto. El Rango no es una medida de dispersión muy significativa, pero es muy
fácil de calcular.
Profesor: Aristóteles de la E. Gosálbez.
28
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
4.5.2.VARIANZA Y DESVIACIÓN TIPICA.
Se define varianza de una distribución como la media aritmética de los cuadrados de
las desviaciones de los datos (diferencia entre cada valor y la media) respecto de su media
aritmética. La varianza se representa por S 2 , para su cálculo usaremos las siguientes fórmulas
dependiendo del tipo de distribución:
 x
n
Para distribuciones de tipo I : S 2 
i 1
 X
2
i
N
 x
n
Para distribuciones de tipo II y tipo III : S 2 
i 1
 X  ·ni
2
i
N
Con frecuencia X no es un número entero, entonces las desviaciones ( xi  X ) suelen
ser números decimales. Las operaciones de elevar al cuadrado cada una de las desviaciones y
multiplicarlas por las frecuencias respectivas pueden resultar sumamente laboriosas, por ello se
suele usar otra fórmula en la que se evitan estos cálculos:
n
S 
2
x
i 1
2
i
N
ni
X2
La desviación típica se obtiene de la raíz cuadrada positiva de la varianza, se representa por S .
n
S S =
2
x
i 1
2
i
N
ni
X2
Ejemplo: Averiguar la varianza y la desviación típica de la siguiente distribución (número de
horas semanales en las que 63 personas realizan alguna actividad deportiva):
xi
ni
3
6
10
12
15
16
7
10
14
20
8
4
2
xi
9
36
100
144
225
256
N = 63
n
S 
2
x
i 1
2
i
N
ni
2
xi ni
63
360
1400
2880
1800
1024
xi ni
7527
645
21
60
140
240
120
64
2
7527  645
X =

  119,48  104,86  14,62  VARIANZA
63  63 
2
S  14,62  3,82  DESVIACIÓN TIPICA
Profesor: Aristóteles de la E. Gosálbez.
29
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
OBSERVACIONES:
- Tanto la varianza como la desviación típica dependen de todos los valores de la
distribución.
- En la práctica estadística el cálculo de la varianza y de la desviación típica se
convierte en el mejor estimador de la dispersión de los elementos de una distribución,
utilizándose junto con las medidas de posición central, principalmente la media.
- La varianza tiene el inconveniente de que no viene expresada en las mismas unidades
que los datos, debido a que las desviaciones van elevadas al cuadrado. En cambio, la
desviación típica viene expresada en las mismas unidades que los datos de la distribución, de
ahí que la desviación típica resulte más interesante que la varianza.
4.6. UTILIZACIÓN CONJUNTA DE X Y S
Ya hemos visto que la media de un conjunto de datos se encuentra, aproximadamente,
hacia el centro de la distribución. La desviación típica nos informa sobre la dispersión que
tienen los datos respecto de la media.
Utilizando ambos parámetros conjuntamente podemos obtener resultados muy
importantes sobre la distribución.
Así, por ejemplo, en las distribuciones unimodales, simétricas o ligeramente asimétricas
(Distribuciones Normales), se verifica que:
- En el intervalo ( X  S , X  S ) se encuentra el 68% de los datos.
- En el intervalo ( X  2S , X  2S ) se encuentra el 95% de los datos.
- En el intervalo ( X  3S , X  3S ) se encuentra el 99% de los datos.
Estos resultados son consecuencia de lo que en estadística se conoce con el nombre de
desigualdades de Tchebicheff.
Ejemplo: Se ha medido el peso de 46 personas, los datos vienen reflejados en la
siguiente tabla:
Peso
Nº de personas
50-55
2
55-60
5
60-65
8
65-70
12
70-75
10
75-80
6
80-85
3
Calculando la media y la desviación típica tenemos: x  68,26 y S  7,58
Profesor: Aristóteles de la E. Gosálbez.
30
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
En el intervalo ( X  S , X  S ) = ( 68,26  7,58, 68,26  7,58 ) = (60,58 , 75,84) se encuentran
30 individuos, es decir, aproximadamente el 68% de la población.
En el intervalo ( X  2S , X  2S ) = ( 68,26  2  7,58, 68,26  2  7,58 ) = (53,10 , 83,42) se
encuentran 41 individuos, es decir, aproximadamente el 95% de la población.
En el intervalo ( X  3S , X  3S ) = ( 68,26  3  7,58, 68,26  3  7,58 ) = (45,52, 91) se
encuentran 46 individuos, es decir, el 100% de la población.
4.7. MEDIDAS DE DISPERSIÓN RELATIVA. COEFICIENTE DE VARIACIÓN.
Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen
dadas por la misma unidad, se utiliza un nuevo parámetro, que llamaremos coeficiente de
variación, se designa C V y viene dado por:
S
CV 
X
Como el coeficiente de variación representa el número de veces que la desviación típica
contiene a la media, cuanto mayor sea este coeficiente, mayor dispersión existirá por lo que
menor será la representatividad de la media aritmética y menor será la homogeneidad de los
valores de la distribución.
Para el uso del coeficiente de variación se acostumbra a expresarlo en tantos por ciento:
S
C V  ·100
X
También podemos medir la representatividad de la media mediante el coeficiente de
variación, valorando que a partir del 30% del su valor, la media empieza a ser poco
representativa
Ejemplo: En una empresa se determina el rendimiento medio de los trabajadores en
una escala arbitraria que da 80 puntos de media y 20 de desviación típica. Se hace lo mismo
con los ingresos, dando 12.000 € al año con una desviación típica de 2.500 €. Para averiguar
qué serie contiene mayor dispersión no podemos comparar las desviaciones típicas de ambas
series; ya que miden cosas distintas. El cálculo del coeficiente de variación indica que la serie
que proporciona el rendimiento de los trabajadores es algo más dispersa que la de los ingresos:
20
·100  25%
80
2500
 21%
Ingresos.................... CV 
12000
Rendimiento ............C V 
4.8. MEDIDAS DE FORMA.
Para realizar un resumen completo de la variable objeto de estudio debemos analizar,
además de las medidas de posición central y de dispersión, otra serie de medidas que
caracterizan de forma más precisa el comportamiento de dicha variable ya que podemos
encontrarnos con distribuciones que presenten el mismo valor central e igual grado de
dispersión, y diferir, en la forma o aspecto del histograma o diagrama de barras. Estas medidas
se conocen con el nombre de medidas de forma y pueden ser de dos tipos: de asimetría o de
curtosis.
Profesor: Aristóteles de la E. Gosálbez.
31
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
4.8.1. MEDIDAS DE ASIMETRÍA.
El objetivo de estas medidas es determinar, sin necesidad de dibujar la distribución de
frecuencias, la deformación horizontal de los valores de la variable analizada respecto a un
valor central, generalmente la media. Se trata realmente de determinar el grado de asimetría de
la distribución (concepto que se explico en el apartado 4.3.). Una distribución es simétrica si a
la izquierda y derecha de la media existe el mismo número de valores, de manera que
equidisten dos a dos de la media y tengan, además, cada uno de ellos la misma frecuencia.
El mayor o menor grado de desplazamiento se puede determinar mediante los
siguientes coeficientes que cuantifican la asimetría de la variable.
Coeficiente de asimetría de Pearson:
Es el coeficiente de asimetría más utilizado, si bien solo es aplicable en las
distribuciones que presentan una sola moda y cuya gráfica tiene forma de campana. Está dado
por la fórmula:
As 
X  Mo
S
O también utilizando el valor de la mediana se podría obtener de forma aproximada
con esta fórmula:
3X  M e 
As 
S
Obsérvese que el coeficiente de asimetría de Pearson no tiene unidades. Los valores
que estos coeficientes adoptan pueden ser:
Asimetría por la derecha:
Mo< Me< X .............. As > 0
Simétrica:
Mo = Me= X ............. As = 0
Asimétrica por la izquierda
Mo> Me> X .............. As < 0
Coeficiente de asimetría de Fisher: Este coeficiente se define en la forma
 x
n
g1 
1 i 1
·
S3
 X  ni
3
i
N
Cuyo cálculo es más complicado que el anterior coeficiente, si bien tiene la ventaja de
ser aplicable a toda distribución estadística y, además, es preferible su utilización cuando se
trate de medir asimetrías relativamente pequeñas (con media aritmética y moda coincidentes o
de gran proximidad).
Cuando la simetría es perfecta el coeficiente g1 se hace igual a cero, tomando valores
positivos o negativos, según que la asimetría sea derecha o izquierda, respectivamente.
Profesor: Aristóteles de la E. Gosálbez.
32
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
4.8.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS.
Las medidas de apuntamiento o curtosis, que tratan de valorar la estilización de la
representación gráfica de una distribución estadística, tienen significado válido únicamente en
el caso de distribuciones con simetría o ligera asimetría.
Estos parámetros tratan de medir la mayor o menor cantidad de datos que se agrupan en
torno a la media, de tal forma, que cuanto mayor sea la concentración mayor será el
apuntamiento, y viceversa. Esto siempre respecto de una distribución simétrica o casi.
Los tres tipos de distribuciones atendiendo a la curtosis quedan reflejadas en las
representaciones gráficas que se dan a continuación:
A fin de medir el grado de apuntamiento de una distribución, utilizaremos el coeficiente
de aplastamiento de Fisher, que viene dado por la siguiente fórmula:
 x
n
Ap 
1 i 1
·
S4
 X  ni
4
i
N
3
Este coeficiente lo podemos interpretar de la siguiente forma:
Ap>o Distribución leptocúrtica (apuntada).
Ap=0 distribución mesocúrtica (normal).
Ap<0 distribución platicúrtica (aplastada).
Profesor: Aristóteles de la E. Gosálbez.
33
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
Ejemplo: La distribución de las acciones de una empresa entre sus propietarios está dada por la
siguiente tabla, estudiar la simetría y el apuntamiento de esta distribución.:
Acciones
0-4
4- 10
10-16
16-20
20-24
24-32
32-36
36-42
42-60
xi
2
7
13
18
22
28
34
39
51
TOTAL
ni
2
5
8
15
30
16
7
6
1
x i ni
4
35
104
270
660
448
238
234
51
xi2 ni
8
245
1352
4860
14520
12544
8092
9126
2601
90
2044
53348
X 
hi
0,5
0,83
1,33
3,75
7,5
2
1,75
1
0,06
xi  X
-20,7
-15,7
-9,7
-4,7
-0,7
5,3
11,3
16,3
28,3
( xi  X ) 4 ni
367207
303787
70823
7320
7
12625
114133
423547
641425
1940874
2044
 22,7
90
de donde:
2
·4  21,4
2  3,75
M o  20 
2
53348  2044
S 

  592,75  515,79  76,96
90
 90 
2
S  76,96  8,77
Como se trata de una distribución en forma de campana, con una sola moda,
calcularíamos el coeficiente de asimetría de Pearson:
As 
22,7  21,14
 0,15
8,77
Se trata, pues de una distribución que presenta una asimetría por la derecha.
Para averiguar el tipo de apuntamiento vamos a calcular el coeficiente de aplastamiento
de Fisher:
 x
n
Ap 
1 i 1
·
S4
 X  ni
4
i
N
 3=
1 1940874
·
 3  0,6
90
8,774
Se trata de un una distribución de tipo leptocúrtico, esto quiere decir que una gran
cantidad de datos se agrupan alrededor de la media.
Profesor: Aristóteles de la E. Gosálbez.
34
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
4.8. DIAGRAMAS DE CAJAS Y BIGOTE.
Los diagramas de Cajas y Bigote, también llamados Boxplots o Box and Whiskers,
son representaciones graficas muy útiles, en las de una forma fácil se pueden estudiar el centro,
la dispersión y la simetría de un distribución estadística a través de cinco parámetros
estadísticos:
-
Valor mínimo ( X min )
-
Primer cuartil (Q1 )
-
Mediana ( M e )
-
Tercer cuartil (Q3 )
-
Valor máximo ( X max )
A partir de estos cinco parámetros, podemos deducir otros dos:
-
El rango R  X max  X min
El Rango intercuartilico Q  Q3  Q1
Se construye de la siguiente forma:
-
Se dibuja una caja rectangular donde los bordes izquierdo y derecho se
corresponden con el primer y tercer cuartil. ( CAJA ).
-
En la Caja se dibuja una línea vertical que corresponde a la mediana.
-
Por el borde izquierdo de la caja se dibujan dos líneas horizontales ( BIGOTES )
que van: la primera desde Q1 hasta un valor que es el máximo entre X min y
Q1  1,5  Q , y la segunda, que va desde Q3 hasta un valor que es el mínimo
entre X max y Q3  1,5  Q
A la hora de interpretar un diagrama de caja hay que tener en cuenta las siguientes
cuestiones:
- Todo valor de la variable que quede fuera de los extremos de los bigotes se representa
mediante un asterisco y se denomina valor atípico o OUTLIER. Estos valores hay que
estudiarlos por separado, pues, si se estudian conjuntamente con los demás, pueden
distorsionar la forma de la distribución en cuanto a su centro, simetría o concentración.
- Cada uno de los cuatro tramos definidos en el diagrama tienen el mismo número de
elementos, por lo que si un tramo es mas corto que otro, indica concentración de datos
en ese tramo.
Ejemplo: Los resultados del nivel de colesterol (ordenado de menor a mayor) medido
en 36 personas a las que se ha practicado una analítica son:
128-129-134-137-147-147-148-149-150-150-156-156-157-158-158-159-160-162
167-169-177-177-179-185-186-190-198-203-209-210-220-230-250-255-270-290
Profesor: Aristóteles de la E. Gosálbez.
35
Estadística para Relaciones Laborales.
TEMA IV 2ª Parte.
Calculados los valores correspondientes:
Media = 179,17 Mediana = 164,50 Desviación típica = 40,324 Rango = 162 Máximo = 128
Mínimo = 128 Cuartil 1º = 150 Cuartil 2º = 201,75 Rango intercuartilico = 51,75
Repasemos el cálculo de los valores que vamos a usar en la construcción del diagrama:
-
La caja queda delimitada por Q1  150 y Q3  201,75 . La mediana es M e  164,50
-
El rango intercuartilico es Q  Q3  Q1  51,75 . Así pues 1,5  Q  77,625
-
El bigote de la izquierda llega hasta Max( X min y Q1  1,5  Q)  Max(128 y 72,375)  128
-
El bigote de la derecha llega Min ( X max y Q3  1,5  Q)  Min (290 y 279,375)  279,375
128
150 164,5
201,75
279,35
Outlier
(290)
*
Xmin
Q1 Me
Q3
Xmax
En este diagrama se puede observar entre otras cosas:
-
El valor 290 es un outlier y habría que estudiarlo por separado.
-
El bigote de la izquierda es mas corto que el de la derecha. Esto se interpreta
diciendo que la cuarta parte de los niveles mas bajos de colesterol están más
concentrados que la cuarta parte de los niveles mas altos.
-
La parte izquierda de la caja (niveles entre 150 y 164,5) es menor que la parte
derecha niveles entre (164,5 y 201,75). Diremos que los niveles de colesterol
comprendidos entre el 25% y el 50% están más concentrados que los comprendidos
entre el 50% y el 75%.
-
La distribución tiene una asimetría positiva o a la derecha.
Profesor: Aristóteles de la E. Gosálbez.
36
Descargar