Seminari 1. Estadística CP Problema 1. Exercici 1.29 (pàgina 37 capítul 1 Moore – 2a edició) Els més rics. A EEUU la distribució dels ingressos individuals és molt esbiaixada cap a la dreta. En 1997 la mitja i la mitjana dels ingressos de l’1% dels nord-americans més rics era de 330.000 i 676.000 dólars, respectivament. ¿Quin d’aquests valors correspon a la mitja i quin a la mediana? Justifica la teva resposta. La mediana és de 330.000 dòlars i la renta mitja és de 675.000 dòlars. És una distribució esbiaixada cap a la dreta, el costat dret de la distribució (el que conté la meitat de les observacions més grans) s’estén molt més lluny que el costat esquerre. La mitja és una mesura poc robusta en el sentit que és sensible a observacions extremes i la mediana és una mesura de centre robusta. En altres paraules, davant la presència d’observacions inusualment elevades, la mitja també es veurà incrementada en excés prenent en conseqüència un valor més gran que la mediana. Així doncs, com en una distribució esbiaixada cap a la dreta la mitja serà també desplaçada la dreta en extrem (però no la mediana) concloem que 675.000 dòlars és el valor de la mitja i 330.000 dòlars el de la mediana. 1 Problema 2. Ejercicio 1.40 Porcentaje del PIB destinado a educación (página 51 capitulo 1 Moore – 2a edición). a) Haz una lista (con los valores ordenados) de los datos del porcentaje del PIB destinado a educación pública de los Estados de la Unión Europea y otra lista con los datos de los Estados de Este. Estas dos listas son los dos conjuntos de datos que queremos comparar En primer lugar debemos entrar los datos creando tres variables que podemos llamar Estado, Región y PIB_ep. Para crear dos listas separadas a partir del conjunto de datos completo podemos utilizar el siguiente procedimiento, aunque no es la única manera de resolver la cuestión. Consideremos la secuencia DATOS + SELECCIONAR CASOS Activar “Si se satisface la condición” y seleccionar “Si”, se obtiene una nueva ventana. Ponemos la variable “Región” en la ventanilla a la derecha y escribimos =”UE” (también podemos escribir directamente Región=”UE”). Fíjate que UE está escrito entre comillas porque no se trata de un número, sino de una palabra. 2 Después de CONTINUAR obtenemos otra vez la ventana de antes y seleccionamos “Copiar casos seleccionados a un nuevo conjunto de datos” y ponemos un nombre como UE (por ejemplo). En la nueva ventana que contiene solo los datos con Región igual a UE para ordenar los casos hacemos DATOS + ORDENAR CASOS y ponemos como variable segundo la cual ordenar “PIB_EP”. Hacemos el mismo procedimiento seleccionando Región=”EE” para crear una lista que contenga solo los datos relativos a los Países del Este. (También podemos decidir seleccionar “Descartar casos no seleccionados” o “Eliminar casos no seleccionados” bajo la opción “Resultado”. En el primer caso la ventana de los datos nos muestra todos los datos pero indica los datos no seleccionados con una línea. También en este caso SPSS crea una variable filter que puede tomar el valor de 1 o 0 si el caso es entre los seleccionados o no. En el segundo caso SPSS elimina directamente todos los casos no seleccionados. ¡Cuidado! Si el conjunto de datos inicial no esta salvado, no se puede volver detrás). b) Dibuja los gráficos y calcula resúmenes numéricos para comparar ambas distribuciones. Describe brevemente lo que observas Para comparar dos distribuciones podemos hacer histogramas poniendo ‘porcentaje’ en el eje de Y O también diagramas de cajas. Para dibujar el histograma seleccionamos GRAFICOS + INTERACTIVOS + HISTOGRAMA. En asignar variables, desplazamos al eje Y ‘Porcentaje’ y en el eje X asignamos “PIB_ep”. En ‘Histograma’ podemos mantener la opción ‘Asignar automáticamente intervalos’. En ‘Títulos’ ponemos “Unión Europea”. En ‘Opciones’ seleccionamos ‘Amplitud de la Escala/Variable’ como ‘Porcentaje’. Hacemos lo mismo por el segundo conjunto de datos poniendo en ‘Títulos’ “Países del Este”. El resultado es, 3 Para dibujar el diagrama de caja seleccionamos GRAFICOS + INTERACTIVOS + DIAGRAMA DE CAJA. En asignar variables, desplazamos al eje Y la variable ‘PIB_ep’. En ‘Cajas’ podemos mantener activas ‘Valores atípicos’, ‘Extremos’ y ‘Línea de la mediana’. En ‘Títulos’ podemos escribir en ‘Título del grafico’ “Unión Europea” “Países del Este”. Estos son los dos gráficos, Como se puede ver los gráficos no tienen la misma escala. Para obtener los dos gráficos de cajas en escalas comparables directamente podemos utilizar el conjunto de datos inicial (con todas las regiones), eliminar los casos por los cuales la variable Región es igual a “OT” y hacer: ANALIZAR + ESTADISTICO DESCRIPTIVO + EXPLORAR; bajo ‘Dependientes’ poner ‘PIB_ep’ y bajo ‘factores’ poner ‘Región’. Seleccionamos solo el Diagrama de Caja y aquí está el resultado (fijaos como parece distinto del grafico de antes aún sea lo mismo): 4 Para calcular los resúmenes numéricos podemos hacer ANALIZAR + ESTADISTICOS DESCRIPTIVOS + EXPLORAR. Ponemos ‘PIB_ep’ bajo ‘Dependientes’. Seleccionamos solo ‘Estadísticos’ y después ‘Estadísticos’ y ‘Descriptivos’. Para los datos de la lista UE obtenemos, 5 Los descriptivos para los países de la lista EE son, (En el ejercicio siguiente resúmenes numéricos) veremos otro modo para obtener Interpretación. Los histogramas muestran una distribución más simétrica en el caso de los Países de la Unión Europea y una distribución ligeramente asimétrica hacia la izquierda en el caso de los Países del Este. Para los Países de la Unión Europea, la media y la mediana son muy cerca (5.9 y 5.8), mientras que para los Países del Este la media es ligeramente inferior a la mediana (5.6 y 5.8). Los diagramas de cajas facilitan la comparación de las distribuciones. Hay una dispersión menor en los datos de los Países del Este en comparación a los Países de la Unión Europea. De hecho varianza, rango (que es obtenido como el máximo menos el mínimo) y rango intercuartiles son menores por los Países del Este. Fijaos también en el número de casos perdidos (en el primer resumen numérico de cada grupo): 2 perdidos en el grupo UE (Alemania y Luxemburgo) y 4 perdidos en el grupo EE (Albania, Bosnia-Herzegovina, Croacia, Yugoslavia) 6 Problema 3. Ejercicio 1.41 Densidad de la Tierra (página 52 capitulo 1 Moore – 2a edición). a) Representa gráficamente los datos de la manera que consideres más conveniente. En primer lugar debemos entrar los datos creando una variable que podemos llamar “densidad”. Para decidir el gráfico más conveniente tenemos que observar la variable “densidad” es una variable cuantitativa continua. Podemos representarla con un histograma, un diagrama de caja o también con un gráfico de tallo y hojas (porque se trata de un conjunto pequeño de datos). Vamos a dibujar los tres gráficos. Para dibujar el gráfico de tallo y hojas debemos seleccionar ANALIZAR + ESTADISTICOS DESCRIPTIVOS + EXPLORAR (seleccionar sólo gráficos y desactivar todo excepto “Diagrama de tallo y hoja”) Pulsamos CONTINUAR. En variable dependiente asignamos “densidad”. Pulsamos ACEPTAR. Obtenemos el siguiente grafico: Para dibujar el histograma seleccionamos GRAFICOS + INTERACTIVOS + HISTOGRAMA. En asignar variables, desplazamos al eje Y ‘Porcentaje’ y en el eje X asignamos “densidad”. En ‘Histograma’ podemos mantener la opción ‘Asignar automáticamente intervalos’. En ‘Opciones’ seleccionamos ‘Amplitud de la Escala/Variable’ como ‘Porcentaje’. El resultado es, 7 Podemos también poner ‘Recuento’ en el eje Y (en vez de Porcentaje’) y obtener este grafico Los dos gráficos tienen las mismas formas, solo cambia la variable en el eje de las Y, siendo el porcentaje en el primer caso (o sea la frecuencia relativa) y el recuento en el segundo caso (o sea la frecuencia absoluta). Para dibujar el diagrama de caja seleccionamos GRAFICOS + INTERACTIVOS + DIAGRAMA DE CAJA. En asignar variables, desplazamos al eje Y la variable ‘densidad’. En ‘Cajas’ podemos mantener activas ‘Valores atípicos’, ‘Extremos’ y ‘Línea de la mediana’. En ‘Títulos’ podemos escribir en ‘Título del grafico’ “Densidad de la Tierra”. Este es el resultado, 8 Interpretación de los tres gráficos: 1. centro: desde el diagrama de caja tenemos una medida clara del centro, o sea la mediana que es del orden de 5,45. Los otros dos gráficos confirman esta medida aproximada. 2. simetría: la distribución es bastante simétrica. El histograma y el diagrama de tallos no muestran colas a la derecha o a la izquierda; en el diagrama de caja el primero y el tercero cuartil están aproximadamente a la misma distancia de la mediana. 3. observaciones atípicas: no hay observaciones atípicas (el diagrama de caja no reporta ninguna observación atípica ni extrema) b) La forma de la distribución ¿permite utilizar la media y la desviación típica (s) para describirla? Halla media y desviación típica Si: para describir una distribución bastante simétrica que no presenta observaciones atípicas, la media y la desviación típica son buenas medidas de centro y de dispersión. Para hallar media y desviación típica hacemos: ANALIZAR+ESTADISTICOS DESCRIPTIVOS+ DESCRIPTIVOS+OPCIONES. En la ventana que se abre podemos elegir diferentes estadísticos descriptivos. Elegimos ‘Media’ y ‘Desv. típica’ y (para verlo una vez) también ‘Curtosis’ y ‘Asimetría’ (indicados bajo ‘Distribución’). 9 Pulsamos CONTINUAR y pasamos ‘densidad’ a el campo ‘Variables’. El resultado es el siguiente: El coeficiente de asimetría (o skewness) y la curtosis son dos estadísticos descriptivos que nos dan indicaciones sobre la simetría y el grado de apuntamiento de una distribución (es decir la concentración de datos alrededor de la media). Las formulas del coeficiente de asimetría y de la curtosis utilizadas por SPSS son las siguientes: No es importante conocer estas formulas, pero pueden ser útiles para medir la simetría de una distribución. El coeficiente de asimetría es 0 para distribuciones perfectamente simétricas, menor que 0 para distribuciones asimétricas hacia la izquierda y mayor que 0 para distribuciones asimétricas hacia la derecha. 10 La distribución llamada normal, que conocemos del curso de probabilidad, tiene coeficiente de curtosis igual a “0”. Si una distribución tiene coeficiente de curtosis mayor que “0”, entonces su forma es mas puntiaguda que la normal (hay una mayor concentración de los datos en torno a la media). Si una distribución tiene coeficiente de curtosis menor que “0”, entonces su forma es más achatada que la normal (hay una menor concentración de los datos en torno a la media). En este caso, como ya hemos detectado de los gráficos, la distribución es bastante simétrica. De hecho el coeficiente de asimetría es negativo (ligera asimetría hacia la izquierda) pero muy cerca de 0. c) Teniendo en cuenta todo lo que acabas de hacer, ¿cuál es tu estimación de la densidad de la Tierra a partir de estas mediciones? Como las diferentes medidas obtenidas por Cavendish son distribuidas simétricamente y sin observaciones atípicas, una buena estimación de la densidad de la Tierra es la media de las 29 mediciones, es decir 5,4479 veces mayor que la densidad del agua. 11