• Introducción. De acuerdo con el planteamiento de la asignatura Análisis Multivariante I, referente a todos aquellos métodos destinados al análisis de múltiples variables en conjunto, nos disponemos a realizar un estudio sobre los datos obtenidos de 13 variables, referentes al mes de septiembre del año 2000, que representan las características principales en automóviles. El objetivo fundamental y motivación de este trabajo es poder aplicar las técnicas multivariantes más relevantes (Análisis multivariante de la varianza, análisis factorial, análisis de componentes principales), ya que vamos a disponer de un número elevado de variables, así como detectar la potencial relación entre las variables consideradas y aplicar en consecuencia los citados métodos para el agrupamiento de variables. (Análisis factorial y análisis de componentes principales). La muestra seleccionada está formada por 24 automóviles para los cuales se han medido datos técnicos y relativos a la dimensión de los mismos. En concreto las variables consideradas son las siguientes: • Precio del automóvil. (En pesetas) • Tipo de combustible. • Tracción. • Número de cilindros. • Cilindrada. (En centímetros cúbicos) • Potencia. (En caballos de vapor) • Longitud. (En centímetros) • Anchura. (En centímetros) • Altura. (En centímetros) • Volumen del maletero. (En litros) • Peso. (En kilogramos) • Consumo medio. (En litros) • Velocidad máxima. (En kilómetros/hora) Lo que representa cada variable es muy claro, además, en conjunto, definen de manera acertada las principales características en las que un posible comprador debe fijarse a la hora de adquirir un automóvil. Estamos interesados en detectar cuales son las variables que influyen de manera significativa en el precio de un coche, la detección de grupos de variables que estén correlacionadas y las diferencias significativas que pueden existir atendiendo al tipo de combustible utilizado (gasolina o diesel) y a la tracción (delantera o trasera). • Metodología. El proceso de análisis, como ya hemos dicho anteriormente, tiene como objetivo la detección de grupos de variables altamente relacionadas. Para este fin la metodología empleada es la siguiente: • Análisis inicial de los datos, obteniendo previa información sobre las variables y la relación existente entre ellas, así como la formulación y comprobación de las hipótesis del modelo. • Aplicación de la técnica MANOVA. • Análisis de componentes principales. • Análisis factorial. 1 • Conclusiones. Las distintas técnicas empleadas se irán explicando de forma breve a lo largo del proceso analítico. A continuación presentamos una tabla en la que aparecen los datos obtenidos y los estadísiticos más relevantes como pueden ser la media y desviación típica de cada variable numérica: 2 • Análisis previo de los datos y comprobación de las hipótesis. La formulación y comprobación de las hipótesis previas viene motivada por la necesidad de que los datos cumplan una serie de requisitos necesarios para la realización de las técnicas multivariantes. Con esto nos aseguraremos una mayor fiabilidad en los resultados obtenidos. Como ya es sabido, las hipótesis que hemos de comprobar son: • Linealidad. • Normalidad. • Aleatoriedad. • Homocedasticidad. El incumplimiento de alguna de estas hipótesis nos lleva a la realización de transformaciones adecuadas para que se verifiquen. Análisis inicial de los datos. Presentamos a continuación el vector de medias, la matriz de varianzas−covarianzas, la matriz de correlación de las variables numéricas. Vector de medias. 3 El orden de las variables es el mismo que en la tabla de datos presentada anteriormente. (Variables numéricas). Varianzas−covarianzas. 4 5 6 7 8 Correlaciones. Observando la matriz de correlaciones, podemos comprobar que existen pares de variables con coeficientes de correlación bastante significativos (Altos). Este hecho es de gran utilidad a la hora de aplicar técnicas de reducción de datos ya que si las variables no están relacionadas, no tiene sentido aplicarlas. Si nos fijamos por ejemplo en las variables VELOCIDAD MÁXIMA y CABALLOS DE VAPOR, el coeficiente que presentan tiene un valor de 0.907. Evidentemente, es de esperar que cuanto mayor sea la potencia de un coche, mayor velocidad alcanzará. De la misma forma ocurre con el PESO y la LONGITUD. Además el determinante de la matriz de correlaciones es: 9 . Este valor es prácticamente cero, lo cual indica que existe una correlación fuerte aunque no haya multicolinealidad estricta. Este tipo de información nos va a ir ayudando durante el desarrollo de nuestro trabajo. Comprobación de las hipótesis. Llega el momento de comprobar si se verifican las hipótesis previas al modelo. Como hemos dicho anteriormente, la comprobación de las hipótesis se hace necesaria para obtener un índice de fiabilidad alto en nuestros resultados. Utilizaremos métodos gráficos y analíticos en el proceso. Normalidad. Comenzamos con el estudio de la normalidad, analizando cada variable unidimensional mediante procedimientos gráficos y posteriormente, analíticos. El uso de histogramas con representación de la curva de distribución, nos puede ser de gran utilidad a la hora de decidir si las variables se distribuyen normalmente. 10 11 12 13 14 A la vista de los resultados obtenidos, podemos tener una idea de las variables que van a presentar problemas de normalidad así como problemas de simetría y curtosis. Aunque los métodos gráficos son bastante intuitivos, el rigor nos conduce a efectuar una serie de contrastes para la comprobación de la normalidad, (kolmogorov−Smirnov, Shapiro−Wilk) en cada una de las variables y si resultan ser todas normales, entonces contrastaremos la normalidad multivariante. 15 Según el resultado de estos contrastes, podemos considerar que las variables PRECIO, POTENCIA, LONGITUD, ALTURA, VOLUMEN, PESO, CONSUMO y VELOCIDAD se distribuyen aproximadamente según una normal. (El nivel de significación considerado es ). Observemos los gráficos de probabilidad normal para dichas variables: 16 17 18 En algunas variables hemos rechazado la hipótesis de normalidad, por lo que descartamos el contraste multivariante. El incumplimiento leve de la hipótesis de normalidad no condiciona demasiado la fiabilidad de los resultados. Homocedasticidad. Al igual que la normalidad, para la igualdad de varianzas, existen métodos gráficos y analíticos de comprobación. Estudiemos el típico gráfico de dispersión de valores ajustados frente a residuos. Este gráfico se consigue realizando una regresión múltiple considerando como variable dependiente el precio y como variables independientes, las demás. Aunque el tamaño de la muestra no sea lo suficientemente 19 deseable, parece que no existe problema grave de heterocedasticidad ya que no se observa ningún patrón a primera vista. Aleatoriedad. Observando el gráfico de valores ajustados frente a los residuos y aunque el tamaño de la muestra, volvemos a incidir en esto, sea quizás algo pequeño, no se observa ningún patrón definido, por lo que parece que los datos son aleatorios. Para más seguridad podemos hacer el test de rachas: Existe un problema para calcular el test en la variable número de cilindros ya que solo hay una racha. En general el resultado es bueno aunque rechacemos para las variables CILINDRADA y CONSUMO. Detección de observaciones atípicas. Distancia de Mahalanobis. Se define la distancia de Mahalanobis como . El cálculo de la misma nos servirá para detectar las posibles observaciones atípicas (out−liers) que pueden ser causantes de errores en nuestro análisis. En el caso concreto del cálculo de las componentes principales, la 20 presencia de out−liers provoca un aumento en la varianza o una distorsión en las covarianzas. En las últimas componentes principales los valores atípicos serán aquellos que introducen nuevas dimensiones o enmascaran singularidades. Si detectamos presencia de out−liers, puede ser conveniente eliminarlos y reanudar el estudio con el resto de los valores. (Técnica de componentes principales robusta). La distancia de Mahalanobis se distribuye según una siendo p el número de variables. (En este caso 11). Comparando las distancias calculadas con el cuantil , observamos que no existe ninguna observación atípica. • Análisis de la varianza. Pasamos ahora a realizar el análisis multivariante de la varianza también conocido como MANOVA. Si nos fijamos en los datos, podemos observar dos variables no introducidas en el estudio previo de los datos, (ya que no son numéricas), que nos servirán para diferenciar los grupos. Estas variables son COMBUSTIBLE y TRACCIÓN. Se han elegido estas variables porque, evidentemente, es interesante saber si existen diferencias significativas entre automóviles diesel o gasolina. De igual forma estamos interesados en las diferencias entre vehículos con tracción delantera y trasera. Las hipótesis nulas planteadas en el MANOVA son que los efectos de los distintos tratamientos de cada factor (combustible y tracción) sean nulos, frente a las hipótesis alternativas de que exista alguno que sea distinto de cero. Los efectos de los tratamientos son cero. 21 Los efectos de los tratamientos son cero. Además se plantea la hipótesis de la inexistencia de interacción. No existe interacción entre los factores. La técnica MANOVA dispone de cuatro contrastes: de Wilk, Mayor raíz de Roy, Pillai, Lawley−Hotelling. Estos contrastes se basan en la comparación de las matrices H (matriz dentro) y E (Matriz entre), y en los autovalores de la matriz Pasemos a ver los resultados: Observamos que la hipótesis nula para el factor MOTOR es rechazada, por lo cual hay evidencia muestral de que existen diferencias significativas entre sus tratamientos. Cabe esperar este resultado sin más que pensar en el consumo. (Un coche diesel gasta menos que un coche de gasolina). En cuanto al factor tracción, no hay evidencia muestral para rechazar la hipótesis nula. (El efecto de los tratamientos del factor tracción sobre las variables dependientes es nulo). En cuanto a la interacción, tampoco podemos rechazar la hipótesis nula, por lo que admitimos que no existe interacción. Realicemos ahora contrastes para cada factor: Tracción. 22 Con este resultado se ratifica el obtenido anteriormente. Motor. Volvemos a rechazar la hipótesis nula. Ante esta situación, debemos realizar ANOVAS individuales para cada variable: 23 24 Las variables para las que se rechaza la hipótesis nula son centímetros cúbicos y consumo. Existen diferencias significativas en estas variables según el tipo de combustible. Observamos los diagramas de cajas: Este gráfico refleja, según los datos obtenidos, que un coche con motor de gasolina tiene un consumo ponderado (Urbano/extraurbano), mayor que un coche diesel. 25 Si nos fijamos ahora en el contraste realizado para la variable PESO, el p−valor está cercano a la frontera de rechazo. El motivo es que quizás exista una relación entre el tipo de motor y el peso del automóvil. Parece que los coches con motor diesel tienen un peso más elevado que los de gasolina. Finalmente realizamos la prueba de Levene de homogeneidad de varianzas de los errores: El único problema se presenta en la variable número de cilindros. En ningún caso restante se rechaza la hipótesis nula. • Análisis de componentes principales. 26 El análisis de componentes principales tiene como objetivo calcular una serie de combinaciones lineales de las variables de forma que maximicen la varianza de las componentes con la restricción de que distintas combinaciones lineales sean ortogonales. Refiriéndonos a la matriz de correlaciones presentada al inicio, observamos que existe una fuerte correlación entre las variables, condición indispensable para que tenga sentido aplicar el método. Existen varias formas de seleccionar el número de componentes con las que nos vamos a quedar. Nosotros nos quedaremos con el menor número de componentes que expliquen, al menos, un 78% de la variabilidad. Otros métodos de elección pueden ser: • Fijar un valor de corte de los valores propios de S, seleccionando tantas como valores propios haya superiores al límite prefijado. • Utilizando el gráfico en ladera, seleccionando el número que haya antes de que el gráfico pase a ser prácticamente horizontal. Observemos el gráfico en ladera: Antes de que pase a ser horizontal, hay dos componentes. Veamos los resultados del análisis: 27 El porcentaje acumulado de varianza explicada por las dos primeras componentes, 78.806%, supera al nivel prefijado. Veamos los pesos de las componentes: Las variables con pesos más altos en la primera componente son: PRECIO, CENTÍMETROS CÚBICOS, PESO, CONSUMO, ANCHO, LARGO. 28 • Análisis factorial. El objetivo de este método es resumir la información obtenida de las variables iniciales expresando las mismas como combinación lineal de otras variables no observables (subyacentes) denominadas factores. Buscamos una estructura de interrelación en nuestras variables. Existen varios métodos de extracción de factores. El aquí empleado es el método de las componentes principales. El análisis factorial es factible cuando las variables están relacionadas. Recordemos la matriz de correlaciones: 29 Observamos coeficientes elevados indicando que entre algunas variables existe una correlación alta. (Algunos autores sugieren que la inversa de la matriz de correlaciones sea casi diagonal para obtener un buen ajuste). Se suelen utilizar ciertas medidas apropiadas para decidir si es factible realizar un análisis factorial. Medida Kaiser−Meyer−Olkin: Esta medida está basada en los coeficientes de correlación parcial y su rango de variación está entre 0 y 1. Además es invariante frente al método de obtención de factores y a cualquier método de rotación. Cuanto mayor sea su valor, mejor resultado obtendremos en el análisis. El valor de KMO permite asegurar un buen análisis factorial, además se rechaza el test de Bartlett o test de esfericidad por lo que rechazamos que la matriz R sea diagonal. Medida de adecuación muestral. 30 Esta medida nos indica hasta que punto debe entrar una variable en el análisis factorial. Sus valores corresponden a la diagonal de la matriz anti−imagen: Los valores correspondientes no son demasiado bajos. Por el momento no hay necesidad de eliminar ninguna variable. Comunalidades. Las comunalidades miden el grado de información que tengo antes de realizar la extracción de factores y después de hacerlo. Las variables que presenten una comunalidad baja no nos interesa tenerlas presentes en nuestro estudio. La variable consumo tiene una comunalidad baja. Por el momento vamos a seguir considerándola. Matriz de componentes. Al tener un tamaño muestral no demasiado grande, vamos a considerar despreciables aquellos valores 31 menores de 0.6. De esta forma la interpretación nos será más sencilla. Observamos que los pesos mayores se encuentran en el primer factor exceptuando la variable ALTURA. Veamos ahora cual es el porcentaje de variabilidad que nuestro modelo explica para el fenómeno: Se puede observar que explicamos un 78.806% de la variabilidad total. Para conseguir un modelo de estructura simple debemos realizar una rotación. El método empleado es el de 32 rotación VARIMAX. Prestando atención a la matriz obtenida, observamos que la variable CONSUMO no tiene pesos en ningún factor. Veamos que ocurre al eliminarla: El valor de KMO obtenido es ligeramente mejor quitando esta variable. 33 Además, las medidas de adecuación muestral se mantienen altas en todas las variables. Veamos las comunalidades: Todas presentan un valor alto. 34 Además ahora explicamos un 83.992% de la variabilidad total. La matriz de componentes rotados es: Esta será la matriz final de los pesos de los factores. Podemos darle la siguiente interpretación a los mismos: FACTOR 1: representa, fundamentalmente, las características técnicas del vehículo. FACTOR 2: representa las dimensiones del vehículo. 35 Veamos ahora las puntuaciones factoriales que nos indican los valores que toman los factores para cada individuo: Y la matriz de coeficientes para el cálculo de las puntuaciones. • Conclusión. 36 Como dijimos en la introducción, a la hora de comprar un automóvil, hemos de tener en cuenta una serie de variables (las aquí presentadas) con el fin de ver y comparar las características que más nos interesan. Pero es evidente que puede ser algo dificultoso establecer una relación entre ellas sin ayuda de algunos métodos estadísticos. Gracias a su aplicación nos resulta más sencillo distinguir diferencias entre algunas variables, como por ejemplo, la existente entre los coches diesel y gasolina. Está claro que si estamos buscando un coche económico, que es una elección sino acertada, conveniente (ya vemos como está el petróleo últimamente), debemos inclinarnos hacia la elección de un diesel en vez de un gasolina, independientemente del resto de las variables. (Excepción es la variable centímetros cúbicos). Además la tecnología TDI o turbo diesel de inyección hace que además de ser más rentable un diesel, obtengamos prácticamente las mismas prestaciones que con un coche de gasolina. Mediante el análisis factorial hemos obtenido dos grupos diferenciados de variables. Un grupo está formado por aquellas variables que miden las características técnicas del coche. (Potencia, caballos de vapor, velocidad máxima, etc.) Dentro de este grupo se encuentra el precio por lo que parece que este va a depender bastante de los rasgos técnicos del automóvil. (Cosa bastante lógica). El grupo restante está formado variables que describen las dimensiones del coche. Altura, longitud, ancho, etc. Estas variables quizás sean menos importantes a la hora de hacer la elección. También hemos observado que el consumo medio no tenía pesos importantes en ninguno de los factores. (De hecho, se eliminó del análisis). Además, si nos fijamos en los coeficientes de correlación de esta variable con el resto, observamos que todos son muy bajos lo cual indica que no existe mucha relación entre el consumo y las demás variables. Sin embargo y como ya hemos comentado, si que tiene importancia distinguir el tipo de motor (diesel o gasolina) en esta variable. Hemos obtenido unos resultados más o menos coherentes, aunque el reducido tamaño muestral no nos permita obtener muchas más conclusiones. Quizás fuese conveniente aumentar el tamaño de la muestra. 33 38 Análisis Multivariante I. y 37