Estadística Multivariante

Anuncio
• Introducción.
De acuerdo con el planteamiento de la asignatura Análisis Multivariante I, referente a todos aquellos métodos
destinados al análisis de múltiples variables en conjunto, nos disponemos a realizar un estudio sobre los datos
obtenidos de 13 variables, referentes al mes de septiembre del año 2000, que representan las características
principales en automóviles.
El objetivo fundamental y motivación de este trabajo es poder aplicar las técnicas multivariantes más
relevantes (Análisis multivariante de la varianza, análisis factorial, análisis de componentes principales), ya
que vamos a disponer de un número elevado de variables, así como detectar la potencial relación entre las
variables consideradas y aplicar en consecuencia los citados métodos para el agrupamiento de variables.
(Análisis factorial y análisis de componentes principales).
La muestra seleccionada está formada por 24 automóviles para los cuales se han medido datos técnicos y
relativos a la dimensión de los mismos. En concreto las variables consideradas son las siguientes:
• Precio del automóvil. (En pesetas)
• Tipo de combustible.
• Tracción.
• Número de cilindros.
• Cilindrada. (En centímetros cúbicos)
• Potencia. (En caballos de vapor)
• Longitud. (En centímetros)
• Anchura. (En centímetros)
• Altura. (En centímetros)
• Volumen del maletero. (En litros)
• Peso. (En kilogramos)
• Consumo medio. (En litros)
• Velocidad máxima. (En kilómetros/hora)
Lo que representa cada variable es muy claro, además, en conjunto, definen de manera acertada las principales
características en las que un posible comprador debe fijarse a la hora de adquirir un automóvil.
Estamos interesados en detectar cuales son las variables que influyen de manera significativa en el precio de
un coche, la detección de grupos de variables que estén correlacionadas y las diferencias significativas que
pueden existir atendiendo al tipo de combustible utilizado (gasolina o diesel) y a la tracción (delantera o
trasera).
• Metodología.
El proceso de análisis, como ya hemos dicho anteriormente, tiene como objetivo la detección de grupos de
variables altamente relacionadas. Para este fin la metodología empleada es la siguiente:
• Análisis inicial de los datos, obteniendo previa información sobre las variables y la relación existente
entre ellas, así como la formulación y comprobación de las hipótesis del modelo.
• Aplicación de la técnica MANOVA.
• Análisis de componentes principales.
• Análisis factorial.
1
• Conclusiones.
Las distintas técnicas empleadas se irán explicando de forma breve a lo largo del proceso analítico.
A continuación presentamos una tabla en la que aparecen los datos obtenidos y los estadísiticos más
relevantes como pueden ser la media y desviación típica de cada variable numérica:
2
• Análisis previo de los datos y comprobación de las hipótesis.
La formulación y comprobación de las hipótesis previas viene motivada por la necesidad de que los datos
cumplan una serie de requisitos necesarios para la realización de las técnicas multivariantes. Con esto nos
aseguraremos una mayor fiabilidad en los resultados obtenidos.
Como ya es sabido, las hipótesis que hemos de comprobar son:
• Linealidad.
• Normalidad.
• Aleatoriedad.
• Homocedasticidad.
El incumplimiento de alguna de estas hipótesis nos lleva a la realización de transformaciones adecuadas para
que se verifiquen.
Análisis inicial de los datos.
Presentamos a continuación el vector de medias, la matriz de varianzas−covarianzas, la matriz de correlación
de las variables numéricas.
Vector de medias.
3
El orden de las variables es el mismo que en la tabla de datos presentada anteriormente. (Variables
numéricas).
Varianzas−covarianzas.
4
5
6
7
8
Correlaciones.
Observando la matriz de correlaciones, podemos comprobar que existen pares de variables con coeficientes de
correlación bastante significativos (Altos). Este hecho es de gran utilidad a la hora de aplicar técnicas de
reducción de datos ya que si las variables no están relacionadas, no tiene sentido aplicarlas.
Si nos fijamos por ejemplo en las variables VELOCIDAD MÁXIMA y CABALLOS DE VAPOR, el
coeficiente que presentan tiene un valor de 0.907. Evidentemente, es de esperar que cuanto mayor sea la
potencia de un coche, mayor velocidad alcanzará. De la misma forma ocurre con el PESO y la LONGITUD.
Además el determinante de la matriz de correlaciones es:
9
.
Este valor es prácticamente cero, lo cual indica que existe una correlación fuerte aunque no haya
multicolinealidad estricta.
Este tipo de información nos va a ir ayudando durante el desarrollo de nuestro trabajo.
Comprobación de las hipótesis.
Llega el momento de comprobar si se verifican las hipótesis previas al modelo.
Como hemos dicho anteriormente, la comprobación de las hipótesis se hace necesaria para obtener un índice
de fiabilidad alto en nuestros resultados.
Utilizaremos métodos gráficos y analíticos en el proceso.
Normalidad.
Comenzamos con el estudio de la normalidad, analizando cada variable unidimensional mediante
procedimientos gráficos y posteriormente, analíticos.
El uso de histogramas con representación de la curva de distribución, nos puede ser de gran utilidad a la hora
de decidir si las variables se distribuyen normalmente.
10
11
12
13
14
A la vista de los resultados obtenidos, podemos tener una idea de las variables que van a presentar problemas
de normalidad así como problemas de simetría y curtosis. Aunque los métodos gráficos son bastante
intuitivos, el rigor nos conduce a efectuar una serie de contrastes para la comprobación de la normalidad,
(kolmogorov−Smirnov, Shapiro−Wilk) en cada una de las variables y si resultan ser todas normales, entonces
contrastaremos la normalidad multivariante.
15
Según el resultado de estos contrastes, podemos considerar que las variables PRECIO, POTENCIA,
LONGITUD, ALTURA, VOLUMEN, PESO, CONSUMO y VELOCIDAD se distribuyen aproximadamente
según una normal. (El nivel de significación considerado es
).
Observemos los gráficos de probabilidad normal para dichas variables:
16
17
18
En algunas variables hemos rechazado la hipótesis de normalidad, por lo que descartamos el contraste
multivariante.
El incumplimiento leve de la hipótesis de normalidad no condiciona demasiado la fiabilidad de los resultados.
Homocedasticidad.
Al igual que la normalidad, para la igualdad de varianzas, existen métodos gráficos y analíticos de
comprobación.
Estudiemos el típico gráfico de dispersión de valores ajustados frente a residuos.
Este gráfico se consigue realizando una regresión múltiple considerando como variable dependiente el precio
y como variables independientes, las demás. Aunque el tamaño de la muestra no sea lo suficientemente
19
deseable, parece que no existe problema grave de heterocedasticidad ya que no se observa ningún patrón a
primera vista.
Aleatoriedad.
Observando el gráfico de valores ajustados frente a los residuos y aunque el tamaño de la muestra, volvemos a
incidir en esto, sea quizás algo pequeño, no se observa ningún patrón definido, por lo que parece que los datos
son aleatorios.
Para más seguridad podemos hacer el test de rachas:
Existe un problema para calcular el test en la variable número de cilindros ya que solo hay una racha. En
general el resultado es bueno aunque rechacemos para las variables CILINDRADA y CONSUMO.
Detección de observaciones atípicas. Distancia de Mahalanobis.
Se define la distancia de Mahalanobis como
.
El cálculo de la misma nos servirá para detectar las posibles observaciones atípicas (out−liers) que pueden ser
causantes de errores en nuestro análisis. En el caso concreto del cálculo de las componentes principales, la
20
presencia de out−liers provoca un aumento en la varianza o una distorsión en las covarianzas. En las últimas
componentes principales los valores atípicos serán aquellos que introducen nuevas dimensiones o enmascaran
singularidades. Si detectamos presencia de out−liers, puede ser conveniente eliminarlos y reanudar el estudio
con el resto de los valores. (Técnica de componentes principales robusta).
La distancia de Mahalanobis se distribuye según una
siendo p el número de variables. (En este caso 11). Comparando las distancias calculadas con el cuantil
, observamos que no existe ninguna observación atípica.
• Análisis de la varianza.
Pasamos ahora a realizar el análisis multivariante de la varianza también conocido como MANOVA.
Si nos fijamos en los datos, podemos observar dos variables no introducidas en el estudio previo de los datos,
(ya que no son numéricas), que nos servirán para diferenciar los grupos. Estas variables son COMBUSTIBLE
y TRACCIÓN. Se han elegido estas variables porque, evidentemente, es interesante saber si existen
diferencias significativas entre automóviles diesel o gasolina. De igual forma estamos interesados en las
diferencias entre vehículos con tracción delantera y trasera.
Las hipótesis nulas planteadas en el MANOVA son que los efectos de los distintos tratamientos de cada factor
(combustible y tracción) sean nulos, frente a las hipótesis alternativas de que exista alguno que sea distinto de
cero.
Los efectos de los tratamientos son cero.
21
Los efectos de los tratamientos son cero.
Además se plantea la hipótesis de la inexistencia de interacción.
No existe interacción entre los factores.
La técnica MANOVA dispone de cuatro contrastes:
de Wilk, Mayor raíz de Roy, Pillai, Lawley−Hotelling. Estos contrastes se basan en la comparación de las
matrices H (matriz dentro) y E (Matriz entre), y en los autovalores de la matriz
Pasemos a ver los resultados:
Observamos que la hipótesis nula para el factor MOTOR es rechazada, por lo cual hay evidencia muestral de
que existen diferencias significativas entre sus tratamientos. Cabe esperar este resultado sin más que pensar en
el consumo. (Un coche diesel gasta menos que un coche de gasolina).
En cuanto al factor tracción, no hay evidencia muestral para rechazar la hipótesis nula. (El efecto de los
tratamientos del factor tracción sobre las variables dependientes es nulo).
En cuanto a la interacción, tampoco podemos rechazar la hipótesis nula, por lo que admitimos que no existe
interacción.
Realicemos ahora contrastes para cada factor:
Tracción.
22
Con este resultado se ratifica el obtenido anteriormente.
Motor.
Volvemos a rechazar la hipótesis nula. Ante esta situación, debemos realizar ANOVAS individuales para cada
variable:
23
24
Las variables para las que se rechaza la hipótesis nula son centímetros cúbicos y consumo.
Existen diferencias significativas en estas variables según el tipo de combustible. Observamos los diagramas
de cajas:
Este gráfico refleja, según los datos obtenidos, que un coche con motor de gasolina tiene un consumo
ponderado (Urbano/extraurbano), mayor que un coche diesel.
25
Si nos fijamos ahora en el contraste realizado para la variable PESO, el p−valor está cercano a la frontera de
rechazo. El motivo es que quizás exista una relación entre el tipo de motor y el peso del automóvil.
Parece que los coches con motor diesel tienen un peso más elevado que los de gasolina.
Finalmente realizamos la prueba de Levene de homogeneidad de varianzas de los errores:
El único problema se presenta en la variable número de cilindros. En ningún caso restante se rechaza la
hipótesis nula.
• Análisis de componentes principales.
26
El análisis de componentes principales tiene como objetivo calcular una serie de combinaciones lineales de las
variables de forma que maximicen la varianza de las componentes con la restricción de que distintas
combinaciones lineales sean ortogonales.
Refiriéndonos a la matriz de correlaciones presentada al inicio, observamos que existe una fuerte correlación
entre las variables, condición indispensable para que tenga sentido aplicar el método. Existen varias formas de
seleccionar el número de componentes con las que nos vamos a quedar. Nosotros nos quedaremos con el
menor número de componentes que expliquen, al menos, un 78% de la variabilidad.
Otros métodos de elección pueden ser:
• Fijar un valor de corte de los valores propios de S, seleccionando tantas como valores propios haya
superiores al límite prefijado.
• Utilizando el gráfico en ladera, seleccionando el número que haya antes de que el gráfico pase a ser
prácticamente horizontal.
Observemos el gráfico en ladera:
Antes de que pase a ser horizontal, hay dos componentes.
Veamos los resultados del análisis:
27
El porcentaje acumulado de varianza explicada por las dos primeras componentes, 78.806%, supera al nivel
prefijado.
Veamos los pesos de las componentes:
Las variables con pesos más altos en la primera componente son: PRECIO, CENTÍMETROS CÚBICOS,
PESO, CONSUMO, ANCHO, LARGO.
28
• Análisis factorial.
El objetivo de este método es resumir la información obtenida de las variables iniciales expresando las
mismas como combinación lineal de otras variables no observables (subyacentes) denominadas factores.
Buscamos una estructura de interrelación en nuestras variables.
Existen varios métodos de extracción de factores. El aquí empleado es el método de las componentes
principales.
El análisis factorial es factible cuando las variables están relacionadas. Recordemos la matriz de
correlaciones:
29
Observamos coeficientes elevados indicando que entre algunas variables existe una correlación alta.
(Algunos autores sugieren que la inversa de la matriz de correlaciones sea casi diagonal para obtener un buen
ajuste).
Se suelen utilizar ciertas medidas apropiadas para decidir si es factible realizar un análisis factorial.
Medida Kaiser−Meyer−Olkin:
Esta medida está basada en los coeficientes de correlación parcial y su rango de variación está entre 0 y 1.
Además es invariante frente al método de obtención de factores y a cualquier método de rotación. Cuanto
mayor sea su valor, mejor resultado obtendremos en el análisis.
El valor de KMO permite asegurar un buen análisis factorial, además se rechaza el test de Bartlett o test de
esfericidad por lo que rechazamos que la matriz R sea diagonal.
Medida de adecuación muestral.
30
Esta medida nos indica hasta que punto debe entrar una variable en el análisis factorial. Sus valores
corresponden a la diagonal de la matriz anti−imagen:
Los valores correspondientes no son demasiado bajos. Por el momento no hay necesidad de eliminar ninguna
variable.
Comunalidades.
Las comunalidades miden el grado de información que tengo antes de realizar la extracción de factores y
después de hacerlo.
Las variables que presenten una comunalidad baja no nos interesa tenerlas presentes en nuestro estudio.
La variable consumo tiene una comunalidad baja. Por el momento vamos a seguir considerándola.
Matriz de componentes.
Al tener un tamaño muestral no demasiado grande, vamos a considerar despreciables aquellos valores
31
menores de 0.6. De esta forma la interpretación nos será más sencilla.
Observamos que los pesos mayores se encuentran en el primer factor exceptuando la variable ALTURA.
Veamos ahora cual es el porcentaje de variabilidad que nuestro modelo explica para el fenómeno:
Se puede observar que explicamos un 78.806% de la variabilidad total.
Para conseguir un modelo de estructura simple debemos realizar una rotación. El método empleado es el de
32
rotación VARIMAX.
Prestando atención a la matriz obtenida, observamos que la variable CONSUMO no tiene pesos en ningún
factor. Veamos que ocurre al eliminarla:
El valor de KMO obtenido es ligeramente mejor quitando esta variable.
33
Además, las medidas de adecuación muestral se mantienen altas en todas las variables.
Veamos las comunalidades:
Todas presentan un valor alto.
34
Además ahora explicamos un 83.992% de la variabilidad total.
La matriz de componentes rotados es:
Esta será la matriz final de los pesos de los factores.
Podemos darle la siguiente interpretación a los mismos:
FACTOR 1: representa, fundamentalmente, las características técnicas del vehículo.
FACTOR 2: representa las dimensiones del vehículo.
35
Veamos ahora las puntuaciones factoriales que nos indican los valores que toman los factores para cada
individuo:
Y la matriz de coeficientes para el cálculo de las puntuaciones.
• Conclusión.
36
Como dijimos en la introducción, a la hora de comprar un automóvil, hemos de tener en cuenta una serie de
variables (las aquí presentadas) con el fin de ver y comparar las características que más nos interesan. Pero es
evidente que puede ser algo dificultoso establecer una relación entre ellas sin ayuda de algunos métodos
estadísticos. Gracias a su aplicación nos resulta más sencillo distinguir diferencias entre algunas variables,
como por ejemplo, la existente entre los coches diesel y gasolina. Está claro que si estamos buscando un coche
económico, que es una elección sino acertada, conveniente (ya vemos como está el petróleo últimamente),
debemos inclinarnos hacia la elección de un diesel en vez de un gasolina, independientemente del resto de las
variables. (Excepción es la variable centímetros cúbicos). Además la tecnología TDI o turbo diesel de
inyección hace que además de ser más rentable un diesel, obtengamos prácticamente las mismas prestaciones
que con un coche de gasolina.
Mediante el análisis factorial hemos obtenido dos grupos diferenciados de variables. Un grupo está formado
por aquellas variables que miden las características técnicas del coche. (Potencia, caballos de vapor, velocidad
máxima, etc.) Dentro de este grupo se encuentra el precio por lo que parece que este va a depender bastante de
los rasgos técnicos del automóvil. (Cosa bastante lógica). El grupo restante está formado variables que
describen las dimensiones del coche. Altura, longitud, ancho, etc. Estas variables quizás sean menos
importantes a la hora de hacer la elección.
También hemos observado que el consumo medio no tenía pesos importantes en ninguno de los factores. (De
hecho, se eliminó del análisis). Además, si nos fijamos en los coeficientes de correlación de esta variable con
el resto, observamos que todos son muy bajos lo cual indica que no existe mucha relación entre el consumo y
las demás variables. Sin embargo y como ya hemos comentado, si que tiene importancia distinguir el tipo de
motor (diesel o gasolina) en esta variable.
Hemos obtenido unos resultados más o menos coherentes, aunque el reducido tamaño muestral no nos permita
obtener muchas más conclusiones. Quizás fuese conveniente aumentar el tamaño de la muestra.
33
38
Análisis Multivariante I.
y
37
Descargar