1 2 3 1 2 3 CURSO DE ESTADÍ ESTADÍSTICA AVANZADA Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 I SESIÓ ÓN 1 SESI SESIÓN CORRELACI ÓN CORRELACIÓN 1.1 Introducció ón a la correlació ón Introducci correlaci Introducción correlación 1.2 Diagramas de dispersió ón dispersi dispersión 1.3 Coeficientes de correlació ón correlaci correlación 1.4 Errores de interpretació ón interpretaci interpretación Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN II I SESIÓ ÓN 2 SESI SESIÓN REGRESI ÓN LINEAL REGRESIÓN SIMPLE 2.1 Introducció ón a la regresió ón Introducci regresi Introducción regresión 2.2 Modelo de regresió ón regresi regresión 2.3 Errores comunes de la regresió ón regresi regresión 1.4 ERRORES DE INTERPRETACIÓN En la mayor parte de los diseños de investigación se trata de descubrir relaciones entre diferentes variables POR EJEMPLO… Un estudio que encuentra concentraciones superiores de anticuerpos entre los sujetos que recibieron las mayores dosis de una vacuna VARIABLES: Concentración de anticuerpos y vacuna RELACIÓN: A mayor dosis de vacuna, mayor concentración de anticuerpos …CONCLUSIÓN: Esta intervención probablemente resulta positiva para la prevención Guadalupe Ruiz Merino - Curso de Estadística Avanzada Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 1 2 3 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN En el ejemplo anterior, estamos suponiendo que se valora si una variable con varias categorías tiene relación con otra variable cuantitativa Vacunados con altas Concentración de anticuerpos PERO… dosis/Vacunados con bajas dosis/No vacunados ¿y si queremos relacionar los pesos de unos niños recién nacidos con los pesos de sus madres? En este caso tenemos dos variables cuantitativas Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS Cuando se realiza un diseño experimental con datos pareados tiene sentido: El estudio de la relación entre las respuestas a los dos tratamientos La comparación de las medias de las respuestas a los dos tratamientos Estos dos análisis estudian aspectos totalmente diferentes de las relaciones entre las variables Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS EJEMPLO 1.1 INTRODUCCIÓN A LA CORRELACIÓN Experimento con 8 ratas para comparar dos somníferos diferentes T1 y T2 Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a ¿Existe una relación entre los efectos de los somníferos T1 y T2? b ¿Cuál de los dos es más eficaz? 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS EJEMPLO Experimento con 8 ratas para comparar dos somníferos diferentes T1 y T2 Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a ¿Existe una relación entre los efectos de los somníferos T1 y T2? b X Minutos de sueño bajo el somnífero T1 ¿Cuál de los dos es más eficaz? Y Minutos de sueño bajo el somnífero T2 Implica un estudio de relación entre las variables: Guadalupe Ruiz Merino - Curso de Estadística Avanzada Guadalupe Ruiz Merino - Curso de Estadística Avanzada 2 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS EJEMPLO Experimento con 8 ratas para comparar dos somníferos diferentes T1 y T2 Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a ¿Existe una relación entre los efectos de los somníferos T1 y T2? b Se trata de una relación entre dos ¿Cuál de los dos es máscuantitativas eficaz? variables Aplicaremos la prueba de independencia Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Experimento con 8 ratas para comparar dos somníferos diferentes T1 y T2 Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a b 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS EJEMPLO Experimento con 8 ratas para comparar dos somníferos diferentes T1 y T2 Los dos somníferos han sido aplicados en un orden al azar, pero se han aplicado a las 8 ratas los dos somníferos. Queremos contestar a las siguientes preguntas: a ¿Existe una relación los efectos los somníferos Implicaentre el estudio de laderelación entre T1 y T2? la variable tipo de tratamiento (X e Y) y la variable tiempo de sueño b ¿Cuál de los dos es más eficaz? Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 DIFERENCIA ENTRE UNA PRUEBA DE INDEPENDENCIA Y UNA PRUEBA DE GRUPOS CON DATOS PAREADOS EJEMPLO 1.1 INTRODUCCIÓN A LA CORRELACIÓN Se trata de una relación Aplicaremos la prueba ¿Existe una relación entre los efectos de los somníferos T1 y T2? de dos entre un carácter cualitativo de comparación (X e Y) y uno cuantitativo medias en grupos de (tiempo) datos pareados ¿Cuál de los dos es más eficaz? Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Si trabajamos con dos variables cuantitativas caben dos posibilidades: 1 Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) 2 Aplicar las técnicas de correlación o regresión Guadalupe Ruiz Merino - Curso de Estadística Avanzada 3 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Si trabajamos con dos variables cuantitativas caben dos posibilidades: 1 Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) 2 Aplicar las técnicas de correlación o regresión Perderemos información ¡PROBLEMA!: 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN Guadalupe Ruiz Merino - Curso de Estadística Avanzada I 1.4 ERRORES DE INTERPRETACIÓN Si trabajamos con dos variables cuantitativas caben dos posibilidades: 1 Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) 2 Aplicar las técnicas de correlación o regresión De ón Para estudiar la relació relaci POR EJEMPLO: al tratar como si fueran iguales a todos los sujetos clasificados dentro de una categoría cuando realmente puede existir una amplia variabilidad 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN PERO… entre la edad y el perí perímetro de la cintura, podría cintura agrupar la edad en <45 y >=45 esa manera trataremos igual a una persona de 90 años que a una de 45 Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Si trabajamos con dos variables cuantitativas caben dos posibilidades: 1 Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) 2 Aplicar las técnicas de correlación o regresión VENTAJA: Aportan respuestas más precisas Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Si trabajamos con dos variables cuantitativas caben dos posibilidades: 1 Transformar una de las variables en policotómica o en ordinal (categorizar) mediante la subdivisión en intervalos y aplicar así el análisis de la varianza (ANOVA) 2 Aplicar las técnicas de correlación o regresión Pueden parecer métodos similares, pero se trata de dos procedimientos distintos tanto conceptualmente como en sus aplicaciones prácticas Guadalupe Ruiz Merino - Curso de Estadística Avanzada 4 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Vamos a desarrollar pruebas estadísticas para estudiar si existe relación o dependencia entre dos caracteres cuantitativos, basadas en el cálculo de un índice R ¿Cuál es la diferencia fundamental entre la prueba de independencia basada en la χ2 y la de la R? La mayor potencia de la prueba basada en la R, puesto que las variables estudiadas, por ser cuantitativas, contienen mayor información que las cualitativas ¡IMPORTANTE! Es la prueba más potente que existe de relación entre dos variables Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN La finalidad de la correlación es… Examinar la direcció dirección y la fuerza de la asociació asociación entre dos variables cuantitativas Lo que nos permite… Conocer la “intensidad” de la relación Saber si, al aumentar el valor de una variable, aumenta o disminuye el valor de la otra variable Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN EJEMPLO 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN EJEMPLO “Porcentaje de adultos de cada uno de los 15 países miembros de la UE que consideran que el precio que tienen los alimentos les influye a la hora de elegirlos” En cada país existirán dos variables: Influencia del precio (segú (según la encuesta) Precio real Queremos ver si esta percepción tiene relación con el precio que de hecho tienen realmente los alimentos en cada uno de los 15 países La primera aproximación para valorar la asociación entre las dos variables suele ser hacer un diagrama de dispersió dispersión Con la nube de puntos podemos apreciar si existe una tendencia entre las variables Guadalupe Ruiz Merino - Curso de Estadística Avanzada Guadalupe Ruiz Merino - Curso de Estadística Avanzada 5 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN EJEMPLO Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Problemas de correlació correlación 1 Problemas de correlació correlación 2 Problemas de regresió regresión 1.1 INTRODUCCIÓN A LA CORRELACIÓN Guadalupe Ruiz Merino - Curso de Estadística Avanzada En este caso R es una estimación del llamado de correlación entre las dos variables Problemas decoeficiente regresión El coeficiente de correlación, además de servir para estudiar la independencia entre las dos variables, mide la intensidad de dicha relación Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Además de la prueba de independencia tendremos dos tipos de problemas: 1 Problemas de relación entre dos variables aleatorias 2 I 1.4 ERRORES DE INTERPRETACIÓN 1 2 3 Además de la prueba de independencia tendremos dos tipos de problemas: 1 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN Además de la prueba de independencia tendremos dos tipos de problemas: 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN Problemas de correlació correlación Los problemas de correlación, por ser problemas de relación entre dos variables aleatorias, no permiten dar interpretaciones causales 2 Problemas deregresión Cuando las dos variables aleatorias siguen una distribución normal se demuestra que las líneas que mejor describen la relación entre ellas son las rectas de regresión Guadalupe Ruiz Merino - Curso de Estadística Avanzada 6 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN EJEMPLO 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Además de la prueba de independencia tendremos dos tipos de problemas: Cuando una de las variables es aleatoria y la controlada. Problemas deotra correlación 1 Es especialmente importante la recta de regresión que permite predecir el valor más probable de la variable aleatoria en función de cada uno de los distintos valores que puede tomar la variable controlada Problemas de regresió regresión 2 Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN Si se desea medir o cuantificar el grado de asociación entre dos variables se debe calcular un coeficiente de correlació correlación 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN CONDICIONES DE APLICACIÓ APLICACIÓN DE LA CORRELACIÓ CORRELACIÓN 1 Variables cuantitativas Ambas variables examinadas han de ser cuantitativas Para las variables ordinales se puede usar el coeficiente de Spearman Hay dos coeficientes de correlación que se usan frecuentemente: 1 El coeficiente de correlació correlación de Pearson (paramé paramétrico) trico) 2 El coeficiente de correlació correlación de Spearman (no paramé paramétrico) trico) Guadalupe Ruiz Merino - Curso de Estadística Avanzada 2 Variables normales Requisito sólo para el coeficiente de Pearson, pero no para el de Spearman 2 Variables independientes Sólo puede haber una observación de cada variable para cada individuo Guadalupe Ruiz Merino - Curso de Estadística Avanzada 7 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN INTERPRETACIÓ INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓ CORRELACIÓN Si X e Y son dos variables aleatorias independientes entre sí Por tanto si el coeficiente de correlación es distinto de cero 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN INTERPRETACIÓ INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓ CORRELACIÓN Supongamos que las variables siguen una distribución normal Rxy=0 Entonces nos interesa contrastar la siguiente hipótesis: Las variables aleatorias son dependientes H0: ρxy=0 H0: Independencia de X e Y H1: ρxy≠0 H1: Dependencia de X e Y Valores usuales de significación: Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN α = 0.01, 0.05, 0.1 Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN DEFINICIÓ DEFINICIÓN Grá Gráfico en el que una de las variables (Xi (Xi)) se coloca en el eje de abcisas, abcisas, la otra (Yi (Yi)) en el de ordenadas y los pares (xi,yi (xi,yi)) se representan como una nube de puntos La forma de la nube de puntos nos informa sobre el tipo de relación existente entre las variables Un diagrama de dispersión es la forma má más directa e intuitiva de formarnos una primera impresión sobre el tipo de relación existente entre dos variables Guadalupe Ruiz Merino - Curso de Estadística Avanzada CÁLCULO DEL DIAGRAMA DE DISPERSIÓ DISPERSIÓN CON EL SPSS I Guadalupe Ruiz Merino - Curso de Estadística Avanzada 8 1 2 3 1 2 3 CÁLCULO DEL DIAGRAMA DE DISPERSIÓ DISPERSIÓN CON EL SPSS REPRESENTACIÓ REPRESENTACIÓN DE DIAGRAMA DE DISPERSIÓ DISPERSIÓN CON EL SPSS $75.000 $50.000 $25.000 $0 $0 Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN I $100.000 Salario actual I $125.000 $20.000 $40.000 $60.000 $80.000 Salario inicial Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Además un diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relació relación lineal existente entre dos variables PARA ELLO… Basta con observar el grado en el que la nube de puntos se ajusta a una línea recta SIN EMBARGO… Utilizar un diagrama de dispersión como una forma de cuantificar la relación entre dos variables no es tan útil como puede parecer en un principio Guadalupe Ruiz Merino - Curso de Estadística Avanzada Guadalupe Ruiz Merino - Curso de Estadística Avanzada 9 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN ¿POR QUÉ? Esto es debido a que la relación entre dos variables no siempre es perfecta o nula Normalmente ni lo uno ni lo otro Hay nubes de puntos a las que es posible ajustar una línea recta mejor de lo que es posible hacerlo a otras Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN El ajuste de una recta a una nube de puntos no parece una cuestión de todo o nada, sino más bien de grado Se necesita algún índice numérico capaz de cuantificar ese grado de ajuste Estos índices numéricos se denominan coeficientes de correlació correlación Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Definimos los dos coeficientes siguientes: 1 Coeficiente de correlació correlación mú múltiple 2 Coeficiente de correlació correlación parcial Guadalupe Ruiz Merino - Curso de Estadística Avanzada 10 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Definimos los dos coeficientes siguientes: 1 Coeficiente de correlació correlación mú múltiple EJEMPLOS: Coeficiente de correlación parcial Coeficiente de Pearson Coeficiente de Spearman Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Definimos los dos coeficientes siguientes: Indica la relación entre una de las variables y el conjunto de las restantes variables. 2 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 CoeficienteIndica de correlación múltiple la relación directa entre dos de las variables, es decir, la correlación entre dos de las variables eliminando el efecto de las restantes variables 2 Coeficiente de correlació correlación parcial Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE PEARSON 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE PEARSON Puede tomar valores entre -1 y +1… Es el más utilizado Mide la intensidad de la relación entre dos variables cuantitativas Es un método paramétrico (utiliza para su cálculo la media, la varianza, etc..) por ello requiere criterios de normalidad para las variables analizadas Se conoce simplemente con el nombre de coeficiente de correlación, sin más apellidos Guadalupe Ruiz Merino - Curso de Estadística Avanzada +1 Relación perfecta en sentido positivo 0 Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación -1 Relación perfecta en sentido negativo Guadalupe Ruiz Merino - Curso de Estadística Avanzada 11 1 2 3 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE PEARSON Según su valor la relación entre las variables será: 1 0,9 0,8 Perfecta Excelente POR EJEMPLO Buena Hay una correlación perfecta (R=+1) entre el peso medido en libras y el peso medido en kilos Regular 0,5 Mala Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE PEARSON En relación con la recta de regresión, su valor será mayor cuanto mayor sea la concentración de los puntos alrededor de la línea recta: +1 Los puntos forman una línea recta perfecta creciente 0 Cuanto más cercanos a 0 sean los valores significará una mayor dispersión de los puntos en el gráfico -1 Los puntos forman una línea recta perfecta decreciente Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE PEARSON Es una medida abstracta que no posee unidades, es adimensional Se cumplen las siguientes propiedades: R=0 No existe correlación R>0 Al aumentar una de las variables aumenta la otra R<0 Al aumentar una de las variables disminuye la otra 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE PEARSON La expresión matemática para el coeficiente de Pearson parece compleja pero esconde un planteamiento sencillo R estará próximo a 1 (en valor absoluto) cuando las dos variables x e y estén intensamente relacionadas, es decir, cuando varíen casi enteramente al unísono A este concepto de variación al unísono se le llama covarianza Guadalupe Ruiz Merino - Curso de Estadística Avanzada Se entiende con facilidad si nos fijamos en que la relacionar una variable consigo misma obtenemos el grado máximo de asociación Guadalupe Ruiz Merino - Curso de Estadística Avanzada 12 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN SALIDA DEL COEFICIENTE DE PEARSON SPSS Meses desde el contrato Salario inicial Salario actual Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Salario inicial 474 Salario actual -,020 ,668 474 ,084 ,067 474 1 -,020 ,668 474 474 ,880(**) ,000 474 ,084 ,067 474 ,880(**) ,000 474 474 1 ** La correlación es significativa al nivel 0,01 (bilateral). Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE SPEARMAN Correlaciones Meses desde el contrato 1 1.1 INTRODUCCIÓN A LA CORRELACIÓN Es un estimador no paramétrico que se utiliza en aquellos casos donde las variables examinadas no cumplen necesariamente criterios de normalidad Como sucede con otros métodos no paramétricos se basa en la sustitución de los valores originales por sus números de orden o rangos Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE SPEARMAN Diferencia con el coeficiente de Pearson El Coeficiente de Spearman no estima específicamente una asociación lineal entre las variables, sino sólo una asociació asociación en general En vista de que no todas las relaciones que se encuentran son lineales, el Coeficiente de Spearman debería usarse más Además, no requiere supuestos previos sobre la distribución de los datos Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN DE SPEARMAN Es un método no paramétrico y permite la construcción de intervalos de confianza VENTAJAS Estima el grado de asociación de cualquier tipo, sin exigir que tenga que ser lineal Existe otro coeficiente de correlación no paramétrico menos usado que el de Spearman, que se llama tau de Kendall Está especialmente indicado con variables ordinales, pero siempre se puede usar también el de Spearman Guadalupe Ruiz Merino - Curso de Estadística Avanzada 13 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN COEFICIENTE DE CORRELACIÓ CORRELACIÓN PARCIAL Permiten estudiar la relación existente entre dos variables controlando el posible efecto de una o más variables extrañas Sabemos que la correlación entre inteligencia y rendimiento escolar es alta y positiva SIN EMBARGO Si controlamos el efecto de una tercera variable (número de horas de estudio) la correlación entre inteligencia y rendimiento desciende POR TANTO La relación entre inteligencia y rendimiento está está condicionada por la variable número de horas de estudio Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 I 1.4 ERRORES DE INTERPRETACIÓN La correlación se aplica con el objetivo de medir el grado de asociació asociación entre dos variables cuantitativas En ningún momento se habla de que una de ellas sea la “causa” causa” y la otra el “efecto” efecto” No es relevante el eje que ocupa cada variable y son intercambiables mutuamente SON SIMÉTRICAS Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN En la correlación no se distingue la variable dependiente de la independiente La correlación de “x” con respecto a “y” es la misma que la correlación de “y” con respecto a “x” 1.1 INTRODUCCIÓN A LA CORRELACIÓN Puede aparecer una alta correlación negativa entre el índice de natalidad nacional y la producción anual de acero ¡¡!! Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Puede presentarse un “factor no considerado” que aclare nuestros hallazgos Se trataría de una tercera variable en juego a la que se llama factor de confusió confusión POR EJEMPLO En ocasiones pueden aparecer asociaciones fortuitas… POR EJEMPLO 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN ¡OJO! POR EJEMPLO 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.1 INTRODUCCIÓN A LA CORRELACIÓN Puede aparecer una correlación inversa entre la ingesta dietética total (calorías consumidas) y el peso corporal ¿Cómo puede ser que los individuos que más calorías consumen estén más delgados…? Guadalupe Ruiz Merino - Curso de Estadística Avanzada 14 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Puede presentarse un “factor no considerado” que aclare nuestros hallazgos Se trataría de una tercera variable en juego a la que se llama factor de confusió confusión POR EJEMPLO Puede aparecer una correlación inversa entre la ingesta dietética total (calorías consumidas) y el peso corporal La explicación considerar una ¿Cómo puede ser que losproviene individuosde que más tercera variable en juego: el nivel de ejercicio calorías consumen estén más delgados…? físico mantenido en el tiempo libre Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Puede presentarse un “factor no considerado” que aclare nuestros hallazgos Se trataría de una tercera variable en juego a la que se llama factor de confusió confusión POR EJEMPLO Puede aparecer una correlación inversa entre la ingesta dietética total (calorías consumidas) y el peso corporal La explicación considerar una tercera Quienes másde calorías son los que ¿Cómo puede ser que losproviene individuos que másconsumen variable en juego: el delgados…? nivel físico de ejercicio físico calorías consumen estén más más ejercicio realizan mantenido en el tiempo libre Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN No basta que un coeficiente de correlación sea de gran magnitud para considerar que la asociación entre dos variables sea causal… …sino que hay que mantener una cierta prudencia y pensar en terceras variables que puedan explicar la asociación encontrada EN RESUMEN 1.1 INTRODUCCIÓN A LA CORRELACIÓN Los coeficientes de correlación miden la asociación entre dos variables, pero no se debe confundir una asociació asociación estadí estadística con una relació relación causacausa-efecto Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN A veces se usa la correlación equivocadamente para estimar en qué grado dos sistemas de medida de una misma variable concuerdan POR EJEMPLO ¿Qué concordancia existe entre el peso que un individuo declara que tiene y el que realmente aparece en la báscula cuando se le pesa? Los coeficientes de correlación estiman la asociación, pero no la concordancia Si todos se quitasen sistemáticamente, digamos el 10% de su peso, la correlación sería perfecta pero la concordancia entre los dos pesos serí sería muy mala Guadalupe Ruiz Merino - Curso de Estadística Avanzada 15 1 2 3 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN Para estimar cuál es el grado de concordancia entre dos observaciones que pretenden medir lo mismo… …existen otros métodos específicos distintos de la correlación ¡OJO! Existe el peligro tanto con la correlación, como con otros procedimientos, de que las observaciones o puntos que se estudien sean sólo una fracción sesgada Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA CORRELACIÓN 1.2 DIAGRAMAS DE 1.3 COEFICIENTES DE DISPERSIÓN CORRELACIÓN I 1.4 ERRORES DE INTERPRETACIÓN En el ejemplo que veíamos al principio de los precios de los productos en distintos países….. Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN II II 1.4 ERRORES COMUNES DE LA REGRESIÓN RECORDATORIO… RECORDATORIO… SESIÓ ÓN 2 SESI SESIÓN REGRESI ÓN LINEAL REGRESIÓN SIMPLE 2.1 Introducció ón a la regresió ón Introducci regresi Introducción regresión 2.2 Modelo de regresió ón regresi regresión 2.3 Errores comunes de la regresió ón regresi regresión ¿PARA QUÉ SIRVE EL ANOVA? ANOVA variable independiente Para comprobar si una variable con más de dos categorías (“factores”) tiene relación con una segunda variable que es cuantitativa variable dependiente A esta segunda variable que supone la respuesta al factor se le llama variable dependiente Pretendemos demostrar que depende de la otra variable (factor) El factor es, por lo tanto, la variable independiente Guadalupe Ruiz Merino - Curso de Estadística Avanzada Guadalupe Ruiz Merino - Curso de Estadística Avanzada 16 1 2 3 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN II II 1.4 ERRORES COMUNES DE LA REGRESIÓN RECORDATORIO… RECORDATORIO… Hay dos problemas que no se pueden solucionar con el análisis de la varianza: Como hemos visto, la correlación sirve para medir la fuerza con que están asociadas dos variable cuantitativas Esa fuerza se expresa con un número 1 LA REGRESIÓN ¿Cuánto aumenta la variable dependiente por VIENE A RESOLVER cada unidad de aumento de la independiente? ESTOS DOS PROBLEMAS Indica si hay o no una asociación estadística entre dos variables, pero no define exactamente cuál es la magnitud de esa relación 2 COEFICIENTE DE CORRELACIÓN El ANOVA se queda corto Hay factores que tienen tantas categorías que realmente se parecen más a una variable cuantitativa, o puede que nos interese usar como variable independiente una variable que es cuantitativa La regresión sirve para detallar más… Está dirigida a describir de una manera más completa cómo es la relació relación entre ambas variables… variables… …de tal manera que se puede predecir (con un cierto margen de error) cuál va a ser el valor de una variable una vez que se sabe el valor de la otra Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN II II variable indepediente o predictora Si la asociación entre ambas variables es débil Esta predicción puede ser bastante imprecisa Pero cuando la asociación es fuerte… La regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas Guadalupe Ruiz Merino - Curso de Estadística Avanzada La regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada variable de respuesta o depediente La correlación supone que ninguna variabe es fija, fija las dos están fuera del control del investigador Guadalupe Ruiz Merino - Curso de Estadística Avanzada 17 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN 1 2 3 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN II II La regresión en su forma más sencilla se llama regresió regresión lineal simple Técnica estadí estadística que analiza la relació relación entre dos variables cuantitativas, tratando de verificar si dicha relació relación es lineal Sin embargo, a diferencia de lo que ocurría con la correlación, ahora no se puede considerar que ambas variables tengan un papel simétrico En la regresión, cada una de las dos variables desempeña una función diferente y en consecuencia tienen una consideración distinta: A la variable predictora o “causa” se le denomina variable independiente y ocupa el eje de abcisas (eje horizontal) Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN variable respuesta A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la ”y”) variable predictora Suele ser un factor previamente determinado o una característica más fácil de medir que la que se pretende explicar a partir de ella Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN II II ALGUNAS ACLARACIONES… ACLARACIONES… La correlación y la regresión tienen distintas finalidades OBJETIVO DE LA CORRELACIÓN Medir el grado o fuerza de la asociación entre dos variables cuantitativas A través del coeficiente de correlación Es bastante raro que esté indicado aplicar simultáneamente ambas técnicas para alcanzar los objetivos de un determinado análisis estadístico Con frecuencia se confunden ambas técnicas y se piensa que son una sola Guadalupe Ruiz Merino - Curso de Estadística Avanzada No estima la bondad del ajuste de unos datos a un modelo OBJETIVO DE LA REGRESIÓN Buscar la línea que mejor se ajusta a los puntos Guadalupe Ruiz Merino - Curso de Estadística Avanzada 18 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN 1 2 3 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN 1.4 ERRORES COMUNES DE LA REGRESIÓN II II EJEMPLO EJEMPLO El ejemplo más intuitivo es cómo se relacionan la talla y la edad Sin embargo, a pesar de ser este un modelo de fácil comprensión, tiene errores… Por cada incremento de edad (por lo menos hasta los 25 años) se produce un incremento de altura. Es decir… Nunca será posible hacer predicciones perfectas de la estatura que tendrá un niño una vez que se conoce su edad y = a + b*x pendiente: pendiente incremento de y por cada unidad de incremento de x (en nuestro caso: cuántos centímetros crece un niño al año) constante llamada ordenada en el origen (en nuestro caso: cuánto mediría un recién nacido) Guadalupe Ruiz Merino - Curso de Estadística Avanzada Aunque la edad tiene un efecto importante sobre la estatura, este efecto está afectado por un cierto grado de variabilidad aleatoria Guadalupe Ruiz Merino - Curso de Estadística Avanzada 1 2 3 1.1 INTRODUCCIÓN A LA REGRESIÓN 1.2 MODELO DE REGRESIÓN II 1.4 ERRORES COMUNES DE LA REGRESIÓN EJEMPLO Las observaciones de dos variables no suelen trazar una línea recta perfecta sino que existe un cierto grado de dispersión entorno a una imaginaria línea recta que los atravesaría por el centro y = a + b*x + e error residual: residual expresa el desajuste de los datos respecto al modelo lineal es una cantidad variable de un sujeto a otro y puede ser positiva o negativa e equivale a lo que habría que añadir o quitar a la predicción que hace el modelo para que coincida exactamente con lo observado en cada sujeto Guadalupe Ruiz Merino - Curso de Estadística Avanzada 19