Marcadores moleculares y su aplicación al análisis de la diversidad Niveles de análisis INTER-ESPECÍFICO Estudios filogenéticos INTRA-ESPECÍFICO Estudios poblacionales y filogeográficos Relaciones entre individuos o entidades individuales Estudios filogenéticos Selección de genes Nivel taxonómico de interés (tasa de sustitución) Número de genes Genes nucleares vs. organelas ¿Genomas completos? Estudios filogenéticos Selección de genes ADN ribosomal Eucariotas 18S ITS 25 S ITS1 5.8S ITS2 18S IGS NTS ETS Procariotas Estudios filogenéticos Selección de genes ADN organelas rbcL trnF trnL atpβ 120matK 200 Kb Estudios filogenéticos Selección de marcadores ¿Cuántos genes? ¿Nucleares u organelas? ¿Genomas completos? Mitogenome Phylogenetics: The Impact of Using Single Regions and Partitioning Schemes on Topology, Substitution Rate and Divergence Time Estimation Walker et al. 2012. MPE. Duchene et al. 2011. PlosOne MPE. 2011. ca. 3100 genes, 12 genomas, 10 especies Estudios filogenéticos Análisis de datos de secuencia Alineamiento Sp1. Sp2. Sp3. Sp4. Sp5. Sp6. Sp7. Sp8. Sp9. Sp10. Sp11. Sp12. Sp13. Sp14. Sp15. Sp16. Sp17. Métodos de Reconstrucción Métodos de Distancia (Modelo de Evolución Molecular) Métodos cladísticos (Máxima Parsimonia) Métodos Probabilisticos (Máxima Verosimilitud – Método Bayesiano) Estudios filogenéticos Métodos probabilísticos requieren Modelos de Evolución Molecular Además… Heterogeneidad entre sitios Proporción de sitios invariantes ModelTest (Posada y Crandall, 1998) Ej: HKY+I+G ¿? Estudios filogenéticos Selección de Genes/ Secuenciación Alineamiento Selección de Método de Reconstrucción / Modelo Evolución Búsqueda del árbol (árboles) óptimo Interpretación del árbol Figure 2. 16S rRNA Maximum Likelihood tree. Beta-proteobacteria Gamma-proteobacteria Alpha-proteobacteria Cyanobacteria Lang JM, Darling AE, Eisen JA (2013) Phylogeny of Bacterial and Archaeal Genomes Using Conserved Genes: Supertrees and Supermatrices. PLoS ONE 8(4): e62510. doi:10.1371/journal.pone.0062510 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0062510 Niveles de análisis INTER-ESPECÍFICO Estudios filogenéticos INTRA-ESPECÍFICO Estudios poblacionales y filogeográficos Relaciones entre individuos o entidades individuales Variabilidad Intra-específica ¿Existe variabilidad genética intra-específica? ¿Cómo se distribuye? ¿Cómo se relacionan las poblaciones/individuos? • Identificación del marcador apropiado Variabilidad Intra-específica • Diseño experimental Número de poblaciones Número de individuos por población Tipo de marcadores (Dominantes / Codominantes) Número de marcadores Variabilidad Intra-específica Tipo de organismo! Fitopatógenos Bacterias Nematodes Hongos Virus Phytoplasmas Plantas parásitas Protozoos Análisis de datos Medición de variabilidad Establecimiento de relaciones Distribución de la variabilidad Análisis de datos INTRA-ESPECÍFICO I) Análisis poblacional II) Relaciones entre individuos o entidades individuales Análisis de datos Medición de variabilidad Establecimiento de relaciones Distribución de la variabilidad Análisis poblacionales Marcadores dominantes Kokotovic B et al. J. Clin. Microbiol. 1999;37:3300-3307 Matrices de datos Locus 1111111111222222222 1234567890123456789012345678 Ind.1 Ind.2 Ind.3 Ind.4 Ind.5 Ind.6 Ind.7 Ind.8 Ind.9 Ind.10 Ind.11 Ind.12 1011011111111011100111111111 1011110011111111100111111111 1011111111111111100111111111 1011101111111111100111111111 1011111111111111100111111111 1011111110111111100111111111 1011111111111111100111111111 1011111111111111100111111111 1011111111111111100111111111 1011110111111111100111111111 1011110011111101100111111111 1011111001111101100111111111 Análisis poblacionales Marcadores codominantes Matriz de datos - Tabla de genotipos Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 0101 0101 0101 0101 0101 0101 0101 0104 0101 0303 0101 0101 0101 0101 0303 0303 0404 0303 0303 0303 0203 0403 0000 0101 0303 0404 0000 0304 0104 0101 0101 0101 0101 0101 0101 0104 0101 0303 0104 0404 0104 0104 0303 0303 0707 0303 0303 0303 0303 0708 0708 0608 0808 0808 0808 0808 0606 0608 0707 0000 0708 0808 0608 0307 0000 0000 0000 0607 0707 0703 Análisis poblacionales Marcadores codominantes Cálculo de frecuencias alélicas poblacionales F(A1)= F(A1A1) + ½ F(A1Ax) Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 0101 0101 0101 0101 0101 0101 0101 0104 0101 0303 0101 0101 0101 0101 0303 0303 0404 0303 0303 0303 0203 0403 0000 0101 0303 0404 0000 0304 0104 0101 0101 0101 0101 0101 0101 F(A1)= 1/7 + ½ (4/7) = 0.43 F(A1)= (2 + 4)/14 = 0.43 0104 0101 0303 0104 0404 0104 0104 0303 0303 0707 0303 0303 0303 0303 0708 0708 0608 0808 0808 0808 0808 Análisis poblacionales Índices de variabilidad A = número promedio de alelos por locus Ap = número de alelos privados o exclusivos R= riqueza alélica (El Mousadik y Petit, 1996) Análisis poblacionales Ho = heterocigosis observada promedio Ho/n = (nro. de heterocigotas / nro. de individuos)/ nro. total de loci He = heterocigosis esperada promedio Conozco p y q para cada locus y población… Puedo calcular heterocigosis esperada He= 2pq (Hardy-Weinberg) L1 L2 L3 L4 p 0.3 0.8 0.9 1 Promedio He Si hay más de dos alelos Pobl. X q He 0.7 0.42 0.2 0.32 0.1 0.18 0 0 Heterocigosis esperada 0.23 promedio He = (1/n). (1 - ai 2) Análisis poblacionales Datos de secuencia Índices de variabilidad N 2 5 4 1 Número de sitios segregantes (S) = número de sitios polimórficos Proporción de sitios polimórficos (p) = número de sitios polimórficos / total de sitios. Diversidad haplotípica (h) = Análisis poblacionales Estimas de variabilidad Diversidad nucleotídica (Pi ) = número promedio de sustituciones nucleotídicas por sitio entre pares de secuencias (Nei, 1987) Análisis poblacionales ¿Cómo interpreto los valores de los índices? Ej: Comparación de He utilizando distintos marcadores Felis silvestris silvestris Isoenzimas 0.029 Microsatélites 0.79 Chitala chitala Isoenzimas 0.35 Microsatélites 0.50 Hordeum spontaneum AFLP 0.16 Microsatélites 0.47 Araucaria angustifolia AFLP 0.30 Microsatélites 0.72 Salmo trutta AFLP 0.19 Microsatélites 0.66 Tomado de Freeman J. 2011.Molecular Ecology. Análisis de datos Medición de variabilidad Establecimiento de relaciones Distribución de la variabilidad Análisis poblacionales Relaciones entre poblaciones Locus 1111111111222222222 1 2 34567890123456789012345678 Frec. alélicas Pobl. 1 p p ..................................................p 11 21 281 Locus Pobl. 2 p12 p22 ...................................................p282 1111111111222222222 Pobl. 3 p13 p23 ...................................................p283 1234567890123456789012345678 Ind.1 1011011111111011100111111111 Dist. Genéticas (Ej. Nei) Ind.2 1011110011111111100111111111 Pobl. 1 Ind.3 1011111111111111100111111111 Ind.4 1011101111111111100111111111 Pobl. 1 Pobl. 2 Pobl. 3 Ind.5 1011111111111111100111111111 Ind.6 1011111110111111100111111111 Pobl. 1 0 D12 D13 Pobl. 2 Ind.7 1011111111111111100111111111 Pobl. 2 D21 0 D23 Ind.8 1011111111111111100111111111 Ind.9 1011111111111111100111111111 Pobl. 3 D31 D32 0 Ind.10 1011110111111111100111111111 Pobl. 3 Análisis de Agrupamiento Ind.11 1011110011111101100111111111 Ind.12 1011111001111101100111111111 Ejemplo marcadores dominantes Pobl. 1 Pobl. 3 Pobl. 2 Análisis poblacionales Análisis de datos Relaciones entre poblaciones Estimación de la identidad/distancia genética Identidad y Distancia de Nei (1972) Pobl. A Pobl. B Alelo 1 Alelo 2 Ik 0.4 0.6 Iab 0.3 0.7 a b a b i i 2 i i 2 = 0.4 x0.3 0.6 0.7 0.4 2 0.6 0.7 0.3 2 Ia 2 2 Ib Pero esto es sólo para 1 locus … = 0.983 Análisis poblacionales Análisis de datos Relaciones entre poblaciones Estimación de la identidad/distancia genética Identidad y Distancia de Nei (1972) Cuando se necesita estudiar más de un locus I K I ab / I a .I b Este valor puede variar entre 0 y 1 La distancia genética (D) es igual a: D= -ln IK Puede variar entre 0 e infinito Análisis poblacionales Relaciones entre poblaciones Otras medidas de distancia genética Reynolds et al. (1983) Rogers (1972) Distancia de la cuerda (Cavalli-Sforza y Edwards, 1967) Análisis de Agrupamiento UPGMA (Unweighted pair group method using arithmetic averages) Pobl. 1 Neighbour-joining (Saitou & Nei, 1987) Pobl. 3 Pobl. 2 Análisis entre entidades individuales Análisis a partir de coeficientes de asociación entre terminales Locus 1111111111222222222 1234567890123456789012345678 Ind.1 Ind.2 Ind.3 Ind.4 Ind.5 Ind.6 Ind.7 Ind.8 Ind.9 Ind.10 Ind.11 Ind.12 1011011111111011100111111111 1011110011111111100111111111 1011111111111111100111111111 1011101111111111100111111111 1011111111111111100111111111 1011111110111111100111111111 1011111111111111100111111111 1011111111111111100111111111 1011111111111111100111111111 1011110111111111100111111111 1011110011111101100111111111 1011111001111101100111111111 Análisis entre entidades individuales Marcadores dominantes Análisis de similitud entre individuos Coeficientes de asociación para datos doble estado SM (Simple Matching): (a+d)/(a+b+c+d). DICE: 2a/(2a+b+c) JACCARD: a /(a+b+c) OTU 2 OTU1 1 0 1 0 a c b d Análisis entre entidades individuales Marcadores dominantes E.j.: Coeficiente de Jaccard = a/a+b+c = total de bandas compartidas total de bandas presentes en al menos una de las OTUs comparadas Ind.1 Ind.2 1011011111111011100111111111 1011110011111111100111111111 a+b+c+d= 28 J1,2= 21/25=0.84 Obtengo una matriz cuadrada de NxN terminales En el ejemplo: 12x12 1 2 3 4 12 1 1 J1,2 J1,3 J1,4..….J1,12 2 J2,1 1 J2,3 J2,4……J2,12 3 J3,1 J3,2 1 J3,4……J3,12 4 J4,1 J4,2 J4,3 1 ……J4,12 ………………………………….. ………………………………….. 12 J12,1 J12,2 J12,3 J12,4 1 Análisis entre entidades individuales Marcadores codominantes Tabla de genotipos Ind. 1 Ind. 2 Ind. 3 Ind. 4 Ind. 5 Ind. 6 Ind. 7 0101 0104 0303 0403 0104 0104 0303 0708 0606 0307 0404 0000 0101 0101 0303 0000 0101 0101 0303 0708 0608 0000 0404 0304 0101 0303 0404 0101 0101 0303 0707 0608 0707 0000 0404 0404 0101 0101 0303 0303 0101 0104 0303 0808 0000 0000 0000 0000 0101 0101 0303 0404 0101 0404 0303 0808 0708 0607 0404 0505 0101 0101 0303 0000 0101 0104 0303 0808 0808 0707 0404 0304 0101 0101 0203 0304 0101 0104 0303 0808 0608 0703 0000 0305 Coeficientes de similitud entre individuos Análisis entre entidades individuales Marcadores codominantes Distancia de alelos compartidos = -ln (nro. alelos compartidos / total de alelos) Ind. 1 Ind. 2 0101 0104 0303 0403 0104 0104 0303 0708 0606 0307 0404 0304 0101 0101 0303 0506 0101 0101 0303 0708 0608 0103 0404 0304 Loci = 12 Alelos totales =24 Alelos compartidos = 2+ 1+2+0+1+1+2+2+1+1+2+2 = 17 D Ind1-Ind2 = -ln 17/24 1 2 3 4 7 1 0 D1,2 D1,3 D1,4..…D1,7 2 D2,1 0 D2,3 D2,4…..D2,7 3 D3,1 D3,2 0 D3,4….D3,7 4 D4,1 D4,2 D4,3 0 ….D4,7 ………………………………….. ………………………………….. 7 D7,1 D7,2 D7,3 D74 0 Análisis entre entidades individuales Coeficientes de asociación (similitud) entre terminales 1 Análisis de Agrupamiento (cluster) 2 3 4 12 1 1 J1,2 J1,3 J1,4..….J1,12 2 J2,1 1 J2,3 J2,4……J2,12 3 J3,1 J3,2 1 J3,4……J3,12 4 J4,1 J4,2 J4,3 1 ……J4,12 ………………………………….. ………………………………….. 12 J12,1 J12,2 J12,3 J12,4 1 Análisis de Ordenación (Coordenadas Principales) 1 3 8 10 11 12 2 7 4 5 6 9 Análisis de agrupamiento (Cluster analysis) ¿Cómo paso de la matriz al árbol? OTUA OTUB OTUC A OTUA 1 OTUB 0.7 1 OTUC 0.4 0.3 B 1 1 0.7 A A A B B B C C 1 0.7 0.4 Ligamiento Simple Similitud máxima 0 Unweighted Pair Group Method using Arithmetic Averages (UPGMA) C 1 0.7 0.4 0.3 Ligamiento Completo Similitud mínima 0 1 0.7 0.35 Ligamiento Promedio Similitud Promedio 0 Análisis de agrupamiento (Cluster analysis) Medidas de distorsión del fenograma Matriz cofenética 1) A partir del dendrograma se calcula la matriz de derivada y se denomina cofenética. 2) La matriz cofenética se compara con la original utilizando un coeficiente de correlación coeficiente de correlación “producto momento de Pearson” “cofenético” R12=Σ y1y2/√ Σy12 Σy22 Análisis de agrupamiento (Cluster analysis) Medidas de distorsión del fenograma Coeficiente de correlación “producto momento de Pearson” Nivel Interpretación subjetiva 0.9 ≤ r Muy buen ajuste. 0.8 ≤ r < 0.9 Buen ajuste. 0.7 ≤ r < 0.8 Pobre “ . r < 0.7 Muy pobre ajuste. Análisis de agrupamiento (Cluster analysis) Medidas de distorsión del fenograma Test de Mantel de correspondencia de matrices. n Z=Σ xij yij, (sin las diagonales) i<j Significación Método permutacional Análisis de agrupamiento (Cluster analysis) A zc =0,55*0,47+0,38*0,47+0,5*0,29+,,,+= =1,5641 Z1=0,55*0,29+0,38*0,63+0,5*0,29+...+= 1,4647 Z2 Z3. Permutaciones . z1000 B C D A 1 B 0.55 1 C 0.38 0.63 1 D 0.5 0.44 0.43 1 E 0.22 0.18 0.11 0.43 A B C Similitud D 1 B 0.47 1 C 0.47 0.63 1 D 0.29 0.29 0.29 1 E 0.29 0.29 0.29 0.43 B 1 E A A E Cofenetica C D 1 E A 1 B 0.29 1 C 0.63 0.47 1 D 0.29 0.29 0.29 1 E 0.47 0.29 0.29 0.43 Permutada 1 Ciprés de la cordillera (Austrocedrus chilensis) Primera aparición en 1948 ¿se trata de un patógeno introducido? 48 aislamientos de todo el rango de ocurrencia AFLP Variabilidad Análisis de Relaciones Análisis de Ordenación Análisis de datos Medición de variabilidad Establecimiento de relaciones Distribución de la variabilidad Análisis poblacionales Distribución de la variabilidad Indices de Fijacion de Wright (1943, 1951, 1969) FIT, FST, FIS Análisis Molecular de la varianza (Excoffier et al. 1992) Métodos Bayesianos – STRUCTURE (Pritchard et al. 2000) (OJO! Asume poblaciones de organismos diploides en equilibrio de H-W) Análisis discriminante de componentes principales DAPC (Jomabart et al. 2010) Análisis poblacionales Distribución de la variabilidad Análisis Molecular de la varianza (Excoffier et al. 1992) AMOVA Es un método para detectar diferenciación genética utilizando marcadores moleculares Requiere - Una matriz de distancias (euclideas) entre individuos - Un esquema de categorización (ej.: individuos dentro de poblaciones, poblaciones dentro de regiones). Estima los componentes de varianza correspondientes a cada nivel de la categorización Estos componentes generalmente se informan como porcentaje de la varianza total o a través de los índices Phi. Análisis poblacionales Distribución de la variabilidad Los componentes de varianza se significan a través de permutaciones Existen distintos programas para relaizar el análisis. Los mas populares son Arlequin (Excoffier 1997-2008) y GenAlEx (Peakall and Smouse 2006, 2012) Un ejemplo en R http://grunwaldlab.github.io/Population_Genetics_in_R/ AMOVA.html Phytopathology 2015 Phytophtora ramorum 513 aislamientos, 7 regiones, 2001-2014, 11 SSR ¡Gracias!