[email protected] Genoma: • la información genética común a todas las células del organismo. Transcriptoma: • la parte del genoma que se expresa en una célula en una etapa específica de su desarrollo. Proteoma: • las proteínas que interactuan para dar a la célula su carácter individual. Metaboloma: • los metabolitos reflejan cambios en los niveles de informacion previos. La genómica se ha desarrollado como consecuencia de los avances en Biología Molecular e Informática. La introducción y popularización de las tecnologías de alta procesividad ha cambiado drásticamente la manera en que se abordan los problemas biológicos y se prueban las hipótesis. El objetivo de la genómica funcional es generar un catálogo de todos los genes y de su función. Para comprender el comportamiento de los sistemas biológicos y de los algoritmos genéticos que permiten el funcionamiento celular y el desarrollo de los organismos. La genómica funcional engloba el estudio del: Transcriptoma: conjunto completo de transcriptos. Proteoma: conjunto de proteínas codificadas por un genoma. Interactoma: interacción de estos productos. GENÓMICA FUNCIONAL Y POSTGENÓMICA Planteamiento clásico: Dirigido por una hipótesis. Limitado el número de genes estudiados. Planteamiento genómico y postgenómicos: No siempre hay hipótesis de partida. Información sobre miles de genes. Tecnología Sanger: Virus, bacterias 2002: secuenciación completa de muchas bacterias fitopatógenas 2006: emergencia de NGS (454 Roche, ILLUMINA, SOLiD) 2009: 12 hongos fitopatógenos secuenciados (http://cpgr.plantbiology.msu.edu/) 2016: 8590 bacterias, 5500 virus, 844 hongos…. El objetivo es identificar el complemento de todos los transcriptos de una muestra biológica y estimar su abundancia en determinadas condiciones fisiológicas y/o de desarrollo. La transcriptómica permite asimismo identificar estructura funcional de genes (sitio de inicio y fin de transcripción, sitios de splicing, etc). Antes del 2000: northern blot RT-PCR 2000 -2010: avances tecnológicos Biol. Mol. Genómica y boinformática Expressed Sequence Tags (ESTs). Serial analysis gene expression (SAGE). 2010- : NGS – Bioinformática RNAseq Colecciones de ADNc diferencial Suppression substractive hybridization (SSH) Display diferencial Microarreglo de ADN Generación de colecciones de ESTs • La complejidad de los genomas eucariotas hace aconsejable no abordar inicialmente el estudio del genoma completo. • Es preferible estudiar aquellos genes que se están expresando en un momento determinado de la vida del organismo. Genoteca de ADNc: colección de Fragmentos de DNA clonados que representan el conjunto de genes que se están expresando en un órgano o tejido determinado, o bajo una situación particular o momento de desarrollo. Las genotecas de ADNc se secuencian de forma masiva para generar miles de secuencias parciales o ESTs de 200-500 bp. Las diferencias en la expresión de genes pueden ser identificadas considerando el número de veces en que aparece representado un EST particular. • Los ESTs por su propia naturaleza, son incompletas y, hasta cierto punto, imprecisas. • Los ESTs también suelen ser suficientes para la identificación de los genes mediante comparación con las bases de datos. Transcriptómica y descubrimiento de genes Caracterización de splicing alternativo Identificación de sitios de poliadenilación Estimación del numero de genes de una especie Estudios de expresión génica Identificación y desarrollo de marcadores funcionales (EST –SSR), SNPs Mapeo físico, identificación de Sequence Tag Sites (STS) Identificación de genes candidatos ESTs RELACIONADOS CON ESTRÉS BIÓTICO Y ABIÓTICO (919 secuencias editadas y anotadas) Clasificación funcional de ESTs aislados a partir de la clonoteca diferencial de flor en estadio R1 Clasificación funcional de ESTs aislados a partir de la clonoteca diferencial de flor en estadio R4 Fernandez et al. 2003. BMC Genomics. Sep 30;4(1):40. Identificación de genes candidatos mediante construcción de colecciones de ADNc substractivas Construcción de colecciones de ADNc substractivas a partir de flores de la línea MR 2 DPI 4 DPI Inoculado (I) Suspensión de ascosporas D2I-NI − − D2NI- I D4I- NI − − D4NI- I Mock (NI) Control de inoculación (Mock) Identificación de genes candidatos mediante construcción de colecciones de ADNc substractivas 4 DPI Colección D4I-NI − Secuencias únicas: 446 No descriptas para girasol: 71 Con al menos un término GO: 375 Identificación de genes candidatos mediante construcción de colecciones de ADNc substractivas 4 DPI Colección D4NI-I − Secuencias únicas: 295 No descriptas para girasol: 42 Con al menos un término GO: 253 Los microarreglos de ADN surgen de la necesidad de analizar la cantidad de información procedente de los grandes proyectos de secuenciación de genomas. Nro. publicaciones Pubmed 6000 5000 4000 3000 2000 El análisis de microarreglos de ADN permite estudiar simultáneamente la expresión de miles de genes y analizar su expresión bajo distintas condiciones experimentales Permiten elaborar mapas finos de transcripción y proporcionan información indirecta de los niveles de proteínas. 1000 0 El objetivo de los experimentos de microarreglos de ADN es comparar la expresión de múltiples genes (transcripción) en distintas condiciones: • Momentos distintos del tiempo • Tejidos distintos • Tejidos sanos o enfermos Se basan en tecnologías conocidas como la hibridación y la fluorescencia. Microarreglos de ADNc Microarreglos de ologonucleótidos • Affymetrix • Agilent • NimbleGen • ABI • Illumina Cada sonda del microarreglo está diseñada para unirse a un gen de forma específica. • Diseño de sondas específicas. • Especificidad de secuencia. • Tms homogéneas. • Sin estructuras secundarias. • Cada sonda está dispuesta de forma ordenada sobre el microarreglo Primer microarreglo de ADNc Las muestras preparadas del RNA se lavan sobre el array por un periodo de 14 a 16 horas. El número de moléculas implicado en el proceso es enorme. Hay millones de copias de cada probe de DNA (ATCATG) en cada cuadrado del chip, y miles de millones de moléculas de RNA de cada gen que se expresa en la muestra. Una parte de las moléculas de RNA encontrarán su complemento. Si la secuencia de bases del RNA encaja en la del probe de DNA, habrá un alineamiento perfecto y la muestra se pegará al probe. TECNOLOGÍA AGILENT 15 mil a 1 millon de sondas de 60 bases. Diseño y síntesis del chip de girasol Diseño de la micromatriz comprende un total de 42.386 sondas, derivadas de un indice de genes local (SUR) incluyendo ademas con 1.417 controles de Agilent y 74 controles de hibridación. Diseño 4 x 44 K Sunflower unigene collection and expression chip design SUR v.1.0 133,682 EST Genbank (versión May 2009) Helianthus annuus L. VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html) Trimseq EMBOSS (http://emboss.sourceforge.net/) 28,089 singletons y 12,924 contigs = 41,013 unigenes (ensamblador CAP3) Anotación funcional (BLASTX, Blast2go) MICROARREGLO (Agilent 44Kx4) 42,386 sondas 10x74 controles específicos 1,417 controles Agilent Fernandez et al 2012 Sunflower Microarray Database Búsqueda de los puntos (spots) Segmentación Cuantificación Calidad de la medida Agilent - Estadística Descriptiva. - Comparación de medias. - Diseño de Experimentos (ANOVA). -Correcciones para comparaciones múltiples. - Descomposición en valores singulares : Componentes principales, correspondencias. - Métodos de clasificación: Análisis Discriminante y variantes. - ANALISIS DE AGRUPAMIENTO. - ANALISIS DE AGRUPAMIENTO DE INDIVIDUOS Y GENES SIMULTANEAMENTE. Mol Biotechnol (2012) 50:87–97 MICROARREGLOS Ventajas: • tecnología madura, con años de análisis y validaciones • Procesamiento y comparación simultánea de muchas muestras en paralelo • Han sido extensamente estudiados en interacciones H-P Desventajas: • Limitados a identificar transcriptos de genes conocidos • Background puede ser alto por señales inespecíficas • Señal saturada a altos niveles de expresión génica TRANSCRIPTÓMICA RNA-seq La evolución de la transcriptomica Hybridization-based 1995 P. Brown, et. al. Gene expression profiling using spotted cDNA microarray: expression levels of known genes 2002 Affymetrix, whole genome expression profiling using tiling array: identifying and profiling novel genes and splicing variants 2008 many groups, mRNA-seq: direct sequencing of mRNAs using next generation sequencing techniques (NGS) RNA-seq is still a technology under active development How RNA-seq works Sample preparation Next generation sequencing (NGS) Data analysis: Mapping reads Visualization (Gbrowser) De novo assembly Quantification Wang et. al, Nat. Rev. Genetics 10, 57-63, 2009). Purificación y Analisis del RNA RNA Purificación: Qiagen Kit o Fenol/Cloroformo. Analisis de calidad del RNA Quality (Agilent 2100 BioAnalyzer) RIN’ = RNA integrity number: 0 (malo) to 10 (bueno) Cuantificación del RNA (Qubit) RIN = 6.0 RIN = 10 Tipo de experimento → diferentes plataformas Diseño del experimento: Single End (SR) vs. Paired End (PE) Pipeline RNAseq Teorica Practica FASTQ file INSTRUMENT NAME Tile # X ADAPTOR INDEX Y Lane # @SN971:3:2304:20.80:100.00#0/1 NAAATTTCACATTGCGTTGGGAACAGTTGGCCCAAACTCAGGTTGCAGTAACTGTCACAATACC ATTCTCCATCAACTTCAAGAAATGTTCAACAAAACAC + @P\cceeegggggiihhiiiiiiihighiiiiiiiiiiiiiifghhhhgfghiifihihfhhiiiihiggggggeeeeeeddcdddccbcdddcccccccc Line 1: begins with ‘@’ followed by sequence identifier Line 2: raw sequence Line 3: + Line 4: base quality values for sequence in Line 2 Calidad de secuencia por base TRANSCRPTOMICA POR RNA-seq Genoma de referencia: • Se mapean las lecturas sobre el genoma de referencia, utilizando programas de detección de sitios de splicing. • Se pierden sitios no canónicos comunes en plantas, hongos, oomicetes Sin genoma de referencia • Ensamblado “de novo”. • Bioinformaticamente mas complejo que secuenciación Genómica “de novo” . • Requiere normalización de colecciones ADNc antes de la secuenciación masiva Mapeo de lecturas Microarray y RNAseq: necesidad de validación! Validación de genes por Northern Blot y qRT-PCR: 12 Micromatriz 10 qPCR 8 6 4 2 0 T2 T1 T2 T1 T2 T1 T2 T1 T2 CH SH CR SR CT ST Relación de intensidad normalizada banda transcripto-específica/banda ribosomal utilizando la concentración de ARN ribosomal 1,00 7,82 1,00 1,56 1,00 1,99 Gel de agarosa 1,5% y Northern Blot de los ARNs de diferentes órganos de plantas de girasol sometidas a estrés por salinidad. CH: control hoja, SH: salinidad hoja, CR: control raíz, SR: salinidad raíz, CT: control tallo, ST: salinidad tallo 5124 4383 3510 2535 1282 -4 163 -2 T1 T2 T1 T2 T1 T2 T1 T2 37540 T1 11812 T2 11489 T1 10816 Log2 tasa de cambio (BU671801) Ejemplos de Transcriptomica en el estudio de relación H-P Identificacion de factor Avr ve1 en Verticilliun dahliae por RNA-seq Estrategia de secuenciación genómica de variantes y RNA seq por ILLUMINA para la identificación del Factor de Avr Ve1 de Verticillium dahliae (Ave1) que interactua con el gen R Ve1 de tomate. 5110–5115 | PNAS | March 27, 2012 | vol. 109 | no. 13 ≈27,6 millones de lecturas por cada condicion biológica (12, 24 Y 48hpi) 77% lecturas mapeadas sobre el genoma de lechuga RNA-seq vs. microarray • RNA-seq puede ser utilizado para caracterizar nuevos transcriptos y variantes de splicing, así como realizar un perfil de los niveles de expresión de los transcriptos conocidos; mientras que las técnicas basadas en hibridación se limitan a detectar transcriptos correspondientes a las secuencias genómicas conocidas • RNA-seq tiene mayor resolución • • En principio, el RNAseq puede lograr la resolución de un solo ARNm, mientras que en los microarray depende de la densidad de sondas. Detección de transcriptos desconocidos con niveles de expresión muy bajos. RNA-seq se puede aplicar el mismo protocolo experimental para diversos fines, mientras que los microarrays especializados necesitan ser diseñadas para cada caso. Detección de polimorfismos de nucleótido único (SNP array) Mapeo de uniones exonicas (junction array) Detección de fusiones génicas (gene fusion array) Tecnologías de Next-generation sequencing (NGS) están desafiando los microarrays como la herramienta de elección para análisis genómicos. Análisis por categorías funcionales: FATIGO, FATISCAN, GenSet Analysis (Babelomics) Función Molecular Linea Girasol Resistente – Sclerotinia I vs NI 0, 2 y 4 dpi INTERPRETACIÓN DE RESULTADOS Análisis transcriptómico relacionado a la senescencia foliar en girasol Campo 10.173 7.890 Invernáculo 7.517 3.714 Mapman BINCODE 1 1.1 1.1.1 1.1.1.1 1.1.1.2 1.1.2 1.1.2.1 1.1.2.2 11 11.3 11.3.2 3.1.1001 13.1.7.1002 NAME PS PS.lightreaction PS.lightreaction.photosystem II PS.lightreaction.photosystem II.LHC-II PS.lightreaction.photosystem II.PSII polypeptide subunits PS.lightreaction.photosystem I PS.lightreaction.photosystem I.LHC-I PS.lightreaction.photosystem I.PSI polypeptide subunits lipid metabolism lipid metabolism.Phospholipid synthesis lipid metabolism.Phospholipid synthesis.choline kinase minor CHO metabolism.raffinose family amino acid metabolism.synthesis.histidine IDENTIFIER HeAn_C_11607 HeAn_C_3889 HeAn_C_677 HeAn_S_37979 HeAn_C_3253 DESCRIPTION TYPE moderately similar to ( 431) AT3G47470 | Symbols: T LHCA moderately similar to ( 225) AT2G39050 | Symbols: T | hy moderately similar to ( 260) AT1G45474 | Symbols: T LHCA moderately similar to ( 304) AT4G12800 | Symbols: T PSAL moderately similar to ( 229) AT2G31040 | Symbols: T | AT HeAn_S_18559 moderately similar to ( 222) AT3G18850 | Symbols: T LPAT HeAn_S_17701 moderately similar to ( 254) AT4G09760 | Symbols: T | ch raffinose minor CHO metabolism.raffinose M histidine amino acid synthesis.histidine M Estudio integrador relacionado a la senescencia foliar en girasol Campo control: Tiempo 1 vs Tiempo 0 Mapman Librería KEGG Paintomics (http://www.genome.jp/kegg/) Weighted Gene Correlation Network Analysis (WGCNA) Fenotipo Genómica Transcriptómica Proteómica Biología de Sistemas Metabolómica Fenómica GRACIAS!!