Transcriptómica- Fitopatologia Molecular 2016.pdf

Anuncio
[email protected]
Genoma:
• la información genética común a todas
las células del organismo.
Transcriptoma:
• la parte del genoma que se expresa en
una célula en una etapa específica de su
desarrollo.
Proteoma:
• las proteínas que interactuan para dar a
la célula su carácter individual.
Metaboloma:
• los metabolitos reflejan cambios en los
niveles de informacion previos.

La genómica se ha desarrollado como consecuencia
de los avances en Biología Molecular e Informática.

La introducción y popularización de las tecnologías de
alta procesividad ha cambiado drásticamente la
manera en que se abordan los problemas biológicos y
se prueban las hipótesis.
 El objetivo de la genómica funcional es generar un catálogo de todos
los genes y de su función.
 Para comprender el comportamiento de los sistemas biológicos y de
los algoritmos genéticos que permiten el funcionamiento celular y el
desarrollo de los organismos.
La genómica funcional engloba el estudio del:
Transcriptoma: conjunto completo de transcriptos.
Proteoma: conjunto de proteínas codificadas por un genoma.
Interactoma: interacción de estos productos.
GENÓMICA FUNCIONAL
Y POSTGENÓMICA
Planteamiento clásico:
 Dirigido por una hipótesis.
 Limitado el número de genes
estudiados.
Planteamiento genómico y
postgenómicos:
No siempre hay hipótesis de partida.
Información sobre miles de genes.
Tecnología Sanger: Virus, bacterias
2002: secuenciación completa de muchas bacterias fitopatógenas
2006: emergencia de NGS (454 Roche, ILLUMINA, SOLiD)
2009: 12 hongos fitopatógenos secuenciados (http://cpgr.plantbiology.msu.edu/)
2016: 8590 bacterias, 5500 virus, 844 hongos….

El objetivo es identificar el complemento de todos los transcriptos
de una muestra biológica y estimar su abundancia en determinadas
condiciones fisiológicas y/o de desarrollo.

La transcriptómica permite asimismo identificar estructura
funcional de genes (sitio de inicio y fin de transcripción, sitios de
splicing, etc).
Antes del 2000:
northern
blot
RT-PCR
2000 -2010:
avances
tecnológicos
Biol. Mol.
Genómica y
boinformática
Expressed
Sequence
Tags (ESTs).
Serial
analysis
gene
expression
(SAGE).
2010- :
NGS –
Bioinformática
RNAseq
Colecciones
de ADNc
diferencial
Suppression
substractive
hybridization
(SSH)
Display
diferencial
Microarreglo
de ADN

Generación de colecciones de ESTs
• La complejidad de los genomas eucariotas
hace aconsejable no abordar inicialmente
el estudio del genoma completo.
• Es preferible estudiar aquellos genes que
se están expresando en un momento
determinado de la vida del organismo.
Genoteca de ADNc:
colección de Fragmentos de DNA clonados
que representan el conjunto de genes que
se están expresando en un órgano o tejido
determinado, o bajo una situación
particular o momento de desarrollo.
Las genotecas de ADNc se secuencian de
forma masiva para generar miles de
secuencias parciales o ESTs de 200-500 bp.
Las diferencias en la expresión de genes pueden ser
identificadas considerando el número de veces en que
aparece representado un EST particular.
• Los ESTs por su propia naturaleza, son incompletas y,
hasta cierto punto, imprecisas.
• Los ESTs también suelen ser suficientes para la
identificación de los genes mediante comparación con
las bases de datos.







Transcriptómica y descubrimiento de genes
Caracterización de splicing alternativo
Identificación de sitios de poliadenilación
Estimación del numero de genes de una especie
Estudios de expresión génica
Identificación y desarrollo de marcadores
funcionales (EST –SSR), SNPs
Mapeo físico, identificación de Sequence Tag Sites
(STS)
Identificación de genes candidatos
ESTs RELACIONADOS CON ESTRÉS
BIÓTICO Y ABIÓTICO
(919 secuencias editadas y anotadas)
Clasificación funcional de ESTs aislados a partir de la
clonoteca diferencial de flor en estadio R1
Clasificación funcional de ESTs aislados a partir de la
clonoteca diferencial de flor en estadio R4
Fernandez et al. 2003. BMC Genomics. Sep
30;4(1):40.
Identificación de genes candidatos mediante
construcción de colecciones de ADNc
substractivas
Construcción de colecciones de ADNc
substractivas a partir de flores de la línea MR
2 DPI
4 DPI
Inoculado (I)
Suspensión de
ascosporas
D2I-NI
− − D2NI- I
D4I- NI
− −
D4NI- I
Mock (NI)
Control de
inoculación
(Mock)
Identificación de genes candidatos mediante
construcción de colecciones de ADNc
substractivas
4 DPI
Colección D4I-NI
−
Secuencias únicas: 446
No descriptas para girasol: 71
Con al menos un término GO: 375
Identificación de genes candidatos mediante
construcción de colecciones de ADNc
substractivas
4 DPI
Colección D4NI-I
−
Secuencias únicas: 295
No descriptas para girasol: 42
Con al menos un término GO: 253

Los microarreglos de ADN surgen de la
necesidad de analizar la cantidad de
información procedente de los grandes
proyectos de secuenciación de genomas.
Nro. publicaciones Pubmed
6000
5000
4000
3000
2000


El análisis de microarreglos de ADN
permite estudiar simultáneamente la
expresión de miles de genes y analizar
su expresión bajo distintas condiciones
experimentales
Permiten elaborar mapas finos de
transcripción y proporcionan información
indirecta de los niveles de proteínas.
1000
0
 El objetivo de los experimentos de microarreglos
de ADN es comparar la expresión de múltiples
genes (transcripción) en distintas condiciones:
• Momentos distintos del tiempo
• Tejidos distintos
• Tejidos sanos o enfermos
 Se basan en tecnologías conocidas como la
hibridación y la fluorescencia.

Microarreglos de ADNc

Microarreglos de ologonucleótidos
•
Affymetrix
•
Agilent
•
NimbleGen
•
ABI
•
Illumina

Cada sonda del microarreglo está diseñada
para unirse a un gen de forma específica.
• Diseño de sondas específicas.
• Especificidad de secuencia.
• Tms homogéneas.
• Sin estructuras secundarias.
• Cada sonda está dispuesta de forma
ordenada sobre el microarreglo
Primer microarreglo de ADNc
Las muestras preparadas del RNA se
lavan sobre el array por un periodo de 14 a
16 horas. El número de moléculas
implicado en el proceso es enorme. Hay
millones de copias de cada probe de DNA
(ATCATG) en cada cuadrado del chip, y
miles de millones de moléculas de RNA de
cada gen que se expresa en la muestra.
Una parte de las moléculas de RNA
encontrarán su complemento. Si la
secuencia de bases del RNA encaja
en la del probe de DNA, habrá un
alineamiento perfecto y la muestra
se pegará al probe.
TECNOLOGÍA AGILENT
15 mil a 1 millon de sondas de 60 bases.
Diseño y síntesis del chip de girasol
Diseño de la micromatriz comprende un total de 42.386
sondas, derivadas de un indice de genes local (SUR)
incluyendo ademas con 1.417 controles de Agilent y 74
controles de hibridación.
Diseño 4 x 44 K
Sunflower unigene collection and
expression chip design
SUR v.1.0
133,682 EST Genbank (versión May 2009)
Helianthus annuus L.
VecScreen
(http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html)
Trimseq EMBOSS
(http://emboss.sourceforge.net/)
28,089 singletons y 12,924 contigs =
41,013 unigenes (ensamblador CAP3)
Anotación funcional
(BLASTX, Blast2go)
MICROARREGLO
(Agilent 44Kx4)
42,386 sondas
10x74 controles específicos
1,417 controles Agilent
Fernandez et al 2012
Sunflower Microarray Database

Búsqueda de los puntos (spots)

Segmentación

Cuantificación

Calidad de la medida
Agilent
- Estadística Descriptiva.
- Comparación de medias.
- Diseño de Experimentos (ANOVA).
-Correcciones para comparaciones múltiples.
- Descomposición en valores singulares : Componentes principales,
correspondencias.
- Métodos de clasificación: Análisis Discriminante y variantes.
- ANALISIS DE AGRUPAMIENTO.
- ANALISIS DE AGRUPAMIENTO DE INDIVIDUOS Y GENES
SIMULTANEAMENTE.
Mol Biotechnol (2012) 50:87–97
MICROARREGLOS
Ventajas:
•
tecnología madura, con años de análisis y validaciones
•
Procesamiento y comparación simultánea de muchas
muestras en paralelo
•
Han sido extensamente estudiados en interacciones H-P
Desventajas:
•
Limitados a identificar transcriptos de genes conocidos
•
Background puede ser alto por señales inespecíficas
•
Señal saturada a altos niveles de expresión génica
TRANSCRIPTÓMICA
RNA-seq
La evolución de la transcriptomica
Hybridization-based
1995 P. Brown, et. al.
Gene expression profiling
using spotted cDNA
microarray: expression levels
of known genes
2002 Affymetrix, whole
genome expression profiling
using tiling array: identifying
and profiling novel genes and
splicing variants
2008 many groups, mRNA-seq:
direct sequencing of mRNAs
using next generation
sequencing techniques (NGS)
RNA-seq is still a technology
under active development
How RNA-seq works
Sample preparation
Next generation sequencing (NGS)
Data analysis:
Mapping reads
Visualization (Gbrowser)
De novo assembly
Quantification
Wang et. al, Nat. Rev. Genetics 10, 57-63, 2009).
Purificación y Analisis del RNA
RNA Purificación: Qiagen Kit o Fenol/Cloroformo.
Analisis de calidad del RNA Quality (Agilent 2100 BioAnalyzer)
RIN’ = RNA integrity number: 0 (malo) to 10 (bueno)
Cuantificación del
RNA (Qubit)
RIN = 6.0
RIN = 10
Tipo de experimento
→ diferentes plataformas
Diseño del experimento: Single End (SR) vs. Paired End
(PE)
Pipeline RNAseq
Teorica
Practica
FASTQ file
INSTRUMENT NAME
Tile #
X
ADAPTOR
INDEX
Y
Lane #
@SN971:3:2304:20.80:100.00#0/1
NAAATTTCACATTGCGTTGGGAACAGTTGGCCCAAACTCAGGTTGCAGTAACTGTCACAATACC
ATTCTCCATCAACTTCAAGAAATGTTCAACAAAACAC
+
@P\cceeegggggiihhiiiiiiihighiiiiiiiiiiiiiifghhhhgfghiifihihfhhiiiihiggggggeeeeeeddcdddccbcdddcccccccc
Line 1: begins with ‘@’ followed by sequence identifier
Line 2: raw sequence
Line 3: +
Line 4: base quality values for sequence in Line 2
Calidad de secuencia por base
TRANSCRPTOMICA POR RNA-seq
Genoma de referencia:
• Se mapean las lecturas sobre el genoma de referencia,
utilizando programas de detección de sitios de splicing.
• Se pierden sitios no canónicos comunes en plantas, hongos,
oomicetes

Sin genoma de referencia
• Ensamblado “de novo”.
• Bioinformaticamente mas complejo que secuenciación Genómica
“de novo” .
• Requiere normalización de colecciones ADNc antes de la
secuenciación masiva

Mapeo de lecturas
Microarray y RNAseq: necesidad de validación!
Validación de genes por Northern Blot y qRT-PCR:
12
Micromatriz
10
qPCR
8
6
4
2
0
T2
T1
T2
T1
T2
T1
T2
T1
T2
CH
SH
CR
SR
CT
ST
Relación de intensidad normalizada
banda transcripto-específica/banda
ribosomal utilizando la concentración
de ARN ribosomal
1,00
7,82
1,00
1,56
1,00
1,99
Gel de agarosa 1,5% y
Northern Blot de los ARNs de
diferentes órganos de
plantas de girasol sometidas
a estrés por salinidad.
CH: control hoja,
SH: salinidad hoja,
CR: control raíz,
SR: salinidad raíz,
CT: control tallo,
ST: salinidad tallo
5124
4383
3510
2535
1282
-4
163
-2
T1
T2
T1
T2
T1
T2
T1
T2
37540
T1
11812
T2
11489
T1
10816
Log2 tasa de cambio
(BU671801)
Ejemplos de Transcriptomica en el estudio de
relación H-P
Identificacion de factor Avr ve1 en
Verticilliun dahliae por RNA-seq
Estrategia de secuenciación
genómica de variantes y RNA seq
por ILLUMINA para la identificación
del Factor de Avr Ve1 de Verticillium
dahliae (Ave1) que interactua con el
gen R Ve1 de tomate.
5110–5115 | PNAS | March 27, 2012 | vol. 109 | no. 13
 ≈27,6 millones de lecturas por cada
condicion biológica (12, 24 Y 48hpi)
 77% lecturas mapeadas sobre el
genoma de lechuga
RNA-seq vs. microarray
•
RNA-seq puede ser utilizado para caracterizar nuevos transcriptos y variantes de
splicing, así como realizar un perfil de los niveles de expresión de los transcriptos
conocidos; mientras que las técnicas basadas en hibridación se limitan a detectar
transcriptos correspondientes a las secuencias genómicas conocidas
•
RNA-seq tiene mayor resolución
•
•

En principio, el RNAseq puede lograr la resolución de un solo ARNm, mientras que
en los microarray depende de la densidad de sondas.

Detección de transcriptos desconocidos con niveles de expresión muy bajos.
RNA-seq se puede aplicar el mismo protocolo experimental para diversos fines,
mientras que los microarrays especializados necesitan ser diseñadas para cada
caso.

Detección de polimorfismos de nucleótido único (SNP array)

Mapeo de uniones exonicas (junction array)

Detección de fusiones génicas (gene fusion array)
Tecnologías de Next-generation sequencing (NGS) están desafiando los microarrays
como la herramienta de elección para análisis genómicos.
Análisis por categorías funcionales:
FATIGO, FATISCAN, GenSet Analysis (Babelomics)
Función Molecular
Linea Girasol Resistente – Sclerotinia I vs NI
0, 2 y 4 dpi
INTERPRETACIÓN DE RESULTADOS
Análisis transcriptómico relacionado
a la senescencia foliar en girasol
Campo
10.173
7.890
Invernáculo
7.517
3.714
Mapman
BINCODE
1
1.1
1.1.1
1.1.1.1
1.1.1.2
1.1.2
1.1.2.1
1.1.2.2
11
11.3
11.3.2
3.1.1001
13.1.7.1002
NAME
PS
PS.lightreaction
PS.lightreaction.photosystem II
PS.lightreaction.photosystem II.LHC-II
PS.lightreaction.photosystem II.PSII polypeptide subunits
PS.lightreaction.photosystem I
PS.lightreaction.photosystem I.LHC-I
PS.lightreaction.photosystem I.PSI polypeptide subunits
lipid metabolism
lipid metabolism.Phospholipid synthesis
lipid metabolism.Phospholipid synthesis.choline kinase
minor CHO metabolism.raffinose family
amino acid metabolism.synthesis.histidine
IDENTIFIER
HeAn_C_11607
HeAn_C_3889
HeAn_C_677
HeAn_S_37979
HeAn_C_3253
DESCRIPTION
TYPE
moderately similar to ( 431) AT3G47470 | Symbols:
T LHCA
moderately similar to ( 225) AT2G39050 | Symbols:
T
| hy
moderately similar to ( 260) AT1G45474 | Symbols:
T LHCA
moderately similar to ( 304) AT4G12800 | Symbols:
T PSAL
moderately similar to ( 229) AT2G31040 | Symbols:
T
| AT
HeAn_S_18559 moderately similar to ( 222) AT3G18850 | Symbols:
T LPAT
HeAn_S_17701 moderately similar to ( 254) AT4G09760 | Symbols:
T
| ch
raffinose
minor CHO metabolism.raffinose
M
histidine
amino acid synthesis.histidine
M
Estudio integrador relacionado a la senescencia foliar en girasol
Campo control: Tiempo 1 vs Tiempo 0
Mapman
Librería KEGG
Paintomics
(http://www.genome.jp/kegg/)
Weighted Gene Correlation
Network Analysis (WGCNA)
Fenotipo
Genómica
Transcriptómica
Proteómica
Biología de Sistemas
Metabolómica
Fenómica
GRACIAS!!
Descargar