Herramientas_bioinformatica_NGS.pdf

Anuncio
Herramientas de
Bioinformática en NGS
Ing. Sergio Gonzalez
CICVyA - Instituto de Biotecnología – INTA
[email protected]
Temario
 Introducción NGS
 Análisis de calidad
 Ensamblado
 Anotación Estructural
 Anotación Funcional
 Caso de aplicación
Introducción NGS
Introducción NGS
Introducción NGS
Roche 454:
• Longitud de lecturas: 700 – 800 bp
• Lecturas por corrida: 1 M
• Archivo de salida: 700 Mb
• Precisión: 99%
PacBio RS II:
• Longitud de lecturas: 4.5 Kbp
• Lecturas por corrida: 50.000
• Archivo de salida: 400 Mb
• Precisión: 99%
Illumina Hiseq 2500:
Oxford Nanopore:
• Longitud de lecturas: 250 bp
• Longitud de lecturas: 10 Kbp
• Lecturas por corrida: hasta 4000 M
• Lecturas por corrida:
• Archivo de salida: 750 Gb
• Archivo de salida:
• Precisión: 99%
• Precisión:
Llegaron los datos, que hacemos?
Datos crudos
Llegaron los datos, que hacemos?
Datos crudos
Análisis
de calidad
Llegaron los datos, que hacemos?
Datos crudos
Ensamblado
Contigs / Scaffolds
Análisis
de calidad
Llegaron los datos, que hacemos?
Datos crudos
Ensamblado
Análisis
de calidad
Contigs / Scaffolds
Anotación
Estructural
Predicción de genes / sitios de importancia
Llegaron los datos, que hacemos?
Datos crudos
Ensamblado
Análisis
de calidad
Contigs / Scaffolds
Anotación
Estructural
Predicción de genes / sitios de importancia
Anotación
Funcional
Anotación GO
Análisis de calidad de lecturas
 Formato de archivos


sff → Binario (Propietario Roche 454)
fastq → Texto
Análisis de calidad de lecturas
 FastQC
5
Análisis de calidad de lecturas
Análisis de calidad de lecturas
Análisis de calidad de lecturas
Ensamblado (de-novo)
 Primer paso computacional luego de la secuenciación
 Actualmente objeto de investigación
 Problema general: “Armar” el genoma a partir de pequeños
fragmentos
Single end
Pair End / Mate Pair
Ensamblado (de-novo)
Problemas en ensamblados
 Caracterización de errores en cada tecnología
Ensamblado (de-novo)
Problemas en ensamblados
 Caracterización de errores en cada tecnología
 Secuencias repetitivas
Ensamblado (de-novo)
Problemas en ensamblados
 Caracterización de errores en cada tecnología
 Secuencias repetitivas
 Menor tamaño de lecturas → Mayor gasto computacional
Ensamblado (de-novo)
Problemas en ensamblados
 Caracterización de errores en cada tecnología
 Secuencias repetitivas
 Menor tamaño de lecturas → Mayor gasto computacional
 Algoritmos de ensamblado:
 Overlap layout consensus → Lecturas largas
 Grafos de De Brujin → Lecturas cortas
 Genoma de referencia → Mapeo
Ensamblado (de-novo)
 Formato de archivos


fasta → Texto
qual → Texto
Ensamblado (de-novo)
 Formato de archivos



sam → Texto
Describe mapeos contra una referencia
Single / pair end
Dos niveles de anotación:
Dónde esta el gen y cuál es su
función?
 Anotación Estructural
 Encontrar genes y otros sitios con importacia biológica
(regiones regulatorias, repeticiones, marcadores, etc). Armar un
modelo del genoma: Cada gen/sitio es un objeto asociado a una
posición en el genoma
Dos niveles de anotacion:
Donde esta el gen y cual es su
función?
 Anotacion Estructural
 Encontrar genes y otros sitios con importacia biológica
(regiones regulatorias, repeticiones, marcadores, etc). Armar un
modelo del genoma: Cada gen/sitio es un objeto asociado a una
posición en el genoma.
 Anotación Funcional
 Los objetos asociados al genoma son utilizados en búsquedas y
experimentos. El objetivo es atribuir información biológica a los
objetos
Anotación estructural
 Búsqueda de genes in-silico → Predicción
Anotación estructural
 Búsqueda de genes in-silico → Predicción
 Métodos de predicción:
 Extrínsecos
 Búsqueda utilizando herramientas de alineamiento (Ej. BLAST)
Anotación estructural
 Búsqueda de genes in-silico → Predicción
 Métodos de predicción:
 Extrínsecos
 Búsqueda utilizando herramientas de alineamiento (Ej. BLAST)
 Ab-initio
 Métodos matemático-probabilísticos con o sin información
externa.
 Modelos ocultos de Markov (Ej. glimmerhmm)
 Redes neuronales
Anotación estructural
 Búsqueda de genes in-silico → Predicción
 Métodos de predicción:
 Extrínsecos
 Búsqueda utilizando herramientas de alineamiento (Ej. BLAST)
 Ab-initio
 Métodos matemático-probabilísticos con o sin información
externa.
 Modelos ocultos de Markov (Ej. glimmerhmm)
 Redes neuronales
 Procedimientos híbridos
Anotación estructural
Información utilizada para encontrar genes:
 Homología: La similitud con secuencias conocidas es un
indicador que esa región pueda contener un gen
Anotación estructural
Información utilizada para encontrar genes:
 Homología: La similitud con secuencias conocidas es un
indicador que esa región pueda contener un gen
 Búsqueda de señales: La maquinaria celular reconoce
secuencias mas o menos conservadas en el DNA genómico,
sitios de splicing, start, stop, RBS, etc
Anotación estructural
Información utilizada para encontrar genes:
 Homología: La similitud con secuencias conocidas es un
indicador que esa región pueda contener un gen
 Búsqueda de señales: La maquinaria celular reconoce
secuencias mas o menos conservadas en el DNA genómico,
sitios de splicing, start, stop, RBS, etc
 Estadísticos codificantes: Las regiones codificantes
tienen propiedades estadísticamente diferentes a las
regiones no codificantes
Anotación funcional
Búsqueda de función biológica de secuencia de
interés

Anotación automática vs manual:

Anotación automática

Se corren procesos (análisis in-silico) sobre las
secuencias

Se integran los datos para poder observarlos de
forma ordenada y trabajar sobre ellos
Anotación funcional
Búsqueda de función biológica de secuencia de
interés

Anotación automática vs manual:

Anotación automática

Se corren procesos (análisis in-silico) sobre las
secuencias

Se integran los datos para poder observarlos de
forma ordenada y trabajar sobre ellos

Anotacion manual

Una persona revisa la anotación, agregando
información y corrigiendo manualmente
Anotación funcional
 Métodos de anotación automática:
 Búsqueda de secuencias homólogas con algoritmos de
alineamiento local
Anotación funcional
 Métodos de anotación automática:
 Búsqueda de secuencias homólogas con algoritmos de
alineamiento local
 Búsqueda de motivos funcionales (dominios):
 Secuencias consenso / patrones
 Perfiles simples y perfiles HMM
Anotación funcional
 Métodos de anotación automática:
 Búsqueda de secuencias homólogas con algoritmos de
alineamiento local
 Búsqueda de motivos funcionales (dominios)
 Secuencias consenso / patrones
 Perfiles simples y perfiles HMM
 Integración de información
Anotación funcional
 Métodos de anotación automática:
 Búsqueda de secuencias homologas con algoritmos de
alineamiento local
 Búsqueda de motivos funcionales (dominios):
 Secuencias consenso / patrones
 Perfiles simples y perfiles HMM
 Integración de información
 Utilización de ontologías
 Grafos
 GO: Gene ontology
 SO: Sequence ontology
Anotación estructural /
funcional
 Formato de archivos


gff3 → Texto
Describe sitios de importacia en una secuencia
Browsers
 Visualizacion de caracteristicas e información de una
referencia
 A partir de archivos gff o bases de datos
Galaxy
 Plataforma web con acceso a herramientas de Linux
 Procesamiento de archivos de texto
Caso de Aplicación NGS
Ensayo de RNA-Seq Girasol:
 Muestras de capítulo
 Plantas SI/NO inoculadas con el hongo Sclerotinia
Sclerotiorum
 3 Tiempos
 Réplicas Biológicas
Caso de Aplicación NGS
Caso de Aplicación NGS
Análisis de datos RNA-Seq:
 Ensamblado
 Con referencia → Cuantificación
 Sin referencia → Ensamblado de novo
 Cuantificación
 Mapeo
 RPKM
 FPKM
 Análisis estadístico
 Expresión diferencial
Descargar