Herramientas de Bioinformática en NGS Ing. Sergio Gonzalez CICVyA - Instituto de Biotecnología – INTA [email protected] Temario Introducción NGS Análisis de calidad Ensamblado Anotación Estructural Anotación Funcional Caso de aplicación Introducción NGS Introducción NGS Introducción NGS Roche 454: • Longitud de lecturas: 700 – 800 bp • Lecturas por corrida: 1 M • Archivo de salida: 700 Mb • Precisión: 99% PacBio RS II: • Longitud de lecturas: 4.5 Kbp • Lecturas por corrida: 50.000 • Archivo de salida: 400 Mb • Precisión: 99% Illumina Hiseq 2500: Oxford Nanopore: • Longitud de lecturas: 250 bp • Longitud de lecturas: 10 Kbp • Lecturas por corrida: hasta 4000 M • Lecturas por corrida: • Archivo de salida: 750 Gb • Archivo de salida: • Precisión: 99% • Precisión: Llegaron los datos, que hacemos? Datos crudos Llegaron los datos, que hacemos? Datos crudos Análisis de calidad Llegaron los datos, que hacemos? Datos crudos Ensamblado Contigs / Scaffolds Análisis de calidad Llegaron los datos, que hacemos? Datos crudos Ensamblado Análisis de calidad Contigs / Scaffolds Anotación Estructural Predicción de genes / sitios de importancia Llegaron los datos, que hacemos? Datos crudos Ensamblado Análisis de calidad Contigs / Scaffolds Anotación Estructural Predicción de genes / sitios de importancia Anotación Funcional Anotación GO Análisis de calidad de lecturas Formato de archivos sff → Binario (Propietario Roche 454) fastq → Texto Análisis de calidad de lecturas FastQC 5 Análisis de calidad de lecturas Análisis de calidad de lecturas Análisis de calidad de lecturas Ensamblado (de-novo) Primer paso computacional luego de la secuenciación Actualmente objeto de investigación Problema general: “Armar” el genoma a partir de pequeños fragmentos Single end Pair End / Mate Pair Ensamblado (de-novo) Problemas en ensamblados Caracterización de errores en cada tecnología Ensamblado (de-novo) Problemas en ensamblados Caracterización de errores en cada tecnología Secuencias repetitivas Ensamblado (de-novo) Problemas en ensamblados Caracterización de errores en cada tecnología Secuencias repetitivas Menor tamaño de lecturas → Mayor gasto computacional Ensamblado (de-novo) Problemas en ensamblados Caracterización de errores en cada tecnología Secuencias repetitivas Menor tamaño de lecturas → Mayor gasto computacional Algoritmos de ensamblado: Overlap layout consensus → Lecturas largas Grafos de De Brujin → Lecturas cortas Genoma de referencia → Mapeo Ensamblado (de-novo) Formato de archivos fasta → Texto qual → Texto Ensamblado (de-novo) Formato de archivos sam → Texto Describe mapeos contra una referencia Single / pair end Dos niveles de anotación: Dónde esta el gen y cuál es su función? Anotación Estructural Encontrar genes y otros sitios con importacia biológica (regiones regulatorias, repeticiones, marcadores, etc). Armar un modelo del genoma: Cada gen/sitio es un objeto asociado a una posición en el genoma Dos niveles de anotacion: Donde esta el gen y cual es su función? Anotacion Estructural Encontrar genes y otros sitios con importacia biológica (regiones regulatorias, repeticiones, marcadores, etc). Armar un modelo del genoma: Cada gen/sitio es un objeto asociado a una posición en el genoma. Anotación Funcional Los objetos asociados al genoma son utilizados en búsquedas y experimentos. El objetivo es atribuir información biológica a los objetos Anotación estructural Búsqueda de genes in-silico → Predicción Anotación estructural Búsqueda de genes in-silico → Predicción Métodos de predicción: Extrínsecos Búsqueda utilizando herramientas de alineamiento (Ej. BLAST) Anotación estructural Búsqueda de genes in-silico → Predicción Métodos de predicción: Extrínsecos Búsqueda utilizando herramientas de alineamiento (Ej. BLAST) Ab-initio Métodos matemático-probabilísticos con o sin información externa. Modelos ocultos de Markov (Ej. glimmerhmm) Redes neuronales Anotación estructural Búsqueda de genes in-silico → Predicción Métodos de predicción: Extrínsecos Búsqueda utilizando herramientas de alineamiento (Ej. BLAST) Ab-initio Métodos matemático-probabilísticos con o sin información externa. Modelos ocultos de Markov (Ej. glimmerhmm) Redes neuronales Procedimientos híbridos Anotación estructural Información utilizada para encontrar genes: Homología: La similitud con secuencias conocidas es un indicador que esa región pueda contener un gen Anotación estructural Información utilizada para encontrar genes: Homología: La similitud con secuencias conocidas es un indicador que esa región pueda contener un gen Búsqueda de señales: La maquinaria celular reconoce secuencias mas o menos conservadas en el DNA genómico, sitios de splicing, start, stop, RBS, etc Anotación estructural Información utilizada para encontrar genes: Homología: La similitud con secuencias conocidas es un indicador que esa región pueda contener un gen Búsqueda de señales: La maquinaria celular reconoce secuencias mas o menos conservadas en el DNA genómico, sitios de splicing, start, stop, RBS, etc Estadísticos codificantes: Las regiones codificantes tienen propiedades estadísticamente diferentes a las regiones no codificantes Anotación funcional Búsqueda de función biológica de secuencia de interés Anotación automática vs manual: Anotación automática Se corren procesos (análisis in-silico) sobre las secuencias Se integran los datos para poder observarlos de forma ordenada y trabajar sobre ellos Anotación funcional Búsqueda de función biológica de secuencia de interés Anotación automática vs manual: Anotación automática Se corren procesos (análisis in-silico) sobre las secuencias Se integran los datos para poder observarlos de forma ordenada y trabajar sobre ellos Anotacion manual Una persona revisa la anotación, agregando información y corrigiendo manualmente Anotación funcional Métodos de anotación automática: Búsqueda de secuencias homólogas con algoritmos de alineamiento local Anotación funcional Métodos de anotación automática: Búsqueda de secuencias homólogas con algoritmos de alineamiento local Búsqueda de motivos funcionales (dominios): Secuencias consenso / patrones Perfiles simples y perfiles HMM Anotación funcional Métodos de anotación automática: Búsqueda de secuencias homólogas con algoritmos de alineamiento local Búsqueda de motivos funcionales (dominios) Secuencias consenso / patrones Perfiles simples y perfiles HMM Integración de información Anotación funcional Métodos de anotación automática: Búsqueda de secuencias homologas con algoritmos de alineamiento local Búsqueda de motivos funcionales (dominios): Secuencias consenso / patrones Perfiles simples y perfiles HMM Integración de información Utilización de ontologías Grafos GO: Gene ontology SO: Sequence ontology Anotación estructural / funcional Formato de archivos gff3 → Texto Describe sitios de importacia en una secuencia Browsers Visualizacion de caracteristicas e información de una referencia A partir de archivos gff o bases de datos Galaxy Plataforma web con acceso a herramientas de Linux Procesamiento de archivos de texto Caso de Aplicación NGS Ensayo de RNA-Seq Girasol: Muestras de capítulo Plantas SI/NO inoculadas con el hongo Sclerotinia Sclerotiorum 3 Tiempos Réplicas Biológicas Caso de Aplicación NGS Caso de Aplicación NGS Análisis de datos RNA-Seq: Ensamblado Con referencia → Cuantificación Sin referencia → Ensamblado de novo Cuantificación Mapeo RPKM FPKM Análisis estadístico Expresión diferencial