Elementos de Bioinformática Paula Fernandez [email protected] ¿Qué es la Bioinformática? Objetivos • Describir la importancia e impacto de la bioinformática asociada de manera indisoluble a la genómica y a la minería de datos. • Identificar fuentes de información disponibles: su calidad, jerarquía y confianza. • Ejecutar búsquedas en portales de distribución pública de datos. Bioinformática Heurística En computación, el objetivo fundamental es encontrar algoritmos que brinden soluciones con buenos tiempos de ejecución, usualmente las óptimas. Las heurísticas generalmente son usadas cuando no existe una solución óptima bajo las restricciones dadas (tiempo, espacio, etc.). Algoritmos Un algoritmo es un conjunto de pasos que definen un proceso computacional; un programa es la implementación de un algoritmo. Puede haber varias implementaciones diferentes del mismo algoritmo, que deberían (pero puede que no) dar los mismos resultados. PROBLEMA: DEFINICIÓN Experimentación in‐silico: cálculo e interpretación Podemos generar gran cantidad de datos. Resultados complejos provenientes de algoritmos complejos. Tiempos cortos (dependiendo del volumen de datos). Existen herramientas específicas muy útiles para realizar las tareas que se plantean con la pregunta biológica que queremos contestar. Es muy importante: Saber que pregunta queremos contestar. Saber que estamos haciendo con el software y en lo posible como lo hace. Saber que la salida del software es una cuenta, la interpretación de esa cuenta por parte nuestra es el verdadero resultado. Los resultados in‐silico deben ser validados experimentalmente. Equipamiento automatizado Projecto Genoma Humano (1990) Principales logros • Identificar todos los genes del genoma. • Determinar la secuencia de los 3 billones de nucleótidos que confirman el ADN humano. • Almacenar la información en bases de datos. • Desarrollar nuevas tecnologías y más eficientes. • Desarrollar herramientas para análisis de datos. • Conformación de ELSI (ethical, legal, and social issues) que comenzó con este proyecto. Organismo Tamaño de genoma (pares de bases) Epstein-Barr virus Bacterium (E.coli) Yeast (S.cerevisiae) Nematode worm (C.elegans) Thale cress (A.thaliana) Fruit fly (D.melanogaster) Human (H.sapiens) 0.172 *106 4.6 *106 12.1 * 106 95.5 * 106 117 * 106 180 * 106 3200 * 106 Generaciones en la secuenciación de ADN Then + Now 1st Gen Sanger •Low throughput •High cost •Accurate •Broad user base Sanger Now 2nd Gen -parallised •Optical •Amplification needed •Highly parallel •Improved cost and Throughput •More centralised users GAII (Solexa/Illumina) SOLiD (Agencourt/LIFE) FLX (454/Roche) Now + anticipated 2nd Gen -single mol or electronic •Optical •Single-molecule •Highly parallel •Cost similar •New applications •Or electronic, clonal Helicos Pacific Biosciences Ion Torrent (LIFE Starlight) Anticipated Next -single mol AND electronic •Direct electrical (no optics) •Single-molecule, highly parallel •Transformation of workflow •Designed to broaden user base, deliver step change in cost, power •New applications Nanopores Estimated cost of a human genome using these technologies $70M $200k --- $50k ---- $20k --- 15k--- 13 ?$5k - $? INTRODUCCIÓN: ESTs Armando el rompecabezas del gen INTRODUCCIÓN: Contigs Ensamblado Constituye el primer paso computacional luego de la secuenciación. Es actualmente objeto de investigación ya que no es un problema totalmente resuelto. Problema general: “Armar” el genoma a patir de pequeños fragmentos (lecturas). Menor tamaño de lecturas Mayor gasto computacional. Algoritmos de ensamblado: Overlap layout consensus Grafos de De Brujin Lecturas largas Lecturas cortas Ensamblado Bases de ESTs http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html http://compbio.dfci.harvard.edu/tgi/ (exTIGR) http://eupathdb.org/eupathdb/ http://www.viprbrc.org/ http://www.phi-base.org/ http://www.plantpathogenbarcode.org/ Patógenos secuenciados bajo tecnologías combinadas (Annu. Rev. Phytopathol. 2013.49:87-105) • P. syringae pathovar oryzae cepaI-6, (aislada en 1991 in Hokkaido, Japan, causante de la mancha parda en arroz). • Hyaloperonospora arabidopsidis, infecta naturalmente a la planta modelo Arabidopsis thaliana. Su genoma de 100 megabases fue el último secuenciado por técnicas combinadas de NGS. • 20 aislamientos de Xanthomonas vasicola pathovar musacearum (banana) y cepas relativas que no son fitopatogénicas para dicha especie (Illumina y Roche). Redes de Información Redes de información Red Europea de Biología Molecular (EMBnet) Red la laboratorios europeos de biocomputación. Nodos nacionales Nodos especialistas Redes de información Centro Nacional (Americano) para la Información Biotecnológica (NCBI) Suministrador líder americano de información. Abanico de diferentes bases de datos accesibles a través de un interface único. Redes de información EMBnet Sede de la base de datos GeneBank SRS (Sistema de recuperación de secuencias) NCBI Sede de las bases de datos EMBL, SWISSPROT y TrEMBL. Entrez Bases de datos Lab vs. Compus: Inicio de la minería de datos • Cada vez más estudios comienzan con el análisis de bases de datos para luego formular hipótesis o diseñar experimentos. • El trabajo de laboratorio culmina en la acumulación de colecciones masivas de datos que deben ser posteriormente analizados. Estructura y Transformación de los datos Transformación de los datos Reducción de la dimensionalidad Elección del método Clasificación Regresión Agrupamiento Conocimiento de la base de datos Bases de datos Qué es una base de datos? Una colección de datos Cómo colecciono los datos? Decisión del usuario. Diseño de la base de datos. Puedo usar: Procesador de texto? (Word) Si. Permite sólo búsqueda y ordenamiento simples. Planilla de Cálculo? (Excel) También. Como los datos están en columnas independientes, se puede ordenar en formas más complejas. Las búsquedas siguen siendo simples. Tipos de datos Numéricos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Lógicos (boolean) = verdadero / falso Geométricos (punto, línea, círculo, polígonos, etc.) Bases de datos: conceptos básicos: clave primaria gi 6226959 6226762 4557224 41 Accession NM_000014 NM_000014 NM_000014 X63129 version 3 2 1 1 date 01/06/2000 12/10/1999 04/02/1999 06/06/1996 Genbank Division taxid organims PRI 9606 homo sapiens PRI 9606 homo sapiens PRI 9606 homo sapiens MAM 9913 bos taurus Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y gi = Genbank Identifier: Clave única : Clave primaria Cambia con cada actualización del registro correspondiente a la secuencia Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version es equivalente al gi (representa un identificador único) Ejemplo: AF405321.2 Accession: AF405321 Version: 2 Sistemas de búsqueda avanzada: Entrez Recuperación y almacenamiento de secuencias específicas. The Entrez System: Text Searches Sistemas de búsqueda avanzada: Entrez y SRS (Cont.) http://www.ncbi.nlm.nih.gov/Entrez/ • Es una interfaz de usuario. • Constituye el nexo entre el usuario y las bases de datos. • Permite realizar consultas simples y obtener resultados, aún desconociendo la arquitectura de las bases de datos. • Sin embargo, si se conoce esa arquitectura, las búsquedas pueden resultar más precisas y eficaces. • No es fácil acceder a ese conocimiento y su uso es poco intuitivo, por lo que se recomienda siempre visitar la ayuda del NCBI. Uso de • Entrez es un sistema de búsqueda y adquisición de información integrada de las distintas bases de datos de NCBI: Secuencias proteicas Secuencias nucleotídicas Estructuras macromoleculares Genomas y mapas de genes Literatura científica (MEDLINE) Genome Browser (http://genome.ucsc.edu/) The NCBI ftp site 30,000 files per day 620 Gigabytes per day GenBank File Formats ASN.1 – The Raw Data XML FASTA flat file GenBank Redundante (es un Banco, no busca unificar datos) Con errores Difícil de actualizar Para poder corregir, mejorar y mantener actualizada la anotación de los registros, el NCBI creó RefSeq (colección curada de registros de GenBank) toma records de GenBank y los actualiza/corrije unifica para reducir redundancia Accession numbers del tipo XX_123456 Bases de datos primarias Una base de datos primaria es un repositorio de datos derivados de un experimento o de conocimiento científico. Genbank (Repositorio de secuencias nucleotídicas) Protein DB, Swissprot PDB Pubmed (literatura) Genome Mapping Kegg (Kyoto Encyclopedia of Genes and Genomes, base de datos de vías metabólicas) Bases de datos colaborativas DNA Database of Japan (DDBJ) European Molecular Biology Laboratory (EMBL) Database Bases de datos secundarias Una base de datos secundaria contiene información derivada de otras fuentes (primarias, entre otras). Refseq (Colección curada de GenBank en NCBI). Síntesis de información, no datos primarios. Grupo particular en momento determinado. Unigene (Clustering de ESTs en NCBI). Las bases de datos organismo-específicas son en general una mezcla entre primaria y secundaria. RefSeq: Base de datos secundaria mRNAs and Proteins NM_123456 NP_123456 NR_123456 XM_123456 XP_123456 XR_123456 Gene Records NG_123456 Chromosome NC_123455 NT_123456 NW_123456 Curated mRNA Curated Protein Curated non-coding RNA Predicted mRNA Predicted Protein Predicted non-coding RNA Reference Genomic Sequence Microbial replicons, organelles Contig WGS Supercontig Anotando el gen Genomic DNA (NC, NT, NW) Scanning.... Model mRNA (XM) (XR) Curated mRNA (NM) (NR) RefSeq Genbank Sequences Model protein (XP) = ?! Curated Protein (NP) Alineamientos 2011-09-23 47 IDENTIFICANDO SIMILITUD: COMPARACION DE SECUENCIAS A TRAVES DE ALINEAMIENTOS ¿Qué es el alineamiento? ACCGGTATCCTAGGAC ACCTATCTTAGGAC ¿Están estas dos secuencias relacionadas? ¿Cuán similares (o distintas) son? ¿Qué es el alineamiento? ACCGGTATCCTAGGAC | | | || || || | || | ACC - - TATCTTAGGAC •Hacer coincidir las dos secuencias lo más posible es igual a que estén alineadas •Por lo tanto, es necesario un puntaje de evaluación de alineamientos ¿Cual es el objetivo de la comparación? El objetivo es encontrar el alineamiento que con mayor probabilidad (nunca sabremos si es el real) refleje qué cambios se han producido <---------------(--------------------HELIX 19---------------------) <---------------(22222222-000000-111111-00000-111111-0000-22222222 Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA E.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA B.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA match ** *** * ** ** * ** Tipos de Alineamiento entre dos secuencias Locales: utilizado cuando se quieren encontrar sub-secuencias compartidas Para buscar dominios en proteínas Para encontrar elementos de regulación Para localizar un gen similar en un genoma Globales: utilizado cuando hay que comparar secuencias de tamaño similar Para comparar genes similares Para buscar mutaciones o polimorfismos en una secuencia comparándola contra una secuencia de referencia. ¿Cómo evaluamos un alineamiento? ACCGGTATCCTAGGAC | || | ||| | || | || ACC - - TATCTTAGGAC •Asignamos un puntaje a cada coincidencia (match) dada a lo largo del alineamiento ¿Cómo evaluamos un alineamiento? ACCGGTATCCTAGGAC | | | |||| ||| | | | ACC - - TATCTTAGGAC Asignamos un puntaje (o penalidad) por cada sustitución Resumen alineamientos BLAST • Encuentra regiones de similitud entre secuencias • Compara secuencias de nucleótidos o de proteínas contra bases de datos y calcula la significancia estadística del apareamiento. • Infiere relaciones funcionales y evolutivas entre secuencias • Ayuda a identificar miembros de una familia de genes. Bases primarias vs. secundarias Algorithms Sequencing Centers GenBank Updated ONLY by submitters INV VRT PHG VRL UniSTS EST STS GSS HTG UniGene Updated continually by NCBI RefSeq: Annotation Pipeline PRI ROD PLN MAM BCT Curators Labs RefSeq: Gene and Genomes Pipelines TATAGCCG AGCTCCGATA CCGATGACAA FAUBA Micromatriz de girasol como herramienta de análisis funcional orientado a la búsqueda de nuevos genes en respuesta a estreses bióticos y abióticos Fernández, P., Di Rienzo, J., Moschen, S., Príncipi, D.,González, S., Lew, S. Soria, M., Angelone, L., Reynares, C., Tapia, E., García, F., Conesa, A. , Blesa, D., Hopp, HE., Dopazo, J., Heinz, R.A. y Paniego, N. PME 024: Desarrollo de un prototipo de micromatriz de oligonucleótidos representando los unigenes de girasol disponibles para estudios transcriptómicos Objetivo Desarrollar una micromatriz (chip) de alta densidad para el girasol cultivado que represente toda la información disponible tanto de ESTs como de secuencias completas con el objeto de ser utilizada en estudios de expresión génica para caracteres de importancia agronómica. Estos caracteres incluyen estudios de expresión de: • • • • mecanismos de respuesta a patógenos como Sclerotinia sclerotiorum y Verticillium dahliae, desencadenamiento de senescencia tolerancia a estrés abiótico (estrés hídrico y salinidad) mecanismos de respuestas a estreses que involucran a ácido jasmónico y abscísico en girasol. Colección de Unigenes de Girasol, Microarreglo de Expresión, Panel de Genotipificación 133,682 EST Genbank (versión May 2009) Helianthus annuus L. VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html) Trimseq EMBOSS (http://emboss.sourceforge.net/) 28,089 singletons y 12,924 contigs = 41,013 unigenes (ensamblador CAP3) Anotación funcional (BLASTX, Blast2go) MICROARREGLO (Agilent 44Kx4) 42,386 sondas 74 controles específicos 1,417 controles Agilent PME 024: Desarrollo de un prototipo de micromatriz de oligonucleótidos representando los unigenes de girasol disponibles para estudios transcriptómicos Diseño y síntesis del chip de girasol •Un total de 28.089 singletons y 12.924 contigs fueron ensamblados, y aproximadamente 22.000 unigenes se anotaron con terminología GO y se mapearon metabólicamente por KEGG. • El diseño de la micromatriz comprende un total de 45.220 sondas, con 1.417 controles de Agilent y 74 controles de hibridación. Diseño 4 x 44 K – Podredumbre húmeda del capítulo (Sclerotinia sclerotiorum) Búsqueda de Nuevas Fuentes de Resistencia a PHC Cruzamiento de Pac 2 (MR) x RHA266 (S): 94 RILs DISEÑO EXPERIMENTAL • • • Diseño en bloques incompletos aleatorizados con dos/ tres repeticiones. Controles Surco de 10 m, con un total aproximado de 30 plantas. INOCULACIÓN ASISTIDA (Escande y col. 2002) • Suspensión de 2500 ascosporas/ml ‐ estadio R5.2 (Schneiter y Miller, 1981) EVALUACIÓN FENOTÍPICA • • • • Incidencia Severidad Intensidad Periodo de Incubación RESULTADOS VALIDACIÓN Estudios de expresión diferencial Análisis de conglomerados 558 genes inducidos 198 genes reprimidos Ontologías 2011-09-23 70 Estructura de ontologías Ejemplo: Términos GO No necesariamente es un árbol Podrían “saltearse” niveles (de hecho, no hay niveles) En GO hay 3 DAGs: biological_process cellular_component molecular_function 72 GO vs MapMan Klie & Nikoloskie (2013), Front. Genetics 3:115 Bioinformática Siempre que sea posible, debe emplearse un abanico de métodos de análisis diferentes, y los resultados deberían unirse con toda la información biológica disponible. GenBank Releases Release 305 December 2013 150,388,382 Records 183,874,179,730 Nucleotides >158,559 Species 455 Gigabytes 1549 files • liberación completa cada 2 meses • incremental y acumulativo diario • disponible sólo vía web ftp://ftp.ncbi.nih.gov/genbank/ Lista de bases de datos de biología molecular en NAR http://nar.oupjournals.org/content/ vol28/issue1/ Genómica comparativa Humano Chimpancé Ratón Perro Gallina Rana Pez cebra Introducción a NGS ¿Cuáles son las principales aplicaciones en bioinformática? Source: GenomeWeb Survey 2010 El investigador genera nuevos CONOCIMIENTOS, que pone a disposicion de otros como DATOS, que al ordenarse son INFORMACIÓN, que puede llegar a ser CONOCIMIENTO útil, apropiado o adaptado, por la infraestructura de investigación de C&T que posea un país.