clase Bioinfo 230714.pdf

Anuncio
Elementos de Bioinformática
Paula Fernandez
[email protected]
¿Qué es la Bioinformática?
Objetivos
• Describir la importancia e impacto de la
bioinformática asociada de manera indisoluble a
la genómica y a la minería de datos.
• Identificar fuentes de información disponibles: su
calidad, jerarquía y confianza.
• Ejecutar búsquedas en portales de distribución
pública de datos.
Bioinformática
Heurística


En computación, el objetivo fundamental es encontrar algoritmos
que brinden soluciones con buenos tiempos de ejecución,
usualmente las óptimas.
Las heurísticas generalmente son usadas cuando no existe una
solución óptima bajo las restricciones dadas (tiempo, espacio, etc.).
Algoritmos
Un algoritmo es un conjunto
de pasos que definen un
proceso computacional;
un programa es la
implementación de un
algoritmo. Puede haber
varias implementaciones
diferentes del mismo
algoritmo, que deberían
(pero puede que no) dar
los mismos resultados.
PROBLEMA: DEFINICIÓN
Experimentación in‐silico: cálculo e interpretación





Podemos generar gran cantidad de datos.
Resultados complejos provenientes de algoritmos complejos.
Tiempos cortos (dependiendo del volumen de datos).
Existen herramientas específicas muy útiles para realizar las tareas que se plantean con la pregunta biológica que queremos contestar.
Es muy importante:




Saber que pregunta queremos contestar.
Saber que estamos haciendo con el software y en lo posible como lo hace.
Saber que la salida del software es una cuenta, la interpretación de esa cuenta por parte nuestra es el verdadero resultado.
Los resultados in‐silico deben ser validados experimentalmente.
Equipamiento automatizado
Projecto Genoma Humano (1990)
Principales logros
• Identificar todos los genes del genoma.
• Determinar la secuencia de los 3 billones de nucleótidos que
confirman el ADN humano.
• Almacenar la información en bases de datos.
• Desarrollar nuevas tecnologías y más eficientes.
• Desarrollar herramientas para análisis de datos.
• Conformación de ELSI (ethical, legal, and social issues) que
comenzó con este proyecto.
Organismo







Tamaño de genoma
(pares de bases)
Epstein-Barr virus
Bacterium (E.coli)
Yeast (S.cerevisiae)
Nematode worm (C.elegans)
Thale cress (A.thaliana)
Fruit fly (D.melanogaster)
Human (H.sapiens)
0.172 *106
4.6 *106
12.1 * 106
95.5 * 106
117 * 106
180 * 106
3200 * 106
Generaciones en la secuenciación de ADN
Then + Now
1st Gen
Sanger
•Low
throughput
•High cost
•Accurate
•Broad user
base
Sanger
Now
2nd Gen
-parallised
•Optical
•Amplification needed
•Highly parallel
•Improved cost and
Throughput
•More centralised
users
GAII (Solexa/Illumina)
SOLiD (Agencourt/LIFE)
FLX (454/Roche)
Now + anticipated
2nd Gen
-single mol or electronic
•Optical
•Single-molecule
•Highly parallel
•Cost similar
•New applications
•Or electronic,
clonal
Helicos
Pacific Biosciences
Ion Torrent
(LIFE Starlight)
Anticipated
Next
-single mol AND electronic
•Direct electrical (no optics)
•Single-molecule, highly parallel
•Transformation of workflow
•Designed to broaden user base,
deliver step change in cost, power
•New applications
Nanopores
Estimated cost of a human genome using these technologies
$70M
$200k --- $50k ---- $20k --- 15k---
13
?$5k - $?
INTRODUCCIÓN:
ESTs
Armando el rompecabezas del gen
INTRODUCCIÓN:
Contigs
Ensamblado





Constituye el primer paso computacional luego de la secuenciación.
Es actualmente objeto de investigación ya que no es un problema totalmente resuelto.
Problema general: “Armar” el genoma a patir de pequeños fragmentos (lecturas).
Menor tamaño de lecturas Mayor gasto computacional.
Algoritmos de ensamblado: 

Overlap layout consensus
Grafos de De Brujin
Lecturas largas
Lecturas cortas
Ensamblado
Bases de ESTs
http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html
http://compbio.dfci.harvard.edu/tgi/ (exTIGR)
http://eupathdb.org/eupathdb/
http://www.viprbrc.org/
http://www.phi-base.org/
http://www.plantpathogenbarcode.org/
Patógenos secuenciados bajo tecnologías combinadas
(Annu. Rev. Phytopathol. 2013.49:87-105)
•
P. syringae pathovar oryzae cepaI-6, (aislada en 1991 in Hokkaido,
Japan, causante de la mancha parda en arroz).
•
Hyaloperonospora arabidopsidis, infecta naturalmente a la planta
modelo Arabidopsis thaliana. Su genoma de 100 megabases fue el
último secuenciado por técnicas combinadas de NGS.
•
20 aislamientos de Xanthomonas vasicola pathovar musacearum
(banana) y cepas relativas que no son fitopatogénicas para dicha
especie (Illumina y Roche).
Redes de Información
Redes de información

Red Europea de
Biología Molecular
(EMBnet)

Red la laboratorios
europeos de
biocomputación.


Nodos nacionales
Nodos especialistas
Redes de información

Centro Nacional
(Americano) para la
Información
Biotecnológica (NCBI)


Suministrador líder
americano de información.
Abanico de diferentes
bases de datos accesibles a
través de un interface
único.
Redes de información

EMBnet


Sede de la base de
datos GeneBank
SRS (Sistema de
recuperación de
secuencias)

NCBI


Sede de las bases de
datos EMBL, SWISSPROT y TrEMBL.
Entrez
Bases de datos
Lab vs. Compus:
Inicio de la minería de datos
• Cada vez más estudios comienzan con el análisis de
bases de datos para luego formular hipótesis o diseñar
experimentos.
• El trabajo de laboratorio culmina en la acumulación de
colecciones masivas de datos que deben ser
posteriormente analizados.
Estructura y Transformación de los datos
Transformación de los datos
Reducción de la dimensionalidad
Elección del método
Clasificación
Regresión
Agrupamiento
Conocimiento de la base de datos
Bases de datos
Qué es una base de datos?
Una colección de datos
Cómo colecciono los datos?
Decisión del usuario. Diseño de
la base de datos.
Puedo usar:
Procesador de texto? (Word)
Si. Permite sólo búsqueda y
ordenamiento simples.
Planilla de Cálculo? (Excel)
También. Como los datos están
en columnas independientes, se
puede ordenar en formas más
complejas. Las búsquedas
siguen siendo simples.
Tipos de datos





Numéricos (enteros, decimales)
Texto
Fechas (DD/MM/YYYY, HH:MM:SS)
Lógicos (boolean) = verdadero / falso
Geométricos (punto, línea, círculo,
polígonos, etc.)
Bases de datos: conceptos básicos: clave primaria
gi
6226959
6226762
4557224
41
Accession
NM_000014
NM_000014
NM_000014
X63129
version
3
2
1
1
date
01/06/2000
12/10/1999
04/02/1999
06/06/1996
Genbank Division taxid organims
PRI
9606 homo sapiens
PRI
9606 homo sapiens
PRI
9606 homo sapiens
MAM
9913 bos taurus
Number of Chromosomes
22 diploid + X+Y
22 diploid + X+Y
22 diploid + X+Y
29+X+Y
gi = Genbank Identifier: Clave única : Clave primaria
Cambia con cada actualización del registro correspondiente a la secuencia
Accession Number: Clave secundaria
Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia.
Accession + Version es equivalente al gi (representa un identificador único)
Ejemplo: AF405321.2
Accession: AF405321
Version: 2
Sistemas de búsqueda avanzada:
Entrez
Recuperación y almacenamiento de secuencias
específicas.
The Entrez System: Text Searches
Sistemas de búsqueda avanzada:
Entrez y SRS (Cont.)
http://www.ncbi.nlm.nih.gov/Entrez/
• Es una interfaz de usuario.
• Constituye el nexo entre el usuario y las bases de datos.
• Permite realizar consultas simples y obtener resultados, aún
desconociendo la arquitectura de las bases de datos.
• Sin embargo, si se conoce esa arquitectura, las búsquedas
pueden resultar más precisas y eficaces.
• No es fácil acceder a ese conocimiento y su uso es poco intuitivo,
por lo que se recomienda siempre visitar la ayuda del NCBI.
Uso de
• Entrez es un sistema de búsqueda y adquisición de información
integrada de las distintas bases de datos de NCBI:
Secuencias proteicas
Secuencias nucleotídicas
Estructuras macromoleculares
Genomas y mapas de genes
Literatura científica (MEDLINE)
Genome Browser (http://genome.ucsc.edu/)
The NCBI ftp site
30,000 files per day
620 Gigabytes per day
GenBank File Formats
ASN.1 – The Raw Data
XML
FASTA
flat file
GenBank




Redundante (es un Banco, no busca unificar datos)
Con errores
Difícil de actualizar
Para poder corregir, mejorar y mantener actualizada la anotación
de los registros, el NCBI creó RefSeq (colección curada de
registros de GenBank)
 toma records de GenBank y los actualiza/corrije
 unifica para reducir redundancia
 Accession numbers del tipo XX_123456
Bases de datos primarias

Una base de datos primaria es un repositorio de datos derivados de un experimento o
de conocimiento científico.







Genbank (Repositorio de secuencias nucleotídicas)
Protein DB, Swissprot
PDB
Pubmed (literatura)
Genome Mapping
Kegg (Kyoto Encyclopedia of Genes and Genomes, base de datos de vías
metabólicas)
Bases de datos colaborativas


DNA Database of Japan (DDBJ)
European Molecular Biology Laboratory (EMBL) Database
Bases de datos secundarias


Una base de datos secundaria contiene información derivada de
otras fuentes (primarias, entre otras).
 Refseq (Colección curada de GenBank en NCBI). Síntesis de
información, no datos primarios. Grupo particular en momento
determinado.
 Unigene (Clustering de ESTs en NCBI).
Las bases de datos organismo-específicas son en general una
mezcla entre primaria y secundaria.
RefSeq: Base de datos secundaria
mRNAs and Proteins
NM_123456
NP_123456
NR_123456
XM_123456
XP_123456
XR_123456
Gene Records
NG_123456
Chromosome
NC_123455
NT_123456
NW_123456
Curated mRNA
Curated Protein
Curated non-coding RNA
Predicted mRNA
Predicted Protein
Predicted non-coding RNA
Reference Genomic Sequence
Microbial replicons, organelles
Contig
WGS Supercontig
Anotando el gen
Genomic DNA
(NC, NT, NW)
Scanning....
Model mRNA (XM)
(XR)
Curated mRNA (NM)
(NR)
RefSeq
Genbank
Sequences
Model protein (XP)
= ?!
Curated Protein (NP)
Alineamientos
2011-09-23
47


IDENTIFICANDO SIMILITUD:
COMPARACION DE SECUENCIAS A
TRAVES DE ALINEAMIENTOS
¿Qué es el alineamiento?



ACCGGTATCCTAGGAC
 ACCTATCTTAGGAC
¿Están estas dos secuencias
relacionadas?
¿Cuán similares (o distintas) son?
¿Qué es el alineamiento?
ACCGGTATCCTAGGAC
 | | |
|| || || | || |
 ACC - - TATCTTAGGAC
•Hacer coincidir las dos secuencias lo más
posible es igual a que estén alineadas
•Por lo tanto, es necesario un puntaje de
evaluación de alineamientos

¿Cual es el objetivo de la comparación?

El objetivo es encontrar el alineamiento
que con mayor probabilidad (nunca
sabremos si es el real) refleje qué cambios
se han producido
<---------------(--------------------HELIX 19---------------------)
<---------------(22222222-000000-111111-00000-111111-0000-22222222
Thermus ruber
UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGA
Th. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGA
E.coli
UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGA
Ancyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGA
B.subtilis
UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGA
Chl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGA
match
**
***
* ** ** *
**
Tipos de Alineamiento entre dos
secuencias







Locales: utilizado cuando se quieren encontrar
sub-secuencias compartidas
Para buscar dominios en proteínas
Para encontrar elementos de regulación
Para localizar un gen similar en un genoma
Globales: utilizado cuando hay que comparar
secuencias de tamaño similar
Para comparar genes similares
Para buscar mutaciones o polimorfismos en una
secuencia comparándola contra una secuencia de
referencia.
¿Cómo evaluamos un alineamiento?



ACCGGTATCCTAGGAC
| ||
| |||
| || | ||
ACC - - TATCTTAGGAC
•Asignamos un puntaje a cada
coincidencia (match) dada a lo largo del
alineamiento
¿Cómo evaluamos un alineamiento?


ACCGGTATCCTAGGAC
| | |
||||
||| | | |
ACC - - TATCTTAGGAC
Asignamos un puntaje (o penalidad) por
cada sustitución
Resumen alineamientos
BLAST
• Encuentra regiones de similitud entre secuencias
• Compara secuencias de nucleótidos o de proteínas
contra bases de datos y calcula la significancia
estadística del apareamiento.
• Infiere relaciones funcionales y evolutivas entre
secuencias
• Ayuda a identificar miembros de una familia de
genes.
Bases primarias vs. secundarias
Algorithms
Sequencing
Centers
GenBank
Updated ONLY
by submitters
INV VRT PHG VRL
UniSTS
EST
STS
GSS
HTG
UniGene
Updated
continually
by NCBI
RefSeq:
Annotation
Pipeline
PRI ROD PLN MAM BCT
Curators
Labs
RefSeq:
Gene and
Genomes Pipelines
TATAGCCG
AGCTCCGATA
CCGATGACAA
FAUBA
Micromatriz de girasol como herramienta de
análisis funcional orientado a la búsqueda de
nuevos genes en respuesta a estreses bióticos y
abióticos
Fernández, P., Di Rienzo, J., Moschen, S., Príncipi, D.,González, S., Lew, S. Soria, M.,
Angelone, L., Reynares, C., Tapia, E., García, F., Conesa, A. , Blesa, D., Hopp, HE.,
Dopazo, J., Heinz, R.A. y Paniego, N.
PME 024: Desarrollo de un prototipo de micromatriz de
oligonucleótidos representando los unigenes de girasol disponibles
para estudios transcriptómicos
Objetivo
Desarrollar una micromatriz (chip) de alta densidad para el girasol cultivado
que represente toda la información disponible tanto de ESTs como de
secuencias completas con el objeto de ser utilizada en estudios de expresión
génica para caracteres de importancia agronómica.
Estos caracteres incluyen estudios de expresión de:
•
•
•
•
mecanismos de respuesta a patógenos como Sclerotinia sclerotiorum y
Verticillium dahliae,
desencadenamiento de senescencia
tolerancia a estrés abiótico (estrés hídrico y salinidad)
mecanismos de respuestas a estreses que involucran a ácido jasmónico y
abscísico en girasol.
Colección de Unigenes de Girasol, Microarreglo de Expresión, Panel de Genotipificación
133,682 EST Genbank (versión May 2009)
Helianthus annuus L.
VecScreen
(http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html)
Trimseq EMBOSS
(http://emboss.sourceforge.net/)
28,089 singletons y 12,924 contigs = 41,013 unigenes (ensamblador CAP3)
Anotación funcional (BLASTX, Blast2go)
MICROARREGLO
(Agilent 44Kx4) 42,386 sondas
74 controles
específicos
1,417 controles Agilent
PME 024: Desarrollo de un prototipo de micromatriz de
oligonucleótidos representando los unigenes de girasol disponibles
para estudios transcriptómicos
Diseño y síntesis del chip de girasol
•Un total de 28.089 singletons y 12.924 contigs fueron
ensamblados, y aproximadamente 22.000 unigenes se anotaron
con terminología GO y se mapearon metabólicamente por
KEGG.
• El diseño de la micromatriz comprende un total de 45.220
sondas, con 1.417 controles de Agilent y 74 controles de
hibridación.
Diseño 4 x 44 K –
Podredumbre húmeda del capítulo
(Sclerotinia sclerotiorum)
Búsqueda de Nuevas Fuentes de Resistencia a PHC
Cruzamiento de Pac 2 (MR) x RHA266 (S): 94 RILs
DISEÑO EXPERIMENTAL
•
•
•
Diseño en bloques incompletos aleatorizados con dos/ tres repeticiones. Controles
Surco de 10 m, con un total aproximado de 30 plantas.
INOCULACIÓN ASISTIDA (Escande y col. 2002)
•
Suspensión de 2500 ascosporas/ml ‐
estadio R5.2 (Schneiter y Miller, 1981)
EVALUACIÓN FENOTÍPICA
•
•
•
•
Incidencia
Severidad
Intensidad Periodo de Incubación
RESULTADOS VALIDACIÓN
Estudios de expresión diferencial
Análisis de conglomerados
558 genes inducidos
198 genes reprimidos
Ontologías
2011-09-23
70
Estructura de ontologías
Ejemplo: Términos GO
No necesariamente es un árbol
Podrían “saltearse” niveles
(de hecho, no hay niveles)
En GO hay 3 DAGs:
biological_process
cellular_component
molecular_function
72
GO vs MapMan
Klie & Nikoloskie (2013), Front. Genetics 3:115
Bioinformática
Siempre que sea
posible, debe
emplearse un abanico
de métodos de
análisis diferentes, y
los resultados
deberían unirse con
toda la información
biológica disponible.
GenBank Releases
Release 305
December 2013
150,388,382 Records
183,874,179,730 Nucleotides
>158,559 Species
455 Gigabytes 1549 files
• liberación completa cada 2 meses
• incremental y acumulativo diario
• disponible sólo vía web
ftp://ftp.ncbi.nih.gov/genbank/
Lista de bases de datos de
biología molecular en NAR
http://nar.oupjournals.org/content/
vol28/issue1/
Genómica comparativa
Humano Chimpancé
Ratón
Perro
Gallina
Rana
Pez cebra
Introducción a NGS
¿Cuáles son las principales aplicaciones en
bioinformática?
Source: GenomeWeb Survey 2010
El investigador genera nuevos CONOCIMIENTOS,
que pone a disposicion de otros como DATOS, que
al ordenarse son INFORMACIÓN, que puede
llegar a ser CONOCIMIENTO útil, apropiado o
adaptado, por la infraestructura de investigación de
C&T que posea un país.
Descargar