¿Cómo se almacenan y comparten los genomas secuenciados?

¿Qué es un navegador del genoma?

  • Un navegador del genoma es una interfaz gráfica en línea utilizada para mostrar datos genómicos.
  • Una vez que genoma La secuencia ha sido ensamblada y anotada La información debe almacenarse en una base de datos para que pueda compartirse con muchas personas en todo el mundo. La visualización de estos datos se realiza a través de un navegador del genoma.
  • Hacer que los datos sean abiertamente accesibles y fáciles de visualizar de esta manera es muy importante para ayudar a apoyar y progresar la investigación científica en todo el mundo.
  • Ejemplos de navegadores de genoma incluyen:
    • Ensembl, un proyecto conjunto entre el Instituto Europeo de Bioinformática (EBI), parte del Laboratorio Europeo de Biología Molecular (EMBL), y el Instituto Wellcome Trust Sanger en el Reino Unido.
    • UCSC, un navegador de genoma con sede en la Universidad de California en Santa Cruz, en la costa oeste de los Estados Unidos.
    • El visor de mapas del Centro Nacional de Información Biotecnológica (NCBI), con sede en Maryland en los Estados Unidos, proporciona una amplia variedad de datos tomados del genoma. cartografía y secuenciación de datos.
  • Ensembl se lanzó en 1999, justo antes del lanzamiento del primer borrador del genoma humano por el Proyecto Genoma Humano.
  • 15 años después de la publicación del genoma humano, Ensembl ahora tiene alrededor de 80 genomas anotados y almacenados, en su mayoría de vertebrados, pero también de tres invertebrados (a saber, mosca de la fruta, levadura y gusano). El proyecto hermano de Ensembl, Ensembl Genomes, cubre más invertebrados: metazoos, plantas, hongos, protistas y bacterias.
  • UCSC se lanzó en 2001, inicialmente para mostrar el borrador de la secuencia del genoma humano.
  • El objetivo inicial de tener un navegador del genoma era mostrar la secuencia del genoma humano y proporcionar una plataforma para permitir a las personas «navegar» y analizar el ADN secuencia para sí mismos.
  • Los diferentes navegadores del genoma colaboran juntos para compartir datos e ideas para garantizar que presenten los datos de manera consistente y uniforme.
  • La información en navegadores como Ensembl, UCSC y NCBI puede ser vista de forma gratuita y por cualquier persona en cualquier lugar sin restricciones. ¡El único requisito previo es una conexión a Internet!

¿Qué datos están disponibles y cómo se ven en el navegador?

  • Los navegadores del genoma como Ensembl y UCSC utilizan gráficos coloreados e interactivos para presentar los datos complejos de manera integrada.
  • La estructura básica de la pantalla en muchos navegadores del genoma es mostrar la secuencia del genoma horizontalmente a través de la pantalla con ciertos elementos presentados en colores y formas específicas de acuerdo con una clave.

Captura de pantalla tomada del navegador del genoma Ensembl que muestra la visualización de los genes y otras características de interés en el cromosoma humano 16 (ver versión a tamaño completo aquí)

  • Cada especie tiene su propia página en el navegador, que le permite ver y descargar la secuencia de ADN y explorar otra información más específica sobre ese genoma.
  • Los datos se mantienen en «pistas» de datos que se pueden activar y desactivar dependiendo del aspecto del genoma que desee ver. Por ejemplo, puede ver proteína Alineaciones Variantes genéticas, genes? y mucho más.
  • Para encontrar un gen o región específica del genoma, el usuario puede escribir el nombre del gen (por ejemplo, BRCA1) o una posición particular en un cromosoma utilizando coordenadas genómicas (por ejemplo, 17:43044295-43125483). El usuario podrá explorar los datos específicos para esa región y personalizar la vista si lo desea.
  • Además de analizar un gen dentro de una sola especie y obtener información sobre él, los navegadores del genoma también le permiten comparar genes y regiones genómicas en diferentes especies.

Ilustración que muestra una comparación de los genomas de cuatro grandes simios y su relación evolutiva. Crédito de la imagen: Genome Research Limited

Ilustración que muestra una comparación de los genomas de cuatro grandes simios y su relación evolutiva.
Crédito de la imagen: Genome Research Limited

  • Puedes explorar variación genética y averiguar dónde se encuentran las variantes genéticas asociadas con enfermedades o características específicas en los cromosomas.
  • Desde la visión general de un cromosoma puede hacer zoom para encontrar la secuencia de Bases en el ADN (A, C, G y T).

Captura de pantalla tomada desde el navegador del genoma Ensembl que muestra una vista ampliada de la secuencia de bases en el cromosoma humano 16 (ver versión a tamaño completo aquí)

  • La cantidad de datos genómicos disponibles depende de la especie que esté observando. Por ejemplo, el ser humano es la especie para la que se dispone de más datos, ya que muchos científicos están trabajando con datos genómicos humanos. En contraste, actualmente hay muy poca información genómica sobre el cerdo hormiguero.

Un cerdo hormiguero. Crédito de la imagen: Cucombre Libre vía Flickr CC BY 2.0

¿Con qué frecuencia se actualizan los datos?

  • Ensembl lanza una nueva versión de su base de datos cada dos o tres meses como parte de su «ciclo de lanzamiento» (puede leer más sobre esto aquí)
  • Además de las actualizaciones de datos, los navegadores del genoma también pueden lanzar nuevas herramientas y formas de visualizar los datos.
  • Cuando se realizan actualizaciones, las versiones antiguas todavía están disponibles para ver en sus archivos.
  • Los navegadores del genoma como Ensembl y UCSC están en constante evolución. Los datos en los navegadores siempre están cambiando, por lo que es importante que quienes los usan se mantengan actualizados con la última versión.
  • Ensembl garantiza que el navegador siga siendo una interfaz fácil de usar, intuitiva y confiable.

¿Quién usa un navegador del genoma?

  • Para utilizar un navegador del genoma de manera efectiva, algunos conocimientos previos de genética Y la biología molecular es necesaria para comprender de qué se tratan los datos y qué muestra la interfaz.
  • Los navegadores del genoma, como Ensembl, son utilizados por científicos de diferentes grupos:
    • Wet-lab scientists – científicos de laboratorio que trabajan directamente con material biológico.
    • Bioinformáticos: informáticos que crean modelos matemáticos y sofisticados programas informáticos para recopilar, ver y analizar datos biológicos, como datos genéticos / genómicos.
    • Médicos: examinan el genoma humano para ayudar con el desarrollo de nuevas herramientas para diagnosticar enfermedades.
    • Profesores: que utilizan los navegadores para apoyar su enseñanza de biología molecular y genética en el aula.

¿De dónde provienen los datos?

  • Los datos sobre los navegadores del genoma se recopilan de colaboraciones con varios proyectos de investigación y bases de datos, como la International Nucleotide Sequence Database Collaboration (INSDC), la base de datos de polimorfismo de nucleótido único (dbSNP), la Enciclopedia de elementos de ADN (ENCODE) y el Proyecto 1000 genomas.
    • INSDC es una colaboración entre el Instituto Europeo de Bioinformática (EMBL-EBI), NCBI y el Banco de Datos de ADN de Japón (DDBJ). Aquí es donde los navegadores del genoma como Ensembl obtienen la secuencia genómica cruda.
    • dbSNP es un archivo gratuito, público y en línea desarrollado y alojado por el Centro Nacional de Información Biotecnológica (NCBI) en los Estados Unidos. Su objetivo es actuar como una base de datos de ventanilla única para variantes genéticas (SNP y toda una gama de otras variaciones) en cualquier organismo.
    • ENCODE es un proyecto de investigación que se lanzó como seguimiento del Proyecto Genoma Humano. Su objetivo era identificar y caracterizar todas las partes funcionales del genoma humano para revelar cómo funciona realmente.
    • El Proyecto 1000 Genomas fue el primer proyecto que tuvo como objetivo secuenciar los genomas de un gran número de personas para producir un catálogo detallado de la variación genética humana.
  • Antes de cargarse en la base de datos y visualizarse en los navegadores del genoma, los datos se procesan y clasifican para que puedan presentarse de una manera más fácil de usar para las personas que ven la información.

¿Cómo pasamos de la secuencia del genoma al navegador del genoma?

  • Una vez que el ensamblaje está disponible públicamente, el navegador del genoma puede comenzar su anotación utilizando «evidencia biológica» para que se puedan identificar los genes y las transcripciones.
  • Esta evidencia biológica viene en forma de nucleótido y aminoácido secuencias, todas las cuales necesitan ser puestas en el contexto de toda la otra información genética que tenemos para ese organismo.
  • El primer paso para hacer esto es mapear y alinear la evidencia biológica contra el genoma de referencia (ensamblaje) para ese organismo.
  • Luego se ejecuta el software para identificar dónde se asignan las secuencias al genoma y permite que las estructuras genéticas con exones e intrones se dibujen y muestren en el navegador.

Ilustración que muestra la estructura de un gen. Crédito de la imagen: Genome Research Limited

Ilustración que muestra la estructura de un gen.
Crédito de la imagen: Genome Research Limited

  • Esto se puede combinar con información sobre lo que hacen esos genes, con qué enfermedades o características están asociados y otra información genómica.
  • Los datos subyacentes también se someten a controles de calidad y evaluaciones periódicamente.
  • La realización de estos controles de calidad a veces puede causar un retraso en la carga de nuevos datos a la base de datos y la visualización en el navegador del genoma. Sin embargo, es un paso imperativo garantizar que la calidad de los datos siga siendo de alto nivel para los análisis posteriores por parte de las comunidades de usuarios.
  • Todo el proceso generalmente toma alrededor de dos o tres meses desde la recepción de la secuencia genómica y los datos biológicos hasta el lanzamiento de la nueva versión de la base de datos en el navegador.