¿Cómo se vuelve a armar un genoma después de la secuenciación?

Bioinformatics 2: assembly

¿Cuál es el desafío?

  • La tecnología de Secuenciación de ADN no es 100% precisa y, por lo tanto, es probable que haya errores en la secuencia de ADN que se produce.
  • Por lo tanto, para tener en cuenta los errores que podrían ocurrir, cada base en el genoma se secuencia varias veces, esto se llama cobertura. Por ejemplo, 30 veces (30 veces) cobertura significa que cada base? se secuencia 30 veces.
  • Efectivamente, cuantas más veces secuencie, o «lea», la misma sección de ADN, más confianza tendrá de que la secuencia final es correcta.
  • La cobertura de 30 a 50 veces es actualmente el estándar utilizado cuando se secuencian genomas humanos con un alto nivel de precisión.
  • Durante el Proyecto Genoma Humano La cobertura fue solo entre 5 y 10 veces y utilizó una tecnología de secuenciación diferente a las que se usan en la actualidad. La cobertura ha aumentado debido a varias razones:
    • Aunque la mayoría de las técnicas de secuenciación actuales son ahora más rápidas de lo que eran durante el Proyecto Genoma Humano, algunas tecnologías de secuenciación tienen una tasa de error más alta.
    • Algunas tecnologías de secuenciación se ocupan de lecturas más cortas de ADN, lo que significa que es más probable que ocurran brechas cuando se ensambla el genoma. Tener una cobertura más alta reduce la probabilidad de que haya huecos en la secuencia final ensamblada.
    • También es mucho más barato llevar a cabo la secuenciación a una cobertura más alta de lo que era en el momento del Proyecto Genoma Humano.
  • La alta cobertura significa que después de secuenciar el ADN tenemos montones y montones de piezas de secuencia de ADN (lecturas).
  • Para poner esto en perspectiva, una vez que un genoma humano ha sido completamente secuenciado, tenemos alrededor de 100 gigabases (100,000,000,000 bases) de datos de secuencia.
  • Al igual que las piezas de un rompecabezas, estas lecturas de ADN están mezcladas, por lo que debemos juntarlas y ponerlas en el orden correcto para ensamblar la secuencia del genoma.

¿Qué tenemos que hacer?

  • Coloque las piezas juntas en el orden correcto para construir la secuencia completa del genoma e identificar cualquier área de interés.
  • Esto se hace utilizando procesos llamados alineación y ensamblaje:
    • La alineación es cuando la nueva secuencia de ADN se compara con las secuencias de ADN existentes para encontrar similitudes o discrepancias entre ellas y luego se organiza para mostrar estas características. La alineación es una parte vital del montaje.
    • El ensamblaje implica tomar una gran cantidad de lecturas de ADN, buscar áreas en las que se superponen entre sí y luego juntar gradualmente el «rompecabezas». Es un intento de reconstruir el genoma original. Esto se lleva a cabo principalmente para Secuencias de novo.

Secuenciación de novo

  • La secuenciación de novo es cuando el genoma de un organismo se secuencia por primera vez.
  • En el ensamblaje de novo no existe una secuencia genómica de referencia para que esa especie la use como plantilla para el ensamblaje de su secuencia genómica.
  • Si sabes que el nuevo especie es muy similar a otra especie que sí tiene un genoma de referencia, es posible ensamblar la secuencia utilizando un genoma similar como guía.
  • Para ayudar a ensamblar una secuencia de novo una física gen El mapa se puede desarrollar antes de la secuenciación para resaltar los «puntos de referencia» para que los científicos sepan dónde se encuentran las secciones de ADN en relación entre sí.
  • La producción de un mapa genético puede ser un proceso costoso, por lo que algunos programas de ensamblaje se basan en datos que consisten en una combinación de lecturas de extremo único y pareado (ver ilustración a continuación):
    • Las lecturas individuales son donde se secuencia un extremo o la totalidad de un fragmento de ADN. Estas secuencias se pueden unir encontrando regiones superpuestas en la secuencia para crear la secuencia completa de ADN.
    • Las lecturas de extremo pareado son donde se secuencian ambos extremos de un fragmento de ADN. La distancia entre lecturas de extremo emparejado puede estar entre 200 pares de bases y varios miles. La ventaja clave de las lecturas de extremo emparejado es que los científicos saben qué tan separados están los dos extremos. Esto hace que sea más fácil ensamblarlos en una secuencia continua de ADN. Las lecturas de extremo emparejado son particularmente útiles cuando se ensambla una secuencia de novo, ya que proporcionan información de largo alcance que de otro modo no tendría en ausencia de un mapa genético.

Illustration showing the difference between single and paired-end reads. Image credit: Genome Research Limited

Ilustración que muestra la diferencia entre lecturas de extremo simple y pareadas. Crédito de la imagen: Genome Research Limited

  • El ensamblaje de una secuencia de novo comienza con un gran número de secciones cortas o «lecturas» de ADN.
  • Estas lecturas se comparan entre sí y las que comparten la misma secuencia de ADN se agrupan.
  • A partir de aquí se ensamblan en secciones progresivamente más grandes para formar largas secuencias contiguas (juntas en secuencia) llamadas «contigs».
  • Estos contigs se pueden agrupar con información tomada de otras tecnologías para proporcionar pistas sobre cómo unir los contigs y aproximadamente qué tan lejos colocarlos, incluso si la secuencia intermedia aún se desconoce. Esto se llama «andamio».
  • El montaje se puede refinar aún más ordenando los andamios individuales en cromosomas?. Un mapa genético físico es una herramienta útil para hacer esto.
  • El ensamblaje resultante se alimenta a la siguiente etapa del proceso: la anotación, que identifica dónde comienzan y se detienen los genes y otras características de la secuencia.
  • El ensamblaje de un genoma es un trabajo intensivo en computadora. Por lo general, los programas de ensamblaje del genoma tardan alrededor de 20 horas por gigabase de secuencia en unir la secuencia del genoma de un organismo a partir de las lecturas de la secuencia de ADN generada por las máquinas de secuenciación.
  • Entonces, con las 100 gigabases de datos de secuencia que tenemos después de secuenciar un genoma humano, tomará 2.000 horas o alrededor de 83 días ensamblar la secuencia completa.

Resecuenciación

  • Esto es cuando se sabe que el genoma que se está secuenciando es de una especie que ha sido secuenciada antes y, por lo tanto, se dispone de un genoma de referencia.
  • La resecuenciación es un término que se puede utilizar para describir dos procesos distintos:
    • Un uso de la resecuenciación es para mejorar la calidad de la secuencia de ADN existente para ese organismo.
      • Por ejemplo, el Proyecto Genoma Humano, que se completó en 2003, proporcionó la primera secuencia completamente ensamblada del genoma humano.
      • Desde entonces, los científicos han estado trabajando para producir una secuencia de referencia de mayor calidad y precisión.
      • Como resultado, el genoma de referencia humano se ha mejorado enormemente desde 2003, con los científicos corrigiendo errores, reorganizando el orden de los contigs individuales y llenando los vacíos restantes en la secuencia.
    • Otro uso de la resecuenciación es cuando secuenciamos el genoma de un individuo de una especie para la que ya tenemos un genoma de referencia y conocemos un poco. Entonces podemos comparar la nueva secuencia del genoma con la de la referencia y descubrir cómo varían.
      • Por ejemplo, si hay un cambio de par de bases en el nuevo genoma que no está presente en el genoma de referencia, puede dar una pista sobre el origen genético de un rasgo o enfermedad en particular.
      • La disponibilidad de un genoma humano de referencia desde 2003 ha permitido proyectos como el Proyecto 1000 Genomas y UK10K.
      • El Proyecto 1000 Genomas, que se lanzó en 2008, fue el primer proyecto en secuenciar los genomas de un gran número de personas (al menos 1.000), para proporcionar un recurso integral sobre la variación genética humana.
      • El UK10K fue lanzado por Wellcome Trust en 2010 y tenía como objetivo analizar el ADN de una de cada 6.000 personas en el Reino Unido con el fin de descubrir Variantes genéticas? importante para la enfermedad humana.
      • El proyecto Genomics England 100,000 Genomes, que se lanzó a finales de 2012, se centrará en pacientes con enfermedades raras y sus familias y pacientes con cáncer?. Al comparar muchos genomas y combinar los hallazgos con la información médica de los pacientes, se espera que identifiquen tendencias genéticas comunes para ayudar a hacer diagnósticos. Con mejores diagnósticos, los médicos tienen una mejor oportunidad de proporcionar la medicación más adecuada.
  • La resecuenciación para la comparación con el genoma de referencia generalmente no implica ningún ensamblaje porque esto ya se ha hecho para el genoma de referencia. En su lugar, se utiliza la alineación. Esto significa que las secciones de ADN o «lecturas» producidas después de la secuenciación se comparan con el genoma de referencia y se colocan junto a su contraparte más similar (idealmente idéntica).
  • Una vez que todas las secciones están alineadas, es posible buscar diferencias entre la secuencia individual y la secuencia de referencia.