¿Qué sucede con la secuencia de ADN cuando sale de una máquina de secuenciación?

Bioinformática 1: control de calidad

¿Cuál es el desafío?

  • Después de haber secuenciado una muestra de ADN, necesitamos un proceso para verificar que:
  1. La etapa de laboratorio del proceso, que prepara la muestra de ADN para la secuenciación, ha funcionado correctamente
  2. El instrumento que lleva a cabo la secuenciación ha funcionado correctamente
  3. La muestra de ADN proviene de una sola fuente y no ha sido contaminada con ADN de otra muestra.

¿Qué tenemos que hacer?

  • El control de calidad es un amplio conjunto de procedimientos que se llevan a cabo para garantizar que la muestra y la secuencia de ADN sean de buena calidad. Se utiliza para comprobar que toda la secuencia de ADN es:
  1. De calidad adecuada que pueda ser enviado y utilizado para el estudio científico.
    • Una forma en que esto se evalúa es observando cuánto ADN (medido en grupos) hay en cada mm2 de cada carril de la máquina de secuenciación.
    • Para que una muestra sea aceptada, debe haber cientos de miles a millones de grupos de ADN por mm.2 de cada carril (dependiendo de la máquina de secuenciación que se utilice). Si el número de clústeres está fuera del rango para una determinada máquina, indica que algo ha salido mal durante la secuenciación y la muestra no será aceptada para su posterior procesamiento.
    • También se mide la fuerza de la señal de las bases de ADN en la secuencia. Las señales deben ser lo más brillantes posible, particularmente para la primera base de la secuencia. Si la señal es aburrida, significa que algo podría haber salido mal o que la cámara de la máquina estaba desenfocada.
  2. La muestra de ADN no está contaminada con ADN de otra muestra.
    • Esto se comprueba alineando la secuencia de ADN con el genoma de referencia para ese organismo y comprobando que coincide con la especie que debería ser. Por ejemplo, si ha secuenciado un genoma de ratón, esperaría ver una coincidencia del 98-99 por ciento con el genoma del ratón de referencia y coincidencias mucho más bajas con otros genomas de referencia. Nunca será del 100% porque siempre hay alguna variación genética entre individuos de la misma especie.
    • Se agregan «etiquetas» individuales a cada muestra de ADN antes de la secuenciación. Estas etiquetas son secuencias cortas de ADN que actúan como códigos de barras para identificar fragmentos de ADN del mismo individuo. Todos estos pueden ser fácilmente identificados y ordenados después. Después de la secuenciación, si una etiqueta no aparece en una muestra cuando debería, es una señal de que algo ha salido mal antes o durante la secuenciación. Esto puede ser el resultado de la contaminación o un error humano.
  • El tiempo necesario para transferir los datos de secuencia fuera de las máquinas y luego someterse al análisis primario tarda entre tres y cuatro días en completarse. Aunque, el proceso manual de control de calidad generalmente solo toma alrededor de una hora.
  • Después de esto, la muestra se pasará o se fallará.
  • Si la muestra falla, la secuencia fallida se descartará y la secuenciación se llevará a cabo nuevamente.
  • Para todas las muestras que pasan, la secuencia de ADN se almacena en un gran «cubo» de datos junto con información adicional sobre la muestra. Esto incluirá de qué muestra proviene la secuencia de ADN, de qué especie es y para qué estudio se secuenció el genoma.