¿Cuál es el desafío?
- Tenemos nuestros alineados y ensamblados genoma pero ¿cómo identificamos dónde el genes? y se localizan otras regiones funcionales del genoma?
¿Qué tenemos que hacer?
- La anotación implica marcar dónde comienzan y se detienen los genes en el ADN secuencia y también donde otras regiones relevantes e interesantes están en la secuencia.
- Aunque las canalizaciones de anotación del genoma pueden diferir entre sí, por ejemplo, algunos elementos pueden ser manuales mientras que otros tienen que automatizarse, todos comparten un conjunto básico de características.
- Generalmente se dividen en dos fases distintas: predicción de genes y anotación manual.
Predicción genética
- Hay dos tipos de predicción genética:
- Ab initio: esta técnica se basa en señales dentro de la secuencia de ADN. Es un proceso automatizado mediante el cual una computadora recibe instrucciones para encontrar genes en la secuencia y luego se deja encontrarlos. La computadora busca secuencias comunes que se sabe que se encuentran al principio y al final de los genes, como las secuencias promotoras (donde proteínas enlazar ese interruptor en los genes), iniciar Codones (donde el código del producto génico, ARN o proteína, comienza) y codones de parada (donde termina el código para el producto génico).
Ilustración que muestra la estructura de un gen.
Crédito de la imagen: Genome Research Limited
-
- Basada en la evidencia: esta técnica se basa en evidencia más allá de la secuencia de ADN. Implica recopilar varias piezas de información genética de la secuencia de transcripción (ARNm), y secuencias de proteínas conocidas del genoma. Con estas piezas de evidencia es posible tener una idea de la secuencia de ADN original trabajando hacia atrás a través de transcripción y traducción (transcripción/traducción inversa). Por ejemplo, si tiene la secuencia de proteínas, es posible calcular la familia de posibles secuencias de ADN de las que podría derivarse calculando cuál Aminoácidos componen la proteína y luego qué combinación de codones podría codificar esos aminoácidos y así sucesivamente, hasta que llegues a la secuencia de ADN.
- La información tomada de estos dos métodos de predicción se combina y se alinea con el genoma secuenciado.
Anotación manual
- Una vez que se completa la predicción de genes, la segunda fase, la anotación manual o «curación», puede comenzar.
- Esto es cuando la información recopilada de la fase de predicción es examinada, por una persona, con el fin de encontrar un gen en particular o responder a una pregunta en particular.
Comparación de genomas
- Una vez anotada, la secuencia se puede comparar con la secuencia del genoma conocida de organismos similares o estrechamente relacionados para identificar cualquier similitud o diferencia clave.
- Por ejemplo, los datos de secuencia del genoma de un animal, o organismo modelo, puede ser anotado y luego comparado con la secuencia anotada de un humano.
- Al compararlos es posible identificar cualquier gen similar. El genoma del ratón, por ejemplo, es muy similar al genoma humano.
- Esta información se puede utilizar para investigar similitudes en el fenotipos del ratón y del humano. Por ejemplo, un variante genética está relacionado con la sordera en el ratón, pero ¿es este el caso también en el humano?
- Mutantes? También se puede crear (un organismo con una genética específica mutación?) para investigar la función de un gen determinado. Por ejemplo, este gen está relacionado con el desarrollo del oído, pero ¿cuál es el efecto cuando ese gen no está funcionando?
- Alternativamente, los datos de secuenciación se pueden colocar junto al genoma de referencia para esa especie con el fin de obtener más información sobre los orígenes de características o enfermedades particulares.
- El Proyecto 1000 Genomas, que se lanzó en 2008, tenía como objetivo producir un catálogo de estas diferencias tomadas de la secuenciación de los genomas de alrededor de 3000 personas anónimas de 26 poblaciones de todo el mundo.
- El UK10K fue lanzado por Wellcome Trust en 2010 con el objetivo de analizar los genomas de 4.000 personas sanas con los de 6.000 personas que actualmente viven con una enfermedad de causa genética sospechosa, como la obesidad severa.
- Una vez que los datos de secuenciación están alineados con el genoma de referencia, es posible compararlos para resaltar dónde están las diferencias.
- Esta información se compara con los datos de las anotaciones genéticas existentes.
- Luego se pueden sacar conclusiones sobre la importancia de las diferencias y cómo pueden afectar la expresión génica y contribuir a una enfermedad o rasgo específico.
Ilustración que muestra la mutación puntual en el gen de la β-globina responsable del trastorno genético de la sangre β-talasemia. Crédito de la imagen: Genome Research Limited.
- La velocidad de la anotación depende totalmente de la pregunta de investigación y de la precisión que se necesita para responder a esa pregunta lo suficiente. Como resultado, la anotación de un genoma puede tardar de días a años en completarse.