![]() |
Las secuencias más parecidas son las de proteínas derivadas de la anémona de punta de burbuja (en la imagen). Crédito: © Susan Prior via iNaturalist (CC BY 4.0) |
Se cree que las proteínas aparecieron por primera vez en la Tierra hace unos 3.700 millones de años y, desde entonces, la naturaleza las ha ido transformando en las moléculas que existen hoy en día. Pero, ¿y si hubiera una forma de imitar artificialmente ese proceso, pero mucho, mucho más rápido?
Eso es exactamente lo que un grupo de investigadores de la empresa EvolutionaryScale afirma haber hecho con el poder de la inteligencia artificial (IA), generando el código para una proteína fluorescente completamente nueva.
Las proteínas se forman a partir de largas cadenas de aminoácidos. El término técnico para esto es una secuencia, y las diferencias en dichas secuencias determinan la estructura y función finales de la proteína.
Los investigadores escriben en su artículo que "se está desarrollando un consenso de que detrás de estas secuencias hay un lenguaje fundamental de la biología de las proteínas que se puede entender utilizando modelos de lenguaje". Si ese fuera el caso, entonces podría ser posible generar secuencias para proteínas completamente nuevas, potencialmente muy diferentes en estructura y función de las que ya existen.
Su intento de comprender este lenguaje es ESM3, un modelo de lenguaje generativo multimodal. En términos más sencillos, es un tipo de IA generativa, como los diversos GPT de OpenAI, pero en lugar de pedirle que escriba la tarea como con ChatGPT, este modelo arroja el código de una proteína.
Se ha entrenado con 771 mil millones de tokens únicos (el término de IA para una unidad de datos) tomados de bases de datos de secuencias y estructuras de proteínas naturales, así como algunas secuencias sintéticas generadas. En total, estos datos contenían 3.15 mil millones de secuencias de proteínas, 236 millones de estructuras de proteínas y 539 millones de proteínas con anotaciones de funciones.
El siguiente paso fue ver si podía generar una secuencia de proteína completamente nueva. En este caso, el equipo le pidió al modelo que generara nuevas proteínas fluorescentes, y le pidió una receta incompleta y la tarea de llenar los espacios vacíos.
![]() |
Las proteínas se forman a partir de largas cadenas de aminoácidos. Licencia: Creative Commons |
Y lo hizo, generando la secuencia y la estructura de una variante previamente desconocida de la proteína verde fluorescente (GFP), que se usa con frecuencia en la investigación de biología celular y molecular, denominada esmGFP.
Según EvolutionaryScale, esta nueva proteína “es una gran desviación evolutiva de las proteínas fluorescentes naturales”, ya que comparte solo un 53 por ciento de similitud en la secuencia en comparación con la proteína natural más cercana, eqFP578, encontrada en la anémona de punta de burbuja. El equipo de investigación afirma en su artículo que esta divergencia es “en un grado equivalente a simular más de 500 millones de años de evolución”.
Sin embargo, no todos estaban tan seguros: la profesora de Ecología y Evolución Microbiana de la Universidad de Bath, Tiffany Taylor, que no participó en el estudio, escribió en Live Science en 2024 (cuando el estudio todavía era una preimpresión) que “la ingeniería de proteínas impulsada por IA es intrigante, pero no puedo evitar la sensación de que podríamos estar demasiado confiados al suponer que podemos ser más astutos que los intrincados procesos perfeccionados por millones de años de selección natural”.
Sin embargo, como dijo Taylor, es un concepto interesante, pero ¿para qué sería útil exactamente? El sitio web de EvolutionaryScale dice que su modelo es “una herramienta para que los científicos imaginen proteínas que capturan carbono […] enzimas que descomponen el plástico [y] nuevos medicamentos”.
Sin embargo, no hay garantía de que esto se traduzca en realidad. Por ahora, la proteína recién descubierta sigue siendo “generada” solo en el sentido de la IA.
El estudio se publicó en la revista Science.