Que es un LLM (Large Language Model) o Modelo Grande de Lenguaje

Imagina que encuentras el libreto de una película de cine, que describe una escena entre una persona y su asistente de inteligencia artificial. El guión muestra la pregunta para la inteligencia artificial, pero por alguna razón la respuesta desapareció. Supón que tienes esta máquina super poderosa y mágica que puede tomar cualquier texto y hacer una predicción sensata de cuál es la palabra siguiente. Así, podrías completar el guión introduciendo el texto en la máquina para predecir la primera palabra de la respuesta de la inteligencia artificial, y luego repetir el proceso palabra por palabra hasta completar el diálogo. Cuando interactúas con un chatbot, esto es exactamente lo que ocurre. Un modelo extenso de lenguaje o LLM es una sofisticada función matemática que predice qué palabra viene a continuación para cualquier texto. Sin embargo, en lugar de predecir una palabra con certeza, lo que hace es asignar una probabilidad a todas las posibles palabras.

Para construir un chatbot, preséntale un texto que describe una interacción entre un usuario y un hipotético asistente, añade lo que el usuario escriba como primera parte de la interacción (puede ser una pregunta), y luego haz que el modelo prediga repetidamente la siguiente palabra que la inteligencia artificial diría, hasta lograr una respuesta para el usuario real. Al hacer esto, el resultado parece mucho más natural si le permites a la función seleccionar, de forma aleatoria, algunas palabras menos probables. Lo que esto significa es que, aunque el modelo en sí sea determinista, una misma pregunta suele dar una respuesta diferente cada vez que se ejecuta. Los modelos aprenden a hacer estas predicciones procesando enormes cantidades de texto, normalmente obtenido de internet. Para que te hagas una idea, un ser humano leyendo la cantidad de texto utilizado para entrenar el modelo GPT-3, puede leer sin parar 24 horas al día, 7 días a la semana, tardaría más de 2600 años. Los modelos más recientes son entrenados con muchos más datos.

A manera de ejemplo, puedes pensar en el entrenamiento como la sintonización de las perillas de una gran máquina, algo así como el botón de volumen y el botón de sintonización de los radios antiguos. La forma en que se comporta un modelo de lenguaje está totalmente determinada por estos valores, normalmente llamados parámetros o pesos. Si cambias esos parámetros, cambiarán las probabilidades que el modelo tiene para la siguiente palabra de un texto particular. Lo que hace que un modelo de lenguaje sea extenso o de gran tamaño es que puede tener cientos de miles de millones de parámetros. Pero ningún ser humano define esos parámetros. En cambio, empiezan al azar, lo que significa que el modelo sólo produce letras sin sentido, pero se perfeccionan repetidamente a partir de muchos textos de ejemplo. Uno de estos ejemplos de entrenamiento podría ser sólo un puñado de palabras, o podrían ser miles, pero en cualquier caso, la forma en que funciona es introduciendo todas las palabras de ese ejemplo menos la última y comparando la predicción del modelo con la palabra verdadera. Para ajustar todos los parámetros es utilizado un algoritmo llamado retropropagación, con el objetivo de que el modelo tenga más probabilidades de elegir la última palabra verdadera.

Cuando haces esto para muchos millones de millones de ejemplos, el modelo no sólo empieza a dar mejores predicciones sobre los datos de entrenamiento, sino que también empieza a hacer predicciones más razonables sobre textos que nunca ha visto antes. Por el gran número de parámetros y la enorme cantidad de datos de entrenamiento, la escala de computación necesaria para el entrenamiento de un modelo extenso de lenguaje es alucinante. Para ilustrarlo, imagina que puedes realizar mil millones de sumas y multiplicaciones cada segundo. ¿Cuánto tiempo crees que te tomaría hacer todas las operaciones implicadas en el entrenamiento de los modelos de lenguaje más grandes? ¿Crees que tardarías un año? ¿Quizá algo así como 10.000 años? En realidad, la respuesta es mucho mayor. Sería más de 100 millones de años. Sin embargo, esto es sólo una parte de la historia.