La Inteligencia Artificial viene operando desde hace varios años atrás, basándose en la metodología o técnica del Machine Learning. Sin embargo, anteriormente estos sistemas servían más bien para analizar información, clasificarla y tomar decisiones (como por ejemplo, detectar transferencias fraudulentas o filtros de spam).
Sin embargo, la IA Generativa supone no sólo analizar información, sino que crearla. De ahí su nombre: generativa.
Los modelos de lenguaje grandes son un tipo particularmente prominente de inteligencia artificial generativa.

Esta tecnología se hizo viable por la confluencia de distintos breakthroughs en distintos ámbitos.
- Algoritmos: Si bien las Redes neuronales (IA) han existido conceptualmente desde hace décadas, la arquitectura del Transformer (IA) fue desarrollada el 2017 y revolucionó las posiblidades de los sistemas de IA. Esta última permite que los modelos de lenguaje puedan procesar mucha más información, logrando discernir de manera inteligente cuál es la información clave que le da el contexto pertinente al modelo.
- Datos: Los Modelos de Lenguaje requieren una cantidad enorme de datos. El simple paso del tiempo en nuestra éra conectada, con cada vez más dispositivos y plataformas que permirían alimentar internet, generó las condiciones propicias para alimentar los modelos durante su fase de entrenamiento. Esto involucra no sólo texto, sino que multimedia.
- Computación: El desarrollo de las GPUs y TPUs como chips optimizados para el procesamiento paralelo de datos, así como las tecnologías que permiten conectar estos chips para hacerlos operar como clusters, son justamente la arquitectura que se requería para poder soportar la cantidad masiva de procesamiento que requiere el entrenamiento y la generación de inferencia de los modelos.

Algo interesante que sucedió como consecuencia, y que nadie predijo, es lo que ha sido descrito como las Leyes de escala, que básicamente muestran cómo un aumento cuantitativo de la capacidad de compute y datos generaban un correspondiente aumento proporcional en la “inteligencia” de los modelos, los cuales desarrollaban competencias emergentes sin que nadie las hubiese programado.
