¿Qué es la Arquitectura Transformer?

La innovación clave que potenció a los LLMs modernos es la Arquitectura Transformer. Antes de su llegada, los modelos procesaban el texto de manera secuencial (palabra por palabra), lo que dificultaba entender contextos largos.

El Poder de la “Atención”

Para entender cómo funciona, usemos una analogía cotidiana sobre cómo procesamos el lenguaje los humanos:

El mecanismo de auto-atención replica esta capacidad humana a una escala masiva y matemática:

Visión Global: Al generar o procesar cada nuevo token, el modelo pondera la importancia de todos los demás tokens en el texto de entrada (prompt).
Conexiones Flexibles: En lugar de limitarse a las palabras inmediatamente anteriores (como hacían los modelos viejos), el Transformer puede “prestar atención” selectiva a cualquier parte del prompt, sin importar qué tan lejos esté.
Contexto Profundo: Esta es la clave para capturar la intención, el estilo y las dependencias semánticas (ej: saber a quién se refiere un “su” o “ella” mencionado párrafos atrás).

Gracias a esto, se resolvió uno de los mayores desafíos históricos del procesamiento del lenguaje natural: mantener la coherencia en textos largos.