¿Qué es la Arquitectura Transformer?
La innovación clave que potenció a los LLMs modernos es la Arquitectura Transformer, introducida en el influyente artículo científico “Attention Is All You Need”. El componente esencial de esta arquitectura es el mecanismo de auto-atención (self-attention).
El Poder de la “Atención”
Sección titulada «El Poder de la “Atención”»Imagina que estás leyendo una frase larga. Para entenderla, tu cerebro no solo se enfoca en la palabra actual, sino que constantemente hace referencia a otras palabras clave en la oración para captar el significado completo. El mecanismo de auto-atención replica esta capacidad a una escala masiva.
Permite que el modelo, al generar cada nuevo token, pondere la importancia de todos los demás tokens en el texto de entrada (prompt). En lugar de limitarse a las palabras inmediatamente anteriores, el modelo puede “prestar atención” selectiva a cualquier parte del prompt, sin importar su distancia. Esta es la clave para capturar el contexto, la intención, el estilo y las dependencias semánticas a larga distancia, resolviendo así uno de los mayores desafíos del procesamiento del lenguaje natural.