Saltearse al contenido

¿Qué es la Arquitectura Transformer?

La innovación clave que potenció a los LLMs modernos es la Arquitectura Transformer, introducida en el influyente artículo científico “Attention Is All You Need”. El componente esencial de esta arquitectura es el mecanismo de auto-atención (self-attention).

Imagina que estás leyendo una frase larga. Para entenderla, tu cerebro no solo se enfoca en la palabra actual, sino que constantemente hace referencia a otras palabras clave en la oración para captar el significado completo. El mecanismo de auto-atención replica esta capacidad a una escala masiva.

Permite que el modelo, al generar cada nuevo token, pondere la importancia de todos los demás tokens en el texto de entrada (prompt). En lugar de limitarse a las palabras inmediatamente anteriores, el modelo puede “prestar atención” selectiva a cualquier parte del prompt, sin importar su distancia. Esta es la clave para capturar el contexto, la intención, el estilo y las dependencias semánticas a larga distancia, resolviendo así uno de los mayores desafíos del procesamiento del lenguaje natural.