Large (Grande)
Se refiere a la escala masiva.
- Datos: Entrenado con trillones de palabras (GitHub, Wikipedia).
- Parámetros: Modelos como GPT-4 tienen trillones de conexiones neuronales (pesos).
Un LLM (Large Language Model) es, en esencia, una “copia comprimida” de internet. Es un archivo estático (de gigabytes o terabytes) que ha “leído” tanta información que ha aprendido no solo datos, sino razonamiento y patrones.
Para entender la tecnología, analicemos sus tres componentes:
Large (Grande)
Se refiere a la escala masiva.
Language (Lenguaje)
No se limita al inglés o español. Para un LLM, Python, SQL y JSON son simplemente otros “idiomas” con sintaxis predecible. Por eso son tan buenos programando.
Model (Modelo)
Se refiere a la arquitectura Transformer. Una red neuronal diseñada específicamente para entender el contexto y la relación entre palabras distantes.
Como desarrollador, es vital entender que los modelos pasan por dos fases muy distintas. Esto explica por qué a veces son “inteligentes” y otras veces alucinan.
El modelo intenta predecir la siguiente palabra en trillones de documentos sin supervisión.
Aquí es donde nace “ChatGPT” o “Claude”. Se entrena al modelo base con ejemplos de instrucciones y respuestas curadas por humanos.
Ya vimos que los modelos predicen tokens. Pero, ¿cómo afecta esto a tu código?
Una palabra no siempre es un token.