Configurando LM Studio
Para realizar el laboratorio práctico de este módulo, utilizaremos LM Studio.
Hemos elegido esta herramienta por dos beneficios clave que facilitan enormemente el desarrollo local:
- Descubrimiento inteligente: Se conecta a Hugging Face y te permite buscar y descargar modelos fácilmente.
- Servidor de inferencia: Nos permite levantar un servidor local que imita la API de OpenAI, lo cual es vital para conectar nuestro código en los siguientes pasos.
Paso 1: Instalación y búsqueda
Sección titulada «Paso 1: Instalación y búsqueda»-
Descargar: Ve a lmstudio.ai y descarga la versión para tu sistema operativo.
-
Buscar modelo: Abre la aplicación y usa la lupa (Search) para buscar
Qwen 2.5 Codero el modelo de tu preferencia. -
Seleccionar un resultado: Al buscar, verás varios resultados en la columna izquierda. Selecciona el que tenga más descargas, proveedores oficiales o cuantizadores de alta reputación.
Paso 2: Entendiendo la cuantización
Sección titulada «Paso 2: Entendiendo la cuantización»Verás que el mismo modelo tiene versiones con nombres como Q4_K_M, Q6_K o Q8_0. Esto es la cuantización (compresión). Para un equipo estándar (Procesador i5, memoria RAM 16GB), esta tabla te ayudará a elegir:
| Nivel | Peso Aprox | Recomendación | Calidad |
|---|---|---|---|
| Q2 - Q3 | Muy bajo | ❌ Evitar | Pierde mucha inteligencia. |
| Q4_K_M Ideal | Medio | ✅ Descargar | El mejor balance calidad/velocidad. |
| Q8 / FP16 | Muy alto | ❌ Prohibido | Requiere hardware de servidor. |
Paso 3: Tu primer chat Local
Sección titulada «Paso 3: Tu primer chat Local»Una vez finalizada la descarga:
- Ve a la pestaña de Chat (icono de burbuja).
- Arriba al centro, selecciona el modelo que acabas de descargar.
- Observa la barra superior: te muestra el consumo de RAM en tiempo real.
- ¡Prueba enviando un “Hola mundo”!
Paso 4: Modo Desarrollador (Local server)
Sección titulada «Paso 4: Modo Desarrollador (Local server)»Aquí es donde ocurre la magia para integrar con Python o Node.js.
- Ve a la pestaña Developer.
- Haz clic en el botón Server settings y habilita Local server.
- Copia la URL que aparece:
http://localhost:1234.
Prueba rápida de conexión
Sección titulada «Prueba rápida de conexión»Para verificar que tu servidor está listo para recibir peticiones de código, ejecuta este comando en tu terminal o Postman.
Petición (Request):
curl http://localhost:1234/v1/chat/completions-H "Content-Type: application/json"-d '{ "model": "qwen2.5-coder-7b-instruct", "messages": [ { "role": "system", "content": "Eres un experto en Clean Code y Python. Responde de forma concisa." }, { "role": "user", "content": "¿Qué es una List Comprehension en Python?" } ], "temperature": 0.7, "max_tokens": -1, "stream": false}'Respuesta esperada (Response):
Si todo funciona bien, recibirás un JSON con la respuesta del modelo.
{ "id": "chatcmpl-w4xt9689dzbus0bloa983", "object": "chat.completion", "created": 1767393287, "model": "qwen2.5-coder-7b-instruct", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "Una List Comprehension en Python es una forma concisa de crear listas. Permite generar una nueva lista aplicando una expresión a cada elemento de una lista o iterable existente, y opcionalmente filtrando los elementos según una condición.", "tool_calls": [] }, "logprobs": null, "finish_reason": "stop" } ], "usage": { "prompt_tokens": 42, "completion_tokens": 53, "total_tokens": 95 }, "stats": {}, "system_fingerprint": "qwen2.5-coder-7b-instruct"}