Modelo IA en el servidor actual

Inventario del servidor

4 vCPU AMD EPYC 9354P (2.0 GHz) bajo KVM. Instrucciones AVX2/AVX512 disponibles para cómputo vectorial.

15 GiB RAM totales (≈12 GiB disponibles en reposo). No hay swap configurado actualmente.

Disco /dev/sda1 de 193 GB con 182 GB libres (7 % usado), suficiente para modelos quantizados.

No hay GPU. Todo el inferencing debe ser CPU-only, idealmente con modelos ≤7B parámetros en formato GGUF.

Modelo recomendado

Open source (Apache 2.0) y entrenado para diálogos en inglés/español.
Con quantización Q4_K_M ocupa ~4.1 GB y cabe cómodamente en 15 GB de RAM.
Funciona vía llama.cpp o llama-cpp-python, permitiendo servir endpoints HTTP.

Alternativa liviana: Phi-2 (2.7B) para tareas de código/documentación cuando se necesiten respuestas ultra rápidas.

1 · Preparar dependencias

sudo apt update && sudo apt install -y build-essential cmake git python3-venv
2 · Compilar llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git && cd llama.cpp && cmake -B build && cmake --build build -j4
3 · Descargar modelo quantizado

mkdir -p models && curl -L -o models/mistral-7b-instruct-v0.2.Q4_K_M.gguf \ https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf
4 · Probar inferencia local

./build/bin/llama-cli -m models/mistral-7b-instruct-v0.2.Q4_K_M.gguf -p "Hola, resume..." -n 256
5 · Exponer servicio HTTP (opcional)

Levantar llama.cpp server: ./build/bin/llama-server -m models/... -c 4096 --port 8080 y protegerlo detrás de Cloudflare Tunnel o Pages Function.

Mistral 7B Q4_K_M consume ~4.1 GB RAM + 1 GB overhead. Con 15 GB totales queda margen para procesos auxiliares.

En 4 vCPU sin AVX512 se esperan 6‑8 tokens/s. Para más throughput se puede habilitar quantización Q3 o activar swap.

Agregar swap de 4‑8 GB, usar llama-cpp-python para exponer API REST y protegerlo con autenticación.