CPU
4 vCPU AMD EPYC 9354P (2.0 GHz) bajo KVM. Instrucciones AVX2/AVX512 disponibles para cómputo vectorial.
Infraestructura actual · marzo 2026
Inventario del servidor, recomendaciones de modelo open source y plan de despliegue usando Cloudflare como exposición web.
4 vCPU AMD EPYC 9354P (2.0 GHz) bajo KVM. Instrucciones AVX2/AVX512 disponibles para cómputo vectorial.
15 GiB RAM totales (≈12 GiB disponibles en reposo). No hay swap configurado actualmente.
Disco /dev/sda1 de 193 GB con 182 GB libres (7 % usado), suficiente para modelos quantizados.
No hay GPU. Todo el inferencing debe ser CPU-only, idealmente con modelos ≤7B parámetros en formato GGUF.
Modelo recomendado
llama.cpp o llama-cpp-python, permitiendo servir endpoints HTTP.Alternativa liviana: Phi-2 (2.7B) para tareas de código/documentación cuando se necesiten respuestas ultra rápidas.
sudo apt update && sudo apt install -y build-essential cmake git python3-venv
git clone https://github.com/ggerganov/llama.cpp.git && cd llama.cpp && cmake -B build && cmake --build build -j4
mkdir -p models && curl -L -o models/mistral-7b-instruct-v0.2.Q4_K_M.gguf \
https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf
./build/bin/llama-cli -m models/mistral-7b-instruct-v0.2.Q4_K_M.gguf -p "Hola, resume..." -n 256
Levantar llama.cpp server: ./build/bin/llama-server -m models/... -c 4096 --port 8080 y protegerlo detrás de Cloudflare Tunnel o Pages Function.
Mistral 7B Q4_K_M consume ~4.1 GB RAM + 1 GB overhead. Con 15 GB totales queda margen para procesos auxiliares.
En 4 vCPU sin AVX512 se esperan 6‑8 tokens/s. Para más throughput se puede habilitar quantización Q3 o activar swap.
Agregar swap de 4‑8 GB, usar llama-cpp-python para exponer API REST y protegerlo con autenticación.