Infraestructura actual · marzo 2026

Hoja técnica · modelo IA local

Inventario del servidor, recomendaciones de modelo open source y plan de despliegue usando Cloudflare como exposición web.

4 vCPU 15 GiB RAM Sin GPU

Inventario del servidor

CPU

4 vCPU AMD EPYC 9354P (2.0 GHz) bajo KVM. Instrucciones AVX2/AVX512 disponibles para cómputo vectorial.

Memoria

15 GiB RAM totales (≈12 GiB disponibles en reposo). No hay swap configurado actualmente.

Almacenamiento

Disco /dev/sda1 de 193 GB con 182 GB libres (7 % usado), suficiente para modelos quantizados.

GPU

No hay GPU. Todo el inferencing debe ser CPU-only, idealmente con modelos ≤7B parámetros en formato GGUF.

Modelo recomendado

Mistral-7B-Instruct v0.2 · GGUF Q4_K_M

  • Open source (Apache 2.0) y entrenado para diálogos en inglés/español.
  • Con quantización Q4_K_M ocupa ~4.1 GB y cabe cómodamente en 15 GB de RAM.
  • Funciona vía llama.cpp o llama-cpp-python, permitiendo servir endpoints HTTP.

Alternativa liviana: Phi-2 (2.7B) para tareas de código/documentación cuando se necesiten respuestas ultra rápidas.

Modelo recomendado

Plan de despliegue

  1. 1 · Preparar dependencias

    sudo apt update && sudo apt install -y build-essential cmake git python3-venv

  2. 2 · Compilar llama.cpp

    git clone https://github.com/ggerganov/llama.cpp.git && cd llama.cpp && cmake -B build && cmake --build build -j4

  3. 3 · Descargar modelo quantizado

    mkdir -p models && curl -L -o models/mistral-7b-instruct-v0.2.Q4_K_M.gguf \ https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q4_K_M.gguf

  4. 4 · Probar inferencia local

    ./build/bin/llama-cli -m models/mistral-7b-instruct-v0.2.Q4_K_M.gguf -p "Hola, resume..." -n 256

  5. 5 · Exponer servicio HTTP (opcional)

    Levantar llama.cpp server: ./build/bin/llama-server -m models/... -c 4096 --port 8080 y protegerlo detrás de Cloudflare Tunnel o Pages Function.

Recursos estimados y notas

Uso esperado

Mistral 7B Q4_K_M consume ~4.1 GB RAM + 1 GB overhead. Con 15 GB totales queda margen para procesos auxiliares.

Rendimiento

En 4 vCPU sin AVX512 se esperan 6‑8 tokens/s. Para más throughput se puede habilitar quantización Q3 o activar swap.

Mejoras futuras

Agregar swap de 4‑8 GB, usar llama-cpp-python para exponer API REST y protegerlo con autenticación.