Los costos de LLM ya no son solo una línea del presupuesto; son un problema de enrutamiento.

Cuando te ves obligado a elegir entre velocidad y margen de ganancia, no estás gestionando "el gasto en IA". Estás gestionando la arquitectura.

Las consultas de los usuarios, los trabajos en segundo plano, los reintentos, las evaluaciones, los modelos de respaldo: no deberían todos llegar al mismo endpoint. Los distintos flujos requieren lógicas diferentes.

Tu factura solo te está diciendo que el sistema está roto. Corrige el enrutamiento, no la factura.