Cómo Reduje el Consumo de Tokens de Claude Code en un 50%

Q: ¿Cuál es la diferencia entre /compact y /clear?

`/compact` resume el historial de conversación para reducir tokens, preservando el contexto — la sesión continúa con el resumen. `/clear` borra todo y empieza de cero. Usa `/compact` a mitad de tarea cuando la conversación se alarga. Usa `/clear` al cambiar a una tarea completamente diferente. Consulta el [Claude Code Commands Cheatsheet](/es/claude-code/claude-code-commands-cheatsheet) para más comandos integrados.

Q: ¿Cómo sé si mi CLAUDE.md es demasiado largo?

Ejecuta `/context` al inicio de una sesión nueva. Si CLAUDE.md consume más del 10-15% de tu contexto, vale la pena recortarlo. El artículo de [Patrones de Diseño para CLAUDE.md](/es/claude-code/claude-code-context-management-claude-md-patterns) cubre cinco patrones para mantenerlo ligero. Un buen objetivo es menos de 200 líneas, con detalles divididos en archivos `docs/` que Claude Code lee bajo demanda.

Empiezas a usar Claude Code y la factura de la API llega mucho más alta de lo esperado — es una de las quejas más comunes en Reddit. Una vez que analizas adónde van los tokens y haces cambios dirigidos, puedes reducir el consumo drásticamente. Aquí tienes la guía completa.

Al final de este artículo, sabrás cómo identificar adónde van tus tokens, y tendrás comandos concretos para las soluciones que realmente funcionaron: .claudeignore, modo Plan, disciplina de prompts, gestión de servidores MCP e higiene de sesiones.

¿Cuáles Son los 5 Mayores Consumidores de Tokens en Claude Code?

Antes de optimizar nada, necesitas saber contra qué estás luchando. El desperdicio de tokens tiende a concentrarse en cinco fuentes.

1. Lecturas de contexto infladas Claude Code puede intentar leer archivos que no necesitas que toque: node_modules, .git, artefactos de build. Esto suele ser el mayor desperdicio individual.

2. Prompts vagos que causan idas y vueltas "Haz que se vea mejor" obliga a Claude Code a hacer preguntas aclaratorias. Una tarea que debería tomar un solo intercambio termina tomando cuatro.

3. Servidores MCP siempre activos Cada servidor MCP conectado añade su lista de herramientas a tu contexto en cada mensaje. Cinco servidores ejecutándose constantemente suman cientos de tokens por turno, antes de que hayas dicho nada.

4. CLAUDE.md inflado Si tu archivo de instrucciones de proyecto contiene cada decisión, cada nota de contexto y cada pieza de información de los últimos seis meses, Claude Code carga todo al inicio de cada sesión.

5. Sesiones largas sin reiniciar El historial de conversación se acumula. Cuanto más tiempo se ejecuta una sesión sin un reinicio, más tokens cuesta cada nuevo mensaje.

Empieza con /context para ver un desglose visual de tu uso de contexto, y /cost para verificar el gasto de tu sesión actual. Combinando ambos, identificarás rápidamente cuál de estos es tu mayor ofensor.

¿Cómo Detienes las Lecturas Innecesarias de Archivos con .claudeignore?

La solución con mayor retorno es agregar un archivo .claudeignore. Funciona exactamente como .gitignore y le dice a Claude Code qué rutas omitir completamente.

Crea .claudeignore en la raíz de tu proyecto:

bash

# .claudeignore

# Build artifacts
.next/
dist/
build/
out/

# Dependencies
node_modules/
.pnp/
.pnp.js

# Caches
.cache/
.turbo/
*.tsbuildinfo

# Logs
*.log
npm-debug.log*

# Test output
coverage/
.nyc_output/

# Environment files (security too)
.env
.env.local
.env.*.local

# Database files
*.db
*.sqlite
prisma/migrations/

# Media and binaries
public/images/
*.png
*.jpg
*.gif
*.mp4

Reinicia claude después de guardar. En un proyecto de Next.js, excluir solo .next/ típicamente reduce el tamaño del contexto en un 30-40%. El cambio de mentalidad es excluir todo lo que Claude Code no necesita leer, no solo lo obvio. Definiciones de tipos generadas, fixtures de test, documentación que ya está en tu CLAUDE.md: todo es candidato a excluir.

¿Cómo el Modo Plan Reduce el Consumo de Tokens a la Mitad?

El modo Plan (alterna con Shift+Tab) le dice a Claude Code que produzca un plan sin hacer ningún cambio. Esta es una de las técnicas más efectivas porque elimina la mayor fuente de desperdicio de tokens: la ejecución por prueba y error.

En modo normal, Claude Code intentará cosas, encontrará errores e iterará. Cada iteración cuesta tokens. En modo Plan, primero produce un plan paso a paso: qué archivos tocará, qué cambios hará, en qué orden. Tú revisas el plan, eliminas lo innecesario y solo entonces vuelves al modo normal para ejecutar.

# Flujo de trabajo del modo Plan
Presiona Shift+Tab para activar el modo Plan
→ Da tu tarea
→ Claude produce un plan (ningún archivo cambia)
→ Revisa y ajusta el plan
→ Presiona Shift+Tab para desactivar el modo Plan
→ Ejecuta con el plan refinado en contexto

Para un prompt como "agrega autenticación de usuario," saltarse el modo Plan significa que Claude Code se lanza, potencialmente elige el enfoque equivocado, y tú lo estás corrigiendo a lo largo de cinco mensajes. El modo Plan revela esas decisiones por adelantado, antes de que se gasten tokens en ejecución. Cuanto más grande la tarea, mayor el ahorro.

¿Cuánto Multiplican los Prompts Vagos Tus Costos de Tokens?

La calidad del prompt tiene un efecto directo y medible en el consumo de tokens. Considera este ejemplo:

Prompt costoso:

"Agrega una función de login"

Claude Code preguntará: ¿Qué biblioteca de autenticación? ¿Sesiones basadas en cookies o JWT? ¿Qué directorio? ¿Y el componente de UI? Son cuatro intercambios antes de que se escriba una línea de código.

Prompt eficiente:

"Agrega login con Google OAuth usando NextAuth.js v5.
Sesiones JWT. Implementar en /app/auth/.
Agregar guards de autenticación al middleware.ts existente."

Esto se resuelve en una sola pasada.

El framework que uso es responder el 5W1H antes de enviar cualquier cosa: Qué exactamente, Dónde en la base de código, Cómo (qué biblioteca o patrón), Cuándo (restricciones de orden), Quién (qué rol de usuario, si es relevante). Si puedo responder eso yo mismo, lo escribo en el prompt en lugar de dejar que Claude Code pregunte.

Una regla más: una tarea por mensaje. "Agrega login, escribe tests y actualiza el README" enviado como un solo prompt hace que Claude Code mantenga todo eso en contexto simultáneamente. Enviarlos por separado reduce el costo total de tokens, por contraintuitivo que suene.

¿Cómo Ejecutas Servidores MCP Solo Cuando Realmente Los Necesitas?

Los servidores MCP son poderosos, pero cada servidor conectado añade sus definiciones de herramientas al contexto de cada mensaje. Si tienes cinco servidores conectados, estás pagando ese overhead en cada intercambio, incluso cuando no estás usando ninguno de ellos.

Verifica qué tienes conectado con el comando /mcp dentro de Claude Code. Te muestra todos los servidores y te permite activarlos o desactivarlos durante la sesión.

Desde la línea de comandos, la gestión es así:

bash

# Agregar un servidor
claude mcp add postgres -- npx -y @modelcontextprotocol/server-postgres postgresql://localhost/mydb

# Eliminarlo cuando termines
claude mcp remove postgres

# Listar servidores configurados
claude mcp list

La política es simple: mantén solo los servidores que usas en cada sesión. Agrega servidores de base de datos, GitHub u otros especializados cuando los necesites, y quítalos cuando termines. El ahorro por mensaje es pequeño, pero se acumula a lo largo de un día completo de trabajo.

Un buen punto de partida es mantener cero servidores MCP conectados por defecto. Cuando necesitas consultar la base de datos para analíticas, agregas el servidor de Postgres, terminas la tarea y lo quitas. Así mantienes el overhead de tokens por mensaje al mínimo.

¿Cuándo Deberías Usar /compact vs /clear?

Claude Code te da dos comandos para gestionar el historial de conversación. Usarlos en los momentos correctos marca una diferencia significativa en sesiones largas.

/compact: Resume el historial de conversación para reducir el conteo de tokens mientras preserva el contexto. La conversación continúa, solo de forma más eficiente.

/clear: Reinicia la conversación por completo. Borrón y cuenta nueva.

Así es como decido:

Usa /compact cuando:
- Sigues en la misma tarea pero la conversación se está alargando
- Necesitas el contexto de antes en la sesión
- Estás a mitad de sesión (aproximadamente 500+ intercambios)

Usa /clear cuando:
- Cambias a una tarea completamente diferente
- El contexto de la conversación anterior es irrelevante
- Empiezas una funcionalidad nueva desde cero
- Retomas el trabajo al día siguiente

El modo de fallo a evitar es dejar que una sesión larga se desvíe. Conforme crece el historial de conversación, Claude Code intenta mantener consistencia con todo lo dicho antes, incluyendo cosas que ya no son relevantes. El contexto viejo puede degradar la calidad de las respuestas mientras simultáneamente aumenta el costo.

Ante la duda, /compact. Al cambiar de tarea, /clear.

¿Cómo Mantienes CLAUDE.md Ligero?

CLAUDE.md se carga en el contexto al inicio de cada sesión. Si tiene 600 líneas, estás pagando por esas 600 líneas antes de haber empezado a trabajar.

Elimina esto:

Contexto histórico ("decidimos X por Y en noviembre")
Detalles de tareas completadas
Enlaces a documentación externa que Claude Code no puede acceder de todos modos
Disclaimers largos o declaraciones de política

Conserva esto:

Stack tecnológico (una lista con viñetas, máximo tres líneas)
Resumen de la estructura de directorios
Las convenciones de programación más importantes
Tarea activa actual

Objetivo: menos de 200 líneas. Si necesitas más, separa el detalle en archivos bajo docs/ y haz que Claude Code los lea bajo demanda.

markdown

# CLAUDE.md

## Stack
- Next.js 15 + TypeScript + Tailwind v4
- Prisma + PostgreSQL
- NextAuth.js v5

## Structure
- /app — App Router pages
- /components — UI components
- /lib — Utilities and helpers

## Conventions
- Default to Server Components
- Data fetching via Server Actions or Route Handlers
- Tests with Vitest + Testing Library

## Active Task
- Building user dashboard
- Details: docs/current-sprint.md

El detalle vive en docs/current-sprint.md. Claude Code lo lee cuando lo necesita, no en el inicio de cada sesión.

¿Cuánto Puedes Esperar Ahorrar Realmente?

Aquí tienes un desglose realista para un desarrollador que pasa 3-4 horas diarias en un proyecto de Next.js de tamaño medio:

Técnica	Reducción de Tokens
Configuración de `.claudeignore`	30-40%
Hábito del modo Plan	20-30%
Precisión de prompts	15-25%
Limpieza de servidores MCP	5-10%
Uso de `/compact`	10-15%
Reducción de CLAUDE.md	5-10%

Estos se acumulan en lugar de sumarse aditivamente, pero el resultado en el mundo real es una reducción del 40-55% desde una línea base sin optimización. "50% de reducción" es alcanzable y no es una meta exagerada.

El costo de Claude Code escala directamente con cómo lo usas. Elimina el desperdicio, y el mismo gasto mensual te da el doble de trabajo productivo.

¿Cómo distribuir el consumo de tokens con subagentes?

Claude Code tiene una herramienta "Agent" que lanza subagentes en procesos separados. Esto preserva la ventana de contexto principal mientras delega investigación y exploración a procesos separados.

Cuándo son efectivos los subagentes:

Exploración de archivos ("¿Dónde se usa esta función?")
Búsquedas entre múltiples archivos
Investigación de dependencias
Ejecución de tests y resumen de resultados

Los subagentes se ejecutan en ventanas de contexto separadas. Si ejecutas una investigación de 10 archivos en la ventana principal, todo el contenido consume contexto. Delegando a un subagente, solo el resumen regresa a la ventana principal.

Ejemplo de CLAUDE.md para fomentar el uso de subagentes:

markdown

# Optimización de Costos
- Delegar exploración de 3+ archivos a subagentes
- Ejecutar tests vía subagentes y devolver solo resultados
- Para revisiones de código, lanzar subagentes en paralelo por archivo

Preguntas Frecuentes

¿Cuánto cuesta Claude Code al mes realmente?

Depende de tu uso. Los usuarios de API pagan por token — un día intenso en un proyecto mediano puede costar entre $5 y $15. Anthropic también ofrece planes de suscripción Claude Max que incluyen uso de Claude Code. Las optimizaciones de este artículo aplican sin importar tu modelo de facturación: menos consumo de tokens significa facturas más bajas o más margen dentro de tu plan.

¿Configurar .claudeignore afecta la calidad de las respuestas?

No — siempre que excluyas archivos que Claude Code no necesita. Artefactos de build, node_modules y archivos binarios son ruido, no señal. Excluirlos mejora la calidad de respuesta porque Claude Code se concentra en los archivos fuente relevantes. El único riesgo es excluir de más: no ignores archivos fuente que quieras que Claude Code edite.

¿Cuál es la diferencia entre /compact y /clear?

/compact resume el historial de conversación para reducir tokens, preservando el contexto — la sesión continúa con el resumen. /clear borra todo y empieza de cero. Usa /compact a mitad de tarea cuando la conversación se alarga. Usa /clear al cambiar a una tarea completamente diferente. Consulta el Claude Code Commands Cheatsheet para más comandos integrados.

¿Puedo establecer un límite mensual de gasto en Claude Code?

Sí. Los usuarios de API pueden configurar límites de gasto en la Consola de Anthropic en la configuración de facturación. Puedes establecer tanto un límite duro como un umbral de notificación. Los usuarios de planes de suscripción tienen su uso gobernado por los límites de tasa del plan.

¿Los servidores MCP consumen tokens incluso cuando no los estoy usando?

Sí — cada servidor MCP conectado inyecta sus definiciones de herramientas en el contexto de cada mensaje. Incluso si nunca llamas a las herramientas de un servidor, las definiciones siguen ahí. Por eso desconectar los servidores que no estás usando activamente es una ganancia fácil.

¿El modo Plan es más lento que dejar que Claude Code ejecute directamente?

En tiempo real, el modo Plan agrega un paso extra — revisar el plan. Pero casi siempre ahorra tiempo total porque evita que Claude Code tome el camino equivocado y tenga que retroceder. Para cambios pequeños (renombrar una variable, corregir un typo), sáltate el modo Plan. Para cualquier cosa que toque 3+ archivos, úsalo.

¿Cómo sé si mi CLAUDE.md es demasiado largo?

Ejecuta /context al inicio de una sesión nueva. Si CLAUDE.md consume más del 10-15% de tu contexto, vale la pena recortarlo. El artículo de Patrones de Diseño para CLAUDE.md cubre cinco patrones para mantenerlo ligero. Un buen objetivo es menos de 200 líneas, con detalles divididos en archivos docs/ que Claude Code lee bajo demanda.

¿Usar subagentes realmente ahorra tokens en total?

Depende del tamaño de la tarea. El inicio de un subagente tiene overhead, así que delegar la lectura simple de 1-2 archivos desperdicia tokens. Pero para investigaciones que abarcan 3+ archivos — auditorías de dependencias, búsquedas entre archivos, ejecución de tests — los subagentes mantienen los resultados fuera de tu ventana de contexto principal. Solo el resumen regresa. Delegar exploraciones grandes de archivos a un subagente ahorra significativamente en tokens comparado con ejecutarlas en la sesión principal.

Conclusión

En orden de impacto, esto es lo que debes hacer:

Agrega .claudeignore — excluye node_modules, .next/ y binarios. La mayor ganancia individual.
Usa el modo Plan para tareas grandes — revisa el plan antes de que ocurra cualquier ejecución.
Haz prompts específicos — responde el 5W1H tú mismo antes de enviar.
Reduce tus servidores MCP — solo mantén siempre activos los que uses en cada sesión.
Usa /compact a mitad de sesión — no dejes que el historial de conversación se acumule sin control.
Mantén CLAUDE.md bajo 200 líneas — mueve el detalle a archivos separados.

Empieza con .claudeignore. Sentirás la diferencia desde la primera sesión.