У меня работают 10 AI-агентов: продажный бот, личный ассистент, модератор групп, мониторинг финансов, рассыльщик, генератор контента и другие. В какой-то момент я посмотрел на счёт за API — и увидел $100 за три дня. В пересчёте на месяц — больше $1000. Это был тот момент, когда стало ясно: нужна оптимизация.
Как я обнаружил проблему
Я не следил за расходами — агенты просто работали, каждый выполнял свою задачу. API-ключи крутились, токены тратились. Когда я наконец собрал данные по каждому агенту, картина стала неприятной: основные расходы шли не от полезной работы, а от холостых проверок.
Половина агентов просыпалась каждый час — даже когда в этом не было необходимости. Мониторинг финансов проверял базу данных каждые 60 минут, хотя данные обновляются раз в сутки. Модератор групп обращался к AI для каждого сообщения, включая «привет» и «спасибо». Личный ассистент использовал GPT-4 для задач, где хватило бы GPT-4o-mini.
Три главных источника перерасхода
| Проблема | Доля расходов | Решение |
|---|---|---|
| Слишком частые проверки | ~40% | Адаптивные интервалы |
| Премиум-модели для простых задач | ~35% | Даунгрейд моделей |
| Отсутствие кэширования | ~25% | Кэш + дедупликация |
Что конкретно сделал
1. Адаптивные интервалы вместо фиксированных
Раньше: все агенты просыпались каждый час. Сейчас: каждый агент работает по своему расписанию, привязанному к реальной частоте обновления данных. Финансовый мониторинг — раз в сутки. Health-check сервера — каждые 4 часа. Модератор — только при поступлении нового сообщения (event-driven вместо polling).
Результат: количество API-вызовов сократилось примерно в 4 раза. Агенты, которые делали 24 проверки в сутки, стали делать 1–6 в зависимости от задачи.
2. Даунгрейд моделей по задачам
GPT-4 стоит в 15–30 раз дороже GPT-4o-mini за тот же объём токенов. При этом для 80% задач разница в качестве незаметна. Классификация спама, генерация коротких ответов, парсинг структурированных данных — всё это прекрасно работает на мини-моделях.
Я оставил GPT-4 только там, где критично качество: генерация развёрнутых ответов клиентам, анализ сложных ситуаций, написание контента. Всё остальное перевёл на GPT-4o-mini и Claude Haiku. Модератор групп перешёл на Kimi K2.5 — бесплатную модель от Moonshot, которая справляется с фильтрацией спама не хуже платных аналогов.
| Агент | Было | Стало |
|---|---|---|
| Продажный бот | GPT-4 | GPT-4o-mini + GPT-4 (горячие лиды) |
| Модератор групп | Claude Haiku | Kimi K2.5 (бесплатно) |
| Личный ассистент | GPT-4 | GPT-4.1 |
| Мониторинг / health-check | GPT-4 | Скрипты без AI |
3. Кэширование и дедупликация
Многие запросы к AI повторялись. Клиенты задают одни и те же вопросы: «Сколько стоит?», «Есть ли бассейн?», «Какой минимальный срок?». Вместо того чтобы каждый раз генерировать ответ через API, я добавил кэш на уровне PostgreSQL. Если вопрос уже задавали — берём готовый ответ из базы. Кэш сбрасывается раз в неделю или при обновлении данных по вилле.
Для модератора добавил regex-фильтры на первом уровне. 60–70% спама отсеивается регулярными выражениями ещё до обращения к AI. Это не только экономит токены, но и ускоряет реакцию — regex срабатывает за миллисекунды, а ответ от AI-модели может занимать 2–3 секунды.
Результат в цифрах
| Метрика | До | После |
|---|---|---|
| Расходы на API в месяц | ~$1 000 | ~$300 |
| API-вызовов в сутки | ~2 400 | ~600 |
| Качество работы агентов | Базовое | Без изменений |
| Время на оптимизацию | — | 2 вечера |
$700 в месяц — это $8 400 в год. За два вечера работы. ROI считать не буду — и так очевидно.
Чеклист для оптимизации ваших AI-агентов
Если у вас работает хотя бы 2–3 AI-агента, скорее всего вы переплачиваете. Вот что стоит проверить:
Интервалы. Как часто агент просыпается? Совпадает ли это с реальной частотой обновления данных? Если данные меняются раз в день — нет смысла проверять каждый час.
Модели. Какая модель используется и для какой задачи? Для классификации, извлечения данных и коротких ответов почти всегда хватит мини-модели. Премиум нужен только для генерации сложного контента и нестандартных ситуаций.
Кэш. Повторяются ли запросы? Если да — сохраняйте ответы и используйте повторно. Простой кэш в БД решает 80% проблем.
Предварительная фильтрация. Можно ли часть работы сделать без AI? Regex, словари, простые правила — всё это бесплатно и работает мгновенно.
Мониторинг расходов. Поставьте алерт на дневной лимит. Без мониторинга вы узнаете о перерасходе только из счёта.
Ключевые выводы
AI-агенты — это операционные расходы. Они требуют такого же контроля, как аренда или зарплата. Без мониторинга расходы растут незаметно.
70% экономии — в правильных интервалах и моделях. Не нужно переписывать код. Достаточно изменить конфигурацию: частоту проверок и выбор модели.
Бесплатные модели стали конкурентоспособными. Kimi, Mistral, Llama — для многих задач они работают на уровне платных API. Стоит тестировать перед тем как платить.