Оптимизация стоимости AI-агентов: с $1000 до $300 в месяц

У меня работают 10 AI-агентов: продажный бот, личный ассистент, модератор групп, мониторинг финансов, рассыльщик, генератор контента и другие. В какой-то момент я посмотрел на счёт за API — и увидел $100 за три дня. В пересчёте на месяц — больше $1000. Это был тот момент, когда стало ясно: нужна оптимизация.

Как я обнаружил проблему

Я не следил за расходами — агенты просто работали, каждый выполнял свою задачу. API-ключи крутились, токены тратились. Когда я наконец собрал данные по каждому агенту, картина стала неприятной: основные расходы шли не от полезной работы, а от холостых проверок.

Половина агентов просыпалась каждый час — даже когда в этом не было необходимости. Мониторинг финансов проверял базу данных каждые 60 минут, хотя данные обновляются раз в сутки. Модератор групп обращался к AI для каждого сообщения, включая «привет» и «спасибо». Личный ассистент использовал GPT-4 для задач, где хватило бы GPT-4o-mini.

Три главных источника перерасхода

Проблема	Доля расходов	Решение
Слишком частые проверки	~40%	Адаптивные интервалы
Премиум-модели для простых задач	~35%	Даунгрейд моделей
Отсутствие кэширования	~25%	Кэш + дедупликация

Что конкретно сделал

1. Адаптивные интервалы вместо фиксированных

Раньше: все агенты просыпались каждый час. Сейчас: каждый агент работает по своему расписанию, привязанному к реальной частоте обновления данных. Финансовый мониторинг — раз в сутки. Health-check сервера — каждые 4 часа. Модератор — только при поступлении нового сообщения (event-driven вместо polling).

Результат: количество API-вызовов сократилось примерно в 4 раза. Агенты, которые делали 24 проверки в сутки, стали делать 1–6 в зависимости от задачи.

2. Даунгрейд моделей по задачам

GPT-4 стоит в 15–30 раз дороже GPT-4o-mini за тот же объём токенов. При этом для 80% задач разница в качестве незаметна. Классификация спама, генерация коротких ответов, парсинг структурированных данных — всё это прекрасно работает на мини-моделях.

Я оставил GPT-4 только там, где критично качество: генерация развёрнутых ответов клиентам, анализ сложных ситуаций, написание контента. Всё остальное перевёл на GPT-4o-mini и Claude Haiku. Модератор групп перешёл на Kimi K2.5 — бесплатную модель от Moonshot, которая справляется с фильтрацией спама не хуже платных аналогов.

Агент	Было	Стало
Продажный бот	GPT-4	GPT-4o-mini + GPT-4 (горячие лиды)
Модератор групп	Claude Haiku	Kimi K2.5 (бесплатно)
Личный ассистент	GPT-4	GPT-4.1
Мониторинг / health-check	GPT-4	Скрипты без AI

3. Кэширование и дедупликация

Многие запросы к AI повторялись. Клиенты задают одни и те же вопросы: «Сколько стоит?», «Есть ли бассейн?», «Какой минимальный срок?». Вместо того чтобы каждый раз генерировать ответ через API, я добавил кэш на уровне PostgreSQL. Если вопрос уже задавали — берём готовый ответ из базы. Кэш сбрасывается раз в неделю или при обновлении данных по вилле.

Для модератора добавил regex-фильтры на первом уровне. 60–70% спама отсеивается регулярными выражениями ещё до обращения к AI. Это не только экономит токены, но и ускоряет реакцию — regex срабатывает за миллисекунды, а ответ от AI-модели может занимать 2–3 секунды.

Результат в цифрах

Метрика	До	После
Расходы на API в месяц	~$1 000	~$300
API-вызовов в сутки	~2 400	~600
Качество работы агентов	Базовое	Без изменений
Время на оптимизацию	—	2 вечера

$700 в месяц — это $8 400 в год. За два вечера работы. ROI считать не буду — и так очевидно.

Чеклист для оптимизации ваших AI-агентов

Если у вас работает хотя бы 2–3 AI-агента, скорее всего вы переплачиваете. Вот что стоит проверить:

Интервалы. Как часто агент просыпается? Совпадает ли это с реальной частотой обновления данных? Если данные меняются раз в день — нет смысла проверять каждый час.

Модели. Какая модель используется и для какой задачи? Для классификации, извлечения данных и коротких ответов почти всегда хватит мини-модели. Премиум нужен только для генерации сложного контента и нестандартных ситуаций.

Кэш. Повторяются ли запросы? Если да — сохраняйте ответы и используйте повторно. Простой кэш в БД решает 80% проблем.

Предварительная фильтрация. Можно ли часть работы сделать без AI? Regex, словари, простые правила — всё это бесплатно и работает мгновенно.

Мониторинг расходов. Поставьте алерт на дневной лимит. Без мониторинга вы узнаете о перерасходе только из счёта.

Ключевые выводы

AI-агенты — это операционные расходы. Они требуют такого же контроля, как аренда или зарплата. Без мониторинга расходы растут незаметно.

70% экономии — в правильных интервалах и моделях. Не нужно переписывать код. Достаточно изменить конфигурацию: частоту проверок и выбор модели.

Бесплатные модели стали конкурентоспособными. Kimi, Mistral, Llama — для многих задач они работают на уровне платных API. Стоит тестировать перед тем как платить.