Внешние API ломаются. Google меняет политики OAuth, Booking.com обновляет extranet, eZee выкатывает минорную версию с breaking changes. Когда у тебя 10+ интеграций, что-то падает каждую неделю. Вопрос не в том, как этого избежать (нельзя), а в том, как быстро понять причину и починить. Мы научили нашего AI-бота делать это автоматически.
Автофикс-бот: не просто мониторинг, а диагностика
Обычный мониторинг говорит: «Google Sheets API не отвечает». Наш автофикс-бот говорит: «Google с 2022 года запретил Device Flow для Desktop OAuth-клиентов. Ошибка Invalid client type — это политика Google, а не баг в коде. refresh_token истёк 27 марта. Файл drive_token.json отсутствует. Вот два варианта решения».
Разница — в глубине анализа. Бот не просто ловит ошибку, а проводит полноценную диагностику: проверяет все связанные файлы конфигурации, тестирует альтернативные OAuth-клиенты, анализирует сроки действия токенов, ищет workaround'ы в документации API.
Реальный кейс: Google OAuth Device Flow
29 марта AI-ассистент (Алиса) перестала подтягивать данные из Google Calendar. Автофикс-бот получил алерт и начал диагностику. Результат анализа занял 3 минуты вместо потенциальных 2-3 часов ручного дебага:
- Root cause: Google запретил Device Flow для installed/Desktop OAuth-клиентов (политика с 2022 года)
- Дополнительно: refresh_token для YouTube API отозван (истёк 27.03)
- Дополнительно: файл drive_token.json отсутствует полностью
- Проверено: все 3 OAuth-клиента — Device Flow не работает ни с одним
- Найдено: рабочая альтернатива — get_new_auth_url.py (browser OAuth)
Бот не только нашёл причину, но и предложил два варианта решения: быстрый (через браузер — ссылка для авторизации уже сгенерирована) и правильный (Service Account для серверных приложений — не требует браузера).
Как это устроено
Архитектура автофикса — файловая очередь через shared Docker volume. Мониторинговые скрипты (ezee_scrape_monitor.py, channel_checker.py, health-check) пишут алерты в autofix_queue/ в формате JSON. Claude Bridge (claude_telegram_bridge.py) подхватывает файлы из очереди, вызывает Claude CLI с контекстом проблемы, получает диагностику и публикует результат в Telegram.
Критически важно: автофикс-бот имеет доступ к файловой системе сервера. Он может прочитать конфиги, проверить наличие токенов, посмотреть логи, проверить uptime процессов. Это не слепой GPT, который угадывает по тексту ошибки — это агент с полным контекстом системы.
Результат
Среднее время диагностики сбоя снизилось с 1-3 часов (ручной дебаг) до 3-5 минут (автоматический). За последний месяц автофикс-бот обработал 15+ алертов, из них 8 — полностью автоматически (без участия человека), 7 — с диагностикой и предложенными вариантами решения. Экономия инженерного времени — примерно 20 часов в месяц. И это только один сервер с 10 интеграциями.