Каждое утро в 05:30 по балийскому времени мне приходит одно сообщение в Telegram. Не десять уведомлений от разных сервисов, не цепочка алертов — одна структурированная сводка. В ней: состояние сервера, статус всех ботов, здоровье базы данных, статистика рассылок, истекающие договоры, результаты AI-ассистента. Если всё зелёное — можно пить кофе спокойно. Если есть красное — точно знаю, куда смотреть.
Зачем 10 проверок каждое утро
Когда у тебя 7 Docker-контейнеров, 3 systemd-сервиса, 9 Telegram-аккаунтов для рассылок, база PostgreSQL с 30+ таблицами, eZee channel manager, WhatsApp интеграция, генератор договоров, личный AI-ассистент и бот для Threads — ручная проверка невозможна. Ты либо забываешь что-то проверить, либо тратишь первый час утра на обход дашбордов.
Мы разбили всю инфраструктуру на 10 автономных проверок, каждая запускается по расписанию между 06:00 и 06:45 WITA:
- 06:00 — Mini-app: проверка фронтенда и бэкенда вилл-каталога
- 06:05 — Dashboard: метрики загрузки, бронирований, финансов
- 06:10 — Server Health: Docker, диск, RAM, zombie-процессы
- 06:15 — Broadcaster: статус 9 аккаунтов, конверсия рассылок
- 06:20 — Contracts: истекающие договоры, пробелы в данных
- 06:25 — 4BOS сайт: доступность, SSL, страницы
- 06:30 — Threads: статус контент-движка и расширения
- 06:35 — Personal AI: здоровье ассистента, статистика диалогов
- 06:40 — Wife-bot (Anima Form): статус бота Юлии
- 06:45 — WhatsApp: проверка системы управления уборщиками
Утренняя сводка — одно сообщение вместо десяти
В 05:30 запускается агрегатор, который собирает результаты всех проверок в единый отчёт. Формат стандартизирован: зелёный кружок — всё работает, жёлтый — предупреждение, красный — требует внимания. Плюс секция «Предложения по улучшению» — AI анализирует паттерны за последние дни и предлагает конкретные действия.
Пример реальной утренней сводки: 27 марта система обнаружила зависший lock-файл рассыльщика (3 дня), раздувшиеся логи (712 МБ) и отсутствующий файл доступа для бота договоров. Все три проблемы были исправлены автоматически ещё до того, как я проснулся.
Автоматические исправления
Ключевая особенность — проверки не только диагностируют, но и чинят. Мелкие проблемы (зависшие процессы, переполненные логи, отсутствующие файлы конфигурации) система устраняет сама, крупные — эскалирует в Telegram с описанием проблемы и предложенными вариантами решения. Правило простое: если исправление обратимо и не затрагивает данные — делай сам. Если нет — спроси.
Результат
Ежедневный ручной обход инфраструктуры занимал 40-60 минут. Теперь — 30 секунд на чтение утренней сводки. За три недели работы система самостоятельно устранила 12 мелких сбоев, предотвратила 3 потенциальных downtime и обнаружила 2 истекающих договора, о которых менеджеры забыли. Утренние совещания по статусу систем больше не нужны.