Мониторинг сети малого бизнеса на виртуальном хостинге: Prometheus и Grafana

Это инструкция про настройку автоматизированного мониторинга сети и серверов малого бизнеса на виртуальном хостинге. Объясню, зачем нужен стек Prometheus + Grafana, как собирать базовые метрики, настраивать оповещения и сформировать отчёты для владельца бизнеса в Минске или областных центрах.

Что контролировать и зачем: пример офиса в Минске с удалёнными сотрудниками

Сценарий: небольшой офис в Минске использует облачную CRM и VPN для удалённых сотрудников. Проблемы: обрывы VPN, рост задержек, падение производительности виртуального сервера.

Совет — как сделать: на виртуальном хостинге запустите node_exporter и blackbox_exporter. Node_exporter собирает загрузку CPU, память, диск; blackbox_exporter проверяет доступность сервисов по HTTP, HTTPS, ICMP. Добавьте эти таргеты в Prometheus, создайте в Grafana простые панели: доступность VPN, время отклика CRM, загрузка CPU. Начните с порога: отключение сервиса > 2 минуты = оповещение.

Кафе или бар с трансляцией событий: пример из Гомеля

Сценарий: кафе в Гомеле показывает спортивные трансляции и принимает онлайн‑заказы. Потеря интернет‑канала или деградация скорости приводит к недовольству посетителей и прямым потерям.

Совет — как сделать: для доступности стрима добавьте в мониторинг показатели внешнего канала (ping к шлюзу провайдера и до CDN), настройте blackbox_exporter для проверки RTMP/HTTP потока и метрики packet loss через простые скрипты. Настройте правило в Alertmanager: packet loss > 1% за 5 минут → SMS‑оповещение администратору. Для примера настройки резервирования и аренды роутеров посмотрите рекомендации по гибридному резервированию и аренде оборудования в похожих кейсах.

Полезный материал по организации трансляций и резервирования оборудования: проведение трансляции в небольшом баре: VLAN, LTE‑резерв и аренда роутеров.

Интернет‑магазин из Бреста: пример мониторинга приложений и базы данных

Сценарий: интернет‑магазин на виртуальном хостинге испытывает падения продаж при росте времени отклика или ошибках в оплате. Нужны метрики HTTP‑статусов, время ответа на checkout и состояние базы данных.

Совет — как сделать: выставьте Prometheus‑метрики из приложения (через клиентскую библиотеку или экспортёр для web‑серверов), подключите mysql_exporter/postgres_exporter для базы данных. В Grafana создайте панели: успешные покупки, HTTP 5xx, время ответа на корзину, задержки запросов к БД. Настройте оповещение о росте 5xx на 3 подряд запроса и о превышении среднего времени ответа на 30% от нормы с отправкой письма владельцу и уведомлением в телеграм/чат службы поддержки.

Доступ извне и статический IP: пример склада в Мозыре

Сценарий: на складе в Мозыре установлено видеонаблюдение и терминалы учёта. Для доступа к ним из офиса нужен устойчивый внешний адрес и мониторинг доступности устройств.

Совет — как сделать: если планируется постоянный доступ к внутренним устройствам, возьмите белый IP на хостинге или у провайдера и настроьте проброс портов через VPN. В Prometheus добавьте таргеты на публичные адреса устройств и используйте uptime‑проверки. Для ситуации с арендой публичного адреса и правилами работы полезна статья про условия аренды белого IP и когда он нужен.

Дополнительная информация по аренде публичного адреса: аренда белого IP для малого бизнеса в Минске.

Типичные ошибки

Собирать только системные метрики и игнорировать сетевые проверки: сервер «в порядке», но сеть недоступна.
Заводить слишком много алертов без приоритизации: персонал игнорирует оповещения.
Не тестировать оповещения: настроен канал, но сообщения не доходят.
Хранить метрики не дольше, чем надо: нельзя анализировать тренды за месяц.
Не иметь простого плана действий на типовые инциденты (runbook) для сотрудников.

3 шага, которые можно сделать на этой неделе:

Установите node_exporter на виртуальный сервер и проверьте метрики в Prometheus в течение 24 часов.
Добавьте blackbox_exporter для внешних проверок (ping, HTTP) и настройте одно простое правило оповещений: хост недоступен 2 минуты → уведомление ответственному.
Создайте в Grafana одну дашборд‑панель: доступность сервисов, latency и загрузка CPU, сохраните и покажите владельцу бизнеса для принятия решения о порогах.