Решение:
Мониторинг
Внедрили систему мониторинга Prometheus + Grafana.
Расширили возможности Zabbix с помощью дополнительного дашборда
Устранение узкого места:
Проанализировали Redis (однопоточную систему) и обнаружили ее перегрузку.
Предложили два варианта решения:
Переход на кластерную архитектуру Redis: распределение нагрузки между несколькими серверами.
Использование альтернативного многопоточного решения: например, KeyDB.
Быстрое решение проблемы:
Проанализировали Redis (однопоточную систему) и обнаружили ее перегрузку.
Цель: снять острую фазу кризиса и дать время для внедрения полноценного программного решения.
Развернули два сервера Redis в режиме master-slave.
Распределили нагрузку: дополнительный трафик на slave-сервер, а основной поток - на master.