Тема доклада
Redis история одного падения
Тезисы доклада
Расскажу об одном крупном факапе и серии инцидентов в hh.ru связанных с работой redis и его клиентом jedis.
Несколько эпизодов о которых расскажу:
1. Потеряли одну ноду redis - лёг весь hh
2. Рестарт одной ноды в любое время - гарантированный даунтайм
3. Вырос трафик на мобильных устроствах ? - ломаем redis - снова даунтайм из-за перегрузка нескольких нод
Каждый эпизод происходил один за другим на протяжении полугода. В каждом эпизоде расскажу какие фиксы делали, а так же как в финале смогли починить редис. После долгой возни в коде клиента jedis нашли багу с командой QUIT на стороне клиента.
О себе
Более 13 лет в разработке и проектировании высоконагруженных систем. Руковожу платформенной командой в hh.ru, отвечающей за стабильность, развитие и техническое совершенствование backend-инфраструктуры компании. Под моим руководством осуществлялись масштабные технологические миграции, внедрены внутренние инструменты для автоматизации, мониторинга и повышения разработческой продуктивности. Специализируюсь на Java, Spring Boot, платформенной архитектуре, DevOps и SRE-практиках и построении инженерных процессов. Веду блог, пишу на Хабр, записываю подкаст, выступаю на конференциях