Николай Грибанов
hh.ru, Тимлид
Саратов
Тема доклада
Redis — история одного падения

Тезисы доклада
Расскажу, как мы в hh столкнулись с инцидентами, связанными с работой redis и его клиентом jedis. А также о том, как мы эти инциденты преодолели.

Несколько эпизодов, о которых расскажу:
1. Потеряли одну ноду redis — и к каким непредвиденным последствиям это привело
2. Рестарт одной ноды в любое время — гарантированный даунтайм
3. Вырос трафик на мобильных устройствах? Ломаем redis — снова даунтайм из-за перегруза нескольких нод

Каждый эпизод происходил один за другим на протяжении полугода. В каждом эпизоде расскажу, какие фиксы делали, а также как в финале смогли починить redis. После долгой возни в коде клиента jedis нашли багу с командой QUIT на стороне клиента.

О себе
Более 13 лет в разработке и проектировании высоконагруженных систем. Руковожу платформенной командой в hh.ru, отвечающей за стабильность, развитие и техническое совершенствование backend-инфраструктуры компании. Под моим руководством осуществлялись масштабные технологические миграции, внедрены внутренние инструменты для автоматизации, мониторинга и повышения разработческой продуктивности. Специализируюсь на Java, Spring Boot, платформенной архитектуре, DevOps и SRE-практиках и построении инженерных процессов. Веду блог, пишу на Хабр, записываю подкаст, выступаю на конференциях.