Конкуренция — это хорошо. Понедельник вечером напомнил, зачем мы всё это строим.
Мы твёрдо верим в конкуренцию. Посмотрите, что Texas Card House и The Lodge сделали для покера в Остине — два отличных клуба подталкивают друг друга, поднимают планку и в процессе выводят Остин в число лучших покерных городов страны. Это здорово для всего сообщества. Прилив поднимает все лодки.
Поэтому когда мы говорим о том, что случилось в понедельник вечером с Hijack, мы не злорадствуем. Просто такие моменты — ровно то, ради чего мы строим salty.poker, и ровно то, почему мы уверены, что можем сделать лучше.
Что случилось в понедельник вечером
Понедельник, вечер. Самое горячее время. Игроки готовы садиться за столы.
Hijack упал. Ноль столов. Ноль игроков. Полный отказ.
Мы зафиксировали это в 18:05 — сбои входа, пустые столы, никакой активности. Hijack отправил своим пользователям push-уведомление с признанием проблемы только в 18:50. К моменту, когда большинство их игроков вообще поняли, что что-то не так, мы уже наблюдали за этим сорок пять минут. Платформа вернулась в 19:53 — один час сорок восемь минут полного простоя в вечер понедельника.
Мы искренне надеемся, что они разберутся. Здоровая экосистема онлайн-покера — это хорошо для всех, включая salty.poker.
Как salty.poker построен под такие ситуации
Сбои такого рода — это не случайное невезение. Это результат архитектурных решений, принятых в самом начале — или не принятых вовсе. Устойчивость не добавляется после запуска. Её закладывают ещё до первой строчки кода, и именно так мы и поступили.
salty.poker построен на Microsoft Azure с резервированием на каждом уровне. Автоскейлинг поглощает всплески трафика до того, как они становятся инцидентами. Health checks и автоматический failover делают так, чтобы один сбойный компонент не утягивал за собой всю систему. Наш мониторинг спроектирован так, чтобы находить проблемы быстро — иногда, как показал вечер понедельника, быстрее, чем сама падающая платформа замечает собственный сбой.
Цель проста: когда что-то ломается — а что-то в итоге всегда ломается — столы продолжают работать, игроки остаются на своих местах, и большинство людей даже не замечает, что произошло.
О тех 45 минутах форы
То, что мы обнаружили сбой почти на 45 минут раньше, чем Hijack уведомил собственных игроков, стоит осмыслить. Мы не их ops-команда. У нас нет доступа к их внутренней инфраструктуре. И всё же вот так получилось.
Это поднимает несколько вопросов. Вопросов, которые начинают складываться с интересными закономерностями, которые мы замечаем в их игровой статистике. В сообществе ходят слухи о ботах, разгуливающих на этой платформе. У нас есть свои соображения на этот счёт.
Но это пост для другого дня.
Stay salty.
The Salty Korean
Основатель Salty Poker Network. Пишет о техасском покере, создании платформ и будущем онлайн-покера. Подробнее на The Salty Korean.