19 мая 2025 г.·8 мин

Джо Армстронг и Erlang: почему «пусть падает» работает

Разбираем идеи Джо Армстронга и Erlang: конкурентность, супервизоры и принцип «пусть падает» для создания надёжных платформ реального времени.

Почему Джо Армстронг и Erlang всё ещё актуальны

Джо Армстронг — один из создателей Erlang и человек, который сформулировал многие идеи современной «живучей» серверной разработки. Его подходы обсуждают до сих пор не из ностальгии, а потому что они дают практический ответ на вечный вопрос: как делать системы, которые продолжают работать, даже когда отдельные части ломаются.

«Надёжная платформа реального времени» простыми словами

В контексте Erlang под «реальным временем» обычно понимают не микросекундные задержки, а предсказуемость: система должна реагировать в разумные сроки и не «зависать» под нагрузкой. А «надёжная платформа» — это когда сбой не превращается в простои на часы. Процесс упал? Его быстро перезапускают. Узел временно недоступен? Остальные продолжают обслуживать пользователей.

Какие проблемы решают отказоустойчивость и конкурентность

Большинство серверных приложений делают сразу много дел: принимают запросы, общаются с базами, отправляют события, считают тарифы, следят за тайм-аутами. Это и есть конкурентность — множество независимых задач одновременно.

Проблема в том, что конкурентные системы ломаются «некрасиво»: гонки, взаимные блокировки, непредсказуемые задержки, каскадные ошибки. Отказоустойчивость нужна, чтобы локальная поломка не становилась общей аварией.

Чем Erlang отличается от привычных серверных подходов

Erlang (и выросшая вокруг него экосистема OTP) предлагает простую, но дисциплинирующую модель:

работа делится на множество изолированных процессов (почти как отдельные мини‑сервисы внутри одной программы);
процессы общаются сообщениями, а не общей памятью;
ожидается, что сбои будут — и система проектируется так, чтобы автоматически восстанавливаться.

Именно поэтому идеи Армстронга перекочевали далеко за пределы Erlang: акторная модель, «пусть падает», супервизоры, тайм-ауты и проектирование вокруг неизбежных ошибок — всё это по‑прежнему помогает строить надёжные сервисы.

Отказоустойчивость: цель не «без ошибок», а «без катастроф»

Отказоустойчивость начинается с честного признания: ошибки неизбежны. Вопрос не в том, как сделать систему «идеальной», а в том, как сделать её безопасной для пользователей и бизнеса, когда что-то пойдёт не так.

Один сбой не должен «уронить» весь сервис

Типичная «катастрофа» в продакшене выглядит так: маленькая проблема (битый входной запрос, неожиданное значение в базе, зависший внешний API) запускает цепную реакцию. Ошибка поднимается вверх по стеку, блокирует общий пул потоков, держит блокировки, забивает очередь задач — и уже падает не один кусочек, а весь сервис целиком.

Идея Erlang‑подхода проста: локальная поломка должна оставаться локальной. Если компонент не может продолжать работу, лучше быстро остановить именно его, а не тащить за собой всё приложение.

Отказоустойчивость vs высокая доступность — простыми словами

Отказоустойчивость — это способность системы корректно переживать сбои: ограничивать ущерб, восстанавливаться и возвращаться в рабочее состояние.

Высокая доступность — это про минимизацию простоя (например, за счёт резервирования, нескольких инстансов, балансировщиков, разнесения по зонам).

Они связаны, но не равны: можно иметь много серверов и всё равно «положить» систему общей зависимостью или ошибкой, которая размножается по всем узлам.

Почему нельзя заранее предсказать все ошибки

Даже при хороших тестах и код‑ревью остаются «неучтённые» факторы: новые форматы данных, редкие гонки, сетевые провалы, тайм-ауты, нехватка памяти, деградация сторонних сервисов. Комбинаторика состояний у распределённых систем огромна — предусмотреть всё нереально.

Как «пусть падает» меняет стратегию

Подход «пусть падает» предлагает заменить попытки угадать все возможные сбои на дисциплину реакции:

Быстро обнаружить проблему (ошибка не маскируется бесконечными ретраями).
Изолировать её (падает маленький компонент, а не общий процесс).
Восстановить работу автоматически (перезапуск, возврат в корректное состояние, переключение на запасной путь).

В итоге цель формулируется иначе: не «никаких ошибок», а «никаких катастроф».

Конкурентность без боли: что делает Erlang особенным

Конкурентность часто путают с параллелизмом. Параллелизм — это «делать несколько задач одновременно» (например, два повара реально готовят два блюда). Конкурентность — «уметь вести несколько дел так, чтобы они не мешали друг другу», даже если выполняются по очереди (один повар переключается между кастрюлями по таймеру и всё равно успевает вовремя).

В повседневных сервисах конкурентность важнее, чем кажется. Чат должен принимать сообщения, показывать «печатает…», отправлять пуши и синхронизировать историю. Звонки требуют обработки аудио‑пакетов в срок, иначе появляются «заикания». Платёжный сервис параллельно держит соединения, проверяет лимиты, пишет события и отвечает пользователю — и всё это с понятными тайм-аутами.

Почему потоки и общие данные так часто делают больно

Традиционный подход «потоки + общая память» быстро упирается в риски:

Гонки данных: два потока меняют одно и то же значение, результат зависит от случайного порядка.
Блокировки: чтобы избежать гонок, добавляют mutex’ы, и код становится хрупким.
Взаимные блокировки: один поток ждёт ресурс A, удерживая B, другой — наоборот. Снаружи это выглядит как «всё зависло».

Проблема не в том, что потоки «плохие», а в цене координации: чем больше общего состояния, тем больше договорённостей и тем сложнее поддержка.

Много маленьких независимых исполнителей

Erlang снимает основную причину боли: он поощряет модель «много маленьких процессов, которые не делят память». Каждый процесс изолирован и общается с другими только сообщениями. Не нужно «договориться», кто держит блокировку, потому что делить нечего.

Это удобно мыслить бытово: вместо одного большого офиса с общей доской и вечной очередью к маркеру — много небольших кабинетов. Попросить коллегу можно запиской: отправил сообщение и пошёл дальше, не ломая чужую работу.

Отсюда и практическая польза: конкурентность становится свойством структуры программы, а не героизмом разработчика. Код проще читать (у каждого процесса своя ответственность), легче тестировать (меньше скрытых зависимостей) и спокойнее эксплуатировать (один «зашумевший» участок не тянет за собой весь сервис).

Лёгкие процессы и изоляция: фундамент надёжности

Когда в Erlang говорят «процессы», это не то же самое, что процессы или потоки операционной системы. Это управляемые виртуальной машиной BEAM «акторы»: их можно создавать тысячами и миллионами, быстро переключать и так же быстро завершать — без ощущения, что вы «раскачали» систему.

Процесс Erlang — не процесс ОС

Процесс ОС тяжёлый: у него отдельные ресурсы, контекст, и его создание/переключение заметно по стоимости. Поток легче, но всё равно связан с планировщиком ОС и общей памятью процесса.

Процесс Erlang — совсем другой уровень абстракции:

он планируется внутри BEAM, а не ядром ОС;
у него маленький собственный стек и куча;
он создаётся для «каждой мелочи» (обработчик запроса, таймер, отдельный канал связи) — и это считается нормой.

В результате конкурентность строится естественно: вместо «один пул потоков на всё» можно иметь множество независимых исполнителей, каждый со своей узкой задачей.

Изоляция по памяти: меньше цепных аварий

Ключевой момент — у процессов Erlang нет общей памяти. Один процесс не может случайно испортить состояние другого: ни «не тем указателем», ни гонкой при обновлении структуры данных.

Если процесс упал, он умирает один. Это снижает риск «цепных» аварий, когда один сбой приводит к порче общего состояния и далее валит всё приложение. Да, остаются системные эффекты (например, очередь сообщений может разрастись), но класс проблем «сломали общую память — теперь всё непредсказуемо» почти исчезает.

Сообщения вместо общих переменных

Вместо блокировок и общих структур — обмен сообщениями: процесс отправляет другому данные, а тот обрабатывает их в своём темпе. Это даёт два практических выигрыша:

проще рассуждать о состоянии (оно локально);
проще вводить тайм-ауты, очереди и обратное давление, не превращая код в набор взаимных блокировок.

Где обычно «упираются» системы без строгой изоляции

Без изоляции типичные узкие места появляются быстро: гонки и редкие «фантомные» баги, дедлоки, приоритетные инверсии, длинные критические секции, а также эффекты «шторма» — когда одна задержка размножается через общий ресурс. Erlang‑подход не отменяет архитектурных ошибок, но делает путь к надёжности заметно короче: меньше способов сломать всё сразу.

Принцип «пусть падает»: смысл, границы и заблуждения

Сделайте отказоустойчивость привычкой

Соберите сервис так, чтобы сбои были локальными, а восстановление автоматическим.

Запустить проект

Фраза «пусть падает» часто звучит как провокация, будто разработчикам «всё равно на качество». На деле это про другое: не пытаться любой ценой предотвратить каждую ошибку внутри живого процесса, а строить систему так, чтобы отдельные сбои были ожидаемыми, локальными и быстро исправлялись автоматически.

Почему это не про «наплевать на качество»

Качество в Erlang/OTP начинается с дисциплины: чёткие контракты сообщений, тайм-ауты, проверяемые допущения и, главное, понятные границы ответственности. «Пусть падает» означает: если компонент оказался в состоянии, которое трудно корректно «вылечить», лучше явно признать ошибку и передать восстановление механизму надзора.

Это повышает качество, потому что команда перестаёт маскировать проблемы бесконечными try/catch и «магическими» флагами, а делает ошибки заметными и измеримыми.

Какие сбои допустимы — и как их локализовать

Разумно допускать сбои, которые:

относятся к одному запросу/пользователю/задаче (например, некорректные входные данные, тайм-аут внешнего API);
не должны отравлять состояние всего сервиса;
могут быть безопасно повторены или пересозданы.

Локализация достигается изоляцией: каждый процесс хранит минимум состояния, обрабатывает узкий поток сообщений и не разделяет память с соседями. Тогда падение — это маленький инцидент, а не цепная реакция.

«Перезапустить чистую копию» вместо «лечить больной процесс»

Долгоживущий компонент со скрытыми состояниями опасен: после частичных ошибок он может работать «почти нормально», но уже неправильно. Перезапуск возвращает систему в известно корректную стартовую точку, снижая число редких, трудно воспроизводимых багов.

Итоговый эффект — проще код, меньше скрытых состояний и меньше веток «на всякий случай». А надёжность достигается не героизмом обработчиков ошибок, а архитектурой, которая ожидает сбои и умеет жить дальше.

Супервизоры и деревья надзора: автоматическое восстановление

Супервизор в Erlang/OTP — это отдельный процесс‑«менеджер», который следит за другими процессами (дочерними) и автоматически перезапускает их при падении. Идея простая: рабочие процессы делают полезную работу, а супервизор отвечает за восстановление и не смешивает это с бизнес‑логикой.

Такой разделённый подход делает сбои «обычным событием», а не чрезвычайной ситуацией: если что-то сломалось локально, система быстро возвращает нужный компонент в строй.

Что именно делает супервизор

Супервизор:

запускает дочерние процессы по заданным правилам;
наблюдает за их завершением (нормальным или аварийным);
применяет стратегию перезапуска;
ограничивает «шторм перезапусков» через политики интенсивности.

Важно: супервизор не пытается «починить данные» внутри упавшего процесса. Он обеспечивает повторный старт в известном состоянии, а сохранение и восстановление состояния — отдельная задача архитектуры.

Типовые стратегии перезапуска

OTP предлагает несколько стандартных стратегий, которые покрывают большинство ситуаций:

one_for_one — упал один процесс, перезапускается только он. Подходит, когда процессы слабо связаны.
one_for_all — упал один, перезапускаются все дети супервизора. Полезно, если компоненты должны быть строго согласованы по версии/состоянию.
rest_for_one — перезапускается упавший и те, кто был запущен после него. Хорошо для конвейеров, где поздние этапы зависят от ранних.

На практике выбор стратегии — это ответ на вопрос: «Какие компоненты должны перезапускаться вместе, чтобы система вернулась в корректную конфигурацию?»

Как строить дерево надзора для реального сервиса

«Дерево надзора» — это иерархия супервизоров. Сверху — корневой супервизор приложения, ниже — супервизоры подсистем: входящие запросы, обработчики задач, интеграции, фоновые воркеры.

Полезное правило: группируйте в одном супервизоре процессы с одинаковой судьбой при сбое. Например, пул воркеров — отдельно, а процесс, который держит соединение с внешним сервисом, — отдельно, чтобы его перезапуски не сбивали всю обработку.

Ещё один практичный приём: держать «границы отказа» узкими. Лучше три небольших супервизора с one_for_one, чем один большой с one_for_all, если нет жёсткой необходимости перезапускать всех вместе.

Метрики и сигналы: как контролировать перезапуски

Автоперезапуск — не повод игнорировать проблемы. Чтобы понимать, что происходит, обычно собирают:

частоту перезапусков по процессам/супервизорам;
интенсивность рестартов и срабатывание лимитов (когда супервизор «сдаётся»);
причины падений (классы ошибок, стеки, тип исключения);
время восстановления (сколько занимает возврат компонента в рабочее состояние);
симптомы деградации рядом: рост очередей сообщений, тайм-ауты, увеличение задержек.

Если рестарты становятся регулярными, это сигнал: либо входная нагрузка не соответствует ресурсам, либо ошибка повторяется из-за данных/интеграций, либо неверно выбраны границы изоляции. Супервизоры спасают от катастрофы, но «здоровую» систему делает наблюдаемость и дисциплина в разборе причин.

OTP‑шаблоны: как дисциплина превращается в надёжность

OTP (Open Telecom Platform) часто воспринимают как «набор библиотек для Erlang». На практике это ближе к своду проверенных правил организации приложения: как запускать процессы, как управлять их жизненным циклом, как обновлять систему без простоя и как делать поведение предсказуемым для команды.

Главная ценность OTP в том, что он не предлагает каждый раз придумывать архитектуру с нуля. Он заставляет вас собирать систему из стандартных блоков, которые годами оттачивались на реальных сбоях.

OTP — не «по желанию», а язык дисциплины

Можно написать сервер «вручную», обмениваясь сообщениями между процессами как угодно. Но тогда каждый разработчик будет делать это по‑своему: свои форматы сообщений, свои тайм-ауты, свои способы остановки. В итоге ошибки появляются не из‑за «сложности Erlang», а из‑за разнобоя.

OTP задаёт единый каркас: где хранится состояние, как обрабатываются запросы, как реагировать на перегрузку, как завершаться корректно. Это снижает количество мест, где можно ошибиться.

Поведения (behaviours): gen_server и друзья

Поведения вроде gen_server, gen_statem, gen_event — это стандартизированные «контракты» для процессов. Вы описываете только свою бизнес‑логику, а типовые вещи (очередь сообщений, синхронные/асинхронные вызовы, системные сообщения, наблюдаемость) делаются одинаково в каждом сервисе.

Небольшой пример того, как OTP ограничивает «вольную интерпретацию», оставляя вам главное:

-behaviour(gen_server).

init(Args) -> {ok, State}.
handle_call(Request, From, State) -> {reply, Reply, State1}.
handle_cast(Msg, State) -> {noreply, State1}.
handle_info(Info, State) -> {noreply, State1}.
terminate(Reason, State) -> ok.

Разделение ответственности: воркеры и координаторы

Типичная ошибка — делать один «умный процесс», который и принимает запросы, и ходит в сеть, и хранит кэш, и управляет ретраями. OTP поощряет разделение ролей:

воркеры выполняют конкретную работу и могут безопасно падать/перезапускаться;
координаторы (например, gen_server как диспетчер) распределяют задачи и следят за состоянием на более высоком уровне.

Так сбой в одном кусочке не превращается в цепную реакцию.

Переиспользование вместо мини‑фреймворков

Когда команда следует OTP‑паттернам, новый модуль легче читать, тестировать и сопровождать: он «как все остальные». Это особенно важно в долгоживущих системах, где надёжность — это не героизм отдельных разработчиков, а повторяемая практика.

Реальное время: задержки, тайм-ауты и управление нагрузкой

Проверьте деплой и хостинг

Разверните приложение и проверьте поведение под нагрузкой без долгой настройки окружения.

Сделать деплой

«Реальное время» в системах на Erlang почти всегда про предсказуемость, а не про рекорды скорости. Важно не то, что запрос «иногда» обрабатывается за 5 мс, а то, что он стабильно укладывается в понятный коридор — и при перегрузке деградирует контролируемо, а не превращается в цепную реакцию.

Где важна предсказуемая задержка

Предсказуемая задержка критична там, где система постоянно «держит связь» с внешним миром:

сигнализация и оповещения (важнее доставить вовремя, чем «когда-нибудь»);
телеметрия и мониторинг (потоки событий, которые нельзя бесконечно копить);
онлайн‑сессии: звонки, чаты, игровые соединения, живые панели операторов.

В таких задачах пользователю заметна не средняя скорость, а скачки задержек и «залипания».

«Мягкое реальное время»: практичный целевой режим

Частая цель — мягкое реальное время: система старается выдерживать дедлайны, но при редких пиках допускает отклонения, при этом оставаясь работоспособной. Для бизнеса это обычно реалистичнее и дешевле, чем жёсткие гарантии на каждом запросе.

Почему сообщения помогают держать задержки стабильными

Архитектура с обменом сообщениями естественно разрывает сильные зависимости. Вместо того чтобы блокироваться на чужих задержках, компоненты общаются через почтовые ящики и обрабатывают события последовательно. Это упрощает контроль:

где именно растёт очередь;
кто стал «узким горлом»;
на каком участке надо ограничивать вход.

Практика: очереди, лимиты, тайм-ауты и обратное давление

Чтобы задержки оставались управляемыми, важны простые дисциплины:

Очереди как сигнал, а не склад. Следите за длиной почтовых ящиков/очередей: если она растёт, это уже инцидент качества.
Лимиты и отсечки. Ограничивайте число одновременных задач и размер очередей; лучше отказать или упростить обработку, чем «захлебнуться».
Тайм-ауты везде, где есть ожидание. Тайм-аут — это не про «пессимизм», а про верхнюю границу задержки и освобождение ресурсов.
Обратное давление (backpressure). Когда потребитель не успевает, производитель должен замедляться: от регулировки частоты до сброса низкоприоритетных событий.

Такой набор приёмов делает систему предсказуемой: она не обещает невозможного, но честно выдерживает нагрузку и заранее показывает, где требуется масштабирование или упрощение логики.

Распределённость: как переживать сбои сети и узлов

Распределённая система ломает привычную логику «если упало — значит ошибка в коде». В сети всё может быть «вроде бы работает»: пакет потерялся, задержка выросла в десять раз, узел на месте, но не отвечает, или связь между двумя группами узлов оборвалась (partition). В итоге самая опасная поломка — не явный крах, а незаметное расхождение состояний и зависание запросов.

Мыслить разрывами и деградацией

Полезная установка: разрывы связи неизбежны, и сервис должен уметь деградировать, а не «стоять колом». Это значит заранее решить:

что считать недоступностью (тайм-ауты важнее «бесконечного ожидания»);
как выглядят «частичные ответы» (например, показать кэш, отключить второстепенные функции);
как система возвращается в норму без ручного вмешательства.

В Erlang это поддерживается культурой работы с тайм-аутами, явной обработкой отказов и проектированием вокруг границ между компонентами.

Идеи распределённого Erlang: узлы, сообщения, мониторинг

Распределённый Erlang строится вокруг простых примитивов: узлы (nodes) соединяются, процессы продолжают общаться сообщениями так же, как локально, но с учётом задержек и потерь. Ключевая часть — наблюдаемость отказов:

процессы могут мониторить друг друга и получать сигнал, что удалённый процесс или целый узел исчез;
можно строить логику «переподключился — пересоздал — догнал состояние» вместо попытки «удержать соединение любой ценой»;
ошибки изолируются: падение на одном узле не обязано тащить за собой весь кластер.

Практический вывод: распределённость лучше переживается, когда взаимодействие сведено к обмену сообщениями, а ожидания ограничены тайм-аутами.

Границы применимости

Если вам нужна жёсткая согласованность в каждом шаге (сильные транзакции между узлами, глобальные блокировки), распределённые примитивы Erlang могут оказаться не самым простым путём: цена задержек и разделения сети будет высокой. В таких случаях иногда разумнее выбирать модели с явным журналированием, консенсусом или внешним брокером сообщений — и принимать, что «магии» против физики сети не существует.

Как применить идеи Erlang в любом стеке

Оставьте себе исходный код

Заберите исходники, чтобы продолжить развитие проекта в своей инфраструктуре.

Экспортировать код

Идеи Erlang ценны не только в самом Erlang. Это в первую очередь дисциплина проектирования: компоненты изолированы, сбои ожидаемы, а восстановление — автоматизировано.

Что переносится напрямую

Начните с изоляции компонентов. Пусть каждый модуль (сервис, воркер, обработчик) имеет чёткие границы, минимальный общий стейт и понятный контракт. Тогда сбой одного блока не тянет за собой остальные.

Второй переносимый принцип — перезапуски как норма. Ошибка не должна превращаться в ручной разбор «что случилось в 3:12 ночи». Процесс (или воркер) падает, его поднимают заново, а система возвращается в рабочее состояние.

Третье — идемпотентность. Если сообщение или задача будет выполнена дважды, результат не должен «ломать» данные. Это сильно упрощает ретраи и делает систему спокойнее при сбоях сети.

«Пусть падает» в микросервисах и очередях

В микросервисах этот подход означает: быстро выявлять неправильные состояния и завершать обработку, вместо того чтобы продолжать работу с повреждёнными данными. Для очередей задач — явные попытки (retries), дедлайны, отдельная обработка «ядовитых» сообщений (dead-letter), чтобы не стопорить поток.

Контейнеры и оркестрация как супервизоры уровня выше

Даже если вы пишете на другом языке, роль «супервизора» часто выполняют контейнеры и оркестратор: упавший процесс перезапускается, масштабирование добавляет воркеры, а health-check’и отделяют живое от зависшего. Важно, чтобы приложение корректно завершалось и умело стартовать «с нуля».

Как это может выглядеть на практике в TakProsto.AI

Если вы хотите быстро «примерить» эти принципы на реальном продукте без долгой настройки окружения, можно собрать прототип в TakProsto.AI: описать в чате границы компонентов, очереди сообщений, правила ретраев и тайм-аутов — и получить каркас веб‑части (React) и бекенда (Go + PostgreSQL) с возможностью деплоя и хостинга.

Плюс полезны режим планирования (чтобы заранее зафиксировать контракты и сценарии отказов), снапшоты и откат (чтобы безопасно проверять изменения под нагрузкой), а при необходимости — экспорт исходников. Отдельно для российского рынка важно, что платформа работает на серверах в России и использует локализованные и открытые модели, не отправляя данные за пределы страны.

Мини‑чек‑лист проектирования

Где точки отказа и что будет, если каждая из них сломается?
Какие лимиты нужны: память, количество запросов, размер очереди?
Везде ли есть тайм-ауты на внешние вызовы и ожидания?
Как настроены ретраи: сколько, с какой паузой, есть ли «джиттер»?
Что делаем с повторной доставкой: идемпотентность, дедупликация, транзакции?
Как обнаруживаем деградацию: метрики, алерты, простые health-check’и?

Если внедрять эти пункты последовательно, вы получите «эрланговскую» надёжность даже без Erlang — за счёт архитектуры, а не магии языка.

Ограничения и антипримеры: где нужен другой подход

Идея «пусть падает» сильна там, где ошибку можно изолировать и быстро восстановить состояние. Но есть классы задач, где простой рестарт процесса недостаточен — или даже опасен. Важно заранее понимать границы подхода и проектировать систему так, чтобы падения не превращались в финансовые и юридические проблемы.

Когда «пусть падает» не подходит

Самый частый антипример — критичные транзакции и любые операции с внешними эффектами: списание денег, выдача кредита, изменение прав доступа, отправка платёжного поручения, запись в стороннюю систему, физическое действие (печать, отгрузка).

Если процесс упал «посередине», восстановление не отменяет уже совершённый внешний эффект. Рестарт может привести к повторному выполнению, а значит — к двойному списанию, повторной доставке или несогласованным данным.

Опасные места: повторы, дубли и побочные действия

При сбоях естественно появляются повторы: сообщение могло быть доставлено дважды, запрос — повторно отправлен клиентом, обработчик — перезапущен супервизором. Это нормально для отказоустойчивых систем, но опасно, если обработка не рассчитана на дубли.

Отдельная зона риска — «побочные действия до фиксации»: вы отправили уведомление или вызвали внешний API, а затем не успели сохранить факт выполнения. После перезапуска система не знает, что действие уже произошло.

Как снижать риски

Практический выход — строить обработку так, будто повторы неизбежны:

Дедупликация: уникальные ключи операций (idempotency key), журнал обработанных событий, контроль «уже делали/не делали».
Идемпотентные операции: повторный вызов приводит к тому же результату, а не к удвоению эффекта.
Саги и компенсирующие действия: если нельзя сделать транзакцию «всё или ничего», проектируйте цепочку шагов с откатами и явными состояниями.

Важный принцип: «пусть падает» хорошо работает на уровне компонентов, но границы с внешним миром требуют дисциплины — протоколов, версионирования, явных подтверждений и аккуратного учёта состояния.

Куда углубиться дальше

Если вы хотите глубже понять, как OTP помогает формализовать такие дисциплины (поведение серверов, супервизия, тайм-ауты, перезапуски), начните с официальной документации OTP.

А чтобы выбрать подход под ваш стек и ограничения продукта, посмотрите материалы в /blog и варианты на /pricing — полезно оценить, где нужен «акторный» стиль и автоматическое восстановление, а где лучше подойдёт транзакционная модель или строгая согласованность.