31 авг. 2025 г.·8 мин

Как LLM выбирают базу данных под продукт и где ошибаются

Q: Что на самом деле означает фраза «LLM выбрала базу данных»?

LLM обычно не делает инженерный расчёт. Она: - вытаскивает из описания сущности и действия (пользователь, заказ, логирование); - сопоставляет их с типовыми паттернами (транзакции → SQL, поиск → поиск-движок, события → TS/OLAP); - заполняет пробелы «средними» предположениями. Результат — гипотеза, которую команда должна проверить цифрами и тестами.

Q: Какие данные нужно дать LLM, чтобы рекомендация по СУБД была ближе к реальности?

Дайте измеримые вводные и примеры: - RPS, пики, p95/p99 по ключевым операциям; - объём данных сейчас и прогноз на 3/12/24 месяца; - retention/TTL и политика удаления; - 5–10 типовых запросов (фильтры, сортировки, агрегации, топ-N); - требования к транзакциям, RPO/RTO, география; - ограничения по бюджету и компетенциям команды. Чем меньше «общих слов», тем меньше модель будет додумывать.

Q: Какие сигналы сильнее всего влияют на рекомендацию СУБД у LLM?

Чаще всего: - структура данных (сущности, связи, жёсткость схемы); - профиль запросов (JOIN/агрегации/полнотекст/гео/топ-N); - нагрузка и рост (пики, сезонность, многорегиональность); - нефункциональные ограничения (SLA, RPO/RTO, бюджет, навыки эксплуатации). Если вы не описали запросы и SLA, модель почти неизбежно попадёт в «средний сценарий».

Q: Как быстро понять, какой тип СУБД подходит под мой сценарий?

Проверьте, какой класс задач доминирует: - Реляционная (SQL): транзакции, целостность, сложные связи и предсказуемые запросы. - Документная/ключ-значение: гибкая схема, простые операции по ключу, быстрый CRUD. - Колоночная/OLAP: большие сканы, отчёты, агрегаты по миллиардам строк. - Графовая: многошаговые обходы связей (2–6 переходов), поиск путей, антифрод по цепочкам. - Тайм-серии: метрики/телеметрия, окна времени, downsampling, строгий retention. Если LLM предлагает «одну СУБД на всё», это повод уточнить контуры OLTP и OLAP.

Q: Где LLM чаще всего ошибается при постановке задачи выбора СУБД?

Самые типовые промахи: - подстановка «усреднённого интернет‑магазина», когда вводных мало; - выбор «модного» решения вместо подходящего по критериям; - игнорирование профиля запросов (сортировки, пагинация, агрегации, блокировки); - обещание универсальности («закроем транзакции, аналитику и поиск одним хранилищем»). Практика: сначала попросите LLM перечислить неизвестные параметры , и только потом — варианты.

Q: Как распознать «галлюцинации» и устаревшие утверждения в ответе LLM?

Признаки повышенного риска: - точные цифры и гарантии без условий (версия, конфигурация, провайдер); - заявления вида «и строго консистентно, и без задержек, и всегда доступно» без trade-off; - ссылки на возможности, которые могут быть доступны только в отдельных редакциях/опциях; - уверенный тон при отсутствии ваших чисел (RPS, p95/p99, RPO/RTO). Хорошее правило: любые «конкретные обещания» проверять документацией и прототипом.

Q: Когда оправдана связка из нескольких хранилищ вместо одной СУБД?

Часто один контур не закрывает всё. Типовые комбинации: - OLTP + OLAP: транзакции отдельно, аналитика/отчёты отдельно, чтобы отчёты не душили запись. - Основная БД + поиск: индекс для полнотекста/фасетов, синхронизация и обработка удалений. - OLTP + кэш/очередь: кэш для горячих чтений, очередь/стриминг для событий и развязки по времени. Цена — рост сложности (мониторинг, права, миграции). Добавляйте второе хранилище только при явной боли.

Q: Как проверять рекомендацию LLM по СУБД на практике (вопросы, матрица, тесты)?

Сделайте проверяемый процесс: 1) Чек-лист вопросов: сценарии нагрузки, запросы, транзакции, RPO/RTO, безопасность, бюджет. 2) Матрица выбора: критерии → веса (1–5) → 2–4 кандидата → явные риски. 3) Мини‑прототип: 3–7 критичных запросов, реалистичные индексы, данные 1–10% годового объёма. 4) Нагрузочные тесты: p95/p99, конфликты/блокировки, рост индексов, восстановление. Фиксируйте «журнал допущений» и триггеры пересмотра решения.

Разбираем, как LLM выводят требования продукта и рекомендуют СУБД, где эти выводы ломаются и как проверять советы через вопросы, критерии и тесты.

Что мы называем «выбором базы данных LLM»

Когда говорят, что «LLM выбрала базу данных», обычно речь не о полноценном инженерном выборе, а о быстрой гипотезе, собранной из описания: «у нас маркетплейс, будут заказы, поиск, рекомендации». Модель сопоставляет эти слова с типовыми паттернами (транзакции → SQL, события → time-series, поиск → search engine, связи → graph DB) и предлагает один‑два знакомых варианта.

Что именно делает модель

LLM не измеряет вашу нагрузку и не читает ваш код. Она:

выделяет из описания сущности и действия (пользователь, заказ, корзина, логирование);
предполагает класс требований (ACID, гибкая схема, полнотекстовый поиск, аналитика);
достраивает недостающие детали «по умолчанию» на основе увиденных ранее примеров.

По сути это ближе к консультации «по симптомам», чем к проектированию архитектуры данных.

Почему такие советы стали популярны

Они быстрые и дешёвые: за минуту можно получить обзор вариантов, терминов и компромиссов, а также стартовый список вопросов для команды. На ранней стадии продукта это полезно — как способ расширить кругозор и не забыть про альтернативы.

Где проходит граница ответственности

Ответственность за решение остаётся у команды, потому что «правильная СУБД» зависит от деталей, которых модель обычно не видит: профиля запросов, требований к восстановлению, стоимости хранения, навыков эксплуатации, ограничений по комплаенсу.

Что будет дальше в статье

Разберём, как LLM выводят требования из описания продукта, какие сигналы сильнее всего влияют на рекомендации, где модели ошибаются и как проверять советы: через вопросы, матрицу критериев и тесты (включая нагрузочные).

Как LLM выводят требования из описания продукта

LLM почти никогда не «выбирают СУБД» напрямую. Сначала модель пытается восстановить требования к данным из того, что вы написали про продукт, а уже потом сопоставляет их с классом хранилища (SQL/NoSQL и т. п.) и конкретными решениями.

Какие входные данные обычно видит модель

Чаще всего это 5–15 строк: что за сервис, ключевые функции (поиск, лента, корзина), примерные объёмы, иногда ограничения по бюджету или стеку. Если чего-то нет (например, «пиковая нагрузка»), модель всё равно продолжит рассуждать — и начнёт заполнять пробелы предположениями.

Как LLM «достраивает» недостающие детали

Модель опирается на шаблоны из обучающих данных: «чат = много записей + быстрые вставки», «аналитика = колоночное», «каталог товаров = реляционная схема». Это полезно для черновика, но опасно, когда ваш продукт не похож на типовой пример (например, лента без строгой персонализации или поиск без сложной фильтрации).

Превращение текста в критерии

Из описания LLM обычно извлекает (или домысливает) такие параметры:

Консистентность: нужна ли транзакционность и строгие инварианты (балансы, складские остатки).
Задержка: интерактивные запросы vs пакетная обработка.
Объём и рост: размер данных, retention, требования к архивированию.
Профиль запросов: чтение/запись, сложные JOIN, агрегации, полнотекст, гео.

Типовая цепочка вывода

Требования → класс СУБД (OLTP SQL, документная, key-value, графовая, колоночная) → паттерны (CQRS, кэш, события) → конкретные продукты.

Чтобы этот шаг работал точнее, полезно заранее дать модели цифры и примеры запросов; чек‑лист можно вынести в отдельный промпт (см. /blog/kak-pravilno-prosit-llm-o-vybore-subd).

Какие сигналы сильнее всего влияют на рекомендацию СУБД

Когда вы просите LLM «подобрать базу данных», она по сути пытается восстановить картину продукта по нескольким типам сигналов. Чем точнее вы их описали, тем ближе будет рекомендация к реальности — и тем меньше риск получить «популярный, но не ваш» вариант.

1) Данные и модель: что именно вы храните

Самый сильный фактор — структура данных: сущности, связи и то, насколько они «жёсткие».

Если в описании звучит много отношений (пользователи → заказы → позиции → платежи), важны целостность и транзакции, а схема относительно стабильна — LLM почти всегда тянется к реляционным СУБД.

Если же подчёркнута разнородность объектов, частые изменения полей, необходимость хранить документы «как есть» и быстро добавлять атрибуты — модель склоняется к документным хранилищам.

Отдельный сигнал — кардинальности и «болезненные места»: много-ко-многим, иерархии, графовые связи, версионирование и история изменений. Чем явнее вы это называете, тем легче LLM отличит «таблицы с джойнами» от кейса, где действительно нужен граф или журнал событий.

2) Паттерны доступа: как данные читают и пишут

LLM сильно реагирует на формулировки про запросы:

«сложные фильтры», «отчёты», «группировки», «много срезов» → аналитические и реляционные варианты
«ключ-значение», «быстрые чтения по id», «кэш», «сессии» → KV/кэш-хранилища
«поиск по тексту», «морфология», «релевантность» → движки полнотекстового поиска
«временные ряды», «окна», «агрегации по времени» → TSDB/колоночные решения

Важная деталь: если вы не описали запросы (какие поля фильтруются, какие сортировки, какие агрегаты, какие top‑N), модель часто «додумает» типичный сценарий и промахнётся.

3) Нагрузка: пики, рост и география

Триггерные слова для LLM — «миллионы событий в минуту», «пики», «сезонность», «многорегиональность», «низкая задержка». По ним она делает выводы о шардинге, репликации и том, выдержит ли система рост.

Но если вы не даёте чисел (RPS, объём данных, рост в месяц, допустимая задержка), LLM склонна либо переоценивать масштаб и рекомендовать слишком сложные распределённые системы, либо недооценить и оставить вас на одной ноде.

4) Нефункциональные ограничения: люди, деньги и SLA

Даже идеальная по модели данных СУБД может быть плохим выбором, если её некому поддерживать.

LLM обычно учитывает такие сигналы:

бюджет (лицензии/облако/железо)
компетенции команды (что умеют администрировать и тюнинговать)
требования к эксплуатации (бэкапы, обновления, мониторинг)
SLA/доступность (RTO/RPO, требования к отказоустойчивости)

Если эти ограничения не проговорены, рекомендация часто будет «технически красивая», но дорогая или тяжёлая в сопровождении.

Карта соответствий: типы СУБД и типовые потребности продукта

Эта «карта» помогает перевести требования продукта на язык архитектуры данных. LLM часто делает такой перевод автоматически, но полезно держать под рукой простые ориентиры: какой класс СУБД лучше закрывает ключевые сценарии и какие компромиссы обычно скрываются.

Реляционные СУБД (SQL)

Подходят, когда важны транзакции, целостность данных и сложные запросы: заказы и оплаты, учёт остатков, биллинг, права доступа. Если в требованиях много «должно быть строго согласовано» и «нельзя потерять связь между сущностями», SQL обычно базовый выбор.

Документные и ключ-значение (NoSQL)

Хороши для гибкой схемы и быстрых простых операций чтения/записи: профили пользователей, корзины, кэш сессий, каталоги с часто меняющимся набором полей. Сигнал: данные «разные от объекта к объекту», запросы простые, а скорость разработки важнее строгой нормализации.

Колонковые и аналитические хранилища

Выбор для отчётов и аналитики: большие сканы, агрегации, витрины данных, поведенческие события. Если продукт спрашивает «посчитать по миллиардам строк» и «строить дешёвые отчёты», транзакционная СУБД часто будет дорогой и медленной.

Графовые СУБД

Нужны, когда ядро — связи и обходы: рекомендации, выявление сообществ, поиск путей, антифрод по цепочкам. Сигнал: запросы вида «найди через 3–5 связей» и «влияние соседей» важнее, чем табличные отчёты.

Тайм-серии

Оптимальны для метрик, телеметрии и событий со временем: высокая частота записи, ретеншн, downsampling, запросы по окнам времени. Сигнал: «миллионы точек в минуту», «хранить 30/90/365 дней», «быстро строить графики по времени».

Если LLM предлагает один тип СУБД «на всё», проверьте: у продукта обычно минимум два контура — транзакционный (OLTP) и аналитический (OLAP).

Где LLM чаще всего ошибаются в постановке задачи

LLM нередко «угадывают» постановку задачи по короткому описанию продукта — и именно на этом этапе рождаются системные ошибки. Модель заполняет пробелы типовыми предположениями, которые могут не совпасть с реальностью: как именно будут читать данные, что важнее — согласованность или скорость, какие ограничения есть у команды и инфраструктуры.

Недосказанные требования: подстановка «среднего» сценария

Если вы пишете «нужна база для приложения с пользователями и заказами», LLM часто дорисует усреднённый интернет‑магазин: умеренная нагрузка, простые отчёты, стандартные CRUD‑операции. Но один пропущенный нюанс (например, «много фильтров и сортировок по нескольким полям» или «нужны строгие транзакции при списании баланса») меняет класс подходящих СУБД.

Подмена задачи: «модно» вместо «подходит»

Модель может сместить фокус с критериев на популярность технологий: предложить «трендовую» NoSQL‑СУБД или графовую базу, хотя реальная потребность — надёжные транзакции, SQL‑аналитика и предсказуемые джойны. Это особенно заметно, когда в запросе звучат слова «масштабирование», «реалтайм», «большие данные» без чисел и сценариев.

Игнорирование профиля запросов

LLM часто недооценивает, что «тип данных» менее важен, чем «тип запросов». Разница между:

частыми джойнами и сложными агрегациями;
поиском по тексту и ранжированием;
сортировками с пагинацией;
транзакциями и блокировками

может радикально изменить выбор.

Переоценка универсальности: «одна база решит всё»

Ещё одна ошибка — рекомендация одной СУБД «на всё»: и для транзакционного ядра, и для аналитики, и для полнотекстового поиска. В реальных системах часто выигрывают комбинации, но их нельзя предлагать без оговорок про границы ответственности каждого хранилища.

Практическая проверка: попросите LLM сначала перечислить неизвестные параметры (нагрузка, SLA, типы запросов, модель данных), и только потом делать рекомендацию — иначе она неизбежно будет про «средний продукт».

Системные причины сбоев: данные обучения и «галлюцинации»

Масштабируйте процесс, не обещания

Начните с free и переходите на pro, business или enterprise по мере роста.

Выбрать тариф

LLM часто звучат уверенно, даже когда дают слабую рекомендацию по СУБД. Причина не в «плохой логике», а в том, как устроено обучение: модель хорошо продолжает знакомые шаблоны текста, но не всегда проверяет факты и не знает ваших реальных ограничений.

Смещение к популярным решениям

В обучающих данных непропорционально много статей, гайдов и ответов про самые обсуждаемые варианты. Поэтому модель склонна предлагать «дефолт»: популярную SQL‑СУБД для всего или модный NoSQL для всего — даже если у вас специфичные требования по задержкам, стоимости, географии, лицензиям или операционным навыкам команды.

Это смещение усиливается, когда вы описываете продукт общими словами («высокая нагрузка», «масштабируемость»). Модель подставляет распространённые примеры вместо того, чтобы уточнять параметры.

Устаревшие знания о версиях и ценах

LLM не живёт в реальном времени: часть знаний про версии, ограничения, типы репликации, managed‑опции и ценовые модели может быть устаревшей. Из‑за этого в рекомендации могут попасть:

неактуальные лимиты (которые уже сняты или, наоборот, появились позже);
функции «по умолчанию», которые доступны только в определённых редакциях/провайдерах;
неверные предположения о стоимости хранения, IOPS, сетевого трафика.

На уровне текста это выглядит правдоподобно, но в реальном проекте приводит к неверным ожиданиям по бюджету и срокам.

«Галлюцинации» характеристик

Модель может уверенно «придумать» режимы, гарантии или ограничения: например, заявить про строгую консистентность в сценарии, где фактически она настраиваемая или ограничена; назвать несуществующий предел размера таблицы; приписать автоматический failover там, где он требует ручной настройки.

Практический сигнал: если ответ содержит точные цифры и обещания без ссылки на условия (версия, конфигурация, провайдер), вероятность галлюцинации повышается.

Смешение понятий и компромиссов

LLM часто путает консистентность, доступность и задержку, или говорит о них как о независимых «галочках». В результате появляются рекомендации вида «и строго консистентно, и без задержек, и всегда доступно», без обсуждения компромиссов и того, что именно важнее для ваших операций чтения/записи.

Чтобы снизить риск, формулируйте требования измеримо (RPS, p95/p99, RPO/RTO, регионы, объём данных) и просите модель явно перечислять допущения, а не только итоговый выбор.

Слепая зона эксплуатации: надёжность, бэкапы, стоимость

LLM часто выбирают СУБД по «витринным» признакам: модель данных, скорость чтения/записи, наличие JSON, «подходит ли NoSQL». Но в реальном продукте выбор быстро упирается в эксплуатацию. И тут рекомендации нередко проваливаются: система может быть быстрой на демо и при этом дорогой, неудобной в поддержке или плохо восстанавливаемой после инцидента.

Резервное копирование и восстановление

Для бизнеса важны два числа: RPO (сколько данных можно потерять) и RTO (как быстро сервис должен вернуться). LLM может предложить «делать бэкап раз в день», не спросив, что для платежей потеря 12 часов данных недопустима.

Практический минимум, который стоит проговорить:

Как часто делаем бэкапы и где они хранятся (другой регион/контур).
Есть ли проверенный план восстановления, а не только «настроенные бэкапы».
Проводятся ли регулярные тесты восстановления на отдельном стенде (иначе RTO — фантазия).

Репликация и отказоустойчивость

LLM любит советовать «мультизонность, кворум, несколько реплик» — иногда это правильно, но часто это «на всякий случай». Цена такой перестраховки: сложнее схемы развёртывания, выше задержки, больше стоимость и выше шанс ошибок в операционных процедурах.

Полезнее начать с вопросов: какой простой допустим (минуты/часы), что должно работать при падении зоны, какие операции важнее (чтение или запись), есть ли ручной режим обслуживания.

Наблюдаемость: метрики и поиск узких мест

Если СУБД нельзя нормально наблюдать, вы будете чинить инциденты «вслепую». Проверяйте, что в стеке есть:

метрики (задержки, ошибки, насыщение диска/CPU, очередь репликации),
алерты с понятными порогами,
трассировка и профилирование медленных запросов,
инструменты для анализа блокировок и конкуренции транзакций.

Стоимость владения (TCO)

Цена — это не только лицензия или размер диска. В TCO обычно прячутся: время администрирования, стоимость хранения бэкапов, сетевой трафик между зонами/регионами, требования к железу, а ещё обучение команды и найм специалистов.

Хорошая проверка рекомендации от LLM: попросите её прикинуть, сколько это будет стоить и кем поддерживаться при росте в 10 раз — по пользователям, данным и пиковым запросам.

Безопасность и соответствие требованиям: что LLM легко пропускают

LLM нередко «угадывают» СУБД по функциональности (транзакции, поиск, аналитика), но пропускают то, что потом ломает проект на проде: доступы, аудит, регуляторику и утечки через операционные артефакты. В итоге рекомендация может быть технически подходящей, но неприемлемой по требованиям безопасности и комплаенса.

Доступ и управление привилегиями

Спросите у команды не только «сколько пользователей», а как именно устроен доступ:

роли (админы, операторы, аналитики, сервисные аккаунты), раздельность обязанностей;
принцип наименьших привилегий: кто может читать/писать какие таблицы/коллекции;
аудит: какие действия должны логироваться (чтение PII, изменение прав, выгрузки), где хранить аудит‑логи и как защищать их от подмены.

LLM часто советует «просто включить RBAC», не уточняя, есть ли в выбранной СУБД/сервисе детализированные политики, имперсонация, row‑level security, неизменяемые audit trails.

Шифрование, ключи и секреты

Уточняйте заранее:

шифрование «в покое» и «в транзите»: обязательны ли TLS/mTLS, нужны ли отдельные политики для бэкапов;
где живут ключи (KMS/HSM), кто имеет право ротации, каков SLA на компрометацию;
хранение секретов: как приложения получают креды (short‑lived токены vs статические пароли).

Выбор СУБД меняется, если нужно клиентское шифрование, BYOK/HYOK или строгая ротация ключей.

Регуляторные ограничения и право на удаление

LLM может не спросить про:

географию данных (где можно хранить и обрабатывать);
сроки хранения и режимы ретенции;
удаление по запросу: должно ли быть «физическое» удаление, как обрабатываются реплики, бэкапы, кэши и индексы.

Если требуется гарантированное удаление, важны механизмы TTL/retention, политика бэкапов и процесс «забывания» данных.

Утечки через логи и дампы

Даже правильная СУБД не спасёт, если данные уходят в:

application‑логи (SQL/запросы с PII), трассировки, метрики;
дампы и снапшоты для отладки;
тестовые окружения без маскирования.

Это влияет на конфигурацию (редактирование логов, маскирование, запрет дампов на проде), а иногда и на выбор: нужен ли встроенный data masking, тонкая настройка аудита и «безопасные» инструменты экспорта.

Комбинации хранилищ: когда один тип СУБД не закрывает всё

Деплой после проверки гипотез

Доведите прототип до доступного окружения для команды и стейкхолдеров.

Развернуть приложение

Одна СУБД редко идеально закрывает весь продукт: у разных частей системы разные «законы физики» — задержки, объёмы, тип запросов, требования к согласованности. Поэтому в зрелых продуктах часто появляется связка из нескольких хранилищ, где каждое отвечает за свой класс задач.

Сценарий «добавим поиск»

Частая реакция LLM: «нужен отдельный поисковый движок». Иногда да — но не всегда.

Если поиск простой (фильтры, сортировки, префиксы, полнотекст по коротким полям) и объёмы умеренные, его можно закрыть:

возможностями самой SQL‑СУБД (полнотекст, индексы, триграммы),
специализированными индексами в рамках текущего хранилища,
предрасчитанными витринами/материализованными представлениями.

Отдельная система поиска оправдана, когда нужны сложная релевантность, подсветка, морфология, «фасеты» на больших данных, высокая скорость переиндексации и независимое масштабирование. Важно помнить: «поиск» почти всегда живёт рядом с основной БД, а не вместо неё — нужно продумать обновление индекса, задержки и обработку удалений.

Событийные данные + транзакционные данные

Транзакции (заказы, платежи, статусы) обычно требуют строгой целостности и понятной модели — это зона OLTP.

События (клики, просмотры, телеметрия) — это поток, большие объёмы и аналитические запросы. Часто выгоднее разделить:

OLTP‑хранилище для «истины» продукта,
отдельное хранилище/витрину для событий и аналитики (OLAP), чтобы тяжёлые отчёты не мешали транзакциям.

Кэш, очередь, OLTP/OLAP: границы ответственности

Типовая связка выглядит так: OLTP‑БД хранит первичные данные, кэш ускоряет горячие чтения, очередь/стриминг буферизует события и развязывает сервисы по времени, а OLAP отвечает за отчёты и агрегаты.

Критично зафиксировать, что является источником истины и где допустима «устаревшая» информация (например, кэш может отставать на секунды, а отчёты — на минуты/часы).

Риски усложнения

Больше систем — больше отказов и операций: мониторинг, бэкапы, миграции, права доступа, инциденты, стоимость. Комбинацию стоит вводить только при явной боли (нагрузка, SLA, функциональность) и с планом синхронизации данных; иначе «архитектура из кубиков» начнёт съедать команду быстрее, чем принесёт пользу.

Как проверять рекомендации LLM: вопросы, матрица, тесты

Рекомендация LLM по СУБД — это гипотеза, а не решение. Проверка должна быстро выявлять, какие требования модель не спросила и какие компромиссы она «спрятала». Ниже — практичный набор шагов, который можно выполнить за 1–3 дня до того, как команда «залипнет» в выбранную технологию.

Чек‑лист уточняющих вопросов (10–15)

Какие 3–5 ключевых пользовательских сценариев создают основную нагрузку?
Какие операции критичны по задержке (поиск, запись, отчёты, рекомендации)?
Какие объёмы данных ожидаются через 3/12/24 месяца?
Какая доля чтений/записей и как она меняется по времени?
Нужны ли транзакции и какая модель консистентности приемлема?
Есть ли денежные/юридические последствия ошибки записи?
Какие запросы самые «тяжёлые» (агрегации, джойны, гео, full‑text)?
Как часто меняется схема/модель данных?
Нужны ли фоновые пересчёты, очереди, события?
Требуются ли multi‑tenant, изоляция клиентов, квоты?
RPO/RTO: сколько данных можно потерять и как быстро восстановиться?
Где будет запуск: облако/он‑прем, ограничения по провайдерам?
Требования по безопасности: шифрование, аудит, ключи, роли?
Бюджет на эксплуатацию и команда: кто будет администрировать?
Какие интеграции обязательны (BI, CDC, аналитика)?

Матрица выбора: критерии, веса, кандидаты

Сделайте таблицу: критерии (транзакции, запросы, масштабирование, стоимость, операционная сложность, безопасность) → веса (например, 1–5) → кандидаты (2–4 СУБД) → явные компромиссы. Важно фиксировать почему поставили вес и какой риск принимаете.

Мини‑прототипы и нагрузочные тесты

Соберите минимальный стенд: 3–7 критичных запросов, примерные данные (хотя бы 1–10% от годового объёма), индексы и типовые обновления.

В тестах измеряйте: p95/p99 задержек, пропускную способность, блокировки/конфликты, рост индексов и размер хранилища, время восстановления/репликации, поведение при деградации.

Фиксация решения

Ведите «журнал допущений»: какие условия должны быть верны (нагрузка, консистентность, бюджет, RPO/RTO) и триггеры пересмотра (рост данных, новые отчёты, требования комплаенса). Это превращает выбор СУБД из мнения в управляемое решение.

Как правильно просить LLM о выборе СУБД

Тестируйте и окупайте эксперименты

Заработайте кредиты за контент о ваших экспериментах или за приглашения коллег.

Получить кредиты

Главная ошибка промпта — попросить «какую СУБД выбрать» и получить одно название без контекста. Гораздо полезнее требовать от LLM структуру: критерии → кандидаты → риски → план проверки. Тогда ответ становится проверяемым, а места с допущениями — видимыми.

Просите не «ответ», а процесс

Включите в запрос явное требование: «сначала перечисли критерии выбора, затем предложи 2–4 варианта, для каждого — ограничения и риски». Это снижает шанс, что модель подберёт популярную технологию «по инерции».

Заставьте ссылаться на ваши вводные и отмечать неизвестное

Попросите модель для каждого вывода указывать, на какой факт из вводных она опирается, а параметры, которых не хватает, помечать как unknown и превращать в вопросы. Например: объём данных, RPO/RTO, пики нагрузки, география, требования к транзакциям, срок хранения, бюджет на эксплуатацию.

Требуйте альтернативы и сценарии отказа

Добавьте пункт: «Для выбранного варианта опиши 3 сценария, где он провалится, и что делать (шардирование, кэш, смена движка, вынос поиска/аналитики)». Это помогает увидеть, что именно ломается: латентность, блокировки, стоимость, сложность бэкапов.

Метод «красной команды»

Отдельным запросом попросите: «Опровергни предыдущую рекомендацию. Предложи, почему она неверна при других реалистичных допущениях». Сравните аргументы и уточните вводные.

Удобный шаблон вывода

Попросите выдавать результат в форме:

Таблица критериев (нагрузка, консистентность, запросы, схема, SLA, стоимость)
Допущения и неизвестные параметры
Кандидаты (2–4) + риски/trade‑offs
План валидации (минимальный прототип, набор запросов, нагрузочное тестирование, проверка бэкапов и восстановления)

Короткие кейсы: типичные ошибки и как их поймать

Пример 1: продукт с транзакциями и отчётами — почему выбор может быть гибридным

Типичная рекомендация LLM: «берите одну реляционную СУБД, она всё потянет». Ошибка в том, что транзакционная часть (заказы, оплаты, статусы) и аналитика (срезы по периодам, когортам, менеджерам) создают разные профили нагрузки. Одно хранилище часто превращается в компромисс: либо отчёты мешают транзакциям, либо транзакции ограничивают аналитические запросы.

Вопросы, которые стоило задать:

Какие SLA по записи/чтению в «боевом» контуре и как часто строятся отчёты?
Нужны ли «срезы на сейчас» или отчёты могут быть с задержкой 5–30 минут?
Какие запросы самые тяжёлые: JOIN’ы по нескольким таблицам, агрегации, полнотекст?

Тест, который подтвердит выбор:

Два нагрузочных профиля: 1) транзакции с пиками; 2) отчёты с реальными агрегациями. Прогоните вместе и отдельно, сравните p95 задержек и влияние отчётов на запись.

Пример 2: сервис событий/логов — где модель путает требования ретеншна и запросов

LLM нередко предлагает «временные ряды» или «документы» без уточнения: сколько хранить, как удалять и что именно ищут пользователи. В результате выбирают хранилище, где ретеншн реализуется неудобно, а нужные запросы (по нескольким полям, с фильтрами и группировками) оказываются дорогими.

Вопросы:

Ретеншн: 7 дней, 90 дней, год? Нужны ли разные политики по типам событий?
Основные запросы: поиск конкретного события, агрегаты по полям, «top‑N», разрезы по тегам?
Объём: событий/сек, средний размер события, доля «горячих» данных.

Тест:

Прогон TTL/удаления на объёме, близком к продакшену, плюс 3–5 типовых запросов с измерением стоимости (время, CPU/IO, размер индексов).

Пример 3: сильно связанный домен — когда «граф» оправдан, а когда нет

Слово «отношения» часто приводит LLM к графовой СУБД, хотя «отношения» могут быть обычными связями в реляционной модели. Граф оправдан, когда ключевая ценность продукта — многоскачковые обходы (2–6 переходов), поиск путей, рекомендации по связям. Если же связи в основном укладываются в один‑два JOIN’а, граф добавит сложность без заметной выгоды.

Вопросы:

Есть ли запросы вида «найти путь/цепочку», «рекомендовать через общих соседей», «считать центральность»?
Какая глубина обхода типична и какой процент запросов — графовые?
Как часто меняются связи и нужно ли хранить историю изменений?

Тест:

Снимите 10–20 реальных сценариев запросов (включая глубину обхода) и сравните прототипы: реляционная модель с индексами vs граф. Критерии — p95, предсказуемость времени, стоимость индексации и обновлений.

Как это ускорить на практике (и где может помочь TakProsto.AI)

Главная ценность советов LLM — быстро собрать гипотезы и список уточняющих вопросов. Дальше важнее не «спорить про названия СУБД», а быстро пройти цикл требования → прототип → измерения → решение.

В этом месте удобно подключать TakProsto.AI: на платформе можно в режиме чата собрать рабочий скелет веб‑сервиса (React + Go + PostgreSQL), набросать ключевые сценарии чтения/записи, подготовить минимальные API и быстро получить основу для мини‑прототипов и нагрузочных прогонов. Если гипотеза по данным меняется, помогают снапшоты и откат, а при успешном результате — экспорт исходников и развёртывание/хостинг. Это особенно практично, когда есть требования по локализации и размещению: TakProsto.AI работает на серверах в России и не отправляет данные за пределы страны.

По стоимости можно начать с бесплатного тарифа, а для команды и процессов — перейти на pro/business/enterprise. Дополнительно у платформы есть реферальная программа и earn credits за контент — полезно, если вы всё равно планируете делиться результатами экспериментов и сравнений.

FAQ

Что на самом деле означает фраза «LLM выбрала базу данных»?

LLM обычно не делает инженерный расчёт. Она:

вытаскивает из описания сущности и действия (пользователь, заказ, логирование);
сопоставляет их с типовыми паттернами (транзакции → SQL, поиск → поиск-движок, события → TS/OLAP);
заполняет пробелы «средними» предположениями.

Результат — гипотеза, которую команда должна проверить цифрами и тестами.

Почему советы LLM по выбору СУБД стали такими популярными?

Потому что это быстрый способ получить черновик вариантов и список компромиссов. Полезно на ранней стадии, чтобы:

не забыть альтернативы (OLTP/OLAP/поиск/кэш);
сформировать чек-лист вопросов к продукту и команде;
наметить план проверки (матрица критериев + прототип).

Но это не заменяет нагрузочные тесты и оценку эксплуатации.

Какие данные нужно дать LLM, чтобы рекомендация по СУБД была ближе к реальности?

Дайте измеримые вводные и примеры:

RPS, пики, p95/p99 по ключевым операциям;
объём данных сейчас и прогноз на 3/12/24 месяца;
retention/TTL и политика удаления;
5–10 типовых запросов (фильтры, сортировки, агрегации, топ-N);
требования к транзакциям, RPO/RTO, география;
ограничения по бюджету и компетенциям команды.

Чем меньше «общих слов», тем меньше модель будет додумывать.

Какие сигналы сильнее всего влияют на рекомендацию СУБД у LLM?

Чаще всего:

структура данных (сущности, связи, жёсткость схемы);
профиль запросов (JOIN/агрегации/полнотекст/гео/топ-N);
нагрузка и рост (пики, сезонность, многорегиональность);
нефункциональные ограничения (SLA, RPO/RTO, бюджет, навыки эксплуатации).

Если вы не описали запросы и SLA, модель почти неизбежно попадёт в «средний сценарий».

Как быстро понять, какой тип СУБД подходит под мой сценарий?

Проверьте, какой класс задач доминирует:

Реляционная (SQL): транзакции, целостность, сложные связи и предсказуемые запросы.
Документная/ключ-значение: гибкая схема, простые операции по ключу, быстрый CRUD.
Колоночная/OLAP: большие сканы, отчёты, агрегаты по миллиардам строк.
Графовая: многошаговые обходы связей (2–6 переходов), поиск путей, антифрод по цепочкам.
Тайм-серии: метрики/телеметрия, окна времени, downsampling, строгий retention.

Если LLM предлагает «одну СУБД на всё», это повод уточнить контуры OLTP и OLAP.

Где LLM чаще всего ошибается при постановке задачи выбора СУБД?

Самые типовые промахи:

подстановка «усреднённого интернет‑магазина», когда вводных мало;
выбор «модного» решения вместо подходящего по критериям;
игнорирование профиля запросов (сортировки, пагинация, агрегации, блокировки);
обещание универсальности («закроем транзакции, аналитику и поиск одним хранилищем»).

Практика: сначала попросите LLM перечислить неизвестные параметры, и только потом — варианты.

Как распознать «галлюцинации» и устаревшие утверждения в ответе LLM?

Признаки повышенного риска:

точные цифры и гарантии без условий (версия, конфигурация, провайдер);
заявления вида «и строго консистентно, и без задержек, и всегда доступно» без trade-off;
ссылки на возможности, которые могут быть доступны только в отдельных редакциях/опциях;
уверенный тон при отсутствии ваших чисел (RPS, p95/p99, RPO/RTO).

Хорошее правило: любые «конкретные обещания» проверять документацией и прототипом.

Какие эксплуатационные вопросы LLM обычно пропускает, а зря?

Попросите LLM оценить не только функциональность, но и эксплуатацию:

RPO/RTO: как часто бэкапы, где хранятся, как тестируется восстановление;
отказоустойчивость: что происходит при падении зоны/ноды, нужен ли ручной режим;
наблюдаемость: метрики, алерты, профилирование медленных запросов, анализ блокировок;
TCO: не только диски/лицензии, но и бэкапы, трафик, время админов, обучение.

Если ответ этого не покрывает — это «витринная» рекомендация.

Когда оправдана связка из нескольких хранилищ вместо одной СУБД?

Часто один контур не закрывает всё. Типовые комбинации:

OLTP + OLAP: транзакции отдельно, аналитика/отчёты отдельно, чтобы отчёты не душили запись.
Основная БД + поиск: индекс для полнотекста/фасетов, синхронизация и обработка удалений.
OLTP + кэш/очередь: кэш для горячих чтений, очередь/стриминг для событий и развязки по времени.

Цена — рост сложности (мониторинг, права, миграции). Добавляйте второе хранилище только при явной боли.

Как проверять рекомендацию LLM по СУБД на практике (вопросы, матрица, тесты)?

Сделайте проверяемый процесс:

Чек-лист вопросов: сценарии нагрузки, запросы, транзакции, RPO/RTO, безопасность, бюджет.
Матрица выбора: критерии → веса (1–5) → 2–4 кандидата → явные риски.
Мини‑прототип: 3–7 критичных запросов, реалистичные индексы, данные 1–10% годового объёма.
Нагрузочные тесты: p95/p99, конфликты/блокировки, рост индексов, восстановление.

Фиксируйте «журнал допущений» и триггеры пересмотра решения.

31 авг. 2025 г.·8 мин

Как LLM выбирают базу данных под продукт и где ошибаются

Что мы называем «выбором базы данных LLM»

Что именно делает модель

LLM не измеряет вашу нагрузку и не читает ваш код. Она:

выделяет из описания сущности и действия (пользователь, заказ, корзина, логирование);
предполагает класс требований (ACID, гибкая схема, полнотекстовый поиск, аналитика);
достраивает недостающие детали «по умолчанию» на основе увиденных ранее примеров.

По сути это ближе к консультации «по симптомам», чем к проектированию архитектуры данных.

Почему такие советы стали популярны

Где проходит граница ответственности

Что будет дальше в статье

Как LLM выводят требования из описания продукта

Какие входные данные обычно видит модель

Как LLM «достраивает» недостающие детали

Превращение текста в критерии

Из описания LLM обычно извлекает (или домысливает) такие параметры:

Консистентность: нужна ли транзакционность и строгие инварианты (балансы, складские остатки).
Задержка: интерактивные запросы vs пакетная обработка.
Объём и рост: размер данных, retention, требования к архивированию.
Профиль запросов: чтение/запись, сложные JOIN, агрегации, полнотекст, гео.

Типовая цепочка вывода

Какие сигналы сильнее всего влияют на рекомендацию СУБД

1) Данные и модель: что именно вы храните

Самый сильный фактор — структура данных: сущности, связи и то, насколько они «жёсткие».

2) Паттерны доступа: как данные читают и пишут

LLM сильно реагирует на формулировки про запросы:

«сложные фильтры», «отчёты», «группировки», «много срезов» → аналитические и реляционные варианты
«ключ-значение», «быстрые чтения по id», «кэш», «сессии» → KV/кэш-хранилища
«поиск по тексту», «морфология», «релевантность» → движки полнотекстового поиска
«временные ряды», «окна», «агрегации по времени» → TSDB/колоночные решения

3) Нагрузка: пики, рост и география

4) Нефункциональные ограничения: люди, деньги и SLA

Даже идеальная по модели данных СУБД может быть плохим выбором, если её некому поддерживать.

LLM обычно учитывает такие сигналы:

бюджет (лицензии/облако/железо)
компетенции команды (что умеют администрировать и тюнинговать)
требования к эксплуатации (бэкапы, обновления, мониторинг)
SLA/доступность (RTO/RPO, требования к отказоустойчивости)

Карта соответствий: типы СУБД и типовые потребности продукта

Реляционные СУБД (SQL)

Документные и ключ-значение (NoSQL)

Колонковые и аналитические хранилища

Графовые СУБД

Тайм-серии

Где LLM чаще всего ошибаются в постановке задачи

Недосказанные требования: подстановка «среднего» сценария

Подмена задачи: «модно» вместо «подходит»

Игнорирование профиля запросов

LLM часто недооценивает, что «тип данных» менее важен, чем «тип запросов». Разница между:

частыми джойнами и сложными агрегациями;
поиском по тексту и ранжированием;
сортировками с пагинацией;
транзакциями и блокировками

может радикально изменить выбор.

Переоценка универсальности: «одна база решит всё»

Системные причины сбоев: данные обучения и «галлюцинации»

Масштабируйте процесс, не обещания

Начните с free и переходите на pro, business или enterprise по мере роста.

Выбрать тариф

Смещение к популярным решениям

Устаревшие знания о версиях и ценах

неактуальные лимиты (которые уже сняты или, наоборот, появились позже);
функции «по умолчанию», которые доступны только в определённых редакциях/провайдерах;
неверные предположения о стоимости хранения, IOPS, сетевого трафика.

«Галлюцинации» характеристик

Смешение понятий и компромиссов

Слепая зона эксплуатации: надёжность, бэкапы, стоимость

Резервное копирование и восстановление

Практический минимум, который стоит проговорить:

Как часто делаем бэкапы и где они хранятся (другой регион/контур).
Есть ли проверенный план восстановления, а не только «настроенные бэкапы».
Проводятся ли регулярные тесты восстановления на отдельном стенде (иначе RTO — фантазия).

Репликация и отказоустойчивость

Наблюдаемость: метрики и поиск узких мест

Если СУБД нельзя нормально наблюдать, вы будете чинить инциденты «вслепую». Проверяйте, что в стеке есть:

метрики (задержки, ошибки, насыщение диска/CPU, очередь репликации),
алерты с понятными порогами,
трассировка и профилирование медленных запросов,
инструменты для анализа блокировок и конкуренции транзакций.

Стоимость владения (TCO)

Безопасность и соответствие требованиям: что LLM легко пропускают

Доступ и управление привилегиями

Спросите у команды не только «сколько пользователей», а как именно устроен доступ:

роли (админы, операторы, аналитики, сервисные аккаунты), раздельность обязанностей;
принцип наименьших привилегий: кто может читать/писать какие таблицы/коллекции;
аудит: какие действия должны логироваться (чтение PII, изменение прав, выгрузки), где хранить аудит‑логи и как защищать их от подмены.

Шифрование, ключи и секреты

Уточняйте заранее:

шифрование «в покое» и «в транзите»: обязательны ли TLS/mTLS, нужны ли отдельные политики для бэкапов;
где живут ключи (KMS/HSM), кто имеет право ротации, каков SLA на компрометацию;
хранение секретов: как приложения получают креды (short‑lived токены vs статические пароли).

Выбор СУБД меняется, если нужно клиентское шифрование, BYOK/HYOK или строгая ротация ключей.

Регуляторные ограничения и право на удаление

LLM может не спросить про:

географию данных (где можно хранить и обрабатывать);
сроки хранения и режимы ретенции;
удаление по запросу: должно ли быть «физическое» удаление, как обрабатываются реплики, бэкапы, кэши и индексы.

Утечки через логи и дампы

Даже правильная СУБД не спасёт, если данные уходят в:

application‑логи (SQL/запросы с PII), трассировки, метрики;
дампы и снапшоты для отладки;
тестовые окружения без маскирования.

Комбинации хранилищ: когда один тип СУБД не закрывает всё

Деплой после проверки гипотез

Доведите прототип до доступного окружения для команды и стейкхолдеров.

Развернуть приложение

Сценарий «добавим поиск»

Частая реакция LLM: «нужен отдельный поисковый движок». Иногда да — но не всегда.

возможностями самой SQL‑СУБД (полнотекст, индексы, триграммы),
специализированными индексами в рамках текущего хранилища,
предрасчитанными витринами/материализованными представлениями.

Событийные данные + транзакционные данные

Транзакции (заказы, платежи, статусы) обычно требуют строгой целостности и понятной модели — это зона OLTP.

OLTP‑хранилище для «истины» продукта,
отдельное хранилище/витрину для событий и аналитики (OLAP), чтобы тяжёлые отчёты не мешали транзакциям.

Кэш, очередь, OLTP/OLAP: границы ответственности

Риски усложнения

Как проверять рекомендации LLM: вопросы, матрица, тесты

Чек‑лист уточняющих вопросов (10–15)

Какие 3–5 ключевых пользовательских сценариев создают основную нагрузку?
Какие операции критичны по задержке (поиск, запись, отчёты, рекомендации)?
Какие объёмы данных ожидаются через 3/12/24 месяца?
Какая доля чтений/записей и как она меняется по времени?
Нужны ли транзакции и какая модель консистентности приемлема?
Есть ли денежные/юридические последствия ошибки записи?
Какие запросы самые «тяжёлые» (агрегации, джойны, гео, full‑text)?
Как часто меняется схема/модель данных?
Нужны ли фоновые пересчёты, очереди, события?
Требуются ли multi‑tenant, изоляция клиентов, квоты?
RPO/RTO: сколько данных можно потерять и как быстро восстановиться?
Где будет запуск: облако/он‑прем, ограничения по провайдерам?
Требования по безопасности: шифрование, аудит, ключи, роли?
Бюджет на эксплуатацию и команда: кто будет администрировать?
Какие интеграции обязательны (BI, CDC, аналитика)?

Матрица выбора: критерии, веса, кандидаты

Мини‑прототипы и нагрузочные тесты

Фиксация решения

Как правильно просить LLM о выборе СУБД

Тестируйте и окупайте эксперименты

Заработайте кредиты за контент о ваших экспериментах или за приглашения коллег.

Получить кредиты

Просите не «ответ», а процесс

Заставьте ссылаться на ваши вводные и отмечать неизвестное

Требуйте альтернативы и сценарии отказа

Метод «красной команды»

Удобный шаблон вывода

Попросите выдавать результат в форме:

Таблица критериев (нагрузка, консистентность, запросы, схема, SLA, стоимость)
Допущения и неизвестные параметры
Кандидаты (2–4) + риски/trade‑offs
План валидации (минимальный прототип, набор запросов, нагрузочное тестирование, проверка бэкапов и восстановления)

Короткие кейсы: типичные ошибки и как их поймать

Пример 1: продукт с транзакциями и отчётами — почему выбор может быть гибридным

Вопросы, которые стоило задать:

Какие SLA по записи/чтению в «боевом» контуре и как часто строятся отчёты?
Нужны ли «срезы на сейчас» или отчёты могут быть с задержкой 5–30 минут?
Какие запросы самые тяжёлые: JOIN’ы по нескольким таблицам, агрегации, полнотекст?

Тест, который подтвердит выбор:

Два нагрузочных профиля: 1) транзакции с пиками; 2) отчёты с реальными агрегациями. Прогоните вместе и отдельно, сравните p95 задержек и влияние отчётов на запись.

Пример 2: сервис событий/логов — где модель путает требования ретеншна и запросов

Вопросы:

Ретеншн: 7 дней, 90 дней, год? Нужны ли разные политики по типам событий?
Основные запросы: поиск конкретного события, агрегаты по полям, «top‑N», разрезы по тегам?
Объём: событий/сек, средний размер события, доля «горячих» данных.

Тест:

Прогон TTL/удаления на объёме, близком к продакшену, плюс 3–5 типовых запросов с измерением стоимости (время, CPU/IO, размер индексов).

Пример 3: сильно связанный домен — когда «граф» оправдан, а когда нет

Вопросы:

Есть ли запросы вида «найти путь/цепочку», «рекомендовать через общих соседей», «считать центральность»?
Какая глубина обхода типична и какой процент запросов — графовые?
Как часто меняются связи и нужно ли хранить историю изменений?

Тест:

Снимите 10–20 реальных сценариев запросов (включая глубину обхода) и сравните прототипы: реляционная модель с индексами vs граф. Критерии — p95, предсказуемость времени, стоимость индексации и обновлений.

Как это ускорить на практике (и где может помочь TakProsto.AI)

FAQ

Что на самом деле означает фраза «LLM выбрала базу данных»?

LLM обычно не делает инженерный расчёт. Она:

вытаскивает из описания сущности и действия (пользователь, заказ, логирование);
сопоставляет их с типовыми паттернами (транзакции → SQL, поиск → поиск-движок, события → TS/OLAP);
заполняет пробелы «средними» предположениями.

Результат — гипотеза, которую команда должна проверить цифрами и тестами.

Почему советы LLM по выбору СУБД стали такими популярными?

не забыть альтернативы (OLTP/OLAP/поиск/кэш);
сформировать чек-лист вопросов к продукту и команде;
наметить план проверки (матрица критериев + прототип).

Но это не заменяет нагрузочные тесты и оценку эксплуатации.

Какие данные нужно дать LLM, чтобы рекомендация по СУБД была ближе к реальности?

Дайте измеримые вводные и примеры:

RPS, пики, p95/p99 по ключевым операциям;
объём данных сейчас и прогноз на 3/12/24 месяца;
retention/TTL и политика удаления;
5–10 типовых запросов (фильтры, сортировки, агрегации, топ-N);
требования к транзакциям, RPO/RTO, география;
ограничения по бюджету и компетенциям команды.

Чем меньше «общих слов», тем меньше модель будет додумывать.

Какие сигналы сильнее всего влияют на рекомендацию СУБД у LLM?

Чаще всего:

структура данных (сущности, связи, жёсткость схемы);
профиль запросов (JOIN/агрегации/полнотекст/гео/топ-N);
нагрузка и рост (пики, сезонность, многорегиональность);
нефункциональные ограничения (SLA, RPO/RTO, бюджет, навыки эксплуатации).

Если вы не описали запросы и SLA, модель почти неизбежно попадёт в «средний сценарий».

Как быстро понять, какой тип СУБД подходит под мой сценарий?

Проверьте, какой класс задач доминирует:

Реляционная (SQL): транзакции, целостность, сложные связи и предсказуемые запросы.
Документная/ключ-значение: гибкая схема, простые операции по ключу, быстрый CRUD.
Колоночная/OLAP: большие сканы, отчёты, агрегаты по миллиардам строк.
Графовая: многошаговые обходы связей (2–6 переходов), поиск путей, антифрод по цепочкам.
Тайм-серии: метрики/телеметрия, окна времени, downsampling, строгий retention.

Если LLM предлагает «одну СУБД на всё», это повод уточнить контуры OLTP и OLAP.

Где LLM чаще всего ошибается при постановке задачи выбора СУБД?

Самые типовые промахи:

подстановка «усреднённого интернет‑магазина», когда вводных мало;
выбор «модного» решения вместо подходящего по критериям;
игнорирование профиля запросов (сортировки, пагинация, агрегации, блокировки);
обещание универсальности («закроем транзакции, аналитику и поиск одним хранилищем»).

Практика: сначала попросите LLM перечислить неизвестные параметры, и только потом — варианты.

Как распознать «галлюцинации» и устаревшие утверждения в ответе LLM?

Признаки повышенного риска:

точные цифры и гарантии без условий (версия, конфигурация, провайдер);
заявления вида «и строго консистентно, и без задержек, и всегда доступно» без trade-off;
ссылки на возможности, которые могут быть доступны только в отдельных редакциях/опциях;
уверенный тон при отсутствии ваших чисел (RPS, p95/p99, RPO/RTO).

Хорошее правило: любые «конкретные обещания» проверять документацией и прототипом.

Какие эксплуатационные вопросы LLM обычно пропускает, а зря?

Попросите LLM оценить не только функциональность, но и эксплуатацию:

RPO/RTO: как часто бэкапы, где хранятся, как тестируется восстановление;
отказоустойчивость: что происходит при падении зоны/ноды, нужен ли ручной режим;
наблюдаемость: метрики, алерты, профилирование медленных запросов, анализ блокировок;
TCO: не только диски/лицензии, но и бэкапы, трафик, время админов, обучение.

Если ответ этого не покрывает — это «витринная» рекомендация.

Когда оправдана связка из нескольких хранилищ вместо одной СУБД?

Часто один контур не закрывает всё. Типовые комбинации:

OLTP + OLAP: транзакции отдельно, аналитика/отчёты отдельно, чтобы отчёты не душили запись.
Основная БД + поиск: индекс для полнотекста/фасетов, синхронизация и обработка удалений.
OLTP + кэш/очередь: кэш для горячих чтений, очередь/стриминг для событий и развязки по времени.

Цена — рост сложности (мониторинг, права, миграции). Добавляйте второе хранилище только при явной боли.

Как проверять рекомендацию LLM по СУБД на практике (вопросы, матрица, тесты)?

Сделайте проверяемый процесс:

Чек-лист вопросов: сценарии нагрузки, запросы, транзакции, RPO/RTO, безопасность, бюджет.
Матрица выбора: критерии → веса (1–5) → 2–4 кандидата → явные риски.
Мини‑прототип: 3–7 критичных запросов, реалистичные индексы, данные 1–10% годового объёма.
Нагрузочные тесты: p95/p99, конфликты/блокировки, рост индексов, восстановление.

Фиксируйте «журнал допущений» и триггеры пересмотра решения.