26 дек. 2025 г.·7 мин

Автогенерация тестов с Claude Code: просим и проверяем

Q: Почему просьба «покрой всё тестами» обычно дает плохой результат?

Начните со списка из 3–5 ключевых сценариев (включая негативные) и ожидаемых результатов простыми словами. Потом попросите ИИ сначала выдать тест-кейсы без кода , согласуйте их и только затем генерируйте код. Так вы получаете проверки, которые защищают поведение, а не «покрытие ради покрытия».

Q: Что обязательно подготовить перед автогенерацией тестов, чтобы ИИ не гадал?

Вам нужна хотя бы минимальная спецификация: - сигнатуры публичных функций/методов; - примеры входов и ожидаемых выходов; - 5–7 правил поведения (что должно/не должно происходить); - список зависимостей и что можно мокать; - явные края: пусто/0/отрицательные/слишком длинные/дубликаты. Без этого ИИ начнет угадывать и закрепит случайные решения тестами.

Q: Какие тесты просить: юнит или интеграционные — с чего начать?

По умолчанию: - Юниты — для чистой бизнес-логики и граничных условий (быстро, стабильно). - Интеграционные — для стыков: БД, транзакции, HTTP/JSON, конфиги, миграции. Если у вас много «проводов» (БД, авторизация, внешние API), смещайтесь к большему числу интеграционных. Если много вычислений и правил — к юнитам.

Q: Какую пропорцию юнит и интеграционных тестов выбрать на практике?

Ориентир: - 70/30 (юнит/интеграционные) — когда чаще ломаются правила и расчеты. - 50/50 — когда чаще ломаются интеграции и конфигурация. - Больше интеграционных — когда активно меняете схему БД, миграции, контракты API. В промпте прямо укажите целевую долю, иначе модель может «завалить» проект сотнями юнитов там, где важнее проверить БД и контракты.

Q: Как правильно задать границы теста (SUT), чтобы не получить тесты на моки?

Сформулируйте SUT (system under test) одним предложением: - «SUT: метод сервиса заказов; тестируем бизнес-правила, не контроллер» . Дальше перечислите зависимости и решите: - что мокируем (сеть, внешние API, время, рандом); - что оставляем реальным (валидации, маппинг, внутренние правила). Чем яснее границы, тем меньше бессмысленных моков и «хрупких» тестов.

Q: Как сформулировать запрос к ИИ, чтобы тесты были полезными, а не формальными?

Пишите промпт так, чтобы сначала был тест-план , потом код: - «Сначала перечисли 8–12 тест-кейсов: название, вход, ожидание/ошибка, что мокать. Код пока не пиши». - Затем: «Теперь по согласованному плану сгенерируй тесты в стиле Arrange–Act–Assert, один смысл на тест, без проверок внутренней реализации». Это резко снижает шанс получить копипасту и проверки «не упало».

Q: Как не забыть негативные кейсы и проверки ошибок при генерации?

Просите негативные кейсы явно и конкретно: - какие ошибки ожидаются (тип/код/сообщение — что важно); - что должно произойти со состоянием (ничего не записывать, откатить транзакцию, не отправлять событие); - какие внешние вызовы запрещены (например, «не дергать реальный HTTP»). Если негативные сценарии не попросить, модель часто ограничится «счастливым путем».

Q: Чем интеграционные тесты отличаются от E2E и как не смешать уровни?

Не просите E2E, если они не нужны. Зафиксируйте: - интеграционные : один сервис + его зависимости (например, сервис + PostgreSQL); - не тестируем : UI, полный пользовательский путь, несколько сервисов одновременно. Прямо напишите в требованиях: «без UI и без прогона полного пользовательского сценария».

Q: Как быстро оценить качество сгенерированных тестов до CI?

Сделайте быстрые проверки за 10–15 минут: - слегка переставьте строки/переименуйте переменную — тесты не должны падать; - сделайте мини-мутацию ( на , инвертируйте условие) — хотя бы один тест должен упасть; - удалите важный assert — тест должен стать красным; - проверьте, что ассерты про результат/ошибку/побочные эффекты , а не про порядок вызовов. Если тесты падают от рефакторинга, они завязаны на реализацию, а не на поведение.

Q: Какие самые частые ошибки в автогенерации тестов и как их быстро исправить?

Самые частые проблемы: - нет границ — ИИ мокает всё подряд; - «юнит» внезапно тянет реальную БД/конфиги и становится медленным; - проверки про приватные детали (точный SQL, порядок вызовов); - нет краев и ошибок (пустые, дубликаты, таймауты); - сравнение случайных деталей (порядок элементов, конкретные ID, формат даты без контракта). Лечится одним приемом: фиксируйте SUT, зависимости и контракт вход/выход в промпте и просите сначала тест-кейсы, потом код.

Автогенерация тестов с Claude Code: какие юнит и интеграционные тесты просить, как фиксировать границы и быстро оценивать качество еще до CI.

Задача: получить полезные тесты, а не просто много файлов

Обычно боль простая: тестов нет, релиз близко, и любое небольшое изменение превращается в лотерею. Руки тянутся попросить ИИ: «покрой все тестами», чтобы быстро закрыть пробел.

Но автогенерация часто дает много строк и мало уверенности. Появляются тесты, которые повторяют реализацию, проверяют «что метод вызвался», завязаны на случайные детали или ломаются от любого рефакторинга. Формально покрытие растет, а риск багов почти не падает.

Если говорить честно, «экономит время» - это не количество файлов. Это когда вы меньше тратите времени на однообразную подготовку данных, быстрее ловите регрессии до ручной проверки и спокойно меняете код, потому что тесты проверяют поведение, а не внутренности.

Поэтому цель автогенерации тестов с Claude Code - получить небольшой набор проверок, которые защищают важные сценарии и дают понятный сигнал, когда поведение сломалось.

Есть ситуации, когда начинать с генерации не стоит. Если нет хотя бы минимальной спецификации (что должно происходить на входах и выходах), ИИ будет угадывать, и тесты закрепят случайные решения. Если в коде хаос: смешаны бизнес-правила и инфраструктура, нет явных границ, много скрытых зависимостей, то тесты будут либо «хрупкими», либо пустыми.

Практичный ориентир: сначала описываете 3-5 ключевых сценариев (включая негативные), фиксируете ожидаемый результат простыми словами, и только потом просите генерацию. Так вы получаете не «много тестов», а быстрый способ вернуть контроль над изменениями.

Какие тесты просить: юнит, интеграционные и где граница

Юнит тесты проверяют маленький кусок логики в изоляции: одну функцию, метод, правило расчета. Их задача - быстро ловить ошибки в бизнес-правилах и граничных случаях, не трогая сеть и базу.

Интеграционные тесты проверяют, что части системы реально работают вместе: код плюс база, код плюс HTTP-слой, код плюс очередь. Они медленнее и сложнее, зато находят ошибки в конфигурации, SQL, сериализации и обработке ошибок.

Как выбрать пропорцию

Часто советуют 70/30 (юнит/интеграционные), но это не закон. Пропорция зависит от того, что чаще ломается.

70/30 подходит, когда много чистой логики и нужен быстрый фидбек на каждом изменении.
50/50 уместно, когда приложение в основном про интеграции (БД, внешние API, авторизация), и «провода» ломаются чаще логики.
Больше интеграционных имеет смысл, если вы часто меняете схему БД, миграции, контракты запросов и ответы.

Если просите автогенерацию тестов с Claude Code, заранее укажите целевую долю. Иначе модель легко «завалит» проект десятками юнитов там, где важнее проверить связку с БД.

Где юнит почти всегда лучше

Юнитами выгодно покрывать чистую бизнес-логику: валидации, расчеты, преобразования, правила доступа, выбор веток по статусам. Например, в Go-сервисе можно юнитами проверить, как собирается SQL-запрос или как считается стоимость заказа, а доступ к PostgreSQL заменить заглушкой.

Интеграционным тестам оставьте то, что ломается на стыках: реальные запросы к PostgreSQL, обработку транзакций, HTTP-обработчики и сериализацию JSON, работу с внешними сервисами и очередями (хотя бы через тестовый стенд или контейнер).

Важно не перепутать интеграционные и E2E. Интеграционный тест обычно проверяет один сервис и его зависимости (например, сервис + БД). E2E проверяет пользовательский сценарий целиком через UI и несколько сервисов. Если вам не нужны E2E, так и пишите: «без UI и без прогонки полного пользовательского пути».

Как фиксировать границы: предмет теста, моки и контракты

Генерация тестов лучше всего работает, когда вы заранее задаете границы. Иначе модель начнет угадывать архитектуру, тянуть в тесты лишние детали и плодить моки без смысла.

Первый шаг - назвать SUT (system under test): что именно проверяем. Это может быть одна функция, сервисный метод или use case. Чем точнее объект, тем проще понять, какие сценарии нужны и какие зависимости вообще имеют право появиться в тестах.

Дальше перечислите зависимости и решите, что мокируем, а что оставляем реальным. Хорошее правило: мокируем то, что делает тест медленным или нестабильным (сеть, внешние API, время), а реальным оставляем то, что формирует логику внутри модуля.

Отдельно фиксируйте контракт входов и выходов. Это не только «счастливый путь», но и ошибки, пустые значения, границы диапазонов, дубликаты, отсутствие прав. Если контракт не записан, тесты почти всегда получаются поверхностными и часто проверяют только «не упало».

Полезно заранее сказать, что считается «не тестируем». Например: логирование, внутренние детали фреймворка, формат UI-отступов, конфигурация DI-контейнера, точные тексты технических сообщений (если они не часть контракта).

Перед генерацией добавьте 5-10 строк правил. Пример, который можно копировать и править под задачу:

SUT: метод createOrder() сервиса заказов; тестируем бизнес-правила, не контроллер.
Зависимости: мок PaymentGateway, мок EmailSender, реальная валидация входа.
БД: для юнитов не трогаем; для интеграционных используем тестовую базу.
Контракт: на входе список позиций и пользователь; на выходе orderId или ошибка.
Ошибки: нет товара, отрицательное количество, отказ оплаты.

Короткий пример: если SUT - расчет скидки, явно запретите тестировать округление «как в UI» и разрешите проверять только финальную сумму и причины отказа. Тогда тесты будут про правила, а не про оформление.

Как формулировать запрос: что дать ИИ, чтобы он не гадал

Автогенерация тестов с Claude Code лучше всего работает, когда вы не просите «напиши тесты», а задаете рамки: что именно тестируем, какие правила важны, и как вы поймете, что тесты получились нормальными. Тогда модель меньше выдумывает поведение и не плодит бесполезные проверки.

Дайте минимальный контекст, без которого тесты будут гаданием: сигнатуры функций и публичных методов, примеры входов и ожидаемых выходов, важные бизнес-правила (в одну-две строки каждое), а также список зависимостей, которые можно мокать. Если есть пограничные условия (пустая строка, 0, отрицательные числа, слишком длинные значения) - перечислите их явно.

Отдельно попросите стиль тестов. Это кажется мелочью, но сильно влияет на читаемость и поддержку:

Пиши имена тестов как фразы: что дано, что делаем, что ожидаем.
Используй Arrange-Act-Assert, один смысл на один тест.
Не проверяй реализацию (внутренние детали), только поведение.
Добавляй короткий комментарий только там, где правило неочевидно.

Негативные кейсы нужно просить прямо: какие ошибки ожидаются, какой тип/текст/код ошибки важен, и что должно происходить с состоянием (ничего не записывать, не менять, не отправлять). Если в проекте приняты свои ошибки или коды, перечислите их.

Чтобы не получить копипасту, просите параметризацию: «сделай таблицу входов и ожиданий и оформи параметризованный тест». Это особенно полезно для валидаций и правил расчета.

Хороший прием - сначала запросить список тест-кейсов, а уже потом код. Например:

Сначала составь список тест-кейсов (без кода) для функции CreateOrder(input). Укажи: название кейса, вход, ожидаемый результат/ошибка, что мокать. После того как я подтвержу список, сгенерируй тесты в стиле Arrange-Act-Assert, с читаемыми именами, один смысл на тест, и где уместно - параметризованные тесты.
Вот сигнатура и правила: ...
Примеры входов/выходов: ...
Негативные сценарии обязательны: ...

Так вы сначала проверяете логику покрытия, и только затем тратите время на код тестов.

Рабочие шаблоны промптов для тестов

Rollback вместо ручной чистки

Если генерация дала шумные тесты, вернитесь к рабочей версии и попробуйте другой промпт.

Откатить

Если вы хотите, чтобы автогенерация тестов с Claude Code давала пользу, а не просто пачку файлов, просите результат в два прохода: сначала кейсы, потом код. Так вы быстрее ловите пропуски и лишнее, не читая десятки строк.

Шаблон 1: сначала список кейсов, потом код

Сначала попросите перечень сценариев и только после согласования - реализацию.

Сгенерируй тест-план для функции/модуля cИМЯe.
Формат: список кейсов (название, входные данные, ожидание) + отдельный блок «что НЕ тестируем».
После списка задай 3 вопроса, если есть неопределенности.
Код тестов пока не пиши.

После того как вы поправили план, второй запрос:

Теперь по согласованному тест-плану сгенерируй код тестов.
Требования: читаемые имена тестов, минимум флака, без лишних моков.

Шаблон 2: «вот границы, вот зависимости, вот что мокать»

Этот формат помогает зафиксировать, что является предметом теста, а что подменяем.

Пишем тесты для cИМЯe.
Границы:
- Тестируем только: cсписокe
- Не тестируем: cсписокe
Зависимости:
- Мокать: cчто и почемуe
- Не мокать: cчто должно быть реальнымe
Выход: сначала 8-12 тест-кейсов, потом код.

Шаблон 3: тесты по контракту (вход - ожидание - ошибка)

Удобно, когда поведение можно описать таблицей.

Сгенерируй набор тестов по контракту.
Сначала составь таблицу:
| Сценарий | Вход | Ожидание | Ошибка/исключение |
Заполни минимум 10 строк, включая 3 негативных.
После моего «ОК» сгенерируй код тестов строго по таблице.

Шаблон 4: рефактор после генерации

Хорошие тесты обычно короче, чем первый черновик.

Отрефактори сгенерированные тесты:
- Убери дубли, сгруппируй по поведению
- Переименуй тесты так, чтобы читались как требования
- Оставь комментарии только там, где без них не понять смысл
Покажи дифф или перечисли точные правки.

Чтобы комментариев не стало слишком много, уточняйте правило: «комментарий только если объясняет бизнес-смысл или неочевидную причину мока; не комментировать очевидные шаги».

Пошаговый процесс: от требований к тестам до готового набора

Самый быстрый путь к нормальным тестам начинается не с генерации, а с коротких правил поведения. Выберите один небольшой модуль (один файл или один сервис) и запишите 5-7 правил простыми словами: что должно происходить, что не должно, какие ошибки ожидаем, какие входные данные считаем валидными.

Дальше включайте автогенерацию тестов с Claude Code, но сначала просите не код, а набор кейсов. Пусть ИИ предложит сценарии и ожидаемые результаты, а вы быстро отметите лишнее, добавите пропущенное и уточните крайние случаи. Это занимает минуты и экономит часы переделок.

После согласования кейсов зафиксируйте границы: где будут моки, а где реальные зависимости. Для юнит-тестов обычно договариваются, что сеть и база не трогаются, а время и рандом стабилизируются. Для интеграционных тестов решите, какие данные нужны, как их готовить и что важно проверять (контракт ответа, миграции, транзакции), а что не важно (внутренние детали реализации).

Держите процесс простым и повторяемым:

Сформулируйте правила поведения (5-7 штук) и входы-выходы.
Попросите ИИ выдать список тест-кейсов и согласуйте его.
Уточните моки, фикстуры и тестовые данные (минимум, но достаточно).
Сгенерируйте сначала юнит-тесты, затем 2-3 интеграционных на ключевые потоки.
Прогоните локально, исправьте падения, удалите дубли и тесты, которые ничего не проверяют.

Только после локального прогона имеет смысл коммитить и запускать CI. Если тесты падают на вашей машине, в CI они просто потратят время команды и замаскируют реальные проблемы в коде.

Как оценить качество тестов до CI: быстрые проверки

Автогенерация тестов с Claude Code экономит время только если тесты реально ловят поломки, а не создают видимость активности. До запуска CI можно за 10-15 минут понять, что набор стоит оставлять, а что лучше перепросить.

Проверка смысла: тест про поведение, а не про строчки

Задайте простой вопрос: что сломается в продукте, если этот тест начнет падать? Хороший тест защищает договоренность (контракт) функции или API: правильный результат, корректная ошибка, нужный статус, сохранение данных.

Плохие сигналы обычно видны сразу: тесты повторяют внутренние шаги реализации, слишком много моков ради того, чтобы тест вообще запустился, и почти нет проверок результата (assert есть, но он про «не упало» или «вызвалось»). Такие тесты хрупкие: малейший рефакторинг и все красное, хотя поведение не менялось.

Быстрая проверка устойчивости (и мини-мутации руками)

Сделайте короткую серию проверок, не дожидаясь CI:

Переименуйте локальную переменную или чуть переставьте строки в функции. Если тесты упали, они завязаны на реализацию, а не на поведение.
Переименуйте поле в ответе только если это часть публичного контракта. Если поле внутреннее, а падают десятки тестов, значит, тесты слишком знают про внутренности.
Сделайте мини-мутацию: поменяйте > на >=, инвертируйте условие, уберите обработку ошибки. Хотя бы один тест должен упасть.
Удалите один важный assert. Если тест все равно зеленый, он, скорее всего, ничего не проверял.
Смотрите на покрытие как на вторичный сигнал: важно не число процентов, а то, что закрыты критические ветки (ошибки, граничные значения, пустые входы).

Пример: если у вас есть функция расчета скидки, тест должен падать, когда вы меняете правило округления или убираете проверку отрицательной суммы. Если он падает только из-за переименования переменной - перепросите генерацию и уточните, что тестируем именно входы/выходы и ошибки.

Частые ошибки при автогенерации тестов

Тестируйте смелее со snapshots

Сохраните состояние перед экспериментами с тестами, чтобы спокойно откатиться назад.

Сделать снапшот

Самая частая проблема в том, что автогенерация тестов с Claude Code начинается с просьбы «покрой все». В ответ вы получаете много файлов, но половина из них тестирует не то, что важно, а вторая половина ломается при любом рефакторинге.

Ошибка 1: нет границ, поэтому ИИ строит мир из моков

Если не сказать, что именно считается внешними зависимостями (БД, сеть, время, файловая система), модель начнет мокать все подряд. В итоге тесты проверяют, как вы замокали моки, а не поведение кода.

Ошибка 2: смешались уровни (юнит притворяется интеграционным)

Часто «юнит» тест внезапно поднимает реальную базу, читает конфиги, зависит от миграций и случайного порядка данных. Такой тест медленный и хрупкий, а диагностика проблем в нем плохая.

Ошибка 3: тестируются приватные детали вместо поведения

ИИ легко цепляется за внутренние функции, приватные поля, точные SQL-строки или порядок вызовов. Это делает тесты заложниками текущей реализации. Правильнее проверять входы и выходы: результат, ошибки, побочные эффекты, события.

Ошибка 4: забыты ошибки и края

Автогенерация часто покрывает «счастливый путь», но пропускает пустые значения, null, дубликаты, переполнение, таймауты, повторы запросов, частичные ответы. А именно там живут реальные баги.

Ошибка 5: тест завязан на текущие данные, а не на контракт

Тесты иногда сравнивают точные структуры, которые случайно совпали сегодня (порядок элементов, конкретные ID, формат даты), хотя контракт требует только часть полей или не фиксирует порядок.

Чтобы быстро поймать эти ошибки, держите в голове вопрос: «Если я завтра переименую переменную, поменяю внутреннюю реализацию или порядок запросов, должен ли тест упасть?» Например, для функции создания пользователя тест должен падать, если нарушен контракт (нельзя создать дубликат email), но не должен падать, если вы поменяли ORM или оптимизировали запрос.

Короткое правило: просите у ИИ тесты на поведение и контракты, а границы зависимостей фиксируйте заранее одним абзацем в промпте.

Короткий чеклист перед коммитом

Перед коммитом важно убедиться, что автогенерация тестов с Claude Code дала не просто пачку файлов, а набор проверок, которым вы будете доверять через месяц.

Пробегитесь глазами и проверьте:

Кейсы согласованы заранее: есть короткий список сценариев (что должно работать и что должно ломаться), и тесты реально ему соответствуют.
По каждому тесту ясно, что именно проверяем и почему это важно: одно поведение - один тест, без лишней логики внутри.
Граница между юнит и интеграционными держится: юнит тесты не ходят в сеть и БД, а интеграционные делают это осознанно (и видно, где именно).
Негативные кейсы не забыты: ошибки, невалидные данные, пустые значения, отсутствие прав, таймауты.
Тесты читаются за минуту: хорошие имена, понятная структура Arrange-Act-Assert, минимум шума (случайных данных, лишних моков, сложных фабрик).

Если что-то не проходит, лучше поправить сразу, пока контекст свежий. Например, если тест для Go-сервиса внезапно поднимает реальную PostgreSQL, а вы хотели юнит, это не мелочь: такие тесты будут флапать и тормозить.

Три правки, которые часто спасают набор: переименовать тесты так, чтобы они читались как фразы; убрать случайность (фиксировать время, UUID, порядок, сид для генераторов); разделить один большой тест на 2-3 маленьких, если он проверяет разные причины падения.

Финальная проверка простая: сможете ли вы по названиям тестов восстановить требования к функции? Если нет, тесты стоит упростить.

Простой пример: как попросить тесты и быстро понять, что они годные

Покройте бизнес-правила юнитами

Сгенерируйте юнит-тесты для чистой логики и добавьте только нужные моки.

Сгенерировать

Представьте сервис оформления заказа с расчетом скидки. Правила простые, но в них легко ошибиться: (1) скидка 10% для заказов от 3000, (2) скидка 15% для пользователей со статусом VIP, (3) скидка не больше 500 рублей, (4) итоговая сумма округляется до рубля.

Для автогенерации тестов с Claude Code заранее зафиксируйте границы. Мы тестируем расчет скидки и запись заказа. Платежный провайдер не трогаем, его мокируем. База данных в интеграционных тестах реальная (тестовая), потому что нас интересуют транзакции и конфликты.

Вот короткий запрос, который обычно дает адекватный результат:

Сгенерируй тесты для сервиса OrderService.
Контекст: Go, PostgreSQL. Функция CalculateDiscount(total, isVIP) -> discount, finalTotal.
Правила: 10% от 3000+, 15% для VIP, максимум 500 руб, округление finalTotal до рубля.
Нужно:
- Юнит-тесты только для CalculateDiscount: таблица кейсов, отдельные проверки округления и лимита 500.
- Интеграционные тесты для CreateOrder: запись в БД в транзакции, обработка конфликта (повторный orderId), откат при ошибке.
Границы: платежный клиент мок, внешние HTTP не вызывать.
Выведи: названия тестов, данные, ожидания, и почему каждый тест нужен.

Что особенно стоит просить, чтобы тесты были полезными:

Юнит: таблица кейсов на пороги (2999, 3000), VIP и не VIP, лимит 500, округление.
Интеграция: успешная транзакция с записью строк заказа, конфликт по orderId, откат при ошибке записи позиции.

Дальше быстрый способ оценить качество до CI - вручную «сломать» код и посмотреть, падают ли тесты по делу. Сделайте 1-2 правки:

Замените порог 3000 на 2000 или уберите лимит 500.
Уберите округление или округляйте не в ту сторону.

Если тесты не упали, значит они проверяют не то (или проверок мало). Если упали, но сообщение непонятное, попросите ИИ улучшить названия кейсов и тексты ошибок, чтобы причина была видна сразу.

Следующие шаги: закрепить процесс и масштабировать без боли

Когда первые тесты начали приносить пользу, превратите автогенерацию в повторяемый ритуал. Иначе она быстро скатится в «периодические подвиги» и будет разваливаться при каждом новом участнике команды.

Соберите короткий шаблон, который вы копируете в каждый запрос: что именно тестируем, где границы ответственности, какие зависимости можно мокать, и какие правила оформления нужны (названия тестов, структура файлов, стиль ассертов). Чем стабильнее этот шаблон, тем меньше «угадываний» и тем меньше правок руками.

Начните с одного модуля. Выберите участок, где часто бывают регрессии (например, расчеты цен, права доступа, форматирование данных), и доведите процесс до привычки: запрос -> проверка качества до CI -> правки -> коммит.

Минимальный стандарт в команде

Полезно договориться, что считается «хорошим тестом». Достаточно простого стандарта, который легко проверить глазами:

Тест проверяет поведение, а не внутреннюю реализацию.
Есть проверки на крайние случаи и ошибки, а не только «счастливый путь».
Моки используются только для внешних границ (сеть, база, время), а не для всего подряд.
Имена тестов объясняют сценарий человеческим языком.
Тесты детерминированы и не зависят от порядка запуска.

После этого добавьте легкий контроль качества: один человек в команде быстро просматривает новые тесты на соответствие стандарту, до того как они станут шумом в репозитории.

Если вы делаете приложение в TakProsto

Удобно сначала зафиксировать требования и границы в Planning Mode, а уже потом генерировать тесты по этому плану. Для безопасных итераций используйте snapshots и rollback: можно попробовать разные варианты тестов и откатиться, если набор стал хуже.

Когда тесты стабилизировались и вы понимаете, что именно должно проверяться, подумайте про экспорт исходников и дальнейший привычный процесс разработки. Если вы собираете продукт через TakProsto (takprosto.ai), этот подход хорошо ложится на работу маленькими итерациями: уточнили контракт -> обновили тесты -> проверили ключевые интеграции.

FAQ

Почему просьба «покрой всё тестами» обычно дает плохой результат?

Начните со списка из 3–5 ключевых сценариев (включая негативные) и ожидаемых результатов простыми словами. Потом попросите ИИ сначала выдать тест-кейсы без кода, согласуйте их и только затем генерируйте код.

Так вы получаете проверки, которые защищают поведение, а не «покрытие ради покрытия».

Что обязательно подготовить перед автогенерацией тестов, чтобы ИИ не гадал?

Вам нужна хотя бы минимальная спецификация:

сигнатуры публичных функций/методов;
примеры входов и ожидаемых выходов;
5–7 правил поведения (что должно/не должно происходить);
список зависимостей и что можно мокать;
явные края: пусто/0/отрицательные/слишком длинные/дубликаты.

Без этого ИИ начнет угадывать и закрепит случайные решения тестами.

Какие тесты просить: юнит или интеграционные — с чего начать?

По умолчанию:

Юниты — для чистой бизнес-логики и граничных условий (быстро, стабильно).
Интеграционные — для стыков: БД, транзакции, HTTP/JSON, конфиги, миграции.

Если у вас много «проводов» (БД, авторизация, внешние API), смещайтесь к большему числу интеграционных. Если много вычислений и правил — к юнитам.

Какую пропорцию юнит и интеграционных тестов выбрать на практике?

Ориентир:

70/30 (юнит/интеграционные) — когда чаще ломаются правила и расчеты.
50/50 — когда чаще ломаются интеграции и конфигурация.
Больше интеграционных — когда активно меняете схему БД, миграции, контракты API.

В промпте прямо укажите целевую долю, иначе модель может «завалить» проект сотнями юнитов там, где важнее проверить БД и контракты.

Как правильно задать границы теста (SUT), чтобы не получить тесты на моки?

Сформулируйте SUT (system under test) одним предложением:

«SUT: метод createOrder() сервиса заказов; тестируем бизнес-правила, не контроллер».

Дальше перечислите зависимости и решите:

что мокируем (сеть, внешние API, время, рандом);
что оставляем реальным (валидации, маппинг, внутренние правила).

Чем яснее границы, тем меньше бессмысленных моков и «хрупких» тестов.

Как сформулировать запрос к ИИ, чтобы тесты были полезными, а не формальными?

Пишите промпт так, чтобы сначала был тест-план, потом код:

«Сначала перечисли 8–12 тест-кейсов: название, вход, ожидание/ошибка, что мокать. Код пока не пиши».
Затем: «Теперь по согласованному плану сгенерируй тесты в стиле Arrange–Act–Assert, один смысл на тест, без проверок внутренней реализации».

Это резко снижает шанс получить копипасту и проверки «не упало».

Как не забыть негативные кейсы и проверки ошибок при генерации?

Просите негативные кейсы явно и конкретно:

какие ошибки ожидаются (тип/код/сообщение — что важно);
что должно произойти со состоянием (ничего не записывать, откатить транзакцию, не отправлять событие);
какие внешние вызовы запрещены (например, «не дергать реальный HTTP»).

Если негативные сценарии не попросить, модель часто ограничится «счастливым путем».

Чем интеграционные тесты отличаются от E2E и как не смешать уровни?

Не просите E2E, если они не нужны. Зафиксируйте:

интеграционные: один сервис + его зависимости (например, сервис + PostgreSQL);
не тестируем: UI, полный пользовательский путь, несколько сервисов одновременно.

Прямо напишите в требованиях: «без UI и без прогона полного пользовательского сценария».

Как быстро оценить качество сгенерированных тестов до CI?

Сделайте быстрые проверки за 10–15 минут:

слегка переставьте строки/переименуйте переменную — тесты не должны падать;
сделайте мини-мутацию (> на >=, инвертируйте условие) — хотя бы один тест должен упасть;
удалите важный assert — тест должен стать красным;
проверьте, что ассерты про результат/ошибку/побочные эффекты, а не про порядок вызовов.

Если тесты падают от рефакторинга, они завязаны на реализацию, а не на поведение.

Какие самые частые ошибки в автогенерации тестов и как их быстро исправить?

Самые частые проблемы:

нет границ — ИИ мокает всё подряд;
«юнит» внезапно тянет реальную БД/конфиги и становится медленным;
проверки про приватные детали (точный SQL, порядок вызовов);
нет краев и ошибок (пустые, дубликаты, таймауты);
сравнение случайных деталей (порядок элементов, конкретные ID, формат даты без контракта).

Лечится одним приемом: фиксируйте SUT, зависимости и контракт вход/выход в промпте и просите сначала тест-кейсы, потом код.