03 июл. 2025 г.·8 мин

Как Google создала трансформеры и уступила первенство GPT

Разбираем, как именно в Google придумали трансформеры — основу GPT, почему компания не стала лидером генеративного ИИ и что мешало вывести технологии в продукты.

Как Google создала трансформеры и уступила первенство GPT

Парадокс Google: придумали основу GPT, но проиграли старт

Google первой создала технологию, на которой построены GPT‑модели, — архитектуру трансформеров из статьи Attention Is All You Need (2017 год). Именно трансформеры сделали возможными ChatGPT и множество современных генеративных сервисов. Но вместо того чтобы стать очевидным лидером новой волны ИИ, Google отдала символическое первенство OpenAI.

Что такое GPT очень простыми словами

GPT можно описать как супер‑автодополнение текста.

Модель:

  • прочитала огромный объём текстов с сайтов, книг, кода;
  • научилась угадывать следующее слово в последовательности;
  • за счёт этого может продолжать мысль, отвечать на вопросы, писать код, резюмировать тексты — всё в формате диалога.

Внутри это не «разум» и не «знание мира», а очень мощный статистический механизм, который предсказывает наиболее подходящее продолжение текста, опираясь на то, что видел при обучении. Ключевая инженерная идея, которая позволяет делать это эффективно и масштабируемо, — как раз трансформеры, придуманные в Google.

Почему эта история важна для бизнеса и продуктов

История Google и GPT — это не только про ИИ. Это пример того, как компания может:

  • создать фундаментальный прорыв,
  • но упустить рынок, на котором этот прорыв монетизируется.

Здесь переплетаются вопросы стратегии, культуры, управления рисками и организации R&D. Понять, почему Google уступила старт OpenAI, полезно любому бизнесу, который вкладывается в технологии и инновации:

  • как не «запарковать» сильные исследования в лабораториях;
  • как балансировать между репутационными рисками и скоростью вывода продукта;
  • почему «маленький и быстрый» иногда обгоняет «большого и сильного».

О чём дальше пойдёт речь в статье

В следующих разделах мы разберём по шагам:

  • Что было до трансформеров и зачем Google искала новый подход — почему старые модели упёрлись в потолок и какой вызов стоял перед командой.
  • Как в Google родились трансформеры: Attention Is All You Need — что именно придумали исследователи и почему это так мощно.
  • От трансформеров к BERT: ставка на поиск, а не на шоу — как Google направила технологию внутрь своего основного продукта.
  • Как OpenAI превратила идею Google в GPT‑продукт для всех — что сделали по‑другому и почему выстрелил именно ChatGPT.
  • Организационные и культурные причины, из-за которых Google тормозила — как масштаб, процессы и структура мотивации замедляют внедрение прорывов.
  • Этика, риски и репутация: почему Google боялась выпускать мощные модели — чем компания ограничивала сама себя.
  • Bard и Gemini: попытка наверстать упущенное после успеха ChatGPT — как Google реагирует сейчас.
  • Что Google всё ещё делает лучше в ИИ, несмотря на отставание в GPT — где компания по‑прежнему сильнее конкурентов.
  • Главные уроки истории: как не потерять собственный прорыв в ИИ — практические выводы для продуктов, стартапов и крупных корпораций.

Дальше мы спокойно и по шагам разберём, как фундаментальное открытие Google стало основой чужого флагманского продукта — и что из этого следует для тех, кто строит технологии и бизнес сегодня.

Что было до трансформеров и зачем Google искала новый подход

RNN, LSTM и seq2seq: первая волна нейросетевого НЛП

До трансформеров обработка текста в нейросетях почти всегда строилась на рекуррентных сетях — RNN. Модель читала фразу слово за словом слева направо, на каждом шаге обновляла скрытое состояние и пыталась «помнить» контекст.

Чтобы бороться с тем, что обычные RNN быстро «забывали» начало длинной фразы, придумали LSTM и GRU — модификации с «вратами» памяти. Они лучше справлялись с более длинными зависимостями и стали стандартом для перевода, распознавания речи и других задач.

Следующий шаг — архитектура seq2seq (sequence‑to‑sequence). Одна RNN (энкодер) читала исходный текст и превращала его в вектор, другая RNN (декодер) по этому вектору генерировала перевод или ответ. Именно seq2seq‑модели стали основой нового Google Translate, который в середине 2010‑х резко улучшил качество перевода.

Проблемы старого подхода

Несмотря на успехи, у RNN/LSTM были серьёзные ограничения:

  • Долгие зависимости. Моделям трудно было «связывать» слова, удалённые друг от друга на десятки позиций. Юридические тексты, научные статьи, длинные запросы страдали сильнее всего.
  • Последовательные вычисления. RNN обрабатывает слова строго по очереди. Это плохо сочетается с возможностями современных GPU и TPU: параллелить почти нечего, обучение идёт медленно и дорого.
  • Узкое «бутылочное горлышко» контекста. В seq2seq весь смысл предложения сжимался в один вектор фиксированной длины. Чем длиннее текст, тем труднее в этот вектор упаковать всё важное.

В 2014–2015 годах частично помогла первая версия механизма внимания (attention) поверх RNN: декодер мог в каждый момент «подсматривать» в разные части входного предложения. Но основная архитектура оставалась рекуррентной и утыкалась в те же ограничения масштабируемости.

Зачем Google понадобилось что‑то радикально новое

Для Google текст — не просто данные, а основа почти всех ключевых продуктов: поиск, реклама, Gmail, Docs, YouTube‑комментарии, Android‑клавиатура и, конечно, перевод. Улучшение понимания языка напрямую означает рост качества поиска, CTR рекламы и удержание пользователей.

К середине 2010‑х стало ясно, что рекуррентные сети уперлись в потолок:

  • нельзя просто «подкинуть ещё GPU» и обучить модели на порядок больше;
  • трудно работать с действительно длинными документами и сложными многоступенчатыми запросами;
  • рост качества от увеличения данных и размеров моделей становился всё менее выгодным.

Командам Google нужно было решение, которое:

  • хорошо масштабируется на кластеры GPU/TPU;
  • эффективно использует длинный контекст;
  • подходит и для перевода, и для внутреннего поиска, и для анализа документов.

Именно этот запрос на новую архитектуру — быструю, масштабируемую и «заточенную» под массовую обработку текста — и подтолкнул исследователей внутри Google к идее полностью отказаться от рекуррентности и построить модель, основанную только на внимании. Из этого поиска и выросли трансформеры.

Как в Google родились трансформеры: Attention Is All You Need

Команда, которая всё начала

Летом 2017 года на arXiv появилась статья с сухим названием “Attention Is All You Need”. За ней стояла небольшая группа из Google Brain и Google Research: Ашиш Васвани, Нил Шазир, Ники Пармар, Якоб Усзкорейт, Лукаш Кайзер, Илля Полосухин и коллеги.

Формально это была «ещё одна модель для машинного перевода». Не было громких пресс‑релизов, яркого продукта или маркетинга. Но внутри исследовательского сообщества было понятно: это радикальный разрыв с прежней архитектурой нейросетей для текста.

Идея внимания простым языком

В переводе человек не читает предложение слово за словом с одинаковой концентрацией. Он как будто водит прожектором по фразе: одни слова важнее в конкретный момент, другие можно игнорировать.

Механизм внимания (attention) — это математический «прожектор». Для каждого слова модель вычисляет, на какие другие слова сейчас стоит смотреть сильнее, а какие можно учитывать слабее.

Self‑attention идёт дальше: каждое слово «смотрит» на остальные слова в предложении и решает, с кем ему важнее всего взаимодействовать. Представьте совещание, где каждый участник одновременно оценивает, чьи реплики критичны для его собственного решения.

Это позволяло модели сразу учитывать дальние связи в тексте: начало предложения могло напрямую «видеть» его конец, без длинной цепочки промежуточных шагов, как в старых рекуррентных сетях.

Почему трансформеры так удобно масштабировать

Главный трюк трансформера — полный отказ от рекуррентности. Модель больше не обрабатывает текст строго по одному слову за раз. Вместо этого все слова в предложении проходят через слои self‑attention параллельно.

Для обучения на гигантских корпусах это переворот:

  • работу можно эффективно распараллелить на GPU и TPU;
  • время обучения на длинных последовательностях растёт медленнее, чем у рекуррентных сетей;
  • проще увеличивать глубину и ширину модели, добиваясь эффекта «чем больше, тем лучше».

В результате та же вычислительная инфраструктура Google стала приносить гораздо больше «интеллекта» на один и тот же доллар и час обучения.

Фундамент для GPT и современных LLM

Статья 2017 года описала общую архитектуру: слои self‑attention, позиционные эмбеддинги, блоки нормализации, остаточные связи. Дальше вопрос был лишь в том, как именно её использовать.

Исследователи из OpenAI взяли decoder‑часть трансформера, обучили её предсказывать следующее слово по огромным объёмам текста — так родились GPT‑модели. Затем было только масштабирование: больше данных, больше параметров, больше слоёв — но архитектурное ядро оставалось тем самым трансформером из Google.

По сути, всё поколение современных LLM — GPT‑4, Gemini, Claude и другие — это вариации на тему той самой работы Attention Is All You Need. Google придумала универсальный «двигатель», на котором позже поехала вся индустрия генеративного ИИ.

От трансформеров к BERT: ставка на поиск, а не на шоу

После того как в Google придумали архитектуру трансформеров, ключевой вопрос был не «как сделать эффектную демо-игрушку», а «как это встроить в основной бизнес». Главными кандидатами сразу стали поиск и реклама: именно там каждая доля процента улучшения качества приносит реальные деньги и усиливает монополию.

Почему трансформеры ушли в поиск и рекламу

Поиск и рекламные системы идеально подходили под новые модели:

  • у Google были горы «сигналов»: запросы, клики, время на странице, отклики на объявления;
  • бизнес-процессы уже были настроены на постоянные A/B‑тесты и осторожные улучшения;
  • можно было тренировать огромные модели офлайн, а затем адаптировать их под жёсткие требования по задержке и стоимости запроса.

Вместо того чтобы строить вокруг трансформеров новый публичный продукт, Google сделала другую ставку: превратить их в скрытый «двигатель» поиска и рекламного таргетинга. Пользователь не видит модель, не пишет ей сообщения — он просто получает более релевантные результаты и «волшебно» точную рекламу.

BERT: научить поиск понимать смысл запроса

BERT (Bidirectional Encoder Representations from Transformers) стал первым громким примером такого подхода. Исследователи Google взяли идею трансформеров и превратили её в универсальную языковую модель, которая смотрит на слова одновременно слева и справа, а не только в одном направлении.

Для поиска это оказалось критично. Старые алгоритмы опирались в основном на совпадения ключевых слов и простые статистические модели. BERT впервые позволил поиску по‑настоящему «читать» запрос целиком:

  • понимать роль предлогов и частиц (разница между «поезд в Москву» и «поезд из Москвы»);
  • различать похожие, но контекстно разные смыслы;
  • лучше сопоставлять длинные разговорные запросы с документами.

Когда Google внедрила BERT в англоязычный поиск, компания открыто заявила, что это одно из крупнейших улучшений качества за историю сервиса. Но снаружи это выглядело не как революция, а как обычное «поиск стал ещё немного лучше». Ни нового приложения, ни эффектных демонстраций — просто более точные ответы в уже привычном интерфейсе.

Та же история повторилась и в других продуктах: BERT пошёл в рекомендации, понимание текстов для Google Assistant, улучшение подсказок и ответов, фильтрацию спама и токсичного контента.

T5: «текст‑в‑текст» как скрытый универсальный инструмент

Следующим шагом стала модель T5 (Text‑to‑Text Transfer Transformer). Её идея проста: почти любую задачу обработки языка можно представить как преобразование текста в текст. Перевод, суммаризация, переформулировка запроса, классификация — всё это сводится к единому формату.

Для поискового и рекламного бизнеса T5 открыла ещё больше возможностей:

  • автоматическое переписывание запросов в более понятную форме для поисковика;
  • генерация кратких описаний и сниппетов страниц;
  • анализ текстов объявлений и посадочных страниц для улучшения релевантности;
  • интеллектуальное расширение ключевых слов и подбор семантически близких фраз.

Опять же, почти всё это происходило «под капотом». Пользователь не видел T5 как продукт, но сталкивался с ней постоянно: через более точные ответы, аккуратные сниппеты, менее навязчивую рекламу.

ИИ как инфраструктура, а не шоу-продукт

К этому моменту в Google сложилась чёткая линия: ИИ — это инфраструктура, встроенная в поиск, рекламу, Gmail, Документы, YouTube и Android. Отсюда вырастали такие функции, как умные ответы в Gmail, автодополнение текста, улучшенные субтитры и рекомендации.

Публичные демонстрации были точечными: отдельные доклады на конференциях, статьи в блоге и на I/O. Массового пользовательского продукта, который бы показал силу трансформеров напрямую, просто не существовало. Все главные инновации уходили в улучшение уже работающих сервисов и монетизацию рекламы.

В результате Google объективно лидировала в практическом применении трансформеров — особенно в поиске и рекламе, — но это лидерство оставалось почти невидимым для широкой аудитории. Пока одна компания стремилась сделать ИИ «невидимым двигателем» своих сервисов, другие позже поставили ту же технологию в центр отдельного продукта, который мгновенно стал лицом новой эпохи ИИ.

Как OpenAI превратила идею Google в GPT-продукт для всех

Миссия OpenAI и использование трансформеров

OpenAI появилась в 2015 году как исследовательская компания с заявленной миссией сделать мощный ИИ безопасным и доступным для всего человечества. С самого начала команда позиционировала себя как более гибкую альтернативу крупным корпорациям, готовую экспериментировать и быстро доводить исследования до продукта.

Когда в Google предложили архитектуру трансформеров, в OpenAI очень быстро увидели в ней фундамент для универсальной языковой модели. Саму идею — обучать одну большую модель на колоссальных корпусах текста, а затем дообучать под конкретные задачи — OpenAI довела до крайности. Если Google использовала трансформеры прежде всего как внутренний «двигатель» для улучшения поиска и переводов, OpenAI сделала их сердцем нового типа пользовательского продукта.

Эволюция: от GPT к GPT‑2, GPT‑3 и ChatGPT

Первая GPT была в основном исследовательским прототипом: показать, что одна большая языковая модель может решать множество задач без отдельного обучения для каждой.

GPT‑2 стала поворотным моментом. Текст, который она генерировала, оказался достаточно убедительным, чтобы вызвать публичную дискуссию о рисках дезинформации. OpenAI сначала ограничила доступ, а затем всё же открыла модель — это был первый шаг к превращению технологии в сервис.

GPT‑3 превратила архитектуру трансформеров в коммерческую платформу. Появился API: стартапы и компании могли «подключаться» к модели и строить свои продукты. Но интерфейс оставался в основном для разработчиков.

ChatGPT изменил всё. OpenAI соединила GPT‑3.5 с диалоговым интерфейсом, дообучением на обратной связи людей (RLHF) и простым веб-продуктом. Впервые сверхмощная модель «переехала» в привычное окно чата, куда может зайти любой пользователь без навыков программирования.

Почему ставка на генеративный интерфейс, а не только на поиск

Ключевое отличие подхода OpenAI — фокус не на том, чтобы «подкрутить» существующий продукт (поиск, реклама, перевод), а на создании нового слоя взаимодействия человека с компьютером.

Диалоговый интерфейс решил сразу несколько задач:

  • снял барьер входа: не нужно знать запросные языки, операторы и синтаксис;
  • позволил пользователю уточнять, спорить и исправлять модель в процессе диалога;
  • сделал ИИ не фоновым сервисом, а центральным продуктом, к которому пользователь возвращается каждый день.

Google гораздо осторожнее относилась к идее заменить классический поиск разговорным ИИ: это угрожало её рекламной модели, привычным метрикам качества и ожиданиям пользователей.

Разный аппетит к продуктовым рискам

OpenAI была готова выйти к широкой аудитории с несовершенной, местами ошибающейся моделью, полагаясь на комбинацию технических фильтров, модерации и быстрого итерационного улучшения. Репутационный риск был относительно ограничен — компания маленькая, без гигантской пользовательской базы и миллиардного рекламного бизнеса.

Google, напротив, оценивает риски по-другому:

  • любое массовое заблуждение, токсичный ответ или утечка данных сразу бьют по бренду и регуляторному вниманию;
  • экспериментальный продукт может «каннибализировать» основной бизнес поиска;
  • слишком сильный ИИ-интерфейс под вопрос ставит сам формат страниц с результатами и рекламными блоками.

В итоге OpenAI согласилась на более высокий уровень продуктового и репутационного риска ради быстрого запуска и обучения «на проде». Google дольше держала трансформеры как внутреннюю технологию, что позволило конкуренту первым превратить идею в массовый GPT-продукт.

Организационные и культурные причины, из-за которых Google тормозила

Размер компании против скорости решений

Google к моменту появления трансформеров была гигантом с выстроенной бюрократией. Любая инициатива, которая могла задеть поиск, рекламу, юридические риски или репутацию, проходила через длинную цепочку согласований: ресёрч, продукт, безопасность, privacy, PR, юридический отдел.

Для запуска крупной языковой модели этого оказывалось критично много. Пока OpenAI могла сказать «давайте попробуем и посмотрим, что будет», внутри Google требовались меморандумы, эксперименты на ограниченных когортах, внутренние ревью и согласование метрик риска. В результате трансформеры быстро стали стандартом для внутренних исследований и инфраструктуры, но очень медленно превращались в пользовательские продукты.

Внутренняя конкуренция команд

Отдельный тормоз — конкуренция и фрагментация ИИ‑направлений. Были Google Brain, DeepMind, команды поиска, рекламы, Android, Cloud — каждая со своими приоритетами и видением будущего.

Вместо единого «ударного» направления по большим языковым моделям возникало несколько параллельных линий: одни делали модели для поиска (BERT, затем T5), другие — для ассистентов, третьи — для научных публикаций и лидерства на конференциях. Объединить всё это в один продукт уровня ChatGPT было организационно гораздо сложнее, чем опубликовать ещё одну статью.

Более того, команды конкурировали за GPU‑ресурсы, внимание руководства и бренд «главной ИИ‑лаборатории». Это поощряло публикации и красивые демо, но не долгий, скучный продуктовый цикл с рисками и поддержкой миллионов пользователей.

Бизнес-модель поиска и рекламы как тормоз

Поиск и реклама — основной источник денег Google. Любой продукт типа чат‑бота, который отвечает сразу, без перехода по ссылкам, потенциально уменьшает показы рекламы и клики партнёров.

Поэтому внутри компании неизбежно возникал вопрос: стоит ли запускать диалоговый ИИ, который может «съесть» традиционный поиск, пока он приносит десятки миллиардов долларов? Это делало эксперименты более консервативными: безопасные доработки ранжирования через BERT — да; радикальная замена интерфейса поиска на беседу с моделью — под большим вопросом.

Как проекты ИИ застревали на уровне исследований

У Google есть длинный список мощных моделей, оставшихся преимущественно в статьях и внутренних прототипах. Диалоговые системы вроде Meena, LaMDA долго существовали как демонстрации для конференций и закрытых тестов, но не как массовые продукты.

Генеративные модели изображений (Imagen, Parti) показали качество не хуже конкурентов, но были ограничены «waitlist» и внутренними экспериментами с формулировкой «слишком рискованно для публичного релиза». Аналогично, многие большие языковые модели использовались для улучшения поиска и рекламных систем, но не предлагались пользователю в виде отдельного сервиса.

В результате сочетание масштаба, сложной структуры, конкурирующих команд и осторожной бизнес‑логики превратило технологическое лидерство в исследованиях в отставание в глазах массовой аудитории.

Этика, риски и репутация: почему Google боялась выпускать мощные модели

Google всегда жила с осознанием: любая ошибка сразу становится глобальной новостью. Для компании с миллиардной аудиторией и вниманием регуляторов по всему миру риск от неудачного релиза ИИ казался не просто технической, а репутационной угрозой.

Скандалы, которые ужесточили правила

До больших языковых моделей Google уже не раз обжигалась на ИИ:

  • обвинения в дискриминации алгоритмов распознавания лиц и таргетинга рекламы;
  • критика YouTube за токсичные рекомендации и радикализирующий контент;
  • скандал вокруг военного проекта Maven (анализ видео для Пентагона);
  • громкий уход и увольнение исследовательницы этики ИИ Тимнит Гебру и дискуссия вокруг её работы о рисках больших языковых моделей.

Каждый такой эпизод превращался в медийный шторм и внутренний кризис. Ответом стало ужесточение процедур: больше проверок, больше юридических фильтров, больше требований по «соответствию ценностям компании».

Этические комитеты и тормоза на выпуск

Внутри Google сформировались целые цепочки согласований: команды Responsible AI, комитеты по этике, процессы Responsible Innovation Review. Любой крупный продукт на основе ИИ, особенно генеративного, должен был пройти через:

  • проверки на токсичность, дискриминацию и предвзятость;
  • юридическую оценку рисков и возможных исков;
  • репутационный анализ: как это может ударить по бренду Search, Gmail, YouTube;
  • обсуждение с PR и политическим отделом, как релиз воспримут регуляторы и СМИ.

В результате мощные модели и прототипы (вроде LaMDA или ранних диалоговых систем) долго оставались за закрытыми дверями, доступными только в виде ограниченных демо или внутренних тестов. Пока Google спорила, доработала ли она безопасность и цензуру, OpenAI позволила пользователям массово поэкспериментировать с ChatGPT — с оговорками и фильтрами, но без многолетних согласований.

«Не навреди бренду» против «пускай мир протестирует»

Google жёстко привязывала ИИ к своему основному продукту — поиску и рекламе. Ошибка модели прямо в результатах поиска могла:

  • дезинформировать миллионы людей;
  • ударить по доверию к поиску как источнику «правды»;
  • спровоцировать регуляторные расследования и штрафы.

Поэтому стратегия Google была: сначала безопасность и соответствие нормам, потом масштабирование. Компания предпочитала выпускать модели в виде узкоспециализированных компонентов (BERT для улучшения поиска), а не как универсального болтливого ассистента.

OpenAI, напротив, выбрала путь стартапа: быстрый публичный запуск, обратная связь от миллионов пользователей, постепенное усиление фильтров и политик. Ставка была на скорость, узнаваемость и эффект «вау», а не на безупречную репутацию с первого дня.

Дилемма: защитить пользователей или лидерство

Страх Google был не иррационален: генеративные модели легко создают токсичный, манипулятивный или просто ложный контент. Для компании, которая десятилетиями строила имидж «надежного навигатора по информации», риск сиюминутного хайпа не оправдывал возможного репутационного урона.

Но эта осторожность имела цену. Пока Google пыталась минимизировать все риски заранее, OpenAI и Microsoft начали задавать повестку в генеративном ИИ. Google пришлось запускать Bard, а затем Gemini уже в режиме догоняющего игрока — параллельно перестраивая свои этические и риск-комитеты под более быстрый цикл «исследование → продукт → контроль».

История показала: одни только внутренние барьеры не спасают от рисков — они могут лишь перенести их во времени и отдать стратегическое преимущество более смелым конкурентам.

Bard и Gemini: попытка наверстать упущенное после успеха ChatGPT

Когда ChatGPT взорвал рынок в конце 2022 года, Google выглядела застигнутой врасплох, хотя именно её статьи заложили основу технологий. Ответом стал экстренный запуск Bard, а затем более системный переход к линейке Gemini.

Старт Bard: запуск из режима «красной тревоги»

Bard представили в феврале 2023 года как экспериментальный чат‑бот на базе LaMDA. Важнее было не качество, а сам факт ответа на ChatGPT. Пресс‑демо быстро превратилось в антирекламу: Bard ошибся в факте про телескоп James Webb, за что компанию тут же наказали рынки — капитализация просела на десятки миллиардов долларов.

Ограниченный доступ, медленное развитие функций, слабая интеграция с экосистемой Google — всё это подчёркивало спешку. Bard воспринимался скорее как «догоняющий чат», а не как новое видение ассистента будущего.

Переход к Gemini: попытка перезапуска стратегии

В декабре 2023 года Google представила семейство моделей Gemini, а в 2024‑м начала переименовывать Bard в Gemini и выстраивать вокруг него единую платформу.

Google пытается наверстать сразу по трём фронтам:

  • Ассистент и пользовательский ИИ. Gemini постепенно становится «новым Google Assistant» на Android, в Chrome и на устройствах Pixel.
  • Поиск. Эксперименты с AI Overviews и генеративными ответами в выдаче должны сохранить доминирование Google Search в мире, где люди всё чаще спрашивают у чат‑ботов.
  • Облако и разработчики. Gemini интегрирован в Google Cloud, Vertex AI, Workspace (Docs, Gmail, Sheets), чтобы конкурировать с Azure+OpenAI и Copilot.

Ошибки и публичные провалы

К спешке добавились новые промахи. Помимо неудачного первого демо Bard, в 2024 году Google столкнулась с критикой за генерацию изображений в Gemini: чрезмерные фильтры и странные результаты в историческом контексте вызвали волну мемов и обвинений в предвзятости. Пришлось временно отключать функцию и публично извиняться.

Эти эпизоды усилили ощущение, что компания разрывается между желанием быстро догнать конкурентов и страхом навредить бренду.

Может ли Google догнать или обогнать лидеров?

С технологической точки зрения у Google всё ещё одни из самых сильных команд и инфраструктура мирового уровня. Модели Gemini сопоставимы по классу с GPT‑семейством и быстро развиваются (в том числе версии 1.5 с длинным контекстом).

Однако у OpenAI и Microsoft преимущество в восприятии рынка: они первыми закрепили формат «универсального ИИ‑помощника», собрали вокруг себя разработчиков и стали стандартом по умолчанию.

Google может реалистично выйти на паритет по качеству и даже опережать в отдельных сценариях — особенно там, где важна интеграция с поиском, Android и Workspace. Но догнать в умах пользователей и разработчиков сложнее: для этого придётся не только улучшать модели, но и действовать гораздо смелее в продуктовой стратегии, чем компания привыкла за предыдущие годы.

Что Google всё ещё делает лучше в ИИ, несмотря на отставание в GPT

Хотя массовое внимание забрали GPT-модели и ChatGPT от OpenAI, у Google по‑прежнему есть преимущества в ИИ, которые не так заметны пользователям, но задают планку для индустрии.

Данные и инфраструктура мирового масштаба

Главный козырь Google — сочетание данных и инфраструктуры.

  • Данные. Поиск, YouTube, Карты, Gmail, Android — каждое из направлений генерирует огромные, разнообразные наборы сигналов. Это не «сырые» личные данные, а агрегированная статистика, клики, время просмотра, поведение в интерфейсе, качество ответов. Они дают моделям богатую обратную связь: что люди считают полезным, что игнорируют, что кажется спамом.

  • Инфраструктура. Собственные Tensor Processing Units (TPU), специализированные дата‑центры, хорошо отлаженные системы распределённых вычислений (Borg, Kubernetes), фреймворки вроде TensorFlow и JAX. Google умеет одновременно обучать и обслуживать модели на сотнях тысяч чипов с предсказуемой задержкой и низкой стоимостью на запрос — это критично, если ИИ нужно встраивать в поиск, почту и миллиарды Android‑устройств.

Именно поэтому Google может позволить себе сложные модели, работающие почти незаметно для пользователя, но в колоссальном масштабе.

Где ИИ Google уже лидирует

Есть области, где технологии Google и сейчас впереди, хотя это редко обсуждают в контексте гонки GPT:

  • Поиск. Модели вроде BERT и последующих архитектур улучшают понимание запросов, распознают намерения, борются со спамом и «SEO‑мусором». Пользователь просто получает более точный результат, не задумываясь, что за этим стоит глубокий ИИ.
  • Реклама. Алгоритмы аукционов, таргетинг, автоматическая оптимизация кампаний — это огромные системы машинного обучения, приносящие миллиарды дохода и реальный рост для рекламодателей.
  • Android и устройства. Распознавание речи, перевод в реальном времени, улучшение фото, размывание фона на видео, офлайн‑функции камеры — всё это основано на компактных моделях, оптимизированных для работы на телефоне.
  • Облако. В Google Cloud уже долгое время есть сильная линейка ИИ‑сервисов: AutoML, Vertex AI, готовые API для речи, перевода, рекомендаций. Для бизнеса это зачастую надёжнее и выгоднее, чем самостоятельно подключать огромные GPT‑модели.

Скрытое лидерство: ИИ, который «просто работает»

Фильтрация спама в Gmail, автодополнение в Docs, рекомендации на YouTube, время прибытия в Google Maps, защита от мошенничества в Google Pay — это примеры зрелого ИИ, который встроен так глубоко, что воспринимается как часть «обычного» продукта, а не как отдельная «ИИ‑фича».

Из‑за этого создаётся ощущение, что Google проигрывает OpenAI и другим игрокам, хотя по качеству и масштабу многих алгоритмов компания фактически задаёт стандарт.

Как превратить преимущества в заметные продукты

Чтобы преимущество в данных, инфраструктуре и экспертизе превратилось в яркие продукты, Google нужно сделать несколько вещей:

  • Единый ИИ-слой для экосистемы. Один «мозг» (Gemini и его преемники), последовательно встроенный в поиск, Android, Chrome, Workspace и облако, чтобы пользователь чувствовал целостный опыт, а не набор несвязанных функций.
  • Более смелые пользовательские сценарии. Не только улучшать ранжирование или фильтровать спам, но и давать человеку ощутимый «вау‑эффект»: генерация контента, умная автоматизация рутины, персональные агенты в Gmail, Календаре и Документах.
  • Удобные инструменты для разработчиков. Простые API и SDK, позволяющие поверх моделей Google строить свои «GPT‑подобные» продукты — от чат‑ботов до специализированных ассистентов внутри бизнес‑процессов.
  • Прозрачный брендинг ИИ. Чётко объяснять, где именно «работает ИИ Google», чтобы пользователь и бизнес понимали ценность технологий, а не воспринимали всё как «магический» поиск.

Если компания сможет соединить свои сильные стороны — данные, TPUs, поиск, рекламу, Android и облако — в связную, понятную пользователям линейку ИИ‑продуктов, разрыв с GPT-моделями в общественном восприятии может быстро сократиться.

Главные уроки истории: как не потерять собственный прорыв в ИИ

История Google и GPT — это не столько про удачные и неудачные модели, сколько про то, как организация обращается с собственными прорывами. Трансформеры стали фундаментом новой волны ИИ, но монетизировали и популяризировали их другие.

Урок 1. Прорыв — это не статья, а продуктовая гипотеза

Google сделала ставку на научную публикацию и инфраструктуру, а не на потребительский продукт вокруг трансформеров. OpenAI, наоборот, изначально рассматривала модели как основу массового сервиса.

Для продуктовых команд главный вывод простой:

  • любой серьёзный исследовательский результат нужно сразу переводить в несколько продуктовых гипотез;
  • нельзя ограничиваться «мы улучшили метрику на X%» — важно понять, какой новый пользовательский опыт это открывает.

Если внутри компании нет процесса «от исследования к продукту за N месяцев», прорывы будут утекать наружу через стартапы и конкурентов.

Урок 2. Не прятать фундаментальные технологии во внутренние улучшения

Google интегрировала BERT и последующие модели в поиск, рекламу, перевод, сильно улучшив качество. Но внешнему миру это выглядело как очередной «тихий апдейт», а не как новая платформа.

Опасность такого подхода:

  • прорыв воспринимается как рутинная оптимизация;
  • не формируется ожидание у рынка, партнёров и разработчиков;
  • компания упускает шанс стать стандартом де‑факто и центром экосистемы.

Вывод для продуктовых лидеров: если у вас технологический скачок, его нужно оформлять как отдельный продуктовый нарратив — с брендингом, API, кейсами и историей применения, а не только как внутренний апгрейд.

Урок 3. Организационная инерция опаснее технического отставания

Google не проиграла потому, что у неё не было хороших моделей. Она проиграла момент, когда нужно было рискнуть репутацией, бизнес‑моделью и интерфейсом поиска.

То, что блокирует прорывы внутри крупных компаний:

  • длительные цепочки согласований и страх «сломать основной бизнес»;
  • разрыв между исследовательскими командами и продуктовыми P&L;
  • культура «безопасного постепенного улучшения» вместо управляемых больших ставок.

Командам стоит сознательно закладывать «песочницы прорывов» — пространства, где допускаются нестандартные решения, быстрый запуск, отдельные KPI и своя толерантность к риску.

Урок 4. Этика и риски: рамки, а не стоп‑кран

Google объективно сильнее остальных заботится об ответственности и безопасности ИИ. Но долгое время это превращалось в блокировку смелых запусков, тогда как конкуренты нашли баланс: выпускать модели, признавая ограничения и быстро дорабатывая.

Продуктовый вывод: этика должна задавать принципы и границы, но не превращаться в универсальное «нет». Нужны:

  • чёткие критерии допустимого риска;
  • процессы быстрого красного тийминг‑а и пост‑запускового контроля;
  • понятное объяснение пользователям, что модель умеет и чего не умеет.

Что это значит для гонки ИИ в ближайшие 3–5 лет

В ближайшие годы вероятны несколько сценариев, которые будут идти параллельно:

  • консолидация «большой тройки/четвёрки» (Google, OpenAI+Microsoft, Meta, Anthropic) как поставщиков базовых моделей;
  • усиление открытых моделей, которые компании будут дообучать под свои задачи;
  • переход от «одного большого ассистента» к встраиванию ИИ во все продукты — от IDE до CRM и офисных пакетов;
  • более жёсткое регулирование, где преимущество получат те, кто умеет совмещать мощность моделей и управляемость.

Для продуктовых команд окно возможностей как раз сейчас: на пересечении инфраструктуры больших игроков и нишевых задач ещё нет устоявшихся стандартов.

Может ли Google вернуть лидерство — и за счёт чего

Google всё ещё имеет колоссальные преимущества:

  • данные и пользовательскую базу (поиск, YouTube, Android, Workspace);
  • мощную инфраструктуру и собственные чипы;
  • сильные исследовательские группы.

Чтобы вернуть лидерство, ей нужно не новый алгоритм, а новая продуктовая позиция:

  1. Интегрировать ИИ как «первый класс» во все флагманские продукты, а не как надстройку.
  2. Сделать Gemini и связанные модели удобной платформой для разработчиков: стабильные API, понятное ценообразование, хорошие SDK и документацию.
  3. Капитализировать репутацию ответственного ИИ — предложить лучший в классе безопасный ИИ для бизнеса и регулированных отраслей.
  4. Сократить путь от статьи до продукта: измерять успех исследований не только публикациями, но и запущенными фичами и новыми выручками.

Главный урок истории Google и GPT для любой команды: ценность прорыва определяется не тем, кто его придумал, а тем, кто сумел быстрее всего превратить его в понятный продукт, экосистему и новую норму для пользователей.

FAQ

Что такое GPT простыми словами и в чём его технический фундамент?

GPT можно представить как очень большую языковую модель, которая обучена предсказывать следующее слово в тексте.

Ключевые моменты:

  • внутри нет «понимания мира» в человеческом смысле — это статистический предсказатель продолжений;
  • модель учится на огромных корпусах текстов (сайты, книги, код, диалоги);
  • на базе этого предсказания она умеет:
    • продолжать текст по стилю и смыслу,
    • отвечать на вопросы,
    • писать и объяснять код,
    • суммировать и перерабатывать документы,
    • имитировать диалог.

Технический фундамент GPT — архитектура трансформеров, впервые предложенная исследователями Google в работе Attention Is All You Need (2017).

Чем трансформеры отличаются от GPT? Это одно и то же или нет?

Трансформер — это архитектура нейросети, а GPT — конкретный тип модели, построенный на этой архитектуре.

Различия по сути:

  • Трансформер:

    • общий «двигатель» для работы с последовательностями (текст, код, иногда изображения и аудио);
    • включает слои self‑attention, позиционные эмбеддинги, остаточные связи;
    • может использоваться как энкодер, декодер или их комбинация (перевод, поиск, суммаризация и т. д.).
  • GPT:

    • использует, по сути, декодер‑часть трансформера;
    • обучается на задаче «предскажи следующее слово» на гигантских корпусах;
    • заточен под генерацию текста и диалоговый формат.

Проще: трансформер — это архитектурный шаблон, GPT — конкретная большая языковая модель, реализованная на его основе и доведённая до продукта (ChatGPT и т. п.).

Почему Google, придумав трансформеры, всё равно проиграла старт GPT и ChatGPT?

Google первой создала архитектуру трансформеров и одной из первых внедрила её в масштабные продукты (поиск, реклама, перевод). Но упустила символическое лидерство по нескольким причинам:

  • сделала ставку на внутренние улучшения инфраструктуры, а не на яркий публичный продукт вокруг моделей;
  • бизнес‑модель поиска и рекламы делала радикальные интерфейсы типа чат‑бота рискованными;
  • сложная структура, конкурирующие команды и длинные согласования замедляли вывод на рынок;
  • усиленный фокус на этике и репутации повышал порог допуска к массовому релизу;
  • OpenAI, напротив, пошла на больший продуктовый риск, быстрее превратила идею в понятный сервис (ChatGPT) и получила эффект «первого игрока» в глазах рынка.
Какие внутренние факторы в Google мешали быстрее вывести GPT‑подобный продукт?

Ключевые организационные и культурные факторы, которые притормозили Google:

  • Размер и бюрократия: длинная цепочка согласований для всего, что может затронуть поиск, рекламу и бренд.
  • Фрагментация ИИ‑направлений: Brain, DeepMind, поиск, реклама, Cloud и др. часто работали параллельно, а не как единая продуктовая инициатива.
  • Защита основной выручки: любой чат‑интерфейс, «съедающий» клики по ссылкам и рекламе, воспринимался как угроза.
  • Фокус на публикациях и демо, а не на длительном, «скучном» продукт‑цикле с поддержкой миллионов пользователей.

Вывод: техническое лидерство без агрессивной продуктовой стратегии и быстрой организационной реакции не гарантирует лидерство на рынке.

Чем стратегически отличались подходы Google и OpenAI к одним и тем же технологиям?

Google и OpenAI принимали принципиально разные продуктовые решения:

  • Google:

    • использовала трансформеры как «невидимую инфраструктуру» для поиска, рекламы, Gmail, Docs и т. п.;
    • делала ставку на точечные улучшения метрик и осторожные A/B‑тесты;
    • избегала радикальных интерфейсных изменений, чтобы не ломать отлаженную модель монетизации.
  • OpenAI:

    • сразу рассматривала большие модели как ядро нового пользовательского продукта;
    • запустила публичный API и, главное, ChatGPT — максимально простой диалоговый интерфейс для всех;
    • приняла повышенный уровень продуктового и репутационного риска ради скорости и масштаба.

В результате одна и та же технология (трансформеры) стала либо «тихим двигателем» сервисов, либо лицом новой эры ИИ — в зависимости от продуктового выбора компании.

Какие уроки из истории Google и GPT важны для продуктовых команд и бизнеса?

История с трансформерами и GPT даёт несколько практических уроков для продуктовых и R&D‑команд:

  • рассматривать каждый крупный ресёрч‑прорыв как продуктовую гипотезу, а не только как статью;
  • не прятать фундаментальную технологию целиком во «внутренних улучшениях» — нужно формировать понятный внешний продуктовый нарратив и API;
  • сокращать путь «статья → прототип → эксперимент с реальными пользователями» до месяцев, а не лет;
  • создавать отдельные «песочницы прорывов» с другими правилами скорости и допустимого риска;
  • выстраивать процессы этики и контроля так, чтобы они задавали рамки, но не блокировали любые смелые запуски.

Главная идея: ценность прорыва определяется не самим фактом открытия, а способностью компании быстро и смело превратить его в продукт и экосистему.

Как компаниям не «закопать» свои ИИ‑прорывы во внутренних лабораториях?

Для корпоративных и продуктовых команд отсюда следуют довольно прямые рекомендации:

  • Структурируйте путь от исследований к продукту: задайте целевой горизонт (например, 6–12 месяцев) и метрики успеха для исследовательских команд, связанные с реальными фичами.
  • Запускайте несколько параллельных гипотез вокруг одной технологии: внутренние улучшения, B2B‑API, пользовательский продукт.
  • Выделите отдельный контур риска: команда или юнит, который может принимать более смелые решения, не блокируясь общекорпоративной инерцией.
  • Сделайте ИИ‑ядро платформой: удобные API, документация, примеры, чтобы вокруг возникла внутренняя и внешняя экосистема.
  • Коммуницируйте прорывы рынку: объясняйте, что изменилось для пользователя и партнёров, а не только для внутренних метрик.

Так вы снижаете риск «подарить» собственную технологическую фору более быстрым конкурентам.

Как сочетать требования этики и безопасности ИИ с необходимостью быстро выводить продукты на рынок?

Google осторожничала не случайно — генеративные модели несут реальные риски:

  • токсичный, дискриминационный или политически чувствительный контент;
  • фабрикация фактов («галлюцинации») в чувствительных доменах;
  • регуляторные иски и удары по бренду.

Практический баланс может выглядеть так:

  • чётко сформулированные границы допустимого (что модель не делает никогда);
  • многоступенчатые фильтры (safety‑слои, модерация, красный тийминг);
  • этапные релизы: от ограниченных пилотов к широкому запуску при наличии понятной статистики риска;
  • прозрачные дисклеймеры пользователю о возможных ошибках и областях применения.

Этика и комплаенс должны работать как «ограждения на трассе», а не как стоп‑кран для любых смелых экспериментов.

В чём Google остаётся сильной в ИИ и может ли она догнать лидеров генеративного ИИ?

У Google по‑прежнему есть сильные карты в ИИ, даже несмотря на отставание в символическом первенстве:

  • Инфраструктура: собственные TPU, мощные дата‑центры, выстроенные системы распределённых вычислений.
  • Данные и сигналы: поиск, YouTube, Gmail, Карты, Android дают богатую поведенческую статистику для обучения и дообучения моделей.
  • Встроенный ИИ в продуктах: поиск, реклама, спам‑фильтры, рекомендации YouTube, функции камеры и речи на Android уже давно опираются на сложные модели.
  • Платформа Gemini: попытка создать единый ИИ‑слой для ассистента, поиска, Workspace и облака.

Если Google сумеет связать эти элементы в цельную пользовательскую и разработческую платформу вокруг Gemini, она может не только догнать, но и обойти конкурентов в ряде сценариев.

Почему история трансформеров и GPT важна для разработчиков и продуктовых специалистов именно сейчас?

Эта история важна и для разработчиков, и для продуктовых менеджеров по нескольким причинам:

  • показывает, как архитектурное решение (self‑attention и отказ от рекуррентности) меняет не только качество моделей, но и экономику их масштабирования;
  • подчёркивает, что знание базовой архитектуры (трансформеры, BERT, T5, GPT) помогает лучше понимать ограничения и возможности конкретных API и фреймворков;
  • учит смотреть на ИИ не только как на «модель», но как на продукт и бизнес‑решение: интерфейс, риски, монетизация, влияние на основной бизнес;
  • даёт понимание, почему одни технологии становятся платформами рынка, а другие остаются «тихими» внутренними улучшениями.

Разработчикам это помогает осознаннее выбирать стек и архитектуру решений, а продуктовым специалистам — формировать стратегию вокруг ИИ, а не просто добавлять модную «ИИ‑фичу».