AI-генерация изображений в 2026: семь приёмов, которые меняют результат сильнее, чем выбор модели

Когда мы запускали AI-фотостудию fotoro.ru, то думали, что главное — подключить лучшие модели. Подключили семь штук: Gemini 3 Pro, Seedream, Grok Imagine, плюс несколько помельче. Дальше стали смотреть, как ими пользуются живые люди, и удивились. Двое пользователей с одинаковым доступом к одному и тому же набору инструментов получали кардинально разный результат. Один — с первой попытки картинку под обложку «Тинькофф Журнала». Второй — после десятка запросов всё ещё что-то невнятное. Разница оказалась не в моделях. Разница в процессе.

Ниже — семь приёмов, которые мы вывели, наблюдая за теми, кто стабильно получает рабочий результат. Если вы уже что-то генерили и упёрлись в ощущение «вроде нормально, но не то» — этот текст про вас.

1. Не одна модель на все случаи, а стек под задачу

Самая частая ошибка — выбирать «лучшую» модель и пытаться выжать из неё всё. Универсальной на 2026 год пока нет. Это как с объективами: 50-миллиметровый фикс хорош для портрета, но снимать им свадебный зал не получится.

В нашей практике сложилось такое распределение для фотозадач.

Для черновиков и быстрых итераций — Nano Banana на базе Gemini 2.5 Flash. Дешевле всех, быстрее всех, удобно прощупать концепцию: «такая поза или такая», «свет тёплый или холодный».
Для основной массы рабочих кадров — Nano Banana V2 на Gemini 3.1 Flash Image. По соотношению цена-качество в 2026 году один из самых сбалансированных вариантов. Большая часть финальных кадров обычно делается здесь.
Для финала, когда нужна максимальная детализация — Nano Banana Pro на Gemini 3 Pro. Сюда отправляются только утверждённые композиции. Гонять Pro-модель на черновиках — выкидывать деньги.
Для гиперреалистичной фотографии — Seedream V4.5. Кожа, текстура ткани, мокрые волосы, отражения в стекле — на этих задачах Seedream чаще выигрывает у Gemini-семейства.
Для постеров, рекламных креативов и стилизаций — Grok Imagine. В нефотографических жанрах он, наоборот, обычно сильнее.
Для аниме и иллюстрации — Z-Image Turbo или WAI Illustrious. Специализированные модели, обученные на манге и иллюстрации, а не на фотобанках.

Подробнее о возможностях флагмана — в нашем разборе Nano Banana Pro и в гайде по Nano Banana 2.

2. Восемь из десяти хороших кадров — это не генерация, а правка

Если бы пришлось выбрать один приём из всего списка, я бы оставил этот.

В моей собственной практике соотношение «генерация с нуля» к «правка существующего» примерно один к четырём. На одну генерацию с чистого листа приходится четыре последовательных правки. Так в большинстве случаев и устроена работа у тех, кто получает предсказуемый результат.

Большинство пользователей живёт в режиме «написал — не понравилось — переписал — всё равно не понравилось». Так делать не надо. Получили первый сносный кадр — отдайте его обратно как основу и точечно меняйте, что не нравится:

«Убери очки, остальное оставь»
«Замени фон на закат над морем»
«Сделай выражение лица серьёзнее»
«Поверни голову в три четверти»
«Сними шарф, добавь серёжки»

Композиция, поза, лицо, освещение — всё, что вам уже понравилось, сохраняется. Меняется только то, что вы попросили. Шанс попасть в нужный результат заметно выше, чем при генерации с нуля.

На fotoro этот режим вынесен в отдельные инструменты с понятными названиями: Замена фона, Замена объекта, Удаление объекта, Стилизация, Реставрация. Под капотом — то же самое, но с готовыми промптами под конкретную задачу.

3. Структура промпта вместо потока сознания

«Красивая девушка сидит у окна с кофе и смотрит вдаль очень атмосферно, киношно, мягкий свет» — типичный промпт начинающего. Модель из такого описания додумывает половину сама. Обычно — не туда.

Структура из пяти блоков, каждый с новой строки:

Кто или что в кадре — возраст, внешность, во что одет, что держит.
Что происходит — действие, поза, направление взгляда.
Стиль — фотореализм, плёнка, ретро, графика, рисунок маслом.
Свет — направление, мягкость, время суток.
Камера — фокусное расстояние, диафрагма, план.

Живой пример:

Женщина около тридцати, светлые волосы до плеч, минимум макияжа, белая льняная рубашка.
Сидит у окна с керамической чашкой кофе в руках, смотрит вбок, лёгкая полуулыбка.
Фотореализм, тёплая палитра, плёночное зерно средней зернистости.
Мягкий рассеянный свет с левой стороны, час до заката, без жёстких теней.
50 мм, диафрагма f/1.8, средний план, фокус на лице, лёгкое размытие фона.

В нашей внутренней выборке промпты, написанные по этой структуре, дают рабочий кадр в среднем с 2–3 попыток. Хаотичные — с 8–12. Подробнее про компоненты сильного промпта — в отдельном гайде по промптам.

4. Что значат «50 мм, f/1.8» и почему это работает

Технические настройки фотографии в промпте — это не карго-культ из старого Midjourney. Современные модели обучены на миллионах подписей к фотографиям, где такие параметры реально стояли.

Фокусное расстояние меняет геометрию лица

24–35 мм — широкий угол, лёгкое искажение пропорций. Уличные репортажные кадры, человек в среде. Для портрета крупным планом не подходит — нос будет выдаваться вперёд.
50 мм — нейтральный, естественный. Универсальный выбор. Если не знаете, что поставить — ставьте 50.
85 мм — классический студийный портретник. Слегка сжимает черты лица, делает их «скульптурными». Рекламные портреты, обложки.
135 мм — длинный фокус, сильная компрессия фона. Объект как будто вырезан и наклеен на пейзаж. Любимый эффект мод-съёмки.

Один и тот же сюжет — женщина с кофе — на 35 мм против 85 мм:

35 мм, f/2.8 — широкий угол, лёгкая перспектива, человек считывается «в среде» — Слева — 35 мм, f/2.8: широкий угол, лёгкая перспектива, человек считывается «в среде». Справа — 85 мм, f/1.8: компрессия черт лица, выраженное размытие фона, классический студийный портретник.

85 мм, f/1.8 — компрессия черт лица, выраженное размытие фона, классический студийный портретник — Слева — 35 мм, f/2.8: широкий угол, лёгкая перспектива, человек считывается «в среде». Справа — 85 мм, f/1.8: компрессия черт лица, выраженное размытие фона, классический студийный портретник.

Диафрагма управляет глубиной резкости

f/1.4–f/2 — резкий объект, всё остальное в красивом размытии. Портрет, любая вечерняя съёмка.
f/2.8–f/4 — глубина резкости в пределах человека. Если объект движется — лучше так: модели любят промахиваться с фокусом на широких диафрагмах.
f/5.6–f/8 — резкость почти по всему кадру. Групповые фото, интерьеры.
f/11+ — пейзажная резкость от земли до горизонта.

Тип плёнки или пресет задаёт палитру

Kodak Portra 400 — мягкие телесные тона, тёплое золото. Свадебная и портретная съёмка.
Kodak Ektar 100 — насыщенные цвета, выраженные красные. Природа, путешествия.
Fuji Pro 400H — холодноватая зелено-голубая палитра. Лайфстайл, минимализм.
Cinestill 800T — фирменное красное гало вокруг источников света. Ночной город, неон.
Ilford HP5 — классическая чёрно-белая плёнка с заметным зерном.

Один и тот же сюжет на двух разных плёнках:

Kodak Portra 400 — мягкие телесные тона, тёплое золото, длинные тени золотого часа — Слева — Kodak Portra 400: мягкие телесные тона, тёплое золото, длинные тени золотого часа. Справа — Cinestill 800T: фирменное красное гало вокруг источников света, плёночное зерно ночной съёмки.

Cinestill 800T — фирменное красное гало вокруг источников света, плёночное зерно ночной съёмки — Слева — Kodak Portra 400: мягкие телесные тона, тёплое золото, длинные тени золотого часа. Справа — Cinestill 800T: фирменное красное гало вокруг источников света, плёночное зерно ночной съёмки.

Что не работает — указание модели камеры. Между «Sony A7R IV» и «Canon R5» в промпте разницы нет. Объектив и плёнка — есть. Хотите попробовать всё сразу — пишите подряд: 50 мм, f/2, Kodak Portra 400. Современные модели читают это нормально.

5. Негативный промпт: что не должно попасть в кадр

Рядом с обычным промптом существует негативный — список того, чего вы видеть не хотите. Многие про него или забывают, или пишут туда «плохое качество» и считают задачу закрытой. Так не работает: модель не знает, что значит «плохое». Она оперирует конкретными визуальными концепциями.

Отдельно про шесть пальцев — в 2026 году это уже почти не проблема. С анатомией модели справляются стабильно, специально просить «не рисуй лишних пальцев» больше не нужно. А вот другие болевые точки никуда не делись.

Базовый список для портретов и сцен с людьми, разбитый по группам:

Текст

distorted text, illegible letters, garbled signs, fake brand logos

Рабочий путь — генерируем пустую вывеску, текст накладываем вторым шагом — Слева — попытка нарисовать длинную русскую фразу: модель срывается в имитацию кириллицы, буквы похожи на настоящие, но смысла не несут. Справа — рабочий путь: генерируем пустую вывеску, текст накладываем вторым шагом в Figma или Photoshop.

Кожа

plastic skin, airbrushed face, doll-like, porcelain skin, retouched

С негативом и положительной формулировкой natural skin texture, visible pores — лицо считывается как реальное — Слева — без негатива на ретушь, «обложечный» вид без пор и фактуры. Справа — с негативом и положительной формулировкой `natural skin texture, visible pores` лицо считывается как реальное человеческое.

Глаза, лица в массовке, палитра, стоковая банальность

Глаза: asymmetric pupils, dead glassy eyes, lifeless gaze, cross-eyed — главная проверка, по которой зритель вычисляет «АИ-палево». В основном промпте добавляйте alive eyes, natural gaze direction.
Лица в массовке: melting background faces, distorted faces in crowd — на крупных портретах модели уже почти не ошибаются, а на массовке лица «текут». Альтернатива — попросить soft focus on background.
Палитра: oversaturated, HDR look, overprocessed, fake bokeh — Gemini Pro по умолчанию пушит контраст и насыщенность, получается рекламная картинка вместо живого кадра.
Стоковая банальность: posed stock photo, generic pose, stiff posing — самое заметное «АИ-палево» 2026. В основном промпте полезно писать candid moment, unposed, caught mid-motion.
Чужие водяные знаки: watermark, signature, getty images, shutterstock.

Без негатива модель идёт по самому шаблонному пути — белый фон, скрещенные руки, улыбка в камеру — Слева — без негатива модель идёт по самому шаблонному пути: белый фон, скрещенные руки, улыбка в камеру. Справа — с формулировкой `candid moment, unposed` кадр выглядит как реальный момент.

С формулировкой candid moment, unposed — кадр выглядит как реальный момент, а не постановка — Слева — без негатива модель идёт по самому шаблонному пути: белый фон, скрещенные руки, улыбка в камеру. Справа — с формулировкой `candid moment, unposed` кадр выглядит как реальный момент.

Логика везде одна — называйте конкретные дефекты, а не абстрактные «плохо/некрасиво». И не дублируйте в негативе то, что вы и так не запрашиваете: лишние слова съедают «внимание» модели.

6. Менее очевидные приёмы

То, что приходит с практикой.

Имена фотографов и художников

Модели видели подписи к снимкам в обучающих данных. «В стиле Annie Leibovitz» — понятный сигнал: контрастные портреты с продуманным светом, плотный кадр, акцент на личности. «В эстетике Вонга Карвая» — пустые ночные улицы, неон, тёплые тени, лёгкий смаз. «Композиция как у Вермеера» — окно слева, мягкий рассеянный свет, домашняя сцена. Один такой ориентир заменяет три-четыре строки описания.

Время года и время суток конкретно

Не «вечером», а «за 30 минут до заката» — модель переключает палитру на золотой час. Не «зимой», а «начало марта, последний снег и первая зелень». Конкретика даёт более выразительный кадр.

Эмоция в кадре

«Усталая, но довольная», «задумчивый, чуть отсутствующий взгляд», «лёгкое раздражение, но контролируемое». Современные модели хорошо различают тонкие состояния и закладывают их в мимику. Без указания эмоции получаете нейтральное лицо, которое выглядит «никаким».

Материалы и фактуры

Если в кадре есть предметная съёмка — называйте материал. «Чугунная сковорода с патиной», «латунная ручка, отполированная до блеска», «лён, мятый, не глаженый». Вместо обобщённого «стола» получите стол с характером.

Композиционные подсказки

«По правилу третей», «низкая точка съёмки», «вид сверху», «диагональная композиция». Модели понимают эти термины. Без них композицию строит автопилот, который любит банальный кадр по центру.

Отрицание через положительное

Если лицо упорно получается симметричным и от этого «неживым», не пишите «не делай симметрию». Пишите «лёгкая асимметрия лица, естественная неправильность». Положительная формулировка работает в разы лучше.

7. Сначала черновик в низком разрешении, потом — увеличение

Самая распространённая трата денег на ровном месте — генерация сразу в максимальном разрешении. В три-пять раз дороже, и при этом результат часто чуть менее чёткий, чем «небольшой кадр плюс отдельное увеличение».

Рабочий цикл такой. Генерируете четыре-шесть вариантов в самом маленьком разрешении. Выбираете лучший. И только его прогоняете через инструмент увеличения.

Экономия — примерно половина бюджета. И качество выше: у нас увеличение работает на отдельной модели Vertex AI Imagen, заточенной именно под повышение разрешения. Она не растягивает пиксели, а достраивает детали — текстуру кожи, фактуру ткани, мелкий текст на этикетках.

Типичные ошибки, на которых горят все

Перегруз промпта прилагательными

«Атмосферный, кинематографичный, эпичный, потрясающий портрет с захватывающим освещением». Эти слова — синонимы и забивают канал. Вместо них работают конкретные технические описания.

Результат на промпте из десятка эпитетов — модель додумывает половину сама — Слева — результат на промпте из десятка эпитетов: модель додумывает половину сама, кадр выходит «никаким». Справа — структурный промпт: тот же сюжет, но модель попадает в концепцию с первого раза.

Результат на структурном промпте — тот же сюжет, но модель попадает в концепцию с первого раза — Слева — результат на промпте из десятка эпитетов: модель додумывает половину сама, кадр выходит «никаким». Справа — структурный промпт: тот же сюжет, но модель попадает в концепцию с первого раза.

Противоречия в одном промпте

«Минималистичный портрет с обилием деталей и сложным фоном». «Утро в плотном тумане с резкими длинными тенями». В таких случаях модель идёт по среднему пути и выдаёт ни то ни сё. Перечитайте промпт перед отправкой и спросите себя — нет ли тут двух взаимоисключающих требований.

Pro-модель для черновиков

Финальная модель в три раза дороже черновой. Если ещё не определились с композицией — генерируйте на дешёвой, переключайтесь на Pro только когда выбрана концепция и идёт финал.

Игнорирование «голоса» модели

Если результат стабильно смещается в одну сторону — упорно делает фон тёмным, хотя вы просите светлый — это сигнал, что в промпте есть скрытый конфликт. Чаще всего виноват «стиль»: «киношный» в большинстве моделей по умолчанию означает контрастный и тёмный. Поменяйте слово.

Короткий FAQ

Какая модель лучше для портретов?

Для повседневных задач — Nano Banana V2. Для финальных рекламных кадров — Nano Banana Pro или Seedream V4.5. Seedream чаще выигрывает в гиперреализме (кожа, текстуры), Pro — в композиции и понимании сложных сцен.

Как сделать кадр с читаемым текстом на русском?

Прямо в промпте — почти никак. Современные модели с кириллицей справляются хуже, чем с латиницей, и на длинной фразе срываются в абракадабру. Рабочий путь — двухэтапный: сначала генерируете кадр с пустой вывеской или чистой упаковкой, потом накладываете текст в графическом редакторе (Photoshop, Figma, Canva).

Почему результат отличается от того, что я просил?

Модели работают вероятностно — два одинаковых запроса дают разные результаты. Это не баг, это устройство технологии. Делайте серию из 3–4 вариантов одного промпта и выбирайте лучший. Если результат стабильно мимо во всех четырёх — переписывайте промпт по структуре из раздела 3.

Длинный детальный промпт или короткий — что лучше?

Зависит от модели. Gemini-семейство и Seedream обучены на подробных подписях и хорошо удерживают много параметров одновременно. Grok Imagine, наоборот, на коротком и ёмком промпте часто работает лучше — модель сама добавляет художественную интерпретацию, лишние детали её сковывают. Универсальное правило: начните с детального, и если результат выглядит «зажатым» — сокращайте.

Что делать, если лицо упорно «не похоже на человека»?

Три проверки. Первая — есть ли в негативном промпте plastic skin, doll-like face. Вторая — не указали ли вы случайно 3D render. Третья — попробуйте Seedream V4.5: на лицах он чаще оказывается стабильнее Gemini-семейства.

Последняя мысль

Все семь приёмов сводятся к одной простой идее: качество результата в генеративных моделях — функция от процесса, а не от инструмента. Доступ к Gemini 3 Pro сам по себе не делает кадр сильным. Его делает то, как вы выстраиваете промпт, как итерируете, какую модель выбираете под задачу.

Эта статья — выжимка наблюдений, которые мы собирали, глядя как живые люди тратят токены на fotoro.ru. Похожие наблюдения, новые модели и приёмы регулярно постим в нашем канале @fotoro_ru.