Google представила обновление своей модели для генерации изображений Nano Banana 2, которая, по словам разработчиков, вобрала в себя лучшее от прошлой версии, но и научилась делать все с молниеносной скоростью. Обновление получило интеграцию с поисковиком и теперь, чтобы сгенерировать изображение реально существующего объекта или достопримечательности, нейросеть не просто гадает по картинкам из датасета, а обращается к Google Поиску за актуальными референсами.
Одна из самых больных тем для всех генеративных нейросетей — отрисовка символов и слов, которые часто превращаются в нечитаемые каракули. Nano Banana 2 обещает решить эту проблему. Модель умеет не только вписывать осмысленный текст в изображение, но и переводить его на другие языки, сохраняя при этом исходный шрифт и стиль.
Также модель получила возможность удерживать в памяти детали персонажей и объектов. Инженеры Google DeepMind заявляют, что модель способна сохранять внешность до 5 разных героев и следить за целостностью 14 предметов в рамках одной сцены, благодаря чему возможно создание полноценных раскадровок и комиксов, где персонаж не меняет свою внешность от кадра к кадру.
Модель уже становится стандартом в приложении Gemini (заменяя Pro-версию для быстрых задач), внедряется в поиск (в режиме AI Mode и Lens), а также будет использоваться в рекламном кабинете Google Ads для генерации предложений под кампании. Разработчики могут интегрировать движок через API в свои проекты, причем доступны разрешения до 4K.
Для обеспечения безопасности Google продолжает внедрять маркировку SynthID, которая вшивает незаметный для глаза цифровой водяной знак во все изображения созданные нейросетью. В компании отчитались, что функцией верификации AI-контента в Gemini воспользовались уже более 20 миллионов раз.
Если нейросеть научится идеально рисовать любые объекты с учетом контекста из поиска и переводить текст, не обесценит ли это труд иллюстраторов и копирайтеров окончательно? Поделитесь своим мнением в комментариях.

