Нейросеть Gemini от Google научилась рисовать
Нейросеть Gemini от Google научилась рисовать
Содержание:
Друзья, интересная весть для следящих за развитием нейросетей: нейросеть Gemini от Google научилась рисовать. Gemini, ранее известный как Bard AI – это нейросетевой умный чат-бот, созданный компанией Google как ответ ChatGPT от компании Open AI. Созданный как альтернатива, базирующаяся на собственных ИИ-наработках Google, на собственных языковых моделях нейросетей компании. Недавнее обновление Gemini пополнило его новым функционалом – генерацией изображений по пользовательскому текстовому описанию. Это стало возможно благодаря интеграции в Gemini модели генерации изображений Google — Imagen 3.
↑ Что такое Imagen 3
Итак, друзья, бесплатный ИИ-бот от Google – Gemini, детально его мы разбирали в статье «Gemini — умный чат-бот от Google, конкурент GPT-4». Теперь он может генерировать картинки благодаря интеграции модели генерации изображений Imagen 3.
Imagen – это модель преобразования текста в изображение, разработанная Google. Представлена в 2022 году, предназначена для создания высококачественных изображений на основе текстовых описаний. Ключевая особенность Imagen заключается в использовании продвинутых методов генерации изображений, которые позволяют ей создавать фотореалистичные и детализированные изображения, даже по очень сложным или абстрактным запросам. Модель использует мощные языковые модели для анализа текстовых запросов, что позволяет ей точнее интерпретировать наши намерения и создавать соответствующие визуальные объекты. Её версия Imagen 3, улучшенная настолько, что Google приняла решение о готовности её представления широкой публике, появилась в конце лета 2024 года.
По заявлениям Google, Imagen 3 превосходит другие модели генерации изображений, в частности, DALL-E от OpenAI, по качеству изображений и детализации.
Gemini – не первый ИИ-бот с интеграцией возможностей рисующей нейросети. Одним из первых научился рисовать ИИ-бот Microsoft Copilot путём интеграции в него сервиса генерации изображений нейросетью Microsoft Designer, базирующегося на платформе DALL-E. Чуть позже, но первее Gemini, научилась рисовать наша Алиса в Яндекс.Браузере, отечественный ИИ-бот на базе нейросетевой GPT-модели, что стало возможно благодаря интеграции рисующей нейросети YandexART от Яндекса. В ChatGPT вот уже какое-то время интегрирована возможность создания картинок с помощью DALL-E, но в бесплатной версии ИИ-бота нам предлагается не более пары генераций в сутки.
С моделью Imagen 3 можно работать в сервисах Google Vertex AI и ImageFX. Первый платный, второй пока что доступен не для всех стран. Бесплатный и доступный массово на данный момент способ опробования этой модели – сервис чат-бота Gemini.
↑ Как сгенерировать изображение в Gemini
Чтобы получить сгенерированное Imagen 3 изображение, вводим в чат с Gemini простыми словами описание того, что мы хотим, чтобы было изображено. Результат получаем здесь же, в чате с Gemini. Можно дать нейросети свободу творчества и ограничиться кратким описанием.
А можно детально расписать, что должно быть изображено, указать стиль рисования и прочие нюансы.
Особо заморачиваться с составлением описания не нужно. Imagen 3 понимает текстовые описания на естественном человеческом языке.
У Gemini и Imagen 3 куча запретов на генерацию. Они не могут рисовать насилие, фейки, дискриминацию, сексуально откровенные материалы и много чего другого. Плюс к этому, нейросеть якобы пока что не умеет рисовать людей. Хотя, скорее всего, это предохранительная мера во избежание потенциальных негативных последствий использования технологий генерации изображений. Создатели таких технологий, очевидно, пока что не имеют стабильных рабочих решений, как уберечь свои детища, чтобы те не были использованы как инструменты генерации фейков. Что в первую очередь затронет интересы публичных личностей. Да и нам, обычным людям, у которых часто тоже хватает недоброжелателей в близких кругах, может принести много неприятностей.
Изображения генерируются в разрешении 2048х2048 пикселей. Такое разрешение, в принципе, можно даже использовать в графике и дизайне, в непритязательных проектах. У других рисующих нейросетей, доступных онлайн бесплатно, разрешение сгенерированных картинок будет поменьше. Сгенерированную картинку можем скачать с помощью кнопки скачивания, появляющейся при наведении на картинку.
↑ ***
Нейросети, рисующие онлайн бесплатно, обычно ограничивают нас в использовании своих возможностей. Так, например, сервис Microsoft Designer на базе DALL-E позволяет в сутки 15 бесплатных запросов на генерацию, это ограничение распространяется как на непосредственное пользование сервисом, так и на пользование им посредством ИИ-бота Microsoft Copilot. У Gemini пока что таких ограничений нет.
Впечатляет невероятная скорость генерации изображений Gemini посредством модели Imagen 3. Как и текстовые ответы от самого ИИ-бота, генерация картинок выполняется мгновенно. Вообще, друзья, и Gemini, и его рисующая функция – самые быстрые среди аналогов. Увы, нередко в ущерб качеству что ответов ИИ-бота, что генерации картинок. Но Google развивает свои технологии, возможно, со временем они станут качественнее. Но главное – более доступны, чем, можно сказать, эталонный на сегодняшний день ChatGPT на базе модели GPT-4o, ограниченный числом запросов.
Выделите и нажмите Ctrl+Enter
Интернет, Разное
Нейросеть Gemini от Google научилась рисовать