Нейросеть для генерации изображений DALL-E
Нейросеть для генерации изображений DALL-E
Содержание:
В этой публикации, друзья, рассмотрим известную нейросеть для генерации изображений DALL-E. Рисующие нейросети пока что не так доступны, как языковые нейросети в виде умных чат-ботов — ChatGPT, Bing AI, YaGPT, Aria, Bard AI. Нейросетей, генерирующих картинки по текстовому описанию, которыми можно пользоваться бесплатно, немного. Из этих немногих не все просты в работе, не все поддерживают русский язык, не все генерируют качественные картинки. В числе годных рисующих нейросетей – Stable Diffusion, но она для серьёзных целей и требует изучения, Шедеврум от Яндекса, но она доступна только в мобильных приложениях. Из годных рисующих нейросетей, доступных на ПК, для обывательских целей — DALL-E, о которой, собственно, речь и пойдёт далее.
↑ Нейросеть для генерации изображений DALL-E
↑ Что такое DALL-E
DALL-E — это платформа (технология) генерации изображений на базе нейросетей, разработанная компанией OpenAI, создателем языковой модели нейросети GPT и чат-бота ChatGPT. DALL-E создаёт реалистичные и художественные изображения по заданному нами текстовому описанию. Может рисовать людей, животных, вымышленных существ, пейзажи, предметы, абстракции и т.п. При создании изображений может использовать разные стили рисования – цифровой арт, 3D цифровая живопись и скульптура, фотореализм, сюрреализм, концепт-арт, минимализм, граффити и стрит-арт, поп-арт и т.п. Генерирует изображения с разрешением 1024×1024 пикселей. Названа в честь художника Сальвадора Дали и мультяшного робота ВАЛЛ-И.
DALL-E впервые представлена в 2021 году. В 2022 году появился улучшенный вариант платформы — DALL‑E 2, генерирующий более качественные изображения и предусматривающий возможности по редактированию имеющихся изображений.
DALL-E в своей работе использует два типа нейросетей:
- Языковую модель GPT‑3, понимающую текстовые описания изображений;
- Генератор, создающий изображения на основе текстовых описаний.
Когда мы, пользователи вводим текстовое описание изображения, сначала языковая модель пытается понять, что мы хотим нарисовать. Затем она передаёт эту информацию генератору, который создаёт изображение.
DALL-E популярна благодаря своей доступности и простоте. Так, другие платформы генерации изображений — например, Stable Diffusion и Midjourney — могут создавать изображения более высокого качества, более реалистичные, чем DALL-E. Они более сложные, предусматривают различные настройки и фильтры. Но они же и более требовательны к аппаратным ресурсам. Бесплатное использование этих платформ не так просто, как DALL-E. Stable Diffusion и Midjourney имеют много ограничений. Плюс к этому, для полноценной работы с Stable Diffusion и Midjourney нужно поучиться, как ими пользоваться. С DALL-E всё просто — бери и делай.
За успехами DALL-E стоит не кто-нибудь, а сама компания Microsoft. Microsoft имеет долгосрочное партнёрство с OpenAI: в 2019 году Microsoft инвестировала в OpenAI 1 млрд долларов, а в 2021 году — ещё 1,5 млрд долларов. В рамках этого партнёрства Microsoft и OpenAI сотрудничают над разработкой и внедрением DALL-E в продукты и сервисы Microsoft. На сегодняшний день DALL-E внедрена в браузер Microsoft Edge, сервисы Bing Image Creator, Bing AI, Microsoft Designer, Microsoft Viva.
DALL-E проще использовать, чем многие другие рисующие нейросети. Эта платформа не требует от нас знаний в области нейросетей, изобразительного искусства или фотографии. Чтобы использовать DALL-E, необходимо всего лишь ввести текстовое описание изображения, которое мы хотим создать. Это описание может быть детализированным – с указанием стиля рисования, с подробным описанием того, что должно быть изображено, с указанием фокуса и различных параметров фото. Но это не обязательно, можно кратко своими словами сформулировать, что должно быть изображено.
Использовать DALL-E можно разными способами. Не все они позволяют работать с платформой бесплатно без ограничений, но в любом случае DALL-E — одна из самых доступных нейросетей, рисующих относительно качественно.
Как использовать DALL-E?
↑ Сайт OpenAI
Изначально DALL-E представлена на сайте компании OpenAI. Работать с платформой очень просто: в текстовое поле вводим текстовое описание изображения и жмём «Generate». Если, друзья, у вас нет идей, что бы вы хотели нарисовать с помощью DALL-E, используйте опцию «Surprise me». Это генерация идей для картинок – генерация текстовых описаний, по которым далее вы сможете сгенерировать уже сами картинки. Эта опция даёт нам примеры, как можно составлять текстовые описания для генерации картинок. Сайт DALL-E только на английском, идеи для картинок генерируются на английском, мы же текстовое описание для картинки можем вводить на любом языке.
Однако некоторые запросы не на родном английском DALL-E может не понимать и генерировать какую-то ерунду. В идеале лучше, чтобы описание было на английском. По заданному описанию генерируются 4 картинки, и мы можем выбрать самую удачную.
DALL-E на сайте компании OpenAI предусматривает максимум своих возможностей. Помимо генерации изображений платформа позволяет ещё редактировать существующие изображения – удалять фон, дорисовывать объекты, менять их размер и форму, перемещать объекты, изменять цвета и оттенки изображения, менять стиль изображения, создавать похожие изображения, похожие на исходное. Кликаем опцию загрузки изображения.
Загружаем изображение. Далее подрезаем его до квадрата, дабы оно на выходе соответствовало разрешению 1024×1024 пикселей.
Далее выбираем, что нам нужно: «Generate variations» — это генерация похожих изображений, а «Edit Image» — это редактирование загруженного изображения. Выберем редактирование.
И можем, к примеру, дорисовать объект. Мы загрузили картинку с чистым небом, и в нём можно дорисовать самолёт. Для этого ластиком стираем участок, где должен быть самолёт. В текстовое поле вводим название объекта, который нужно дорисовать — самолёт. Жмём «Generate».
И получаем 4 варианта нашей картинки с разными самолётами.
Сгенерированную или отредактированную картинку на выходе можем скачать на компьютер, получить на неё публичную ссылку или сохранить в своих коллекциях на сайте OpenAI.
Но, друзья, бесплатное использование DALL-E на сайте OpenAI ограничено. Нам даётся всего лишь 15 бесплатных кредитов ежемесячно. Каждый кредит – выполнение одного запроса, т.е. одна генерация или одно редактирование картинки. Сайт OpenAI недоступен для РФ и Беларуси, понадобится ВПН. Для использования DALL-E необходим аккаунт OpenAI, а для его регистрации нужен телефон. Телефоны РФ и Беларуси не принимаются к регистрации. Понадобится виртуальный номер другой страны.
↑ Bing Image Creator от Microsoft
Использовать DALL-E без ограничений на число запросов можно в сервисе Microsoft — Bing Image Creator. Сервис базируется на той же платформе DALL-E, но, возможно, более улучшенной. Мы сгенерировали на обоих сайтах картинки по одному и тому же текстовому описанию — миньоны в автобусе. Результат с сайта OpenAI представлен выше. Давайте сравним его с результатом сервиса от Microsoft.
Разница видна невооружённым глазом: сервис от Microsoft предложил более качественные рисунки, в едином стиле 3D-живописи, тогда как на рисунках с сайта OpenAI миньоны грубо и неаккуратно налеплены на реалистичные фото.
Однако сервис от Microsoft не предусматривает полный перечень возможностей DALL-E, как на сайте OpenAI. Bing Image Creator предусматривает только генерацию картинок по текстовому описанию.
Для генерации картинки в текстовое поле вводим описание того, что хотим нарисовать. И жмём «Создать». Здесь также есть генератор идей для изображений – кнопка «Удиви меня». Рядом с кнопкой создания картинки будем видеть свои ускорения — специальные очки, позволяющие увеличить скорость генерации изображений. При каждом запросе тратится одно ускорение. Ускорения через время восстанавливаются. При исчерпании ускорений всё равно можно использовать сервис, но генерация изображений будет занимать больше времени.
По нашему запросу нам предлагается обычно 4 картинки. Выбираем наиболее подходящую. Можем скачать её на компьютер, получить её публичную ссылку или сохранить в коллекции сервиса Microsoft Bing.
Для использования Bing Image Creator нужен аккаунт Microsoft.
↑ Bing AI в браузере Microsoft Edge
Друзья, у компании Microsoft есть языковая нейросеть — умный чат-бот Bing AI, интегрированный в поисковой сервис Microsoft Bing при условии его использования в браузере Microsoft Edge. А в Bing AI интегрированы возможности сервиса Bing Image Creator. Если мы работаем с Bing AI, нам для генерации картинок не нужно заходить на сервис Bing Image Creator. Мы просто просим Bing AI нарисовать для нас что-то. Bing AI в ответ предоставляет превью сгенерированных картинок.
Кликнув по ним, попадём в сервис Bing Image Creator. И там сможем выбрать нужный вариант картинки, скачать, получить ссылку или добавить в коллекции Microsoft Bing.
↑ Bing AI в Skype
Bing AI интегрирован в мессенджер Microsoft Skype. Работая с Bing AI в Skype, также не нужно никуда отлучаться при необходимости сгенерировать картинку. В чате с Bing AI просим его нарисовать что нам нужно. И в чате от него получаем результат – сгенерированные по запросу картинки.
Можем кликнуть эти картинки и открыть их, скопировать или пересохранить на компьютере.
↑ Качество изображений DALL-E
Друзья, при работе с DALL-E вы можете обнаружить, что результаты генерации по вашим запросам далеки от шедевров изобразительного искусства, выставленных в качестве образцовых работ платформы на сайтах OpenAI и Bing Image Creator. Абстракции, художественные интерпретации, мультяшные или фэнтезийные персонажи и т.п. – это у DALL-E получается, в общем-то, неплохо.
Но вот с фотореализмом успех будет не всегда. У платформы плохо получается реалистичное фото людей, часто встречаются недоработки при прорисовке глаз.
С генерацией фото электроники и вовсе беда. Вот так по мнению DALL-E выглядит видеокарта.
DALL-E не всегда может точно воспроизвести все аспекты реальности. Всё, что состоит из сложных и мелких деталей, имеет текстуры и отражения, пока что туго даётся алгоритмам машинного обучения. И здесь поправить ситуацию сможет только эволюция нейросетей.
В целом же качество генерируемых картинок можно улучшить, максимально детализировав текстовый запрос на генерацию. Чем более корректно и подробно мы опишем, что хотим видеть на картинке, тем лучше DALL-E поймёт нашу задумку и создаст соответствующее изображение. В результате же слишком общих или неясных запросов можем получить изображения нечёткие, неправдоподобные или несоответствующие нашим ожиданиям.
Выделите и нажмите Ctrl+Enter
Интернет, Разное
Нейросеть для генерации изображений DALL-E