Нейросеть для генерации изображений DALL-E

Нейросеть для генерации изображений DALL-E

Нейросеть для генерации изображений DALL-E

Категория: Интернет / Разное
Добавил:
access_timeОпубликовано: 4-09-2023
visibilityПросмотров: 857
chat_bubble_outlineКомментариев: 0
Нейросеть для генерации изображений DALL-E

В этой публикации, друзья, рассмотрим известную нейросеть для генерации изображений DALL-E. Рисующие нейросети пока что не так доступны, как языковые нейросети в виде умных чат-ботов — ChatGPT, Bing AI, YaGPT, Aria, Bard AI. Нейросетей, генерирующих картинки по текстовому описанию, которыми можно пользоваться бесплатно, немного. Из этих немногих не все просты в работе, не все поддерживают русский язык, не все генерируют качественные картинки. В числе годных рисующих нейросетей –  Stable Diffusion, но она для серьёзных целей и требует изучения, Шедеврум от Яндекса, но она доступна только в мобильных приложениях. Из годных рисующих нейросетей, доступных на ПК, для обывательских целей — DALL-E, о которой, собственно, речь и пойдёт далее.

Нейросеть для генерации изображений DALL-E

Что такое DALL-E

DALL-E — это платформа (технология) генерации изображений на базе нейросетей, разработанная компанией OpenAI, создателем языковой модели нейросети GPT и чат-бота ChatGPT. DALL-E создаёт реалистичные и художественные изображения по заданному нами текстовому описанию. Может рисовать людей, животных, вымышленных существ, пейзажи, предметы, абстракции и т.п. При создании изображений может использовать разные стили рисования – цифровой арт, 3D цифровая живопись и скульптура, фотореализм, сюрреализм, концепт-арт, минимализм, граффити и стрит-арт, поп-арт и т.п. Генерирует изображения с разрешением 1024×1024 пикселей. Названа в честь художника Сальвадора Дали и мультяшного робота ВАЛЛ-И.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283d18bf0

DALL-E впервые представлена в 2021 году. В 2022 году появился улучшенный вариант платформы — DALL‑E 2, генерирующий более качественные изображения и предусматривающий возможности по редактированию имеющихся изображений.

DALL-E в своей работе использует два типа нейросетей:

  • Языковую модель GPT‑3, понимающую текстовые описания изображений;
  • Генератор, создающий изображения на основе текстовых описаний.

Когда мы, пользователи вводим текстовое описание изображения, сначала языковая модель пытается понять, что мы хотим нарисовать. Затем она передаёт эту информацию генератору, который создаёт изображение.

DALL-E популярна благодаря своей доступности и простоте. Так, другие платформы генерации изображений — например, Stable Diffusion и Midjourney — могут создавать изображения более высокого качества, более реалистичные, чем DALL-E. Они более сложные, предусматривают различные настройки и фильтры. Но они же и более требовательны к аппаратным ресурсам. Бесплатное использование этих платформ не так просто, как DALL-E. Stable Diffusion и Midjourney имеют много ограничений. Плюс к этому, для полноценной работы с Stable Diffusion и Midjourney нужно поучиться, как ими пользоваться. С DALL-E всё просто — бери и делай.

За успехами DALL-E стоит не кто-нибудь, а сама компания Microsoft. Microsoft имеет долгосрочное партнёрство с OpenAI: в 2019 году Microsoft инвестировала в OpenAI 1 млрд долларов, а в 2021 году — ещё 1,5 млрд долларов. В рамках этого партнёрства Microsoft и OpenAI сотрудничают над разработкой и внедрением DALL-E в продукты и сервисы Microsoft. На сегодняшний день DALL-E внедрена в браузер Microsoft Edge, сервисы Bing Image Creator, Bing AI, Microsoft Designer, Microsoft Viva.

DALL-E проще использовать, чем многие другие рисующие нейросети. Эта платформа не требует от нас знаний в области нейросетей, изобразительного искусства или фотографии. Чтобы использовать DALL-E, необходимо всего лишь ввести текстовое описание изображения, которое мы хотим создать. Это описание может быть детализированным – с указанием стиля рисования, с подробным описанием того, что должно быть изображено, с указанием фокуса и различных параметров фото. Но это не обязательно, можно кратко своими словами сформулировать, что должно быть изображено.

Использовать DALL-E можно разными способами. Не все они позволяют работать с платформой бесплатно без ограничений, но в любом случае DALL-E — одна из самых доступных нейросетей, рисующих относительно качественно.

Как использовать DALL-E?

Сайт OpenAI

Изначально DALL-E представлена на сайте компании OpenAI. Работать с платформой очень просто: в текстовое поле вводим текстовое описание изображения и жмём «Generate». Если, друзья, у вас нет идей, что бы вы хотели нарисовать с помощью DALL-E, используйте опцию «Surprise me». Это генерация идей для картинок – генерация текстовых описаний, по которым далее вы сможете сгенерировать уже сами картинки. Эта опция даёт нам примеры, как можно составлять текстовые описания для генерации картинок. Сайт DALL-E только на английском, идеи для картинок генерируются на английском, мы же текстовое описание для картинки можем вводить на любом языке.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283d79ae1

Однако некоторые запросы не на родном английском DALL-E может не понимать и генерировать какую-то ерунду. В идеале лучше, чтобы описание было на английском. По заданному описанию генерируются 4 картинки, и мы можем выбрать самую удачную.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283d8dd5b

DALL-E на сайте компании OpenAI предусматривает максимум своих возможностей. Помимо генерации изображений платформа позволяет ещё редактировать существующие изображения – удалять фон, дорисовывать объекты, менять их размер и форму, перемещать объекты, изменять цвета и оттенки изображения, менять стиль изображения, создавать похожие изображения, похожие на исходное. Кликаем опцию загрузки изображения.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283dc505c

Загружаем изображение. Далее подрезаем его до квадрата, дабы оно на выходе соответствовало разрешению 1024×1024 пикселей.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283ddb4a2

Далее выбираем, что нам нужно: «Generate variations» — это генерация похожих изображений, а «Edit Image» — это редактирование загруженного изображения. Выберем редактирование.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283e12ca2

И можем, к примеру, дорисовать объект. Мы загрузили картинку с чистым небом, и в нём можно дорисовать самолёт. Для этого ластиком стираем участок, где должен быть самолёт. В текстовое поле вводим название объекта, который нужно дорисовать — самолёт. Жмём «Generate».

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283e3fcdf

И получаем 4 варианта нашей картинки с разными самолётами.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283e6b0c0

Сгенерированную или отредактированную картинку на выходе можем скачать на компьютер, получить на неё публичную ссылку или сохранить в своих коллекциях на сайте OpenAI.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283eb7f5d

Но, друзья, бесплатное использование DALL-E на сайте OpenAI ограничено. Нам даётся всего лишь 15 бесплатных кредитов ежемесячно. Каждый кредит – выполнение одного запроса, т.е. одна генерация или одно редактирование картинки. Сайт OpenAI недоступен для РФ и Беларуси, понадобится ВПН. Для использования DALL-E необходим аккаунт OpenAI, а для его регистрации нужен телефон. Телефоны РФ и Беларуси не принимаются к регистрации. Понадобится виртуальный номер другой страны

Bing Image Creator от Microsoft

Использовать DALL-E без ограничений на число запросов можно в сервисе Microsoft — Bing Image Creator. Сервис базируется на той же платформе DALL-E, но, возможно, более улучшенной. Мы сгенерировали на обоих сайтах картинки по одному и тому же текстовому описанию — миньоны в автобусе. Результат с сайта OpenAI представлен выше. Давайте сравним его с результатом сервиса от Microsoft.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283f07bfb

Разница видна невооружённым глазом: сервис от Microsoft предложил более качественные рисунки, в едином стиле 3D-живописи, тогда как на рисунках с сайта OpenAI миньоны грубо и неаккуратно налеплены на реалистичные фото.

Однако сервис от Microsoft не предусматривает полный перечень возможностей DALL-E, как на сайте OpenAI. Bing Image Creator предусматривает только генерацию картинок по текстовому описанию.

Для генерации картинки в текстовое поле вводим описание того, что хотим нарисовать. И жмём «Создать». Здесь также есть генератор идей для изображений – кнопка «Удиви меня». Рядом с кнопкой создания картинки будем видеть свои ускорения — специальные очки, позволяющие увеличить скорость генерации изображений. При каждом запросе тратится одно ускорение. Ускорения через время восстанавливаются. При исчерпании ускорений всё равно можно использовать сервис, но генерация изображений будет занимать больше времени.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283f6435c

По нашему запросу нам предлагается обычно 4 картинки. Выбираем наиболее подходящую. Можем скачать её на компьютер, получить её публичную ссылку или сохранить в коллекции сервиса Microsoft Bing.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2283fc25eb

Для использования Bing Image Creator нужен аккаунт Microsoft.

Bing AI в браузере Microsoft Edge

Друзья, у компании Microsoft есть языковая нейросеть — умный чат-бот Bing AI, интегрированный в поисковой сервис Microsoft Bing при условии его использования в браузере Microsoft Edge. А в Bing AI интегрированы возможности сервиса Bing Image Creator. Если мы работаем с Bing AI, нам для генерации картинок не нужно заходить на сервис Bing Image Creator. Мы просто просим Bing AI нарисовать для нас что-то. Bing AI в ответ предоставляет превью сгенерированных картинок.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d228401bdfd

Кликнув по ним, попадём в сервис Bing Image Creator. И там сможем выбрать нужный вариант картинки, скачать, получить ссылку или добавить в коллекции Microsoft Bing.

Bing AI в Skype

Bing AI интегрирован в мессенджер Microsoft Skype. Работая с Bing AI в Skype, также не нужно никуда отлучаться при необходимости сгенерировать картинку. В чате с Bing AI просим его нарисовать что нам нужно. И в чате от него получаем результат – сгенерированные по запросу картинки.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d228405cbd1

Можем кликнуть эти картинки и открыть их, скопировать или пересохранить на компьютере.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d22840a7855

Качество изображений DALL-E

Друзья, при работе с DALL-E вы можете обнаружить, что результаты генерации по вашим запросам далеки от шедевров изобразительного искусства, выставленных в качестве образцовых работ платформы на сайтах OpenAI и Bing Image Creator. Абстракции, художественные интерпретации, мультяшные или фэнтезийные персонажи и т.п. – это у DALL-E получается, в общем-то, неплохо.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d2284105818

Но вот с фотореализмом успех будет не всегда. У платформы плохо получается реалистичное фото людей, часто встречаются недоработки при прорисовке глаз.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d228415c2d5

С генерацией фото электроники и вовсе беда. Вот так по мнению DALL-E выглядит видеокарта.

d0bdd0b5d0b9d180d0bed181d0b5d182d18c d0b4d0bbd18f d0b3d0b5d0bdd0b5d180d0b0d186d0b8d0b8 d0b8d0b7d0bed0b1d180d0b0d0b6d0b5d0bdd0b8d0b9 dall 65d22841acf47

DALL-E не всегда может точно воспроизвести все аспекты реальности. Всё, что состоит из сложных и мелких деталей, имеет текстуры и отражения, пока что туго даётся алгоритмам машинного обучения. И здесь поправить ситуацию сможет только эволюция нейросетей.

В целом же качество генерируемых картинок можно улучшить, максимально детализировав текстовый запрос на генерацию. Чем более корректно и подробно мы опишем, что хотим видеть на картинке, тем лучше DALL-E поймёт нашу задумку и создаст соответствующее изображение. В результате же слишком общих или неясных запросов можем получить изображения нечёткие, неправдоподобные или несоответствующие нашим ожиданиям.

tagsКлючевые слова
     Рекомендуем другие статьи по данной теме
Ctrl
Enter
Заметили ошибку

Выделите и нажмите Ctrl+Enter

Интернет, Разное
Нейросеть для генерации изображений DALL-E