Нейросети для распознавания текста

Категория: Интернет / Разное
Добавил: admin
Опубликовано: Сегодня, 10:43
Просмотров: 2
Комментариев: 0

Содержание:

В этой публикации, друзья, рассмотрим нейросети для распознавания текста. В плане выполнения этой задачи нейросети превосходят традиционные алгоритмы OCR — могут понимать искажённый текст, текст на сложных фонах, рукописный текст, анализировать текст в контексте, самообучаются. Для решения насущных задач обывателей, коим нет надобности оцифровывать архивные документы в промышленных масштабах, а нужны простые разовые операции типа копирования надписей на экране компьютера или фото, с нейросетей будет больше проку, чем со специализированных OCR-программ и веб-сервисов. Нейросети с надписями на картинках разве что не творят чудеса.

↑ ***

Друзья, возможно, кто не знает, распознавание текста на изображениях есть в числе штатных функций Windows 11. Её современное приложение-скриншотер «Ножницы» в 2023 году обзавелось поддержкой распознавания текста на созданных этим приложением скриншотах. Если нужно оперативно скопировать текст системной или программной ошибки на экране, надписи в интерфейсе, надписи на изображениях и т.п., делаем этим приложением скриншот, соответственно, окна ошибки, участка интерфейса, изображения в просмотрщике и т.п. И далее в открывшемся редакторе «Ножниц» задействуем распознавание.

d0bdd0b5d0b9d180d0bed181d0b5d182d0b8 d0b4d0bbd18f d180d0b0d181d0bfd0bed0b7d0bdd0b0d0b2d0b0d0bdd0b8d18f d182d0b5d0bad181d182d0b0 675af61e7ebb4

Оперативно и бесплатно распознать небольшой текст на картинках можно с помощью сервисов визуального поиска от Microsoft, Яндекса и Google. Последний даже предусматривает свой инструмент, интегрированный в браузер в Google Chrome для удобного использования. Также в Интернете есть много бесплатных и условно-бесплатных сервисов распознавания текста, работающих с большими масштабами задач, в частности, с многостраничными документами.

Визуальный поиск, друзья, хорош тем, что, помимо распознавания текста, предлагает результаты поиска изображений, схожих с исходным, и со связанным содержимым. А некоторые сервисы ещё и предусматривают перевод распознанного текста. Если текст распознать нужно для перевода надписи или поиска по ней информации в Интернете, визуальный поиск сходу решает эти задачи. Языковые нейросети же сходу могут больше – и распознать надпись, и перевести её, и растолковать, если надо. И даже предоставить любую дополнительную информацию, если что. Что же это за нейросети такие, которые могут распознавать текст на изображениях и выдавать по нему любую информацию?

↑ Llama OCR

Нейросеть Llama OCR не выдаёт информации по надписям на изображении, но являет собой специализированную языковую модель, заточенную специально для распознавания текста. Разрабатывается как открытое ПО, активно поддерживается сообществом с GitHub, постоянно совершенствуется. А главное – доступна бесплатно. Пока что Llama OCR поддерживает распознавание с изображений, позже в ней обещается поддержка PDF-документов. У этой нейросети высокая точность распознавания. И что интересно: распознанный текст предлагается нам не в виде сырого текста, а в формате структурированного документа Markdown, т.е. форматированного текста. Который удобен для копирования как целиком, так и частями. За надобностью можно сохранить форматирование при переносе в текстовый редактор.

d0bdd0b5d0b9d180d0bed181d0b5d182d0b8 d0b4d0bbd18f d180d0b0d181d0bfd0bed0b7d0bdd0b0d0b2d0b0d0bdd0b8d18f d182d0b5d0bad181d182d0b0 675af61ec73c1

Для использования Llama OCR нужно всего лишь загрузить или перетащить изображение в специальную форму на сайте нейросети.

↑ ChatGPT

Распознать текст можно попросить передового нейросетевого чат-бота – ChatGPT. Он поддерживает создание скриншотов, создание фото камерой компьютера, загрузку имеющихся на компьютере изображений, а также вставку их из буфера обмена. При отправке боту изображения с надписями можем в свободной форме попросить его только распознать текст, либо же распознать и перевести. Если нам нужна информация по надписи, пишем всего лишь два слова «Что это».

d0bdd0b5d0b9d180d0bed181d0b5d182d0b8 d0b4d0bbd18f d180d0b0d181d0bfd0bed0b7d0bdd0b0d0b2d0b0d0bdd0b8d18f d182d0b5d0bad181d182d0b0 675af61f215a0

В ответ получим анализ и пояснение надписи на изображении – что означает она, если её информация имеет техническое, литературное, прикладное или иное значение. Если надпись связана с определённой областью знаний (термин, инструкция или отсылка), ChatGPT может пояснить или расширить информацию.

↑ Gemini

Нейросетевой чат-бот от Google Gemini поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. Принцип работы с ним тот же, что с ChatGPT – что надо сделать с надписью, то и просим чат-бота в сопровождении к загруженному изображению. Например, можно просто попросить перевести текст на изображении на нужный язык.

d0bdd0b5d0b9d180d0bed181d0b5d182d0b8 d0b4d0bbd18f d180d0b0d181d0bfd0bed0b7d0bdd0b0d0b2d0b0d0bdd0b8d18f d182d0b5d0bad181d182d0b0 675af61f6f237

В ответ получим и перевод, и анализ изображения.

↑ Copilot

Штатный ИИ-ассистент Windows 11 Copilot от Microsoft также поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. Отправляя ему изображение, также просим чат-бот сделать то, что нам нужно. Например, получить толкование результатов какого-то бенчмарка.

d0bdd0b5d0b9d180d0bed181d0b5d182d0b8 d0b4d0bbd18f d180d0b0d181d0bfd0bed0b7d0bdd0b0d0b2d0b0d0bdd0b8d18f d182d0b5d0bad181d182d0b0 675af61fb757f

В ответ получаем справку о бенчмарке, о его тестах и наших значениях. Далее можно утонить у бота, насколько хороши результаты наших тестов, т.е. насколько производительно наше устройство.

↑ Aria

Если вы, друзья, используете браузер Opera, можете попросить распознать или перевести текст интегрированный в этот браузер нейросетевой чат-бот Aria. Либо же со старта получить справку о надписи. Aria поддерживает загрузку имеющихся на компьютере изображений и вставку их из буфера обмена. И, кстати, в Opera есть встроенный скриншотер с возможностью копирования снимка в буфер обмена, правда, работает этот скриншотер только в рамках окна браузера.

Ключевые слова

Интернет, Нейросеть

Рекомендуем другие статьи по данной теме

Распознавание текста в приложении «Ножницы» Windows 11
Как копировать текст с изображения
Рисующая нейросеть YandexART от Яндекса в мобильном приложении «Шедеврум»
Визуальный поиск Windows 10
Нейроредактор в Яндекс.Браузере

Ctrl

Enter

Заметили ошибку

Выделите и нажмите Ctrl+Enter

Нравится 0

Не нравится 0

Интернет, Разное
Нейросети для распознавания текста