Реализация в среде Windows поддержки русскоязычного голосового ввода

Реализация в среде Windows поддержки русскоязычного голосового ввода

Реализация в среде Windows поддержки русскоязычного голосового ввода

Категория: Программы
Добавил:
access_timeОпубликовано: 4-11-2017
visibilityПросмотров: 41 499
chat_bubble_outlineКомментариев: 2

Друзья, на днях мы рассматривали одно из новшеств, привнесённых в Windows 10 обновлением Fall Creators Update – штатную возможность голосового ввода данных на английском языке. Поддержку голосового ввода на русском языке компания Microsoft обещает в будущем, но не уточняет, близко или далеко это будущее обозримо. Возможно, это будет тогда, когда и Кортана сможет говорить, а главное, понимать по-русски. Ждать, пока Microsoft научит Windows 10 понимать наших не стоит. Если чего-то нет в среде самой системы, это практически всегда можно реализовать за счёт сторонних программных средств. Собственно, о них мы и будем говорить в этой статье. Ниже рассмотрим различные способы, как можно с помощью встроенного в ноутбук или подключённого к ПК микрофона вводить голосом поисковые запросы и надиктовывать текст документов.

Реализация в среде Windows поддержки русскоязычного голосового ввода

1. «Ок, Алиса» и голосовой поиск Google для поисковых запросов

{banner_google1}
Возможность голосового ввода поисковых запросов давным-давно присутствует в поисковике Google.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32181ef10b

Непонятно, почему компания Google до сих пор не интегрировала эту технологию в интерфейс YouTube. Но в любом случае видеоролики можно искать в самом поисковике, проговаривая ключевые запросы. Просто затем нужно будет в результатах выдачи переключаться на вкладку «Видео». Львиная доля поисковых выдач по известным причинам всё равно будет с YouTube.
Успевшим уже познакомиться с Алисой – нашумевшим голосовым помощником от Яндекса – и вовсе не нужно отправляться на сайт поисковика в окне браузера. После установки программы поисковое поле Яндекса с возможностью голосового ввода запросов появится прямо на панели задач Windows. А на редкие несложные вопросы Алиса сможет ответить и без поисковика, не выходя за пределы своего диалогового окошка.

2. Веб-сервис Web Speech API от Google

У технологии Web Speech API, посредством которой в поисковике Google реализован голосовой ввод запросов, есть свой веб-интерфейс по адресу:
https://www.google.com/intl/ja/chrome/demos/speech.html
Функционал сервиса миинималистичен: в нём присутствует кнопка включения микрофона и результирующее поле, где затем будет отображаться распознанный текст.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218219e38

Но в этом результирующем поле нельзя вносить правки. По итогу получим результаты распознавания как есть. И сможем отредактировать их только в каком-то текстовом редакторе или форме ввода данных. Кнопка ниже результирующего поля «Copy and Paste» завершает текущую сессию ввода и на весь распознанный текст автоматически ставит блок выделения. Так сделано для удобства копирования в буфер.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218239f3e

Для распознанного текста доступна ещё одна возможность, реализованная кнопкой создания электронного письма. Она запускает почтовый клиент, установленный в среде Windows таковым по умолчанию, создаёт новое письмо и переносит в него распознанный текст.

Примечательно, что Web Speech API может распознавать некоторые знаки препинания, как минимум точку и запятую. Так что во время диктовок в местах вставки точек и запятых их можно просто проговаривать.
{banner_google1}
Отсутствие возможности редактирования текста внутри результирующего поля делает использование интерфейса Web Speech API не совсем удобным для больших объёмов набора текста. Для длительных диктовок лучше использовать веб-интерфейс сервиса «Google Документы», в который технология Web Speech API встроена. В «Google Документах» можно и вводить текст голосом, и тут же править его, и ещё попутно форматировать документ.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218255cd4

3. «Голосовой блокнот» на Speechpad.Ru

На базе технологии Web Speech API работает ещё сайт — самый популярный и самый функциональный в Рунете сервис голосового ввода данных «Голосовой блокнот». В числе основных его функций:
  • Поддержка нескольких языков, включая русский и украинский;
  • Результирующее поле распознавания голоса с возможностью правки текста, его перевода на другие языки, выгрузки результатов в TXT-файл;
  • Вывод распознанных фраз в буфер обмена;
  • Транскрибация;
  • Интеграция в веб-формы Chromium-браузеров;
  • Интеграция в среду Windows и Linux.
Плюс к этому всему, в «Голосовом блокноте» опция ввода голоса включается и отключается только по нажатию соответствующей кнопки. Эта опция не деактивируется сама по себе, как только мы на время призадумаемся в поисках точной формулировки мысли, как это происходит в прочих сервисах на базе Web Speech API.
Чтобы начать использовать возможности «Голосового блокнота», необходимо авторизоваться на сайте сервиса. Для этого нужно либо пройти регистрацию, либо задействовать имеющийся аккаунт Яндекса.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32182785d3

Далее активируем прослушивание микрофона кнопкой «Включить запись».

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218293847

И отслеживаем в результирующем поле распознанный текст.

4. Интеграция Speechpad в веб-формы браузера 

У «Голосового блокнота» есть расширение для Chrome и браузеров, поддерживающих работу с контентом из его магазина.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32182b5a7c

После внедрения этого расширения в контекстном меню веб-форм ввода текста появится пункт «Speechpad». Жмём эту кнопку и говорим в микрофон. Таким образом можем, например, надиктовывать заметки в Google Keep.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32182d80da

Или общаться с людьми в соцсетях.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32182f3dee

Единственное «но» — расширение «Голосового блокнота» работает не во всех веб-формах сайтов.

5. Интеграция Speechpad в среду Windows

Возможности веб-сервиса «Голосовой блокнот» можно интегрировать в среду Windows. И осуществлять набор текста голосом в любой программе операционной системы – штатном блокноте, Microsoft Word, прочих текстовых редакторах. Распознанная речь без посредничества веб-сервисов или буфера обмена будет вставляться прямо в редактируемые документы. Однако такая функция Speechpad.Ru не бесплатна, и стоит она 100 руб. в месяц. Предусматриваются варианты экономии: при оплате услуг сразу за квартал стоимость будет составлять 250 руб., а предоплата за год обойдётся в 800 руб. Каждый зарегистрированный пользователь может прежде протестировать интегрированный в среду своей операционной системы функционал сервиса. Создатели Speechpad.Ru предлагают двухдневный тестовый период бесплатно. Как непосредственно осуществляется интеграция «Голосового блокнота» в операционные системы, в частности, в Windows, подробно описывается на сайте самого Speechpad.Ru. Кликаем знак вопроса возле опции интеграции.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218320c31

И проходим все описываемые в инструкции шаги:
  • Устанавливаем вышеупомянутое расширение сервиса;
  • Скачиваем пакет файлов интеграции;
  • Распаковываем архив и запускаем файл install_host.bat;
  • На сайте Speechpad.Ru заходим в кабинет пользователя;

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d321833848d

Жмём кнопку «Включить тестовый период».

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218351ba8

Здесь же, ниже располагаются и способы оплаты услуг сервиса, если во время тестового периода работа с ним понравится. Далее возвращаемся на главную страничку Speechpad.Ru, активируем опцию «Интеграция с OS» и жмём кнопку «Включить запись».

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d321836bea2

И так каждый раз, когда нужно активировать голосовой ввод. Вот, собственно, и всё. Теперь можно открывать Microsoft Word, LibreOffice Writer, прочие текстовые редакторы и начинать диктовку. Распознанный текст будет появляться в окне любого активного приложения, поддерживающего ввод данных. 
Важно: чтобы использовать интегрированный в систему Speechpad, нельзя закрывать вкладку его сайта в окне браузера. Закрытие последней деактивирует голосовой ввод.

5. Бесплатные альтернативы интеграции голосового ввода в среду Windows

Какие могут быть бесплатные альтернативы интеграции в среду Windows русскоязычного голосового ввода данных?
Вариант №1
Совершенно бесплатно на сайте Speechpad.Ru можно использовать опцию вывода распознанной речи в буфер обмена. Жмём на сайте кнопку «Включить запись» и перемещаемся в любое приложение Windows.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d3218386106

Теперь можем проговаривать отдельные фразы и вставлять их из буфера клавишами Ctrl+V. Как только сделаем паузу в речи, услышим писк Speechpad, свидетельствующий о том, что фраза распознана и скопирована в буфер обмена. Такой способ работы с голосовым вводом имеет свои преимущества: при вставке отдельных фраз можно попутно редактировать текст начисто.
Как и при полноценной интеграции «Голосового блокнота» в среду операционной системы, сайт Speechpad.Ru должен быть открыт в одной из вкладок браузера. 
Вариант №2
Работающим с приложениями офисного пакета компания Microsoft может предложить свою наработку по внедрению голосового ввода – надстройку Dictate, интегрирующую в Word, Outlook и PowerPoint дополнительную вкладку меню с инструментом распознавания речи. Надстройка может распознавать речь на 20 языках, включая русский, и позволяет попутно переводить текст на 60 языков.
Сайт скачивания Dictate:
http://dictate.ms
После установки надстройки в систему необходимо перезапустить Word, если он открыт, и активировать Dictate в настройках редактора. В меню «Файл» кликаем «Параметры», далее — «Надстройки». Из перечня надстроек выбираем WordDictate и кликаем внизу «Перейти».

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32183a19f3

Активируем WordDictate.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32183c51ec

Всё – можем тестировать голосовой ввод. Открываем любой документ Word и перемещаемся на вкладку «Dictation». Устанавливаем русский в качестве исходного языка, кликам кнопку со значком микрофона и говорим.

d180d0b5d0b0d0bbd0b8d0b7d0b0d186d0b8d18f d0b2 d181d180d0b5d0b4d0b5 windows d0bfd0bed0b4d0b4d0b5d180d0b6d0bad0b8 d180d183d181d181d0bad0be 65d32183ddddf

Однако наряду с бесплатностью и удобством реализации голосового ввода таким образом, увы, получим и обратную сторону медали – ужасное качество самой технологии распознавания речи. Технология Microsoft по качеству всерьёз отстаёт от Web Speech API компании Google.
***
Ещё один бесплатный способ голосового ввода текста – запись речи в аудиофайл с дальнейшей автоматической транскрибацией (расшифровкой в текст). Далеко на каждый может сразу изложить свои мысли структурированным литературным языком, да ещё и попутно править ошибки распознавания, проставлять знаки препинания. При записи же речи на диктофон можно полностью сконцентрироваться на сути излагаемого материала, а в процессе транскрибации уже всю концентрацию внимания направить на красноречие и грамотность подачи этого материала. Но, друзья, автоматизация транскрибации аудиозаписей – это тема уже другой, отдельной статьи.
Продолжение в статьях: 
tagsКлючевые слова
     Рекомендуем другие статьи по данной теме
Ctrl
Enter
Заметили ошибку

Выделите и нажмите Ctrl+Enter

Программы
Реализация в среде Windows поддержки русскоязычного голосового ввода