Меню Рубрики

Распознавание речи офлайн windows

ПО для оффлайн распознавания речи

Друзья, подскажите, пожалуйста, существует ли в природе какой-нибудь приличный софт для распознавания речи на русском языке, не требующий постоянного доступа к интернету? Желательно СПО, но нормально работающая проприетарщина тоже сойдёт.

http://cmusphinx.sourceforge.net/ не знаю только насколько хорошо работает. Тут есть про настройку русского в сфинксе: https://habrahabr.ru/post/237589/

существует ли в природе какой-нибудь приличный софт для распознавания речи на русском языке

Нету, в природе вместо «Speech Synthesis & Analysis Software» © обычно советуют секретаршу.

Нет такого, пробовал Sphinx, так промучился с ним неделю, чтобы просто распознать банальные голосовые команды, какие уж там фразы или предложения. Так и эти команды распознает через раз. Короче полная безнадёга, нужно самому брать Tensorflow и тренировать нейросетку.

заодно спрошу, а есть ли распознавалки произвольного языка, но не в обычный текст, а в запись фонетическим алфавитом?

Нужно распознавание речи или распознавание голосовых команд? Это две абсолютно разные задачи, на самом деле.

Если нужно именно распознавание команд, а не распознавание речи, то нужно было просто обучить cvoicecontrol, а не заниматься чёрт знает чем. 🙂

Гугель и яндекс лицензируют свои распознавалки для оффлайна.
Ценник зависит от левой пятки маркетолога, но обычно это сотни и десятки тысяч долларов соответственно.

А какая разница? Мне кажется переход между фонетической записью и записью в терминах конкретного языка тривиален.

во-первых, это не совсем так, напр. character читается как «карите» но char читаетсся как «чар»

чтобы читается как «штобы» и т.д.

И что? Что тебе мешает составить словарь языка в котором будет написано «штобы» и ему будет соответствовать «чтобы»? Ничего не мешает. Если у тебя будет записан набор звуков, то задача, считай, решена.

во-вторых, имея заранее заданный список слов можно уже самому sed-ом с минимальной логикой перевести запись в набор этих слов (задача управления компьютером по голосу)

вот я и хочу получить набор звуков в виде, наиболее близком тому, в котором он был записан, чтобы не получить на входе character вместо karate или «чтобы» вместо «шторы»

Ну я тебе и говорю, что это самая сложная часть. И нормальной реализации её нет. Если бы она была, то мы с некоторыми железяками вполне могли бы говорить.

Нужно распознавание речи в текст с имеющейся записи. Попробовал демку программы Voco Pro под Винду. Результат — близко к автосубтитрам Ютуба, т.е. «так себе». При этом голос с микрофона програма распознает почти на уровне окей гугла. Похоже, правы те, кто говорит, что пока задача толком не решена.

Гугель и яндекс лицензируют свои распознавалки для оффлайна.
Ценник зависит от левой пятки маркетолога, но обычно это сотни и десятки тысяч долларов соответственно.

А как это выглядит? Нужно покупать асиксы специализированное железо? Или летает на ксеонах/нвидиях? Я бы взял под свой стартап, если дадут в рассрочку бесплатно до взлета проекта, а там сочтемся )

Для начала нужно не пороть ахинеи и хотя бы примерно представлять как работают современные нейронные сети.

Стартап — это когда уже взлетело.
А у тебя — очередное ООО Вектор, которое ещё и не знает что оно такое.
В здравом уме с такими никто дела не имеет.

Если бы она была, то мы с некоторыми железяками вполне могли бы говорить

А как же амазон или тот же сири? У гугла вполне неплохо распознает предложения. Когда пиксель презентовали, так их главный индус по английски тарабанил, а система только успевала записывать. Если конечно это не мухлеж.

Распознавание и синтез — вещи немного разные.

но распознавание речи, записанное фонетическим алфавитом локализует ошибкт до 1 символа на звук, что позволяет использовать более эффективные алгоритмы коррекции

грубо говоря, неважно, что 30% символов неправильно распознано: если произносится, скажем, путь к файлу, этого может быть достаточно

Ну? Я и говорю, что расшифровка аудиодорожки до уровня фонетического алфавита — самое сложное. Остальное — фигня на уровне спеллчекера.

ну так она есть: у меня на макоси сири вполне справляется с распознаванием текста

проблема в том что она тупая и не умеет переключаться с русского на английский, кроме того английский язык — идиотский в плане записи и «карамба» можно записать как karamba или charamba, «комбат» как kombat или combat. наконец, она слабо пытается искать какие-то либо действия (программы) или файлы локально, зато активно пытается искать в гугле произнесённый текст (нахрен это надо, в гугл текст я и руками наберу)

Dragon вроде один из двух лидеров рынка. Кто второй — не помню. Я не знаю, требуется ли там подключение к инету или не требуется. Задача очень сложная — про неё были исследования учёных. Что по сути для хорошего распознавания речи одних механизмов распознавания «отдельных слов» недостаточно. Машина должна понимать семантику произносимого.

ок, но остальное может пофиксить косяки первого

Без хорошего первого второе — набор омерзительных костылей.

Машина должна понимать семантику произносимого.

Даже человеки не всегда понимают семантику произносимого, например «Пуськи бятые» © 🙂

Тут говорили про фонетику, семантику и ещё о каких-то штуках.

Если по порядку, то фонетика — это всего лишь третий этап обработки при распознавании речи, а семантика — тут вообще ни причём. Не знаешь слов — тут уже ничего не поделаешь — иди учи словарь/язык.

Первый этап — это адаптация к шумовой окружающей обстановке. Мозг автоматически выпиливает, например, тиканье часов, шум кондиционера, чьи-то разговоры в стороне, звук телевизора, ну и ещё тысячи вещей. И даже наше сознание особо ничего не предпринимаем при этом. Мозг это делает автоматом.

Остаётся почти идеальный частотный спектр собеседника, после фильтрации мозгом. Бывают конечно исключения, когда шумы вокруг на порядки громче голоса и к тому же они совсем уж апереодичные и непредсказуемые.

После успешного прохождения фильтрации, начинается второй этап — адаптация к тональности и тембру голоса собеседника, это почти тоже автоматом делается. К изъянам самой речи собеседника — ну там шипилявит или не выговаривает некоторые звуки, стандартно «Р», или ещё чего. Говор, когда больше например буква «А» похожа на букву «Б» — славноизвестный «вОлОгОдский» говор к примеру. К скорости самой речи.

Вобщем — эти первых два этапа практически никак никакой известной программой не обрабатываются и в анализатор фонетики сливается весь описанный мусор, среди которого речи в чистом виде практически нет.

Если например проводить тестирование в студии звукозаписи, с помощью человека со среднестатистическим тембром и тональностью голоса и с дикторской дикцией — можно вполне добиться гораздо большей эффективности работы любой распознающей программы. Но подобные условия — это сферический конь в вакууме.

Источник

Диктуем текст: лучшие бесплатные программы для преобразования речи

Мы нашли несколько хороших программ, которые умеют автоматически распознавать речь и преобразовывать ее в связный текст. С их помощью вы можете надиктовывать письма или длинные тексты, а не печатать их вручную.

Представляем четыре способа преобразовать речь в текст, используя бесплатные программы и приложения.

Преобразование речи в текст непосредственно в Word

С помощью Microsoft Dictate вы можете диктовать и даже переводить текст прямо в Word.

  • Скачайте и установите бесплатную программу Microsoft Dictate.
  • Затем откройте Word – в нем появится вкладка Dictation. Кликнув на нее, вы увидите значок микрофона с командой Start.
  • Рядом находится выбор языка. Выберите русский язык и начните запись. Старайтесь произносить слова максимально четко, и они появятся прямо в документе.

Превращаем речь в текст с помощью Speak a Message

Бесплатная программа Speak A Message записывает произнесенный текст, а затем расшифровывает его. Основные языки программы — английский, немецкий, испанский и французский, но есть и мультиязычная версия.

  • Установите программу и нажмите кнопку «Запись». Произнесите весь текст, а затем кликните «Стоп».
  • Под кнопкой записи рядом с записанными файлами вы найдете функцию «Транскрипция» — «Речь в текст».
  • Скопируйте готовый текст и вставьте его в нужный текстовый редактор. Но не забудьте проверить то, что записала программа — иногда она допускает ошибки.

Преобразуем речь в текст без специальных программ

В операционной системе Windows 8 и 10 вам не требуется дополнительное программное обеспечение для преобразования голоса в текст.

  • Нажмите на клавишу Windows и введите «Распознавание речи». Затем откройте совпадающий с запросом результат и следуйте указаниям программы.
  • После завершения настройки запустите приложения и диктуйте текст прямо в документе Word. Для этого просто нажмите на кнопку микрофона и начните говорить.

Преобразование речи в текст через приложение

Если вы хотите диктовать тексты и получать их в напечатанном виде прямо на ходу, используйте специальные приложения.

  • Android и iOS уже интегрировали в свои системы функцию распознавания речи. Когда вы открываете приложение для создания заметок и начинаете набирать текст, используйте значок микрофона, чтобы запустить распознавание голоса.
  • Есть и другие приложения для аналогичной цели, например Dragon Dictation, доступное для Android и iOS.

Источник

Распознавание речи офлайн windows

Сообщение coolermister » Чт окт 15, 2015 12:40 pm

Подробнее опишу агрументы запуска.
-hmm путь к файлам аккустической модели
-dict путь с словарю
-jsgf путь к грамматике
-adcdev устройство захвата. в моем случае, захват идет с микрофона веб камеры, как я уже писал.
-samprate частота дискретизации. веб камера не поддерживает больше чем 8000.
-inmic Upd. Именно -inmic запускает распознавание с микрофона. -adcdev всего лишь принудительно задает устройство захвата.
-logfn вывод логов.

Далее, вывод pocketsphinx_continuous имеет вид:

Re: Оффлайн распознавание речи. PocketSphinx. Linux.

Сообщение skysilver » Чт окт 15, 2015 1:03 pm

Re: Оффлайн распознавание речи. PocketSphinx. Linux.

Сообщение coolermister » Чт окт 15, 2015 1:22 pm

Re: Оффлайн распознавание речи. PocketSphinx. Linux.

Сообщение sleepy » Чт окт 15, 2015 1:40 pm

хе, не успел. )
Тоже поднял сфинкса, но под винду и не 8 версию, а последнюю.
вечером до сервака доберусь и попробую выложить сюда как я это всё сделал.
У меня всё это дело работает не айс.
Косяки:
1. микрофон нюхается постоянно. если рядом телик, то команды сыпятся пачками и «от балды»
2. пробовал микрофон на ноуте — команды чёткие только на расстоянии до 40 см, дальше идут ошибки или надо повышать голос.
пробовал блютуз гарнитуру от нокии bh-104 — но там вообще ужас. не то что команды, я не всегда понимал что сам говорю (проверял отправкой голоса обратно в гарнитуру).
Хочу тоже купить шорох-7/8 и проверить на нём. Но как избавиться от помех от телика/радио. прям не знаю.

Протестировал разные режимы работы:
1. По словарю(jsgf) — самое оптимальное. Этот режим как описал выше автор. То есть нужен словарик с грамматикой и прога ищет только в этом узком диапазоне.
2. По языковой модели(lm). Народ сделал уже не плохую языковую модель, но для наших нужно её использовать губительно, так как будут сыпаться ошибки.
3. По ключевому слову. Работает (как я понял) и по lm и по jsgf, но отличие в том, что можно задать список ключевых слов, которые будут проверяться. Програ распознаёт голос и только когда результат совпадает с ключевым словом, то слово передаётся иначе ничего не пишет.

Режимы можно переключать. Можно переключать языки (разные модели по каждый язык).

У меня windows 7 x64, 6 Гб ддр3, i7 920. Я даже не заметил что она ресурсы хавает. Заметно только когда режим lm и передаётся большой словарик. Просто отжирается оперативка на весь словарик.

Несколько микрофонов не пробовал (даже не вникал в этот вопрос), но если не подключен вообще микрофон, то выдаёт ошибку. Скорей всего берётся микрофон по умолчанию.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

  • Распознавание голоса в текст windows
  • Расплывчатые шрифты в windows 10
  • Расписание заданий windows 7
  • Расписание выполнения задач windows 8
  • Распберри пи 2 windows 10