Состояние распознавания голоса в Linux

Распознавание речи в Linux отстает от платформ Windows и Mac, потому что и Microsoft, и Apple потратили много времени и средств на добавление программного обеспечения голосовых команд или голосового помощника в свои основные операционные системы.

Хотя ситуация с Linux не так безрадостна, как со многими передовыми технологиями, вселенная бесплатных и открытых исходных кодов остается на шаг позади, особенно с инструментами голосового управления.

Распознавание речи в Linux

Ни один из дистрибутивов Linux не ориентирован на распознавание речи. Однако приложения, поддерживающие функцию распознавания речи, полагаются на несколько библиотек с открытым исходным кодом, включая Sphinx, Kaldi, Julius и Mozilla Deepspeech.

Negativespace / Mockup.Photos

Эти библиотеки полагаются на речевой корпус, чтобы предлагать вариации звуков для обучения ИИ и, следовательно, правильно переводить речь в текст. Однако проекты с открытым исходным кодом менее сложны (поскольку они вносят меньший вклад в обучение ИИ), а это означает, что большинство приложений для преобразования текста в речь для Linux часто не справляются с преобразованием. Обычно они так тщательно портят, что не совсем понятно, какой могла быть оригинальная речь.

Параметры преобразования речи в текст в Linux

Используйте один из пяти вариантов решения.

  • Положитесь на собственные приложения Linux, доступные в репозиториях вашего дистрибутива, если таковые появятся.
  • Amazon сделала Alexa доступной для Linux, в том числе для Raspberry Pi. Вам нужно будет выполнить множество пользовательских настроек, чтобы эта компоновка работала, но она будет работать.
  • Получите доступ к Google Speech API в своем браузере через DictationIO. Эта услуга работает только под диктовку; вы не можете использовать его для голосовых команд. Он работает на искусственном интеллекте Google, поэтому качество хорошее.

  • Используйте такую ​​службу, как Alexa или Google Assistant, в качестве утилиты голосовых команд для Linux через службу Triggercmd. Triggercmd работает на вашем компьютере; используйте его для вызова Alexa или Google Assistant и заставьте эти инструменты выполнять определенные сценарии Bash на основе вашей команды. Скажите что-нибудь вроде: «Окей, Google, запросите команду запуска, чтобы открыть калькулятор». Google Assistant выполняет роль посредника с Triggercmd для запуска сценария Bash, указанного фразой «открыть калькулятор».
  • Используйте Wine или виртуальную машину с программным обеспечением для Windows, например Dragon NaturallySpeaking. При правильной настройке вы можете использовать движок Dragon для транскрипции, хотя это решение не работает для приложений голосовых команд.