JavaScript | Web Speech API. Распознавание речи

Web Speech API. Распознавание речи

Последнее обновление: 16.11.2023

Распознавание речи управляется объектом SpeechRecognition. Для его получения применяется свойство webkitSpeechRecognition глобального объекта window, через которое мы можем проверить поддержку распознавания текущим браузером:

if(window.webkitSpeechRecognition) {
    console.log("Распознавание речи поддерживается");
} else {
    console.log("Распознавание речи НЕ поддерживается");
}
// Альтернативный способ проверки
if("webkitSpeechRecognition" in window) {  
    console.log("Распознавание речи поддерживается");
} else {
    console.log("Распознавание речи НЕ поддерживается");
}

Префикс webkit в название свойства намекает, что это свойство поддерживается только в браузерах на движке WebKit. Соответственно в реальности в браузерах на движке WebKit распознавание будет осуществляться с помощью объекта webkitSpeechRecognition, а не SpeechRecognition.

Интерфейс SpeechRecognition предоставляет ряд свойств для настройки распознавания:

grammars: возвращает и устанавливает коллекцию объектов SpeechGrammar, которые представляют используемые грамматики
lang: возвращает и устанавливает язык распознавания. Если не указано, по умолчанию используется значение атрибута lang корневого элемента <html>
continious: определяет, возвращаются ли непрерывные результаты для каждого распознавания (значение true) или только один результат (значение false). По умолчанию возвращается только один результат
interimResults: определяет, следует ли возвращать промежуточные результаты (true) или нет (false). Промежуточные результаты — это результаты, которые еще не являются окончательными (например, свойство SpeechRecognitionResult.isFinal имеет значение false).
maxAlternatives: устанавливает максимальное количество вариантов распознавания, предоставляемых для каждого результата. Значение по умолчанию — 1.

Для управления распознаванием для SpeechRecognition определено три метода:

abort(): прерывает распознавание, не позволяя службе распознавания прослушивать входящий звук и не пытаясь вернуть SpeechRecognitionResult
start(): запускает распознавание.
stop(): останавливает распознавание, не позволяет службе распознавания речи прослушивать входящий звук и пытается вернуть SpeechRecognitionResult, используя записанный на данный момент звук

После запуска распознавания речи методом start() в процессе распознавания могут возникать различные события:

audiostart: запускается, когда начался захват звука. Доступно через свойство onaudiostart
audioend: запускается, когда завершен захват звука. Доступно через свойство onaudioend
end: запускается после отключения службы распознавания. Доступно через свойство onend
error: запускается при возникновении ошибки. Доступно через свойство onerror
nomatch: запускается, когда служба распознавания возвращает финальный результат при неудачном распознавании (степень распознавания не отвечает заданному порогу). Доступно через свойство onnomatch
result: запускается, когда служба распознавания возвращает результат — слово или фразу. Доступно через свойство onresult
soundstart: запускается, когда был обнаружен звук (вне зависимости речь или случайный шум). Доступно через свойство onsoundstart
soundend: запускается после завершения обнаружения звука. Доступно через свойство onsoundend
speechstart: запускается, когда служба распознавания обнаружила речь начала распознавать звук. Доступно через свойство onspeechstart
speechend: запускается, когда служба распознавания завершила обнаружение речи. Доступно через свойство onspeechend
start: запускается, когда служба распознавания начала прослушивать звук. Доступно через свойство onstart

чтобы получить доступ к результату распознавания речи, регистрируется обработчик события result:

const recognition = new webkitSpeechRecognition();
recognition.onresult = function(event){ 
    const results = event.results; // получаем результат распознавания
    console.log(results);   // список SpeechRecognitionResultList
}

Параметр функции-обработчика представляет тип SpeechRecognitionEvent, у которого через свойство results можно получить результаты распознавания в виде списка SpeechRecognitionResultList. Каждая запись в этом списке представляет объект SpeechRecognitionResult и содержит один или несколько вариантов распознавания речи (объектов SpeechRecognitionAlternative) на случай, если распознавание речи было неоднозначным.

const recognition = new webkitSpeechRecognition();
recognition.onresult = function(event){ 
    const results = event.results;  //   получаем список результатов
    const firstResult = results[0]; // получаем первый распознанный результат
    const firstAlternative = firstResult[0];    // получаем первый вариант распознавания
}

Каждая альтернатива (объект SpeechRecognitionAlternative), в свою очередь, имеет два свойства: transcript (содержит распознанный текст) и confidence (уровень уверенности в диапазоне от 0 до 1). Самая первая альтернатива представляет собой результат с наибольшей вероятностью

const recognition = new webkitSpeechRecognition();
recognition.onresult = function(event){ 
    const results = event.results;  //   получаем список результатов
    const firstResult = results[0]; // получаем первый распознанный результат
    const firstAlternative = firstResult[0];    // получаем первый вариант распознавания
    const transcript = firstAlternative.transcript;  //  распознанный текст
    const confidence = firstAlternative.confidence;    // уровень уверенности 
    console.log(transcript);  
    console.log(confidence);
}

Для демонстрации распознавания определим следующую веб-страницу:

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8" />
    <title>METANIT.COM</title>
</head>
<body>
<button id="startBtn">Start</button>
<button id="stopBtn">Stop</button>
<script>
const recognition = new webkitSpeechRecognition();
let index = 0;
recognition.onresult = function(event){ 
    const results = event.results;  //   получаем список результатов
    const firstResult = results[index++]; // получаем распознанный результат
    const firstAlternative = firstResult[0];    // получаем первый вариант распознавания
    const transcript = firstAlternative.transcript;  //  распознанный текст
    const confidence = firstAlternative.confidence;    // уровень уверенности 
    console.log(transcript);  
    console.log(confidence);
}
// по нажатию на кнопку Start запускаем распознавание
document.getElementById("startBtn").addEventListener("click", ()=>{
    if(window.webkitSpeechRecognition) {
        recognition.continuous = true;
        recognition.lang = "ru";    // распознавание речи на русском языке
        recognition.start();    // начинаем распознавание
    } else {
        console.log("Распознавание речи НЕ поддерживается");
    }
});
// по нажатию на кнопку Stop останавливаем распознавание
document.getElementById("stopBtn").addEventListener("click", ()=>{recognition.stop(); index=0;})
</script>
</body>
</html>

В данном случае по нажатию на кнопку Start запускаем распознавание речи на русском языке. Результаты распознавания выводятся на консоль. При нажатии на кнопку Stop останавливаем распознавание.

Для получения результата определяем переменную index. При каждом срабатывании события result в список распознаваний будет добавляться новый результат распознавания. И, инкрементируя переменную index, мы сможем при последующем срабатывании события result получить распознанный результат по этому индексу.

Стоит отметить, что при запуске распознавания браузер предложит пользователю дать разрешения на использование микрофона:

Web Speech API и распознавание речи в JavaScript

Соответственно если пользователь хочет использовать распознавание речи, то он должен разрешить браузеру доступ к микрофону.

Назад Содержание Вперед

Глава 1. Введение в JavaScript
- Что такое JavaScript
- Первая программа на JavaScript
- Выполнение кода javascript
- Подключение внешнего файла JavaScript
- Консоль браузера и console.log
Глава 2. Основы javascript
- Переменные и константы
- Типы данных
- Арифметические операции
- Поразрядные операции
- Условные выражения
- Условные операторы ?: и ??
- Преобразование данных
- Введение в массивы
- Условные конструкции
- Циклы
- Отладка и отладчик
Глава 3. Функциональное программирование
- Функции
- Параметры функции
- Результат функции
- Стрелочные функции
- Область видимости переменных
- Замыкания
- Функции IIFE
- Рекурсивные функции
- Переопределение функций
- Hoisting
- Передача параметров по значению и по ссылке
Глава 4. Объектно-ориентированное программирование
- Объекты
- Ключевое слово this
- Вложенные объекты и массивы в объектах
- Копирование и сравнение объектов
- Проверка наличия и перебор методов и свойств
- Объекты в функциях
- Функции-конструкторы объектов
- Расширение объектов. Прототипы
- Функция как объект. Методы call и apply
- Функция Object.create. Конфигурация свойств объектов
- Наследование прототипов
- Наследование прототипов конструкторов
- Инкапсуляция свойств. Геттеры и сеттеры
- Деструктуризация
- Оператор ?.
- Константные объекты. Запрет изменения объекта
Глава 5. ООП. Классы.
- Классы
- Приватные поля и методы
- Статические поля и методы
- Свойства и методы доступа
- Наследование
Глава 6. Массивы
- Создание массива и объект Array
- Массивы и spread-оператор
- Операции с массивами
- Наследование массивов
Глава 7. Строки и регулярные выражения
- Строки и объект String
- Шаблоны строк
- Объект RegExp. Регулярные выражения
- Синтаксис регулярных выражений
- Квантификаторы в регулярных выражениях
- Поиск в строке
- Группы в регулярных выражениях
- Регулярные выражения в методах String
Глава 8. Обработка ошибок
- Конструкция try..catch..finally
- Генерация ошибок и оператор throw
- Типы ошибок
- Обработка ошибок и стек вызова функций
Глава 9. Встроенные объекты
- Объект Date. Работа с датами
- Объект Math. Математические операции
- Объект Number
- Символы
- Proxy
Глава 10. Коллекции и итераторы
- Итераторы
- Генераторы
- Множества Set
- Map
- WeakSet
- WeakMap
Глава 11. Работа с DOM
- Введение в DOM
- Свойства объекта document
- Поиск элементов на веб-странице
- Объект Node. Навигация по DOM
- Элементы
- Создание, добавление и удаление элементов
- Управление атрибутами элементов
- Управление стилем и классами элементов
- Создание своего элемента HTML
Глава 12. События
- Введение в обработку событий
- Обработчики событий
- Передача данных в обработчик события. Объект Event
- Распространение событий
- События мыши
- События клавиатуры
- Программный вызов событий
- Определение своих событий
Глава 13. Работа с формами
- Формы и их элементы
- Кнопки
- Текстовые поля
- Флажки и радиокнопки
- Список select
- Validation API. Валидация элементов формы
- Управление валидацией форм
Глава 14. Работа с браузером и BOM
- Browser Object Model и объект window
- Диалоговые окна и поиск на странице
- Открытие, закрытие и позиционирование окон
- История браузера. History API
- Объект location
- Объект navigator. Получение информации о браузере
- Таймеры
Глава 15. Форматы JSON и XML
- Работа с JSON
- Работа с XML
Глава 16. Хранение данных
- Куки
- Web Storage
Глава 17. Promise, async и await
- Асинхронные функции и коллбеки
- Введение в промисы
- Получение результата операции в Promise
- Обработка ошибок в Promise
- Создание цепочек промисов
- Функции Promise.all, Promise.allSettled, Promise.any и Promise.race
- Async и await
- Асинхронные итераторы
- Асинхронные генераторы
Глава 18. AJAX-запросы и XMLHttpRequest
- XMLHttpRequest и отправка ajax-запросов
- Загрузка HTML с помощью XMLHttpRequest
- Загрузка XML с помощью XMLHttpRequest
- Загрузка JSON с помощью XMLHttpRequest
- Отправка данных в ajax-запросе
- Отправка форм в ajax-запросе
- Promise в Ajax-запросах
Глава 19. Fetch API
- Функция fetch
- Объект Response и его свойства
- Получение данных из ответа
- Настройка параметров запроса. Отправка данных
- Создание клиента для REST API
Глава 20. Web Socket API и Server-Sent Events
- Web Socket API
- Server-Sent Events
Глава 21. Локализация
- Введение в Internationalization API
- Локализация списков и Intl.ListFormat
- Локализация дат и времени
- Локализация названий и Intl.DisplayNames
- Форматирование чисел и Intl.NumberFormat
- Int.Collator и сравнение строк
Глава 22. Модули
- Введение в модули
- Импорт модуля
- Экспорт и импорт компонентов модулей
- Экспорт и импорт по умолчанию
- Использование псевдонимов при экспорте и импорте
- Динамическая загрузка модулей
Глава 23. Canvas API
- Canvas и его контекст. Рисование прямоугольников
- Настройка рисования
- Фоновые изображения
- Создание градиента
- Рисование текста
- Рисование фигур
- Рисование изображений
- Добавление теней
- Редактирование пикселей
- Трансформации
- Рисование мышью
- Сохранение и восстановление состояния canvas
- Анимация на canvas
Глава 24. IndexDB API
- Создание, открытие и удаление базы данных
- Управление базой данных в IndexedDB
- Выполнение запросов к базе данных
- Добавление объектов в хранилище
- Получение данных из IndexDB
- Обновление объектов хранилища
- Получение количества объектов
- Удаление данных из хранилища
- Курсоры
Глава 25. Drag-and-Drop API
- Перетаскивание элементов с помощью Drag-and-Drop API
- Установка и послучение перетаскиваемых данных с помощью DataTransfer
Глава 26. File API
- Загрузка файлов
- Чтение файлов с FileReader
- Отслеживание процесса загрузки файла
Глава 27. Web Worker API
- Определение и выполнение веб-воркера
- Обмен сообщениями между веб-воркером и основным потоком
Глава 28. Дополнительные Web API
- Geolocation API
- Battery Status API
- Web Speech API. Синтез речи
- Web Speech API. Распознавание речи
- Web Animation API
Глава 29. Дополнительные статьи
- Паттерн пространство имен
- Паттерн Модуль
- JavaScript в CSS

Помощь сайту

Юмани:

410011174743222

Перевод на карту

Номер карты:

4048415020898850