January 29, 17:00

​​Распознавание речи — простой и естественный для человека процесс. Но как передать этот навык компьютерам? Как и распознавание визуальных образов, этот интуитивный процесс невозможно представить в виде простого компьютерного алгоритма — "если X, то Y".

Чтобы создать машинную систему распознавания речи, необходимо собрать воедино следующие компоненты:

— Цифровое преобразование входящих звуковых колебаний

— Детекция нужной звуковой дорожки и отсечение шумов (т.н. проблема "коктейльной вечеринки", когда все говорят одновременно)

— Массив данных для тренировки алгоритмов распознавания, т.е. огромное количество аудиофрагментов речи с соответствующими транскрипциями

— Акустическая модель, узнающая в потоке речи отдельные фонемы

— Модель произношения, связывающая фонемы в отдельные слова

— Языковая модель, связывающая слова в фразы и предложения

— Декодер: алгоритмы, анализирующие предположения акустической и языковой модели; результат их работы — текст с наиболее вероятной транскрипцией входящего звукового потока.

Первая часть текста о том, почему распознавание речи — это непросто. Прочитал, жду вторую.

Что ещё почитать в канале по теме:

— Смогут ли машины распознавать речь так же, как люди? Обзор от Atlantic

— Разговорные интерфейсы — одна из самых многообещающих технологий ближайших лет. Пример Китая

— Cпециалисты по ИИ, UX и продуктовому дизайну рассуждают о голосовых помощниках в беспроводных гарнитурах. Да, как фильме "Она".

— Аналитик Бенедикт Эванс сомневается в будущем голосовых помощников

— Разные казусы с голосовыми помощниками: они становятся объектами харрасмента, учат детей плохим манерам, свидетельствуют против своих владельцев, отправляют записи их разговоров случайным людям и всё время подслушивают 👂🏻