Трудности проблемы автоматического распознавания речи (существующие и по сей день) в значительной мере возникали в результате попыток исследователей ограничить процесс распознавания процедурой поэлементного, например пофонемного, анализа речевого потока. Но, поскольку многие звуки в живой разговорной речи неузнаваемо изменены (по отношению к своему среднестатистическому стандарту) или даже вовсе отсутствуют, данный алгоритм речевого распознавания заведомо не оптимален. Поэтому в современных теориях машинного распознавания речи все более и более начинает доминировать идея о необходимости обучения ЭВМ распознаванию речи на основе тех же принципов, что и овладение речью человеком в онтогенезе, т. е. на основе «усвоения» машиной всех необходимых вероятностных языковых закономерностей (Ли, 1983).
Спектральные характеристики речи. Наиважнейшей акустической характеристикой речи, обусловливающей восприятие слушателем речевой информации, является динамика спектрального состава звука во времени. Спектром звука принято называть представление сигнала в координатах «частота – амплитуда», иными словами – зависимость амплитуд обертонов от их частоты.
Голосовой источник (гортань, голосовые складки) формирует звук (см. рисунок 3а, б) с линейно падающей по мере увеличения частоты амплитудой обертонов (см. рисунок 3в). Резонаторная система речевого тракта (ротовая полость, глотка) обладает свойством усиливать отдельные полосы частот, значение которых определяется объемом и конфигурацией ротоглоточного резонатора, что в свою очередь обусловливается характерным для каждого речевого звука положением артикуляционных органов (см. рисунок 3 г). В результате прохождения звуковой волны от голосовых складок через ротоглоточный резонатор[9] спектр ее оказывается преобразованным, т. е. имеет максимумы акустической энергии (F1, F2) в частотных полосах, соответствующих резонансному усилению речевого тракта, и минимумы в соседних полосах, соответствующих поглощению (подавлению) речевым трактом акустической энергии (см. рисунок 3д).
Рис. 3. Схема преобразования спектра в речевом тракте (Сапожков, Михайлов, 1983).
а – звуковые импульсы голосовых связок; б – осциллограмма речевого звука; в – спектр источника (голосовых связок); г – резонансные характеристики речевого тракта; д – результирующий спектр речевого звука. А – амплитуда; Р – звуковое давление; t – время; L – относительный уровень спектральных составляющих; f – частота спектральных составляющих; F1 – первая форманта; F2 – вторая форманта.
Как установлено с параллельным применением кинорентгеносъемки и акустической техники, в процессе артикуляции звуков речи, т. е. перемещении языка, губ, челюсти, изменении объемов и конфигурации ротовой и глоточной полостей,