Реализация детектора голосовой активности посредством применения сверточных нейронных сетей
В статье приведен метод проектирования детектора голосовой активности посредством сверточной нейронной сети. Представлено построение модели VAD в пакете MATLAB Deep Learning Toolbox.
Введение
Технологии анализа и обработки речевых сигналов позволяют снизить шумовое воздействие звукового окружения и осуществлять экономию канальных ресурсов при передаче информации. Детектор голосовой активности (voice activity detector – VAD) играет важную роль в данных системах, позволяя обнаружить присутствие речи в аудиосигнале. Информация, полученная VAD, может быть использована для разделения аудиоинформации на вокализированную часть и фоновый шум.
На сегодняшний день существует множество подходов к реализации VAD, среди них все большую популярность набирают решения, включающие в себя применение методов машинного обучения. Возможность обучения технических средств принимать решения, основанные на предыдущем опыте, дают возможность создавать системы обработки информации, обладающие большим быстродействием и не уступающим в точности классическим алгоритмам.
Одним из методов машинного обучения, позволяющий решать большой спектр задач и бурно развивающийся на данный момент, является применение нейронных сетей и глубокого обучения. Глубокое обучение включает в себя принцип обучения нескольких уровней композиции, применяемых к системам машинного обучения. Скрытые слои глубокой сети способны извлекать из входного набора данных более абстрактные признаки, вычисления которых при применении классический нейронных сетей представляет собой трудно решаемую задачу.[1] Преимущества данного подхода дают возможность применения указанного подхода к реализации VAD.
Выделение признаков речевой составляющей аудиосигнала при работе VAD
Одним из основных критериев успешной реализации VAD является подбор параметров, позволяющих с высокой долей вероятности определить, присутствует ли в данном временном промежутке аудиосигнала речевая составляющая. Подбор наиболее оптимальных параметров анализа звукового сигнала играет ключевую роль в снижении вероятности появления ошибок первого и второго рода при работе VAD.
Выбор выделяемых параметров также оказывает существенное влияние на структуру формируемой глубокой сети. При выборе в качестве базовых признаков мел-кепстральные коэффициенты, наиболее часто применяемые при решении подобных задач, выбор делается преимущественно в пользу рекуррентных нейронных сетей. Однако подобные модели зачастую является усложненными с вычислительной точки зрения.
Другим подходом к выделению признаков вокализированных участков из общего потока аудиоинформации может быть анализ спектрограмм сигналов. При наличии в сигнале речевых составляющих, можно выделить фундаментальные частоты, ряд гармоник, кратных фундаментальной частоте, а также оценить спектральную плотность мощности. Согласно их расположению из спектрограммы выделяется форманты, представленных горизонтальными кривыми, появляющимися при произнесении гласных, и шумные согласные, имеющие вид вертикальных всплесков.
Рисунок 1 – Спектр речевого сигнала
Возможность на временном отрезке выделять акустические особенности сигнала позволяет использовать в качестве входной информации спектрограммы в качестве изображения. Следовательно, задачу в данной постановке возможно решить методами компьютерного зрения.
Применение сверточных нейронных сетей в задаче компьютерного зрения
Одним из наиболее популярных подходов в решении задач компьютерного зрения на сегодняшний день является применение сверточных нейронных сетей (СНС). Использование данной архитектуры имеет преимущество ввиду сравнительно меньшего количества настраиваемых весовых коэффициентов, что дает меньшее необходимое время и снижение вычислительных ресурсов при оптимально настроенных гиперпараметрах сети.
Применяя данных подход к поставленной задаче, задачу сети можно свести к семантической сегментации изображения. При обнаружении вышеприведенных параметров наиболее вероятного присутствия речевой составляющей, сеть должна наложить битовую маску на искомые области. Метки, присвоенные каждому пикселу в ходе сегментации, определяют решение спроектированного VAD о нахождении или отсутствии речевой составляющей.
Одно из самых важных преимуществ использования СНС перед полносвязными нейронными сетями заключается в том, что в саму ее структуру закладывается априорная информация о входных данных. На вход СНС подаются не просто векторы входных данных, а данные, представленные многомерным массивом – тензором. Размерности тензора по горизонтали и вертикали представлены сеткой пикселей входного изображения. Нормальный вектор данной плоскости представлен каналами, включающие свойства каждого элемента по предыдущему подмножеству осей.[2]
Рисунок 2 – Примет входного тензора RGB изображения
Данная априорная информация существенно облегчает процесс обучения.
Входной тензор при проходе через слой свертки покрывается окнами размерностью ядер свертки – фильтрами, движимыми с заданным шагом, где идет выделение признаков. Результаты данного преобразования является тензор, где окна предыдущего слоя заменены результатами свертки. Указанное количество фильтров на слое свертки определяет «глубину» выходного тензора. Увеличение числа каналов изображения есть увеличение карты признаков тензора.
Полный текст работы доступен ниже в разделе файлы.
Комментарии