3i Speech Detector SDK


Назначение

Библиотека 3i Speech Detector предназначена для обнаружения в звуковом потоке следующих типов сегментов:


Технология

В библиотеке реализовано два подхода к сегментации звукового потока.

Первый подход является аналогом VAD – Voice Activity Detection и работает на основе информации об уровне энергии в сигнале.

Второй подход основан на обнаружении в звуковом потоке признаков основного тона (PTD – Pitch Tone Detection). Присутствие в сигнале признаков основного тона, как правило, сигнализирует о наличии речи. Определение основного тона осуществляется при помощи комбинации следующих методов:

Комбинация четырёх указанных методов обеспечивает высокую надёжность обнаружения речевой составляющей в звуковом потоке даже в сигналах с высоким уровнем помех.


Модификации

Существует две модификации продукта, каждая из которых реализует один из указанных выше подходов к сегментации звукового потока, и, соответственно, отличающихся возможностями обработки зашумленных речевых сигналов. Модификация «b» (3i-SDt(b)-SDK) эффективно обрабатывает сигналы с отношением сигнал/шум (ОСШ) не менее 10 дБ с отсутствием посторонних звуков (кроме гудков). Модификация «p» (3i- SDt(p)-SDK) предназначена для обработки сигналов с ОСШ не менее 7 дБ, при этом допускается присутствие посторонних неречевых звуков.


Технические характеристики

Тип обрабатываемого сигнала

Скорость обработки

Требования к качеству речевого сигнала


Реализация

Библиотека реализована в виде DLL-библиотеки, написанной на языке С++, позволяющей потокобезопасное встраивание функций автоматического определения пола в произвольные Windows-приложения.