3i Speaker ID SDK


Назначение

Библиотека 3i Speaker ID предназначена для разработки программного обеспечения, в котором необходимо решать задачу автоматической текстонезависимой идентификации дикторов по речевым сообщениям, передающимся как по телевизионным каналам, так и по каналам телефонной связи.


Технология

Технология идентификации дикторов по голосу основана на последних достижениях в области анализа речи и принятия решений. В предлагаемом продукте реализован целый ряд самостоятельных методов голосовой идентификации. Среди них известные и уже ставшие традиционными подходы, основанные на Гауссовых смесях (GMM – Gaussian Mixture Model), собственных векторах (i-vectors) и супервекторах. Кроме традиционных методов, в библиотеке применены оригинальные решения как в области первичной обработки речевых сигналов и кодирования акустических признаков речи, так и в области построения голосовых моделей и методов принятия решений. В отличие от существующих подходов, например, в предлагаемой технологии оценка достоверности идентификации основана на результатах взвешенного голосования ряда отдельных независимых решателей. Благодаря этому достигнута высокая устойчивость правильной идентификации в различных каналах связи.

Специальный модуль, выделяющий речевую составляющую из звукового потока на основе определителя основного тона, обеспечивает устойчивость в условиях присутствия в звуковом потоке посторонних - не речевых - вставок.


Модификации

Существует две модификации продукта, отличающиеся возможностями обработки зашумленных речевых сигналов. Модификация «b» (3i-SID (b)-SDK) эффективно обрабатывает сигналы с отношением сигнал/шум (ОСШ) не менее 10 дБ с отсутствием посторонних звуков (кроме гудков). Модификация «p» (3i-SID (p)-SDK) предназначена для обработки сигналов с ОСШ не менее 7 дБ, при этом допускается присутствие посторонних неречевых звуков.


Технические характеристики

Равновероятная ошибка (EER): 7,37%

Тестирование проводилось на единой базе, состоящей более чем из трех тысяч фонограмм различной продолжительности, записанных в разных каналах. Минимальное количество речи в фонограмме – 10 сек. Максимальное – 10 мин. Среднее – 90 сек. Количество целевых дикторов: 100. При идентификации предполагается, что фонограмма содержит речь только одного диктора.

Тип обрабатываемого сигнала

Скорость обработки

Требования к качеству речевого сигнала


Реализация

SDK реализован в виде DLL-библиотек, написанных на языке С++, позволяющих потокобезопасное встраивание функций идентификации диктора в произвольные Windows-приложения.


Документация

Вы можете ознакомиться с подробной документацией на продукт.

Cкачать документацию