3i Speech Diarization SDK

НАЗНАЧЕНИЕ

3i Speech Diarization SDK – встраиваемый программный модуль, реализованный в виде динамически подгружаемой библиотеки, предназначен для разделения речевого сигнала по голосам дикторов в аудио-потоке. Реализуемая в библиотеке технология может эффективно работать как с телерадиовещательным, так и с телефонным каналом входящих данных. Данный SDK может использоваться в качестве начального этапа обработки речевых сигналов в системах голосовой биометрии и распознавания речи.

 

Технология разделения по голосам включает в себя решение следующих задач:

  1. Определение точек смены голоса диктора
  2. Определение количества дикторов
  3. Определение, в каких именно фрагментах речевого сигнала говорит каждый найденный диктор

 

ТЕХНОЛОГИЯ

Технология сегментации речевого потока реализована на многослойной нейронной сети (DNN – от сокр. Deep Neural Network), обученной извлекать из краткосрочной спектральной характеристики речевого сигнала признаки, характеризующие голос диктора.

Каждый такой вектор признаков называется «глубоким» вектором или d-вектором. Расстояние между двумя такими векторами будет малым, если они принадлежат одному диктору, и большим, если разным. Это свойство позволяет обнаружить точки смены говорящего, а также «объединить» фрагменты, в которых присутствует голос одного диктора.

МОДИФИКАЦИИ:

3i Speech Diarization SDK имеет 2 модификации:

  1. Broadcast – модификация для сегментации голоса в телерадиовещательном речевом потоке
  1. Phone – модификация для сегментации голоса в телефонном речевом потоке

 

РЕАЛИЗАЦИЯ

SDK реализован в виде DLL-библиотеки, разработанной с использованием языка С++. Обеспечивает потокобезопасное встраивание функций диаризации речи в произвольные Windows-приложения.

 

ТРЕБОВАНИЯ К ВХОДНЫМ АУДИО ДАННЫМ

Требование к аудио файлам:

 

Требования к буферу памяти, в котором хранятся аудио данные:

 

ПРЕИМУЩЕСТВА

 

СИСТЕМНЫЕ ТРЕБОВАНИЯ

 

ДОКУМЕНТАЦИЯ

Вы можете ознакомиться с подробной документацией на продукт.

Cкачать документацию