Automated Recognition of Paralinguistic Signals in Spoken Dialogue Systems: Ways of Improvement

Sidorov, Maxim; Schmitt, Alexander; Semenkin, Eugene S.; Сидоров, Максим; Шмитт, Александр; Семенкин, Евгений C.

Автор	Sidorov, Maxim	en
Автор	Schmitt, Alexander	en
Автор	Semenkin, Eugene S.	en
Автор	Сидоров, Максим	ru_RU
Автор	Шмитт, Александр	ru_RU
Автор	Семенкин, Евгений C.	ru_RU
Дата внесения	2015-05-29T03:11:14Z
Дата, когда ресурс стал доступен	2015-05-29T03:11:14Z
Дата публикации	2015-05
URI (для ссылок/цитирований)	https://elib.sfu-kras.ru/handle/2311/16808
Аннотация	The ability of artificial systems to recognize paralinguistic signals, such as emotions, depression, or openness, is useful in various applications. However, the performance of such recognizers is not yet perfect. In this study we consider several directions which can significantly improve the performance of such systems. Firstly, we propose building speaker- or gender-specific emotion models. Thus, an emotion recognition (ER) procedure is followed by a gender- or speaker-identifier. Speaker- or gender-specific information is used either for including into the feature vector directly, or for creating separate emotion recognition models for each gender or speaker. Secondly, a feature selection procedure is an important part of any classification problem; therefore, we proposed using a feature selection technique, based on a genetic algorithm or an information gain approach. Both methods result in higher performance than baseline methods without any feature selection algorithms. Finally, we suggest analysing not only audio signals, but also combined audio-visual cues. The early fusion method (or feature-based fusion) has been used in our investigations to combine different modalities into a multimodal approach. The results obtained show that the multimodal approach outperforms single modalities on the considered corpora. The suggested methods have been evaluated on a number of emotional databases of three languages (English, German and Japanese), in both acted and non-acted settings. The results of numerical experiments are also shown in the study	en
Аннотация	Способность искусственных систем распознавать паралингвистические характеристики говоря- щего, такие как эмоциональное состояние, наличие и степень депрессии, открытость человека, является полезной для широкого круга приложений. Однако производительность таких систем далека от идеальных значений. В этой статье мы предлагаем подходы, применение которых позволяет существенно улучшить производительность систем распознавания. В работе описы- вается метод построения адаптивных эмоциональных моделей, позволяющих использовать ха- рактеристики конкретного человека для построения точных моделей. В статье представлены алгоритмы выявления наиболее значимых характеристик речевых сигналов, позволяющие одно- временно максимизировать точность решения поставленной задачи и минимизировать количе- ство используемых характеристик сигнала. Наконец, предлагается использовать комбинирован- ные аудио визуальные сигналы в качестве входов для алгоритма машинного обучения. Указанные подходы были реализованы и проверены на 9 эмоциональных речевых корпусах. Результаты прове- денных экспериментов позволяют утверждать, что предложенные в статье подходы улучшают качество решения поставленных задач с точки зрения выбранных критериев	ru_RU
Язык	en	en
Издатель	Сибирский федеральный университет. Siberian Federal University.	en
Является частью серии	Журнал Сибирского федерального университета. Математика и физика. Journal of Siberian Federal University. Mathematics & Physics;2015 8 (2)	en
Тема	recognition of paralinguistic signals	en
Тема	machine learning algorithms	en
Тема	speaker-adaptive emotion recognition	en
Тема	multimodal approach	en
Тема	распознавание паралингвистических характеристик	ru_RU
Тема	алгоритмы машинного обучения	ru_RU
Тема	адаптивная процедура распознавания эмоций	ru_RU
Тема	мультимодальность	ru_RU
Название	Automated Recognition of Paralinguistic Signals in Spoken Dialogue Systems: Ways of Improvement	en
Альтернативное название	Автоматическое распознавание паралингвистических характеристик говорящего: способы улучшения качества классификации	ru_RU
Тип	Journal Article
Тип	Published Journal Article
Контакты автора	Sidorov, Maxim:Institute of Communications Engineering Ulm University Albert Einstein-Allee, 43, Ulm, 89081 Germany; maxim.sidorov@uniulm.de	en
Контакты автора	Schmitt, Alexander:Institute of Communications Engineering Ulm University Albert Einstein-Allee, 43, Ulm, 89081 Germany;alexander.schmitt@uniulm.de	en
Контакты автора	Semenkin, Eugene S.:Institute of Computer Science and Telecommunications Siberian State Aerospace University Krasnoyarskiy Rabochiy, 31, Krasnoyarsk, 660014 Russia; eugenesemenkin@yandex.ru	en
Контакты автора	Сидоров, Максим:maxim.sidorov@uniulm.de	ru_RU
Контакты автора	Шмитт, Александр:alexander.schmitt@uniulm.de	ru_RU
Контакты автора	Семенкин, Евгений C.:eugenesemenkin@yandex.ru	ru_RU
Страницы	208–216

Файлы в этом документе

Имя:: сидоров.pdf
Размер:: 210.3КБ
Формат:: PDF

Скачать файл

Данный элемент включен в следующие коллекции

Математика и физика. Mathematics & Physics. 2015 8 (2) [14]

Показать сокращенную информацию

Показаны похожие ресурсы по названию, автору или тематике.

Обобщённая методика исследования информационных свойств каналов и систем распознавания

Близнюк, А. А.; Жиронкин, С. Б.; Макарычев, А. В.; Шоромова, А. А.; Bliznyuk, Alexander A.; Zhironkin, Sergey B.; Makarichev, Alexander V.; Shoromova, Anna A. (Сибирский федеральный университет. Siberian Federal University, 2022-12)

В работе предложена обобщённая методика исследования информационных свойств каналов и систем распознавания, применимая для анализа комплексных систем распознавания. Применение методики показало, что при объединении ...
Speech-based Emotion Recognition and Speaker Identification: Static vs. Dynamic Mode of Speech Representation

Sidorov, Maxim; Minker, Wolfgang; Semenkin, Eugene S.; Сидоров, Максим; Минкер, Вольфганг; Семенкин, Евгений C. (Сибирский федеральный университет. Siberian Federal University, 2016-12)

In this paper we present the performance of different machine learning algorithms for the problems of speech-based Emotion Recognition (ER) and Speaker Identification (SI) in static and dynamic modes of speech signal ...
Основные направления совершенствования автоматизации дешифрирования лесных массивов по многоспектральным аэрокосмическим снимкам

Гук, А.П.; Евстратова, Л.Г.; Guk, Aleksander P.; Evstratova, Larisa G. (Сибирский федеральный университет. Siberian Federal University, 2018-12)

Рассмотрены основные вопросы, возникающие при дешифрировании лесных массивов по космическим снимкам высокого разрешения. Выделены главные проблемы каждого этапа обработки. Приведен ряд примеров действующих практически ...
Possibilities of Using Neural Networks in the Investigation of Crimes

Kostomarov, Kirill V.; Костомаров, К. В. (Сибирский федеральный университет. Siberian Federal University, 2019-11)

The study tested possibilities of using neural networks on the example of different models like, online analytical processing, data mining and knowledge discovery, specific models in the sphere of biology, models which can ...
Точностные и вероятностные характеристики алгоритма распознавания режима полета вертолета в радиолокационной системе воздушного базирования

Богданов, А.В.; Горбунов, С.А.; Кучин, А.А.; Шпортко, С.А.; Bogdanov, Alexander V.; Gorbunov, Sergei A.; Kuchin, Alexander A.; Shportko, Sergei A. (Сибирский федеральный университет. Siberian Federal University, 2018-05)

В статье на основе теории многомерной линейной калмановской фильтрации разработан алгоритм распознавания в радиолокационной системе воздушного базирования режима полета вертолета для последующего выбора метода самонаведения ...

Automated Recognition of Paralinguistic Signals in Spoken Dialogue Systems: Ways of Improvement

Файлы в этом документе

Данный элемент включен в следующие коллекции

Связанные материалы

Обобщённая методика исследования информационных свойств каналов и систем распознавания ﻿

Speech-based Emotion Recognition and Speaker Identification: Static vs. Dynamic Mode of Speech Representation ﻿

Основные направления совершенствования автоматизации дешифрирования лесных массивов по многоспектральным аэрокосмическим снимкам ﻿

Possibilities of Using Neural Networks in the Investigation of Crimes ﻿

Точностные и вероятностные характеристики алгоритма распознавания режима полета вертолета в радиолокационной системе воздушного базирования ﻿

Обобщённая методика исследования информационных свойств каналов и систем распознавания

Speech-based Emotion Recognition and Speaker Identification: Static vs. Dynamic Mode of Speech Representation

Основные направления совершенствования автоматизации дешифрирования лесных массивов по многоспектральным аэрокосмическим снимкам

Possibilities of Using Neural Networks in the Investigation of Crimes

Точностные и вероятностные характеристики алгоритма распознавания режима полета вертолета в радиолокационной системе воздушного базирования