Отчёт о тревел-гранте «INTERSPEECH 2022» - Совет молодых ученых СПб ФИЦ РАН

23 Международная конференция INTERSPEECH 2022 в этом году проводилась с 18 по 20 сентября в городе Инчхон, Южная Корея в гибридном формате. Данная конференция является крупнейшей в мире, посвященная науке и технологиям обработки живой речи и в этом году заглавная тема которой звучала как «Человек и гуманизация речевых технологий».

Своим опытом участия в INTERSPEECH 2022 поделился младший научный сотрудник лаборатории речевых и многомодальных интерфейсов Маркитантов Максим Викторович. Виртуальные участники выступали в формате постера: им предлагалось подготовить 15-ти минутную видео-презентацию доклада, а также постер размера A0. Кроме того, в день проведения сессии виртуальные участники должны были присоединиться посредством специальной платформы Gather c 15:00 до 17:00 по МСК для ответов на вопросы по докладам. Данная платформа предназначена для того, чтобы превратить виртуальное взаимодействие во взаимодействие лицом к лицу. Организаторы построили систему комнат для каждой сессии, в которой для каждого доклада отводилось определенное место, обозначенное постером. Конференция INTERSPEECH была посвящена таким вопросам, как:

восприятие речи человеком;
фонетика, фонология речи;
анализ паралингвистических явлений в речи и в языке;
распознавание речи;
анализ речи и звуковых сигналов;
кодирование и улучшение речи;
синтез речи;
распознавание речи — обработка речевого сигнала, надежность акустического моделирования и адаптация, анализ лингвистических компонентов, технологии и системы распознавания речи;
обработка разговорной речи — обобщение, понимание, перевод и поиск информации в речи.

Программа конференции доступна на официальном сайте мероприятия. Максим Викторович вместе с коллегами для участия в конференции подготовил и представил 2 статьи, которые опубликованы в трудах высокорейтинговой международной конференции INTERSPEECH 2022:

Markitantov M., Ryumina E., Ryumin D., Karpov A. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task // In Proc. of INTERSPEECH. 2022. pp. 1756-1760. DOI: 10.21437/Interspeech.2022-10240.

Статья посвящена сбору новой бимодальной русскоязычной базы данных (корпус) людей в масках (Biometric Russian Audio-Visual Extended MASKS – BRAVE-MASKS), которая включает в себя записи 30 дикторов-носителей русского языка. Корпус разработан для решения следующих задач: c целью решения фундаментальной задачи детектирования средств индивидуальной защиты на лице человека по голосовым и лицевым характеристикам. Кроме того, с использованием разработанной базы данных представлен аудиовизуальный подход для определения типа маски (6 классов: тканевые маски, медицинские маски, маски повышенного уровня защиты (FFP2/3), респираторы, защитные экраны и без маски) на лице диктора.
Velichko A., Markitantov M., Kaya H., Karpov A. Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework // In Proc. of INTERSPEECH. 2022. pp. 4735-4739, DOI: 10.21437/Interspeech.2022-11294.

Во второй статье представлена иерархическая структура для комплексного паралингвистического анализа речи, включая пол, эмоции и распознавание лжи. Основная идея – исследование взаимосвязи между различными паралингвистическими явлениями, в частности, для прогнозирования эмоциональных состояний используется информация о поле диктора, а результат распознавания эмоций – для прогнозирования истинности высказываний.

Свежие записи

Облако тегов