Отчёт о тревел-гранте «INTERSPEECH 2022»

23 Международная конференция INTERSPEECH 2022 в этом году проводилась с 18 по 20 сентября в городе Инчхон, Южная Корея в гибридном формате. Данная конференция является крупнейшей в мире, посвященная науке и технологиям обработки живой речи и в этом году заглавная тема которой звучала как «Человек и гуманизация речевых технологий».
Своим опытом участия в INTERSPEECH 2022 поделился младший научный сотрудник лаборатории речевых и многомодальных интерфейсов Маркитантов Максим Викторович. Виртуальные участники выступали в формате постера: им предлагалось подготовить 15-ти минутную видео-презентацию доклада, а также постер размера A0. Кроме того, в день проведения сессии виртуальные участники должны были присоединиться посредством специальной платформы Gather c 15:00 до 17:00 по МСК для ответов на вопросы по докладам. Данная платформа предназначена для того, чтобы превратить виртуальное взаимодействие во взаимодействие лицом к лицу. Организаторы построили систему комнат для каждой сессии, в которой для каждого доклада отводилось определенное место, обозначенное постером. Конференция INTERSPEECH была посвящена таким вопросам, как:
  1. восприятие речи человеком;
  2. фонетика, фонология речи;
  3. анализ паралингвистических явлений в речи и в языке;
  4. распознавание речи;
  5. анализ речи и звуковых сигналов;
  6. кодирование и улучшение речи;
  7. синтез речи;
  8. распознавание речи — обработка речевого сигнала, надежность акустического моделирования и адаптация, анализ лингвистических компонентов, технологии и системы распознавания речи;
  9. обработка разговорной речи — обобщение, понимание, перевод и поиск информации в речи.

Программа конференции доступна на официальном сайте мероприятия. Максим Викторович вместе с коллегами для участия в конференции подготовил и представил 2 статьи, которые опубликованы в трудах высокорейтинговой международной конференции INTERSPEECH 2022:
  1. Markitantov M., Ryumina E., Ryumin D., Karpov A. Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task // In Proc. of INTERSPEECH. 2022. pp. 1756-1760. DOI: 10.21437/Interspeech.2022-10240.

    Статья посвящена сбору новой бимодальной русскоязычной базы данных (корпус) людей в масках (Biometric Russian Audio-Visual Extended MASKS – BRAVE-MASKS), которая включает в себя записи 30 дикторов-носителей русского языка. Корпус разработан для решения следующих задач: c целью решения фундаментальной задачи детектирования средств индивидуальной защиты на лице человека по голосовым и лицевым характеристикам. Кроме того, с использованием разработанной базы данных представлен аудиовизуальный подход для определения типа маски (6 классов: тканевые маски, медицинские маски, маски повышенного уровня защиты (FFP2/3), респираторы, защитные экраны и без маски) на лице диктора.
  2. Velichko A., Markitantov M., Kaya H., Karpov A. Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework // In Proc. of INTERSPEECH. 2022. pp. 4735-4739, DOI: 10.21437/Interspeech.2022-11294.

    Во второй статье представлена иерархическая структура для комплексного паралингвистического анализа речи, включая пол, эмоции и распознавание лжи. Основная идея – исследование взаимосвязи между различными паралингвистическими явлениями, в частности, для прогнозирования эмоциональных состояний используется информация о поле диктора, а результат распознавания эмоций – для прогнозирования истинности высказываний.
Виртуальная платформа Gather
« из 5 »