Построение нейросетевого классификатора эмоций для мультимодальных данных

Авторы

  • Косачев Илья Сергеевич Уфимский университет науки и технологий
  • Сметанина Ольга Николаевна Уфимский университет науки и технологий
  • Сазонова Екатерина Юрьевна Уфимский университет науки и технологий

Ключевые слова:

машинное обучение, классификация эмоций, мультимодальные данные, нейронные сети

Аннотация

Данное исследование посвящено разработке модели для классификации эмоции человека по мультимодальным признакам. В статье проведен разбор существующих работ, решающих задачу классификации эмоции по голосу и речи; описана постановка задачи классификации эмоции, подготовка данных и методика решения; представлены результаты экспериментов с различными моделями для решения задачи. Для обучения был использован набор данных Dusha, состоящий из аудиозаписей на русском языке. В результате экспериментов была получена модель, объединяющая Wav2Vec2 и DistilBERT-small, которая достигла на тестовом наборе значение f1-macro 0,84 на crowd подвыборке и 0,62 на podcast. doi 10.54708/19926502_2025_29411039

Биографии авторов

Косачев Илья Сергеевич, Уфимский университет науки и технологий

аспирант второго года обучения Уфимского университета науки и технологий

Сметанина Ольга Николаевна, Уфимский университет науки и технологий

Доктор технических наук, доцент, профессор кафедры ВМиК Уфимского университета науки и технологий

Сазонова Екатерина Юрьевна, Уфимский университет науки и технологий

Кандидат технических наук, доцент, доцент кафедры ВМиК Уфимского университета науки и технологий

Загрузки

Опубликован

2025-25-12

Выпуск

Раздел

******************************