WikiDer > Мультимодальный анализ тональности - Википедия
Мультимодальный анализ тональности это новое измерение[термин павлин] традиционных текстовых анализ настроений, который выходит за рамки анализа текстов и включает другие модальности такие как аудио и визуальные данные.[1] Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности.[2] При большом количестве социальные медиа данные, доступные в Интернете в различных формах, таких как видео и изображения, обычные текстовые анализ настроений превратилась в более сложные модели мультимодального анализа настроений,[3] которые могут быть применены при разработке виртуальные помощники,[4] анализ обзоров фильмов на YouTube,[5] анализ новостных видеороликов,[6] и распознавание эмоций (иногда известный как эмоция обнаружение), например депрессия мониторинг,[7] среди прочего.
Похож на традиционный анализ настроений, одной из основных задач мультимодального анализа настроений является настроение классификация, которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные.[8] Сложность анализируя текстовые, звуковые и визуальные функции для выполнения такой задачи требуют применения различных методов слияния, таких как уровень функций, уровень принятия решения и гибридное слияние.[3] Эффективность этих техник слияния и классификация алгоритмы применяемые, зависят от типа текстовых, звуковых и визуальных функций, используемых в анализе.[9]
Функции
Разработка функций, который включает в себя выбор функций, которые передаются в машинное обучение алгоритмы, играет ключевую роль в производительности классификации тональности.[9] В мультимодальном анализе тональности используется комбинация различных текстовых, звуковых и визуальных функций.[3]
Текстовые особенности
Подобно обычному текстовому анализ настроений, некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе тональности: униграммы и н-граммы, которые в основном представляют собой последовательность слов в данном текстовом документе.[10] Эти функции применяются с использованием мешок слов или «мешок концепций» представляют собой представления, в которых слова или концепции представлены как векторы в подходящем пространстве.[11][12]
Аудио особенности
Настроения и эмоция характеристики видны в разных фонетический и просодический свойства, содержащиеся в аудиофункциях.[13] Некоторые из наиболее важных звуковых функций, используемых в мультимодальном анализе тональности: мел-частотный кепстр (MFCC), спектральный центроид, спектральный поток, гистограмма ударов, сумма ударов, самая сильная доля, длительность паузы и подача.[3] OpenSMILE[14] и Praat - популярные наборы инструментов с открытым исходным кодом для извлечения таких звуковых функций.[15]
Визуальные особенности
Одно из основных преимуществ анализа видео по сравнению с одним только текстом - это наличие богатых тональных сигналов в визуальных данных.[16] Визуальные особенности включают выражения лица, которые имеют первостепенное значение для улавливания настроений и эмоции, поскольку они являются основным каналом формирования настоящего душевного состояния человека.[3] Конкретно, улыбка, считается одним из наиболее предсказуемых визуальных сигналов в мультимодальном анализе тональности.[11] OpenFace - это набор инструментов для анализа лица с открытым исходным кодом, предназначенный для извлечения и понимания таких визуальных функций.[17]
Техники слияния
В отличие от традиционного текстового анализ настроенийМультимодальный анализ тональности проходит процесс слияния, в котором данные из разных модальностей (текст, аудио или видео) сливаются и анализируются вместе.[3] Существующие подходы к мультимодальному анализу настроений слияние данных могут быть сгруппированы в три основные категории: уровень функций, уровень решения и гибридное слияние, а эффективность классификации тональности зависит от того, какой тип техники слияния используется.[3]
Слияние на уровне функций
Слияние на уровне функций (иногда известное как раннее слияние) объединяет все функции каждого модальность (текст, аудио или изображение) и объединяет их в единый вектор признаков, который в конечном итоге вводится в алгоритм классификации.[18] Одной из трудностей при реализации этого метода является интеграция разнородных функций.[3]
Слияние на уровне решений
Слияние на уровне решений (иногда называемое поздним слиянием), подает данные из каждой модальности (текст, аудио или видео) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации тональности путем объединения каждого результата в единый вектор решения.[18] Одним из преимуществ этого метода слияния является то, что он устраняет необходимость слияния разнородных данных, и каждый модальность может использовать наиболее подходящий классификация алгоритм.[3]
Гибридный синтез
Гибридное слияние - это комбинация методов слияния на уровне функций и на уровне решений, в которой в процессе классификации используется дополнительная информация от обоих методов.[5] Обычно он включает двухэтапную процедуру, в которой слияние на уровне функций первоначально выполняется между двумя модальностями, а затем слияние на уровне решений применяется в качестве второго шага для слияния первоначальных результатов слияния на уровне функций с оставшимися модальность.[19][20]
Приложения
Подобно текстовому анализу тональности, мультимодальный анализ тональности может применяться при разработке различных форм рекомендательные системы например, при анализе пользовательских видеороликов обзоров фильмов[5] и общие обзоры продуктов,[21] для прогнозирования настроений клиентов и последующего создания рекомендаций по продуктам или услугам.[22] Мультимодальный анализ настроений также играет важную роль в продвижении виртуальные помощники посредством применения обработка естественного языка (НЛП) и машинное обучение техники.[4] В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как: стресс, беспокойство, или же депрессия.[7] Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в новостных видеопрограммах, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, обычно менее очевидны или нейтральны.[23]
Рекомендации
- ^ Солеймани, Мохаммад; Гарсия, Дэвид; Джоу, Брендан; Шуллер, Бьёрн; Чанг, Ши-Фу; Пантик, Майя (сентябрь 2017 г.). «Обзор мультимодального анализа настроений». Вычисления изображений и зрения. 65: 3–14. Дои:10.1016 / j.imavis.2017.08.003.
- ^ Каррей, Фахреддин; Милад, Алемзаде; Салех, Джамиль Абу; Мо Нур, араб (2008). «Взаимодействие человека и компьютера: обзор современного состояния» (PDF). Международный журнал по интеллектуальному зондированию и интеллектуальным системам. 1: 137–159. Дои:10.21307 / ijssis-2017-283.
- ^ а б c d е ж грамм час я Пория, Суджанья; Камбрия, Эрик; Баджпай, Раджив; Хуссейн, Амир (сентябрь 2017 г.). «Обзор аффективных вычислений: от одномодального анализа к мультимодальному слиянию». Информационное слияние. 37: 98–125. Дои:10.1016 / j.inffus.2017.02.003. HDL:1893/25490.
- ^ а б "Google AI, чтобы звонить за вас". Новости BBC. 8 мая 2018. Получено 12 июн 2018.
- ^ а б c Воллмер, Мартин; Венингер, Феликс; Кнауп, Тобиас; Шуллер, Бьорн; Вс, конгкай; Сагаэ, Кендзи; Моренси, Луи-Филипп (май 2013 г.). "Обзоры фильмов YouTube: анализ настроений в аудиовизуальном контексте". Интеллектуальные системы IEEE. 28 (3): 46–53. Дои:10.1109 / MIS.2013.34. S2CID 12789201.
- ^ Pereira, Moisés H.R .; Pádua, Flávio L.C .; Pereira, Adriano C.M .; Беневенуто, Фабрисио; Далип, Дэниел Х. (9 апреля 2016 г.). «Объединение аудио, текстовых и визуальных функций для анализа тональности новостных видеороликов». arXiv:1604.02612 [cs.CL].
- ^ а б Зукко, Кьяра; Калабрезе, Барбара; Каннатаро, Марио (ноябрь 2017 г.). Анализ настроений и аффективные вычисления для мониторинга депрессии. Международная конференция IEEE по биоинформатике и биомедицине (BIBM), 2017 г.. IEEE. С. 1988–1995. Дои:10.1109 / bibm.2017.8217966. ISBN 978-1-5090-3050-7. S2CID 24408937.
- ^ Панг, Бо; Ли, Лилиан (2008). Извлечение мнений и анализ настроений. Ганновер, Массачусетс: Теперь издатели. ISBN 978-1601981509.
- ^ а б Сунь, Шилян; Ло, Чен; Чен, Джунью (июль 2017 г.). «Обзор методов обработки естественного языка для систем интеллектуального анализа». Информационное слияние. 36: 10–25. Дои:10.1016 / j.inffus.2016.10.004.
- ^ Ядоллахи, Али; Шахраки, Амене Голипур; Зайане, Осмар Р. (25 мая 2017 г.). «Текущее состояние анализа тональности текста от мнения до анализа эмоций». Опросы ACM Computing. 50 (2): 1–33. Дои:10.1145/3057270. S2CID 5275807.
- ^ а б Перес Росас, Вероника; Михалча, Рада; Моренси, Луи-Филипп (май 2013 г.). «Мультимодальный анализ настроений испанских онлайн-видео». Интеллектуальные системы IEEE. 28 (3): 38–45. Дои:10.1109 / MIS.2013.9. S2CID 1132247.
- ^ Пория, Суджанья; Камбрия, Эрик; Хуссейн, Амир; Хуан, Гуан-Бинь (март 2015 г.). «На пути к интеллектуальной структуре мультимодального анализа аффективных данных». Нейронные сети. 63: 104–116. Дои:10.1016 / j.neunet.2014.10.005. HDL:1893/21310. PMID 25523041.
- ^ Чун-Сянь Ву; Вэй-Бинь Лян (январь 2011 г.). «Распознавание эмоций аффективной речи на основе нескольких классификаторов с использованием акустико-просодической информации и семантических меток». IEEE Transactions по аффективным вычислениям. 2 (1): 10–21. Дои:10.1109 / T-AFFC.2010.16. S2CID 52853112.
- ^ Эйбен, Флориан; Вёлльмер, Мартин; Шуллер, Бьёрн (2009). «OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом». OpenEAR - Представляем мюнхенский набор инструментов для распознавания эмоций и аффектов с открытым исходным кодом - Публикация конференции IEEE. п. 1. Дои:10.1109 / ACII.2009.5349350. ISBN 978-1-4244-4800-5. S2CID 2081569.
- ^ Моренси, Луи-Филипп; Михалча, Рада; Доши, Паял (14 ноября 2011 г.). «На пути к мультимодальному анализу сантиментов». На пути к мультимодальному анализу сантиментов: сбор мнений из Интернета. ACM. С. 169–176. Дои:10.1145/2070481.2070509. ISBN 9781450306416. S2CID 1257599.
- ^ Пория, Суджанья; Камбрия, Эрик; Хазарика, Деваманью; Маджумдер, Навонил; Заде, Амир; Моренси, Луи-Филипп (2017). «Контекстно-зависимый анализ настроений в пользовательских видео». Труды 55-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи): 873–883. Дои:10.18653 / v1 / p17-1081.
- ^ «OpenFace: набор инструментов для анализа поведения лиц с открытым исходным кодом - публикация конференции IEEE». Дои:10.1109 / WACV.2016.7477553. S2CID 1919851. Цитировать журнал требует
| журнал =
(помощь) - ^ а б Пория, Суджанья; Камбрия, Эрик; Ховард, Ньютон; Хуанг, Гуан-Бинь; Хуссейн, Амир (январь 2016 г.). «Объединение аудио, визуальных и текстовых подсказок для анализа тональности мультимодального контента». Нейрокомпьютинг. 174: 50–59. Дои:10.1016 / j.neucom.2015.01.095.
- ^ Шахла, Шахла; Нагш-Нилчи, Ахмад Реза (2017). «Использование доказательной теории в сочетании текстовых, аудио и визуальных модальностей для аффективного поиска музыкального видео - публикация конференции IEEE». Дои:10.1109 / PRIA.2017.7983051. S2CID 24466718. Цитировать журнал требует
| журнал =
(помощь) - ^ Пория, Суджанья; Пэн, Хайюнь; Хуссейн, Амир; Ховард, Ньютон; Камбрия, Эрик (октябрь 2017 г.). «Ансамблевое применение сверточных нейронных сетей и обучение с несколькими ядрами для мультимодального анализа настроений». Нейрокомпьютинг. 261: 217–230. Дои:10.1016 / j.neucom.2016.09.117.
- ^ Перес-Росас, Вероника; Михалча, Рада; Моренси, Луи Филипп (1 января 2013 г.). «Мультимодальный анализ тональности высказываний». Длинные статьи. Ассоциация компьютерной лингвистики (ACL).
- ^ Чуй, Михаил; Маника, Джеймс; Миремади, Мехди; Хенке, Николай; Чанг, Рита; Нел, Питер; Мальхотра, Санкальп. «Заметки из области искусственного интеллекта. Выводы из сотен вариантов использования». McKinsey & Company. McKinsey & Company. Получено 13 июн 2018.
- ^ Эллис, Джозеф Дж .; Джоу, Брендан; Чанг, Ши-Фу (12 ноября 2014 г.). «Почему мы смотрим новости». Почему мы смотрим новости: набор данных для изучения настроений в вещательных видеоновостях. ACM. С. 104–111. Дои:10.1145/2663204.2663237. ISBN 9781450328852. S2CID 14112246.