Maramihang Modalidad na Pagsusuri ng Damdamin

Mula sa Wikipedia, ang malayang ensiklopedya

Ang Maramihang Modalidad na Pagsusuri ng Damdamin ay isang bagong sangay ng tradisyunal na Pagsusuri ng Damdamin (Ingles: sentiment analysis), na hindi lamang limitado sa pagsusuri ng mga teksto, kung hindi sangkop din ang iba pang modalidad gaya ng audio at visual na datos.[1] Ito ay maaaring maging bimodal, kung saan ang kumbinasyon ng dalawang modalidad ang kasama sa pagsusuri, o di kaya trimodal, kung saan naman tatlong uri ng modalidad ang kalakip.[2] Sa malawak na sukat ng mga datos mula sa mga iba't ibang plataporma ng social media, sa sari saring modalidad gaya na lamang ng mga larawan o di kaya mga videos, ang tradisyunal na Pagsusuri ng Damdamin ay nagpatuloy sa mas kumplikadong modelo ng Maramihang Modalidad na Pagsusuri ng Damdamin[3], kung saan ito ay maaaring gamitin sa pag-unlad ng virtual assistants[4], pagsusuri ng mga reaksyon sa pelikula mula sa YouTube videos[5], pagsusuri ng mga videos tungkol sa balita[6], at sa paksa ng emotion recognition kagaya na lamang ng pagsubaybay sa depresyon [7], bukod sa iba pa.

Halintulad sa tradisyunal na Pagsusuri ng Damdamin, isa sa mga pinakasimpleng gawain sa Maramihang Modalidad na Pagsusuri ng Damdamin ay ang pag-uuri ng damdamin, kung saan ang iba't ibang klase ng damdamin ay inuuri kung ito ba ay positibo, negatibo, o walang pinapanigan.[8]. Ang mataas na lebel ng kumplikasyon ng pagsusuri ng mga tampok ng teksto, audio, at video, ay kinakailangan ng iba't ibang klase ng pagsasanib gaya ng feature-level, decision-level, at hybrid na pagsasanib.[3]. Ang katumpakan ng mga nabanggit na taktika ng pagsasanib, at maging ang tagumpay ng isang algoritmo sa klasipikasyon ng mga damdamin, ay naaapektuhan ng tamang pagpili ng tampok ng teksto, audio, at video na gagamitin sa pagsusuri.[9]

Tampok[baguhin | baguhin ang wikitext]

Ang feature engineering, kung saan ang wastong pagpili ng mga tampok na gagamitin sa mga algoritmo ng pagkatuto ng makina (Ingles: machine learning), ay importante sa pagkamit ng isang matagumpay na pagsusuri.[9]. Sa Maramihang Modalidad na Pagsusuri ng Damdamin, iba't ibang kumbinasyon ng tampok mula sa teksto, audio, at video, ang kadalasang ginagamit.[3]

Tampok na Teksto[baguhin | baguhin ang wikitext]

Gaya ng tradisyunal na Pagsusuri ng Damdamin, ang ilan sa mga pinaka-karaniwang ginagamit na tampok na teksto sa Maramihang Modalidad na Pagsusuri ng Damdamin ay ang unigrams at n-grams, na ang ibig sabihin ay ang pagkakasunod-sunod ng mga salita sa isang tekstuwal na dokumento.[10]. Ang mga tampok na ito ay inilalapat gamit ang bag-of-words o di kaya ang bag-of-concepts, kung saan ang mga salita o konsepto ay kinakatawan bilang mga espasyong bektor.[11][12]

Tampok na Audio[baguhin | baguhin ang wikitext]

Ang mga katangian ng damdamin at emosyon ay kitang kita sa iba't ibang phonetic at prosodic na katangian na kinakatawan ng tampok na audio.[13]. Ang ilan sa mga pinakamahahalagang tampok sa audio na ginagamit sa Maramihang Modalidad na Pagsusuri ng Damdamin ay ang mel-frequency cepstrum (MFCC), spectral centroid, spectral flux, beat histogram, kabuuan ng beat, pinakamalakas na beat, tagal ng paghinto, at tono (Ingles: pitch).[3] Ang OpenSMILE[14] at Praat ay ilan sa mga sikat na kagamitan para sa pagkuha ng mga nabanggit na mga tampok ng audio.[15]

Tampok na Video[baguhin | baguhin ang wikitext]

Isa sa mga pangunahing bentahe ng pag-aaral ng mga video kumpara sa mga teksto lamang, ay ang pagkakaroon ng mga makabuluhang damdamin na mga pahiwatig sa visual na datos.[16] Kabilang sa mga visual na tampok ay ang facial expression, na nagbabahagi ng mga pangunahing mga palatandaan ng pag-unawa ng damdamin at emosyon, dahil ang mga ito ay matuturing na pangunahing daluyan ng pagbabalangkas ng kasalukuyang kalagayan ng isip ng isang tao.[3] Sa partikular, ang ngiti, ay itinuturing na isa sa mga pinakamahusay na visual na pahiwatig sa Maramihang Modalidad na Pagsusuri ng Damdamin.[11] Ang OpenFace ay isang libre na instrumento sa pagtatasa na magagamit para sa pagkuha at pag-unawa ng gayong mga visual na tampok.[17]

Taktika ng Pagsasanib[baguhin | baguhin ang wikitext]

Hindi tulad ng tradisyunal na Pagsusuri ng Damdamin, ang Maramihang Modalidad na Pagsusuri ng Damdamin, ay sumasailalim sa isang proseso ng pagsasanib na kung saan ang datos mula sa iba't ibang modalidad (teksto, audio, o visual) ay pinagsasama at sinusuri ng sama-sama.[3] Ang umiiral na mga pamamaraan sa pagsasanib ng mga tampok hango sa iba't ibang modalidad, ay maaaring maangkop sa tatlong pangunahing mga kategorya: feature-level, decision-level, at hybrid na pagsasanib, at ang pinal na resulta ng pag-uuri ng damdamin ay nakasalalay sa kung anong uri ng pamamaraan ng pagsasanib ang ginagamit.[3]

Feature-level na Pagsasanib[baguhin | baguhin ang wikitext]

Ang feature-level na pagsasanib (minsan ay kilala bilang maagang pagsasanib), ay nangangalap ng lahat ng mga tampok mula sa lahat ng modalidad (teksto, audio, o visual) at isinasama ang lahat ng mga ito sa isang espasyong bektor, na sa huli ay ginagamit ng sabay sabay sa isang algoritmo ng pagkatuto ng makina .[18] Isa sa mga kahirapan sa pagpapatupad ng pamamaraan na ito ay ang pagsasama ng magkakaiba na mga tampok mula sa modalidad ng teksto, audio, at visual.[3]

Decision-level na Pagsasanib[baguhin | baguhin ang wikitext]

Ang decision-level na pagsasanib (minsan na kilala bilang huling pagsasanib), ay indibidual na ginagamit ang mga datos mula sa bawat modalidad (teksto, audio, o visual) sa sarili nitong angkop na algoritmo ng pagkatuto ng makina, at ang pinal na resulta ng pag-uuri ng damdamin ay nakakamit sa pamamagitan ng pagsasanib ng bawat resulta sa isang espasyong bektor.[18] Ang isa sa mga bentahe ng pamamaraan ng pagsasanib na ito ay inaalis nito ang pangangailangan sa pagsasama ng magkakaibang datos, at ang bawat modalidad ay maaaring magamit ang pinaka angkop na algoritmo ng pag-uuri.[3]

Hybrid na Pagsasanib[baguhin | baguhin ang wikitext]

Ang hybrid na pagsasanib ay isang kumbinasyon ng feature-level at decision-level na pagsasanib, na nagsasamantala ng mga komplimentaryong impormasyon mula sa parehong pamamaraan.[5] Kadalasan ito ay nagsasangkot ng dalawang hakbang na pamamaraan kung saan ang fusion-level ay unang isinagawa sa pagitan ng dalawang modalidad, at pagkatapos ay inilalapat ang decision-level bilang pangalawang hakbang, upang pagsamahin ang mga unang resulta mula sa fusion-level at ang mga natitirang tampok mula sa iba pang modalidad.[19][20]

Mga Paggamit[baguhin | baguhin ang wikitext]

Katulad ng tradisyunal na Pagsusuri ng Damdamin na nakabatay sa teksto, maaaring ipataw ang Maramihang Modalidad na Pagsusuri ng Damdamin sa pagpapaunlad ng iba't ibang anyo ng recommender system tulad ng sa pagtatasa ng mga video patungkol sa pagsusuri ng mga pelikula[5] at sa mga pagsusuri ng iba't ibang uri ng produkto[21], upang wastong mahulaan ang damdamin ng mga mamimili, at pagkatapos ay makalikha ng mga rekomendasyon ng produkto o serbisyo.[22] Ang Maramihang Modalidad na Pagsusuri ng Damdamin ay may mahalagang papel sa pagsulong ng virtual assistant sa pamamagitan ng aplikasyon ng mga taktika ng natural language processing (NLP) at pagkatuto ng makina.[4] Sa saklaw ng pangangalagang pangkalusugan, ang Maramihang Modalidad na Pagsusuri ng Damdamin ay maaaring magamit upang matuklasan ang ilang mga kondisyong medikal katulad na lamang ng sikolohikal na pagod, pagkabalisa, o depresyon.[7] Ang Maramihang Modalidad na Pagsusuri ng Damdamin ay maaari ring magamit sa pag-unawa sa damdamin na nakapaloob sa mga programa ng balita sa telebisyon, na kung saan ay itinuturing na isang komplikado at mapaghamong saklaw, dahil ang mga pagpapahayag ng mga tagapag-ulat ay kadalasang walang ipinapahiwatig na emosyon o damdamin.[23]

Mga Sanggunian[baguhin | baguhin ang wikitext]

  1. Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.
  2. Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. Inarkibo mula sa ang orihinal (PDF) noong 2018-06-15. Nakuha noong 2018-06-15.
  3. 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003.
  4. 4.0 4.1 "Google AI to make phone calls for you". BBC News. 8 May 2018. Nakuha noong 12 June 2018.
  5. 5.0 5.1 5.2 Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
  6. Pereira, Moisés H. R.; Pádua, Flávio L. C.; Pereira, Adriano C. M.; Benevenuto, Fabrício; Dalip, Daniel H. (9 April 2016). "Fusing Audio, Textual and Visual Features for Sentiment Analysis of News Videos". arXiv:1604.02612 [cs].
  7. 7.0 7.1 Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (November 2017). "Sentiment analysis and affective computing for depression monitoring". 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (sa Ingles). IEEE: 1988–1995. doi:10.1109/bibm.2017.8217966.
  8. Pang, Bo; Lee, Lillian (2008). Opinion mining and sentiment analysis. Hanover, MA: Now Publishers. ISBN 1601981503.
  9. 9.0 9.1 Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
  10. Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
  11. 11.0 11.1 Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
  12. Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005.
  13. Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
  14. Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2009). "OpenEAR — Introducing the munich open-source emotion and affect recognition toolkit - IEEE Conference Publication". ieeexplore.ieee.org. doi:10.1109/ACII.2009.5349350.
  15. Morency, Louis-Philippe; Mihalcea, Rada; Doshi, Payal (14 November 2011). "Towards multimodal sentiment analysis: harvesting opinions from the web". ACM: 169–176. doi:10.1145/2070481.2070509. {{cite journal}}: Cite journal requires |journal= (tulong)
  16. Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics. doi:10.18653/v1/p17-1081.
  17. "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". ieeexplore.ieee.org.
  18. 18.0 18.1 Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
  19. Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". ieeexplore.ieee.org.
  20. Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
  21. Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).[patay na link]
  22. Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (sa Ingles). McKinsey & Company. Nakuha noong 13 June 2018.
  23. Ellis, Joseph G.; Jou, Brendan; Chang, Shih-Fu (12 November 2014). "Why We Watch the News: A Dataset for Exploring Sentiment in Broadcast Video News". ACM: 104–111. doi:10.1145/2663204.2663237. {{cite journal}}: Cite journal requires |journal= (tulong)