इमोजी के लिए सेंटीमेंट डेटा

प्रयोग के लिए हम सरल मात्रात्मक सीनेटमेंट विश्लेषण के लिए जमीनी सच्चाई / प्रशिक्षण डेटा के रूप में कई ट्वीट्स में एम्बेडेड इमोजी का उपयोग करना चाहते हैं । एनएलपी को अच्छी तरह से काम करने के लिए आमतौर पर ट्वीट्स भी असंरचित होते हैं।

वैसे भी, यूनिकोड 6.0 में 722 इमोजी हैं, और शायद यूनिकोड 7.0 में एक और 250 जोड़ा जाएगा।

क्या कोई डेटाबेस (जैसे SentiWordNet) है जिसमें उनके लिए भावना एनोटेशन शामिल हैं?

(ध्यान दें कि SentiWordNet अस्पष्ट अर्थों के लिए भी अनुमति देता है । उदाहरण के लिए , अजीब बात पर विचार करें , जो सिर्फ सकारात्मक नहीं है: "यह स्वाद मजेदार है" शायद सकारात्मक नहीं है ... ;-)उदाहरण के लिए एक ही पकड़ होगा । लेकिन मुझे नहीं लगता कि यह कठिन है। इमोजी की तुलना में यह नियमित शब्दों के लिए है ...)

इसके अलावा, यदि आपके पास भावना विश्लेषण के लिए उनका उपयोग करने का अनुभव है, तो मुझे सुनने में दिलचस्पी होगी।

machine-learning classification parsing

— एरच शूबर्ट
स्रोत

विश्वास मत करो कि ऐसा कुछ वर्तमान में मौजूद है, लेकिन अगर आप इसके लिए कुछ एक साथ रखते हैं, तो इसे पसंद करेंगे!

— 13

Erich Schubert, मैं एक ही चीज़ देख रहा हूँ! क्या आपके पास इसके लिए एक उपयोगी संसाधन खोजने का कोई मौका था?

— सईद मेहरबी

जवाबों:

कुल 972 इमोजी वास्तव में इतने बड़े नहीं हैं कि उन्हें मैन्युअल रूप से लेबल न किया जा सके, लेकिन मुझे संदेह है कि वे एक अच्छे सामाजिक सत्य के रूप में काम करेंगे। ट्विटर जैसे स्रोत विडंबनाओं, व्यंग्य और अन्य ट्रिकी सेटिंग्स से भरे हुए हैं जहां भावनात्मक प्रतीकों (जैसे इमोजी या इमोटिकॉन) का अर्थ सामान्य व्याख्या से अलग है। उदाहरण के लिए, कोई व्यक्ति "xxx ने अपने ग्राहकों को धोखा दिया है, और अब वे खुद को धोखा दे सकते हैं! हा हा हा !: डी"। यह निश्चित रूप से नकारात्मक टिप्पणी है, लेकिन लेखक xxx कंपनी को परेशानी में देखकर खुश है और इस तरह सकारात्मक इमोटिकॉन जोड़ता है। ये मामले लगातार नहीं हैं, लेकिन निश्चित रूप से जमीनी सच्चाई के लिए उपयुक्त नहीं हैं।

वास्तविक डेटा सेट एकत्र करने के लिए बीज के रूप में इमोटिकॉन का उपयोग करने के लिए बहुत अधिक सामान्य दृष्टिकोण है । उदाहरण के लिए, इस पत्र में लेखक आगे के वर्गीकरण के लिए उपयोगी शब्दों के लेक्सिकॉन को हथियाने के लिए इमोटिकॉन और भावनात्मक हैश टैग का उपयोग करते हैं।

— ffriend
स्रोत

दरअसल मैं असहमत हूं। चूंकि लेखक उन्हें परेशानी में होना पसंद करता है, इसलिए यह वहां की सकारात्मक भावना है। यह कंपनी पर एक नकारात्मक टिप्पणी है, लेकिन फिर भी लेखक द्वारा एक सकारात्मक भावना है। इस सरल परिदृश्य में (मैं यह पूरा लक्ष्य नहीं कह रहा हूं), यह भविष्यवाणी करते हुए कि कोई उपयोगकर्ता अपने पद के लिए मुझे एक उचित कार्य की तरह लगता है। वास्तव में आप कई मामलों का निर्माण कर सकते हैं जहां इमोजी आवश्यक होगा .. "समझे_के पास :-)" पर विचार करें "F_cked: .-(" के विपरीत

— Erich Schubert

यदि आप किसी विषय पर व्यक्ति के दृष्टिकोण के विपरीत व्यक्ति की भावना का अनुमान लगाने की कोशिश करते हैं, तो हाँ, यह उदाहरण काम नहीं करता है। लेकिन कई अन्य हैं। व्यंग्य आम मामला है। वाक्य पर विचार करें "ओह, हाँ, आप असली 'मास्टर';) हैं।" मानव नकारात्मक संदर्भ को पकड़ सकता है, लेकिन सकारात्मक इमोटिकॉन सकारात्मक भावना को इंगित करेगा। लेकिन मुझे वास्तव में यह नहीं मिला है: क्या आप ट्वीट से व्यक्तिपरक जानकारी निकालना चाहते हैं या केवल संभावित इमोजीस का अनुमान लगा सकते हैं? भले ही वे समान ध्वनि करते हैं, दूसरा कार्य वास्तव में भावना विश्लेषण के बारे में नहीं है। सीधे नहीं, कम से कम।

— ffriend

"विंक" स्माइली को आमतौर पर "सकारात्मक" नहीं माना जाता है, लेकिन "विडंबना" ... यही वजह है कि सेंटीवर्डेनेट जैसे एक अच्छा शब्दकोश समझ में आता है। यदि आप SentiWordNet में मज़ेदार दिखते हैं, तो एक से अधिक अर्थ हैं! sentiwordnet.isti.cnr.it/search.php?q=funny (तो यह है तुच्छ उन्हें मैन्युअल रूप से टिप्पणी करने के लिए है, क्योंकि यह के रूप में सकारात्मक / नकारात्मक सरल रूप में नहीं है नहीं है, लेकिन आप हमेशा की तरह interrater-समझौते सत्यापन करना चाहिए आदि)

— Erich Schubert

अब मैं आपका विचार देखता हूं। लेकिन मुझे नहीं लगता कि यह काम करेगा, सिर्फ इसलिए कि (अधिकांश) इमोजी वास्तव में मेरे लिए एक अच्छे भविष्यवक्ता की तरह नहीं हैं, और आप स्पष्ट रूप से अन्य सुविधाओं का उपयोग नहीं करना चाहते हैं। वैसे भी, यह मेरे अनुभव के आधार पर केवल एक राय है, केवल डेटा ही वास्तविक उत्तर दे सकता है। सौभाग्य!

— 21

किसने कहा कि मैं अन्य सुविधाओं का उपयोग नहीं करना चाहता? लेकिन इनके लिए मैंने डेटाबेस देखे हैं ...

— Erich Schubert

मुझे यह Github repo उपयोगी (एक अच्छी शुरुआत) मिली: https://github.com/wooorm/emoji-emotion माइनस पांच (नकारात्मक) और प्लस फाइव (पॉजिटिव) के बीच पूर्णांक के साथ वैल्यू के लिए रेट की गई इमोजी की सूची।

समर्थित यूनिकोड-एमोजिस की सूची देखें: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

ध्यान दें कि कुछ इमोजी सकारात्मक और नकारात्मक भावनाओं दोनों के लिए उपयोग किए जाने के कारण, अटकाने वाली बहुरूपता, जैसे कि अटक_ट_टॉन्ग_क्लोस्ड_येज (0) प्राप्त करते हैं।

— ताल वीस
स्रोत