SVD से पहले एक शब्द समरूपता मैट्रिक्स पर बिंदुवार पारस्परिक जानकारी लागू करने के पेशेवरों और विपक्ष क्या हैं?


11

शब्द एम्बेडिंग उत्पन्न करने का एक तरीका इस प्रकार है ( दर्पण ):

  1. एक कॉर्पोरा प्राप्त करें, उदाहरण के लिए "मुझे उड़ान का आनंद मिलता है। मुझे एनएलपी पसंद है। मुझे गहरी शिक्षा पसंद है।"
  2. इससे शब्द cooccurrence मैट्रिक्स बनाएँ:

यहां छवि विवरण दर्ज करें

  1. X पर SVD का प्रदर्शन करें , और U के पहले k कॉलम रखें।

यहां छवि विवरण दर्ज करें

U1:|V|,1:k

चरण 2 और 3 के बीच, बिंदुवार पारस्परिक जानकारी कभी-कभी लागू होती है (जैसे ए। हर्बेलॉट और ईएम वेक्ची। 2015) एक साझा दुनिया का निर्माण करना: मॉडल-सिद्धांत संबंधी शब्दार्थ रिक्त स्थान के लिए वितरण को मैप करना । प्राकृतिक भाषा प्रसंस्करण में अनुभवजन्य तरीकों पर 2015 सम्मेलन की कार्यवाही में। । लिस्बन, पुर्तगाल ।)।

SVD से पहले एक शब्द समरूपता मैट्रिक्स पर बिंदुवार पारस्परिक जानकारी लागू करने के पेशेवरों और विपक्ष क्या हैं?

जवाबों:


11

के अनुसार दान Jurafsky और जेम्स एच मार्टिन किताब:

"यह पता चला है, हालांकि, यह सरल आवृत्ति शब्दों के बीच सहयोग का सबसे अच्छा उपाय नहीं है। एक समस्या यह है कि कच्ची आवृत्ति बहुत तिरछी है और बहुत भेदभावपूर्ण नहीं है। यदि हम जानना चाहते हैं कि किस प्रकार के संदर्भ खुबानी और अनानास द्वारा साझा किए गए हैं। लेकिन डिजिटल और जानकारी से नहीं, हम शब्दों से अच्छा भेदभाव नहीं प्राप्त करने जा रहे हैं, यह, या वे, जो सभी प्रकार के शब्दों के साथ अक्सर होते हैं और किसी विशेष शब्द के बारे में जानकारीपूर्ण नहीं होते हैं। "

कभी-कभी हम इस कच्चे फ्रिक्वेंसी को पॉजिटिव पॉइंट वाइज आपसी जानकारी से बदल देते हैं:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

पीएमआई अपने आप दिखाता है कि किसी शब्द w का संदर्भ शब्द के साथ अवलोकन करना कितना संभव है, C उनकी स्वतंत्र रूप से अवलोकन करने की तुलना करें। PPMI में हम केवल PMI के सकारात्मक मान रखते हैं। आइए इस बारे में सोचें कि पीएमआई कब + या - है और हम केवल नकारात्मक क्यों रखते हैं:

सकारात्मक PMI का क्या अर्थ है?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • यह तब होता है जब और पारस्परिक रूप से किक और बॉल की तरह अधिक होते हैं। हम इन्हें रखना चाहेंगे!wc

नकारात्मक PMI का क्या अर्थ है?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • इसका मतलब है कि और दोनों में से कोई एक व्यक्तिगत रूप से घटित होता है! यह सीमित आंकड़ों के कारण अविश्वसनीय आंकड़ों का संकेत दे सकता है अन्यथा यह असंक्रामक सह-घटनाओं को दर्शाता है जैसे, 'द' और 'बॉल'। ('द' अधिकांश शब्दों के साथ भी होता है।)wc

पीएमआई या विशेष रूप से पीपीएमआई हमें सूचनात्मक सह-घटना के साथ ऐसी स्थितियों को पकड़ने में मदद करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.