विषय मॉडल और शब्द सह-घटना विधियाँ


26

एलडीए जैसे लोकप्रिय विषय मॉडल आमतौर पर क्लस्टर शब्द होते हैं जो एक साथ एक ही विषय (क्लस्टर) में होते हैं।

इस तरह के विषय मॉडल और अन्य सरल सह-घटना आधारित पीएमआई जैसे क्लस्टरिंग दृष्टिकोणों के बीच मुख्य अंतर क्या है? (पीएमआई का मतलब पॉइंटवाइज म्युचुअल इंफॉर्मेशन से है, और इसका इस्तेमाल उन शब्दों की पहचान करने के लिए किया जाता है जो किसी दिए गए शब्द के साथ होते हैं।)

जवाबों:


32

हाल ही में, साहित्य का एक विशाल निकाय इस बात पर चर्चा कर रहा है कि लिखित पाठ से जानकारी कैसे निकाली जाए। इसलिए मैं सिर्फ चार मील के पत्थर / लोकप्रिय मॉडल और उनके फायदे / नुकसान का वर्णन करूंगा और इस प्रकार मुख्य अंतर (या कम से कम जो मुझे लगता है कि मुख्य / सबसे महत्वपूर्ण अंतर हैं) को उजागर करें।

आप "सबसे आसान" दृष्टिकोण का उल्लेख करते हैं, जो दस्तावेजों की पूर्वनिर्धारित शर्तों (जैसा कि पीएमआई में है) के खिलाफ मिलान करके क्लस्टर करना होगा। ये शाब्दिक मिलान विधि एकल शब्दों के पॉलीसिम (कई अर्थ) और पर्यायवाची (कई शब्द जिनके समान अर्थ होते हैं) के कारण गलत हो सकते हैं।

एक उपाय के रूप में, अव्यक्त अर्थ इंडेक्सिंग ( LSI ) एक विलक्षण मूल्य के अपघटन के माध्यम से अव्यक्त अर्थ स्थान में दस्तावेजों और दस्तावेजों को मैप करके इसे दूर करने की कोशिश करता है। एलएसआई परिणाम व्यक्तिगत शब्दों की तुलना में अर्थ के अधिक मजबूत संकेतक हैं। हालांकि, LSI की एक खामी यह है कि इसमें ठोस संभाव्य आधार की कमी है।

यह आंशिक रूप से संभाव्य LSI ( pLSI ) के आविष्कार द्वारा हल किया गया था । पीएलएसआई मॉडल में एक दस्तावेज़ में प्रत्येक शब्द एक मिश्रण मॉडल से लिया गया है जिसे बहुराष्ट्रीय यादृच्छिक चर के माध्यम से निर्दिष्ट किया गया है (जो @sviatoslav hong के रूप में उच्च-क्रम सह-घटनाओं की अनुमति देता है)। यह संभाव्य पाठ मॉडलिंग में एक महत्वपूर्ण कदम था, लेकिन इस अर्थ में अधूरा था कि यह दस्तावेजों के स्तर पर कोई संभाव्य संरचना प्रदान नहीं करता है।

लेटेंट डिरिचलेट अलोकेशन ( एलडीए ) इसको कम करता है और पाठ क्लस्टरिंग के लिए पहला पूरी तरह से संभाव्य मॉडल था। बेली एट अल। (2003) से पता चलता है कि पीएलएसआई एक पूर्व डिरिक्लेट के तहत एक अधिकतम-पश्च-अनुमानित अनुमानित एलडीए मॉडल है।

ध्यान दें कि ऊपर बताए गए मॉडल (LSI, pLSI, LDA) में आम है कि वे "बैग-ऑफ-वर्ड्स" धारणा पर आधारित हैं - अर्थात एक दस्तावेज़ के भीतर, शब्द विनिमेय हैं, अर्थात एक दस्तावेज़ में शब्दों का क्रम उपेक्षित हो। विनिमेयता की यह धारणा अन्य दृष्टिकोणों के आधार पर LDA के लिए एक और औचित्य प्रदान करती है: यह मानते हुए कि दस्तावेजों के भीतर न केवल शब्द विनिमेय हैं, बल्कि दस्तावेज़ भी हैं, अर्थात, एक कोष के भीतर दस्तावेजों के क्रम की उपेक्षा की जा सकती है, डी फ़िनेटी का प्रमेयबताता है कि विनिमेय यादृच्छिक चर के किसी भी सेट में मिश्रण वितरण के रूप में एक प्रतिनिधित्व है। इस प्रकार यदि दस्तावेजों के भीतर दस्तावेजों और शब्दों के लिए विनिमेयता ग्रहण की जाती है, तो दोनों के लिए एक मिश्रण मॉडल की आवश्यकता होती है। वास्तव में यह वही है जो एलडीए आम तौर पर हासिल करता है लेकिन पीएमआई या एलएसआई (और एलएलएस भी एलडीए की तरह सुंदर नहीं है)।


2
1/2 धन्यवाद! बहुत साफ़। अगर मुझे यह अधिकार मिला है तो मुझे जांचने दें: LSI में, दस्तावेजों का गठन शब्दों (विषयों की धारणा नहीं) के मिश्रण से किया जाता है और शब्दों और दस्तावेजों को SVD का उपयोग करके कम आयाम वाले अर्थ स्थान पर मैप किया जाता है। चूँकि समान अर्थ वाले शब्दों का अर्थ करीब से मैप किया जाता है, यह समानार्थी शब्द से निपट सकता है लेकिन पुलिस के साथ समस्या है। pLSI विषयों की अवधारणा को प्रस्तुत करके पुलिस की समस्या को हल करता है। पीएलएसआई में, शब्दों को शब्दों (विषयों) के एक बहुराष्ट्रीय वितरण से तैयार किया जाता है, एक ही शब्द कई विषयों से संबंधित हो सकता है और एक दस्तावेज़ में कई विषय होते हैं, हालांकि यह स्पष्ट रूप से मॉडल नहीं किया गया है।
kanzen_master

2
मुझे लगता है कि आम तौर पर आप इसे सही पाते हैं। कुछ छोटे सुधार: LSI को पॉलीसिम और समानार्थी दोनों के साथ ठीक काम करने के लिए माना जाता है। पीएलएसआई मूल रूप से केवल रैखिक रेखीय बीजगणित के बजाय अव्यक्त वर्ग विश्लेषण / मिश्रणमॉडल और संभाव्यता के साधनों के साथ एलएसआई का प्रयास करने के लिए एक सूत्रीकरण है। PLSI की तुलना में LDA एक पूर्ण-दस्तावेज़ विषय वितरण को निर्दिष्ट करके एक पूरी तरह से जेनरेटर मॉडल है।
मोमो

1
ओवरफिटिंग और भविष्यवाणी पर आपके बिंदुओं के बारे में, मैं एक योग्य कथन के लिए पर्याप्त जानकार नहीं हूं। लेकिन, इसके सभी मूल्य के लिए, मैं यह नहीं देखता कि एलडीए को पीएलएसआई की तुलना में कम होने का खतरा क्यों होना चाहिए (जैसा कि एलडीए मूल रूप से सिर्फ एक पीएलएसआई मॉडल से पहले जोड़ता है)। ओवरफिटिंग या इस तरह के लिए दोनों में कोई अंतर्निहित सुधार नहीं है। नए दस्तावेज़ों की "भविष्यवाणी" वास्तव में एलडीए जैसे पूरी तरह से जेनरेट करने वाले मॉडल के साथ आसान या व्यवहार्य हो सकती है, आँकड़े देखें ।stackexchange.com/questions/9315/… लेकिन मैं एलडीए को एक अनारक्षित , वर्णनात्मक मॉडल के रूप में देखूंगा।
मोमो

1
एक बार फिर धन्यवाद! सिर्फ 2 अंतिम प्रश्न: (1) पॉलिस्मीयर के बारे में, इस पीडीएफ में, पेज 3 हॉफमैन का अंत बताता है कि एलएसआई की तुलना में पीएलएसआई के मतभेदों में से एक पॉलीसिम है, क्योंकि एक ही शब्द विभिन्न शब्द वितरणों (विषयों) से संबंधित हो सकता है; यही कारण है कि मुझे लगा कि LSI ने पॉलीसिम के साथ काम नहीं किया। (2) ओवरफिटिंग के बारे में, यह ब्लॉग बताता है कि मापदंडों की एक रैखिक वृद्धि से पता चलता है कि मॉडल ओवरफिटिंग का खतरा है। तुम क्या सोचते हो ?
kanzen_master

2
कोई बात नहीं। आप पहले से ही इन चीजों के बारे में ज्यादा जानते हैं, इसलिए मैं सामान भी सीखता हूं। विज्ञापन (1) खैर, हमेशा की तरह, यह निर्भर करता है: पीसीएस में किए गए शब्दों के रैखिक संयोजन के कारण LSI पॉलीसिम को संभाल सकता है। यह पर्यायवाची शब्दों के साथ बेहतर है, लेकिन कुछ हद तक पुलिस के साथ भी। मूल रूप से पॉलीसेसम शब्द जो समान होते हैं, शब्दों के घटक जोड़े जाते हैं जो समान अर्थ साझा करते हैं। हालाँकि, यह pLSI की तुलना में बहुत कम करता है क्योंकि किसी शब्द की प्रत्येक घटना को अंतरिक्ष में एकल बिंदु के रूप में दर्शाया जाता है। इसलिए प्रतिनिधित्व शब्द कोष के सभी शब्द के विभिन्न अर्थों का औसत है।
मोमो

5

एलडीए शर्तों के सह-घटनाओं के उच्च-क्रम पर कब्जा कर सकता है (प्रत्येक विषय की धारणा के कारण शर्तों पर एक बहुराष्ट्रीय वितरण होता है), जो केवल शर्तों के बीच PMI की गणना करके संभव नहीं है।


4
धन्यवाद! "सह-घटनाओं के उच्च-क्रम" की परिभाषा क्या है?
kanzen_master

5

मुझे 3 साल की देरी हो सकती है, लेकिन मैं "सह-घटनाओं के उच्च-क्रम" के उदाहरण पर आपके प्रश्न का पालन करना चाहता हूं।

मूल रूप से, यदि शब्द t1 शब्द के साथ सह-होता है तो t3 के साथ सह-होता है, तब शब्द t3 के साथ 2-क्रम सह-घटना है। यदि आप चाहें तो उच्चतर आदेश पर जा सकते हैं लेकिन अंत में आप यह नियंत्रित करते हैं कि दो समान शब्द कैसे होने चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.