हाल ही में, साहित्य का एक विशाल निकाय इस बात पर चर्चा कर रहा है कि लिखित पाठ से जानकारी कैसे निकाली जाए। इसलिए मैं सिर्फ चार मील के पत्थर / लोकप्रिय मॉडल और उनके फायदे / नुकसान का वर्णन करूंगा और इस प्रकार मुख्य अंतर (या कम से कम जो मुझे लगता है कि मुख्य / सबसे महत्वपूर्ण अंतर हैं) को उजागर करें।
आप "सबसे आसान" दृष्टिकोण का उल्लेख करते हैं, जो दस्तावेजों की पूर्वनिर्धारित शर्तों (जैसा कि पीएमआई में है) के खिलाफ मिलान करके क्लस्टर करना होगा। ये शाब्दिक मिलान विधि एकल शब्दों के पॉलीसिम (कई अर्थ) और पर्यायवाची (कई शब्द जिनके समान अर्थ होते हैं) के कारण गलत हो सकते हैं।
एक उपाय के रूप में, अव्यक्त अर्थ इंडेक्सिंग ( LSI ) एक विलक्षण मूल्य के अपघटन के माध्यम से अव्यक्त अर्थ स्थान में दस्तावेजों और दस्तावेजों को मैप करके इसे दूर करने की कोशिश करता है। एलएसआई परिणाम व्यक्तिगत शब्दों की तुलना में अर्थ के अधिक मजबूत संकेतक हैं। हालांकि, LSI की एक खामी यह है कि इसमें ठोस संभाव्य आधार की कमी है।
यह आंशिक रूप से संभाव्य LSI ( pLSI ) के आविष्कार द्वारा हल किया गया था । पीएलएसआई मॉडल में एक दस्तावेज़ में प्रत्येक शब्द एक मिश्रण मॉडल से लिया गया है जिसे बहुराष्ट्रीय यादृच्छिक चर के माध्यम से निर्दिष्ट किया गया है (जो @sviatoslav hong के रूप में उच्च-क्रम सह-घटनाओं की अनुमति देता है)। यह संभाव्य पाठ मॉडलिंग में एक महत्वपूर्ण कदम था, लेकिन इस अर्थ में अधूरा था कि यह दस्तावेजों के स्तर पर कोई संभाव्य संरचना प्रदान नहीं करता है।
लेटेंट डिरिचलेट अलोकेशन ( एलडीए ) इसको कम करता है और पाठ क्लस्टरिंग के लिए पहला पूरी तरह से संभाव्य मॉडल था। बेली एट अल। (2003) से पता चलता है कि पीएलएसआई एक पूर्व डिरिक्लेट के तहत एक अधिकतम-पश्च-अनुमानित अनुमानित एलडीए मॉडल है।
ध्यान दें कि ऊपर बताए गए मॉडल (LSI, pLSI, LDA) में आम है कि वे "बैग-ऑफ-वर्ड्स" धारणा पर आधारित हैं - अर्थात एक दस्तावेज़ के भीतर, शब्द विनिमेय हैं, अर्थात एक दस्तावेज़ में शब्दों का क्रम उपेक्षित हो। विनिमेयता की यह धारणा अन्य दृष्टिकोणों के आधार पर LDA के लिए एक और औचित्य प्रदान करती है: यह मानते हुए कि दस्तावेजों के भीतर न केवल शब्द विनिमेय हैं, बल्कि दस्तावेज़ भी हैं, अर्थात, एक कोष के भीतर दस्तावेजों के क्रम की उपेक्षा की जा सकती है, डी फ़िनेटी का प्रमेयबताता है कि विनिमेय यादृच्छिक चर के किसी भी सेट में मिश्रण वितरण के रूप में एक प्रतिनिधित्व है। इस प्रकार यदि दस्तावेजों के भीतर दस्तावेजों और शब्दों के लिए विनिमेयता ग्रहण की जाती है, तो दोनों के लिए एक मिश्रण मॉडल की आवश्यकता होती है। वास्तव में यह वही है जो एलडीए आम तौर पर हासिल करता है लेकिन पीएमआई या एलएसआई (और एलएलएस भी एलडीए की तरह सुंदर नहीं है)।