पीएलएसए के मूल पेपर में लेखक, थॉमस हॉफमैन, पीएलएसए और एलएसए डेटा संरचनाओं के बीच एक समानांतर खींचते हैं जो मैं आपके साथ चर्चा करना चाहूंगा।
पृष्ठभूमि:
प्रेरणा लेते हुए सूचना पुनर्प्राप्ति मान लें कि हमारे पास दस्तावेजों का एक संग्रह है और terms की एक शब्दावली
एक कॉर्पस को एक मैट्रिक्स के सहसंबंधों द्वारा दर्शाया जा सकता है ।
में अव्यक्त अर्थ analisys द्वारा SVD मैट्रिक्स : तीन मैट्रिक्स में factorized है जहां और हैं विलक्षण मूल्यों की और एस के रैंक है एक्स ।
की एलएसए सन्निकटन
PLSA में, विषयों का एक निश्चित सेट चुनें (अव्यक्त चर) का की गणना इस प्रकार की जाती है: जहां तीन होते हैं, जो मॉडल की संभावना को अधिकतम करते हैं।
वास्तविक प्रश्न:
लेखक कहता है कि ये संबंध निर्वाह करते हैं:
और यह कि एलएसए और पीएलएसए के बीच महत्वपूर्ण अंतर इष्टतम अपघटन / सन्निकटन को निर्धारित करने के लिए उपयोग किया जाने वाला उद्देश्य फ़ंक्शन है।
मुझे यकीन नहीं है कि वह सही है, क्योंकि मुझे लगता है कि दो मैट्रिस विभिन्न अवधारणाओं को दोहराते हैं: एलएसए में यह एक दस्तावेज़ में एक शब्द दिखाई देने वाले समय की संख्या का एक अनुमान है, और pLSA में (अनुमानित है) ) संभावना है कि दस्तावेज़ में एक शब्द दिखाई देता है।
क्या आप मुझे इस बिंदु को स्पष्ट करने में मदद कर सकते हैं?
इसके अलावा, मान लें कि हमने एक कॉर्पस पर दो मॉडलों की गणना की है, एक नया दस्तावेज़ दिया है , एलएसए में मैं इसका अनुमान लगाने के लिए उपयोग करता हूं जैसे:
- क्या यह हमेशा मान्य है?
- मुझे pLSA में समान प्रक्रिया लागू करने का सार्थक परिणाम क्यों नहीं मिला?
धन्यवाद।