एलएसए और पीएलएसए के बीच एक पैरेलल


9

पीएलएसए के मूल पेपर में लेखक, थॉमस हॉफमैन, पीएलएसए और एलएसए डेटा संरचनाओं के बीच एक समानांतर खींचते हैं जो मैं आपके साथ चर्चा करना चाहूंगा।

पृष्ठभूमि:

प्रेरणा लेते हुए सूचना पुनर्प्राप्ति मान लें कि हमारे पास दस्तावेजों का एक संग्रह है और terms की एक शब्दावलीN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

एक कॉर्पस को एक मैट्रिक्स के सहसंबंधों द्वारा दर्शाया जा सकता है ।XN×M

में अव्यक्त अर्थ analisys द्वारा SVD मैट्रिक्स : तीन मैट्रिक्स में factorized है जहां और हैं विलक्षण मूल्यों की और एस के रैंक है एक्सX

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

की एलएसए सन्निकटन X

X^=U^Σ^VT^
फिर कुछ स्तर तक तीन मैट्रिक्स छोटा गणना की जाती है k<s , चित्र में दिखाया गया है:

यहाँ छवि विवरण दर्ज करें

PLSA में, विषयों का एक निश्चित सेट चुनें (अव्यक्त चर) का की गणना इस प्रकार की जाती है: जहां तीन होते हैं, जो मॉडल की संभावना को अधिकतम करते हैं।Z={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

वास्तविक प्रश्न:

लेखक कहता है कि ये संबंध निर्वाह करते हैं:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

और यह कि एलएसए और पीएलएसए के बीच महत्वपूर्ण अंतर इष्टतम अपघटन / सन्निकटन को निर्धारित करने के लिए उपयोग किया जाने वाला उद्देश्य फ़ंक्शन है।

मुझे यकीन नहीं है कि वह सही है, क्योंकि मुझे लगता है कि दो मैट्रिस विभिन्न अवधारणाओं को दोहराते हैं: एलएसए में यह एक दस्तावेज़ में एक शब्द दिखाई देने वाले समय की संख्या का एक अनुमान है, और pLSA में (अनुमानित है) ) संभावना है कि दस्तावेज़ में एक शब्द दिखाई देता है।X^

क्या आप मुझे इस बिंदु को स्पष्ट करने में मदद कर सकते हैं?

इसके अलावा, मान लें कि हमने एक कॉर्पस पर दो मॉडलों की गणना की है, एक नया दस्तावेज़ दिया है , एलएसए में मैं इसका अनुमान लगाने के लिए उपयोग करता हूं जैसे: d

d^=d×V×VT
  1. क्या यह हमेशा मान्य है?
  2. मुझे pLSA में समान प्रक्रिया लागू करने का सार्थक परिणाम क्यों नहीं मिला?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

धन्यवाद।

जवाबों:


12

सादगी के लिए, मैं यहां एलएसए और गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन (एनएमएफ) के बीच कनेक्शन दे रहा हूं, और फिर दिखाता हूं कि लागत फ़ंक्शन का एक सरल संशोधन कैसे pLSA की ओर जाता है। जैसा कि पहले कहा गया है, एलएसए और पीएलएसए दोनों अर्थों में फैक्टराइजेशन मेथड हैं , जो कि पंक्तियों और कॉलमों के सामान्यीकरण तक, डॉक्यूमेंट टर्म मैट्रिक्स के निम्न-रैंक अपघटन:

X=UΣD

पिछले नोटेशन का उपयोग करना। अधिक सरल रूप से, दस्तावेज़ शब्द मैट्रिक्स को दो मैट्रिक्स के उत्पाद के रूप में लिखा जा सकता है:

X=ABT

जहां और । LSA के लिए, पिछले सूत्र के साथ पत्राचार और सेट करके प्राप्त किया जाता है ।AN×sBM×sA=UΣB=VΣ

LSA और NMF के बीच अंतर को समझने का एक आसान तरीका उनकी ज्यामितीय व्याख्या का उपयोग करना है:

  • LSA इसका समाधान है:

    minA,BXABTF2,
  • NMF- इसका समाधान है: L2

    minA0,B0XABTF2,
  • NMF-KL pLSA के बराबर है और इसका समाधान है:

    minA0,B0KL(X||ABT).

जहाँ मैट्रिस और के साथ कुल्बैक-लीब्लर विचलन है । यह देखने के लिए कि उपरोक्त सभी समस्याओं के लिए एक अनूठा समाधान की जरूरत नहीं है आसान है, के बाद से एक कर सकते हैं गुणा एक सकारात्मक संख्या और विभाजित द्वाराKL(X||Y)=ijxijlogxijyijXYABसमान उद्देश्य मान प्राप्त करने के लिए समान संख्या द्वारा। इसलिए, - एलएसए के मामले में, लोग आमतौर पर एक प्रतिगामी आधार का चयन करते हैं जो कि आइगेनवैल्यू को कम करके सॉर्ट किया जाता है। यह एसवीडी अपघटन द्वारा दिया गया है और एलएसए समाधान की पहचान करता है, लेकिन कोई भी अन्य विकल्प संभव होगा क्योंकि इसका अधिकांश ऑपरेशनों पर कोई प्रभाव नहीं पड़ता है (कोसाइन समानता, ऊपर उल्लिखित सूत्र, आदि)। - NMF के मामले में, एक ऑर्थोगोनल अपघटन संभव नहीं है, लेकिन की पंक्तियाँ आमतौर पर लिए बाध्य होती हैं, क्योंकि इसमें रूप में प्रत्यक्ष संभाव्य व्याख्या होती है । यदि इसके अलावा, की पंक्तियों को सामान्यीकृत किया जाता है (यानी एक के बराबर), तो की पंक्तियों को एक योग करना होता है, जिसके कारण संभाव्य व्याख्या होती हैAp(zk|di)XBp(fj|zk) । वहाँ की वजह से कॉलम pLSA के संस्करण ऊपर प्रश्न में दिए गए के साथ एक मामूली अंतर है एक के लिए योग करने के लिए विवश कर रहे हैं, ताकि में मानों हैं , लेकिन अंतर केवल parametrization का एक परिवर्तन है समस्या शेष है।AAp(di|zk)

अब, प्रारंभिक प्रश्न का उत्तर देने के लिए, एलएसए और पीएलएसए (और अन्य एनएमएफ एल्गोरिदम) के बीच अंतर में कुछ सूक्ष्म है: गैर-नकारात्मकता बाधाएं आ "क्लस्टिंग इफेक्ट" को प्रेरित करती हैं जो शास्त्रीय एलएसए मामले में मान्य नहीं है क्योंकि एकवचन मान अपघटन समाधान घूर्णी रूप से अपरिवर्तनीय है। गैर-नकारात्मकता किसी भी तरह से इस घूर्णी आक्रमण को तोड़ती है और कुछ अर्थ अर्थ (पाठ विश्लेषण में विषय) के साथ कारक देती है। इसे समझाने वाला पहला पेपर है:

डोनोहो, डेविड एल।, और विक्टोरिया सी। स्टोडेन। "गैर-नकारात्मक मैट्रिक्स कारक कब भागों में सही अपघटन देता है?" तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम 16: 2003 सम्मेलन की कार्यवाही। एमआईटी प्रेस, 2004. [लिंक]

अन्यथा, PLSA और NMF के बीच का संबंध यहाँ वर्णित है:

डिंग, क्रिस, ताओ ली और वी पेंग। "गैर-नकारात्मक मैट्रिक्स कारक और संभाव्य अव्यक्त अर्थ सूचकांक के बीच समानता पर।" कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण 52.8 (2008): 3913-3927। [संपर्क]

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.