एलडीए हाइपरपरमेटर्स के लिए प्राकृतिक व्याख्या


21

क्या कोई यह बता सकता है कि एलडीए हाइपरपरमेटर्स के लिए प्राकृतिक व्याख्या क्या है? ALPHAऔर BETAक्रमशः (प्रति दस्तावेज) विषय और (प्रति विषय) शब्द वितरण के लिए डिरिचलेट वितरण के पैरामीटर हैं। हालाँकि क्या कोई यह बता सकता है कि इन हाइपरपेरेटरों बनाम छोटे मूल्यों के बड़े मूल्यों को चुनने का क्या मतलब है? क्या इसका मतलब है कि दस्तावेजों में विषयगत स्पष्टता और शब्दों के संदर्भ में विषयों की पारस्परिक विशिष्टता के संदर्भ में कोई पूर्व मान्यताएं शामिल हैं?

यह प्रश्न अव्यक्त डिरिचलेट आवंटन के बारे में है, लेकिन BGReene द्वारा नीचे टिप्पणी तुरंत रेखीय विभेदक विश्लेषण को संदर्भित करती है, जो कि संक्षेप में LDA भी है।


मुझे लगता है कि आपको कुछ और विवरण देने की आवश्यकता है, जिस पर एलडीए का आप उपयोग कर रहे हैं। आम तौर पर यह केवल आरडीए मॉडल होता है, जो उन मापदंडों के होते हैं, एलडीए आमतौर पर पूरी तरह से औसत वेक्टर, सहसंयोजक मैट्रिक्स और पूर्व संभावनाओं द्वारा परिभाषित किया जाता है।
बीजीरीन

जवाबों:


11

डेविड बेली ने ग्रीष्मकालीन कक्षा के छात्रों के लिए LDA का परिचय देते हुए एक शानदार बात की: http://videolectures.net/mlss09uk_blei_tm/

पहले वीडियो में उन्होंने बड़े पैमाने पर विषय मॉडलिंग के मूल विचार को शामिल किया और कैसे डिरिक्लेट वितरण खेल में आया। प्लेट नोटेशन को समझाया गया है जैसे कि सभी छिपे हुए चर निर्भरता दिखाने के लिए देखे जाते हैं। मूल रूप से विषय शब्दों पर वितरण और विषयों पर दस्तावेज़ वितरण हैं।

दूसरे वीडियो में वह कुछ नमूना रेखांकन के साथ अल्फा के प्रभाव को दिखाता है। छोटे अल्फा वितरण को अधिक विरल करते हैं। इसके अलावा, वह कुछ अनुमान दृष्टिकोण का परिचय देता है।


7
यह स्वीकार नहीं किया जाना चाहिए जवाब
संस्कार

मुझे लगता है की आप सही हो। मैं पूरी तरह से भूल गया कि मैंने यह लिखा था।
कर्स्टन

ओह! लेखक से एक टिप्पणी देखने की उम्मीद नहीं थी!
हेहे

48

उत्तर इस बात पर निर्भर करता है कि क्या आप सममित या असममित डाइरिलेट वितरण मान रहे हैं (या, अधिक तकनीकी रूप से, क्या आधार उपाय एक समान है)। जब तक कुछ और निर्दिष्ट नहीं किया जाता है, तब तक एलडीए के अधिकांश कार्यान्वयन मान लेते हैं कि वितरण सममित है।

सममित वितरण के लिए, एक उच्च अल्फा-वैल्यू का अर्थ है कि प्रत्येक दस्तावेज़ में अधिकांश विषयों का मिश्रण होने की संभावना है , और विशेष रूप से किसी एक विषय पर नहीं। अल्फ़ा वैल्यू कम होने से दस्तावेज़ों पर इस तरह की अड़चनें कम होती हैं और इसका मतलब है कि यह अधिक संभावना है कि दस्तावेज़ में कुछ, या यहाँ तक कि विषयों में से केवल एक का मिश्रण हो सकता है। इसी तरह, एक उच्च बीटा-वैल्यू का अर्थ है कि प्रत्येक विषय में अधिकांश शब्दों का मिश्रण होने की संभावना है, और विशेष रूप से किसी भी शब्द का नहीं, जबकि कम मूल्य का मतलब है कि किसी विषय में केवल कुछ शब्दों का मिश्रण हो सकता है।

यदि, दूसरी ओर, वितरण असममित है, तो उच्च अल्फा-वैल्यू का मतलब है कि प्रत्येक दस्तावेज़ के लिए एक विशिष्ट विषय वितरण (आधार माप के आधार पर) अधिक संभावना है। इसी प्रकार, उच्च बीटा-मान का अर्थ है कि प्रत्येक विषय में आधार माप द्वारा परिभाषित एक विशिष्ट शब्द मिश्रण शामिल होने की अधिक संभावना है।

व्यवहार में, एक उच्च अल्फा-वैल्यू उन दस्तावेजों के संदर्भ में समान होगा, जिनमें वे विषय होते हैं। एक उच्च बीटा-वैल्यू समान रूप से उन शब्दों के संदर्भ में अधिक समान विषयों को ले जाएगा, जिनमें वे शामिल हैं।

तो, हाँ, अल्फा-पैरामीटर दस्तावेजों में विषय स्पार्सिटी / एकरूपता के बारे में पूर्व मान्यताओं को निर्दिष्ट करते हैं। मुझे पूरी तरह से यकीन नहीं है कि आप "शब्दों के संदर्भ में विषयों की पारस्परिक विशिष्टता" से क्या मतलब है।


आमतौर पर, ये एलडीए मॉडल में उपयोग किए जाने वाले डिरिचलेट वितरण के लिए एकाग्रता पैरामीटर हैं । यह कैसे काम करता है, इसकी कुछ सहज समझ हासिल करने के लिए, इस प्रस्तुति में कुछ अच्छे चित्रण हैं, साथ ही सामान्य रूप से एलडीए की अच्छी व्याख्या भी है।


(α1,α2,,αकश्मीर)यू=(यू1,यू2,,यूकश्मीर)αα*यू=(α1,α2,,αकश्मीर)α(α1,α2,,αकश्मीर)(α1,α2,,αकश्मीर)


2
+1 जानकारीपूर्ण उत्तर! मैं पूछना चाहता हूँ कि सामान्य रूप से अल्फा और बीटा के लिए उच्च / निम्न मूल्य कितना उच्च / निम्न है?
संसारमारा

बीटा प्रत्येक विषय (मैट्रिक्स) के लिए शब्दों पर वितरण माना जाता है, है ना? तो कैसे एक एकल मूल्य एक मैट्रिक्स में अनुवाद करता है?
नोआमिको

क्या मैं यह निष्कर्ष निकालने में सही हूं कि उच्च अल्फा का मतलब है कि दस्तावेज समान हैं, और उच्च बीटा का मतलब है कि विषय समान हैं?
लेविस्ट्रिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.