अव्यक्त डिरिचलेट आवंटन के साथ एक होल्डआउट की पूर्णता की गणना कैसे करें?


18

मैं इस बात को लेकर असमंजस में हूँ कि लैट्रेंट डिरिक्लेट आवंटन (LDA) करते समय होल्डआउट के नमूने की गड़बड़ी की गणना कैसे की जाए। इस पर विषय हवा पर कागज, मुझे लगता है कि मैं कुछ स्पष्ट याद आ रही है ...

एलडीए के लिए प्रदर्शन का एक अच्छा उपाय के रूप में चिंता को देखा जाता है। विचार यह है कि आप एक होल्डआउट नमूना रखते हैं, अपने एलडीए को बाकी डेटा पर प्रशिक्षित करते हैं, फिर होल्डआउट की पूर्णता की गणना करते हैं।

सूत्र द्वारा सूत्र दिया जा सकता है:

per(Dtest)=exp{d=1Mlogp(wd)d=1MNd}

( बड़े पैमाने पर छवि डेटाबेस, हॉस्टर एट अल पर छवि पुनर्प्राप्ति से लिया गया ।)

यहाँ दस्तावेजों की संख्या (परीक्षण के नमूने में, शायद) है, दस्तावेज़ में शब्द का प्रतिनिधित्व करता है , दस्तावेज़ में शब्दों की संख्या ।MwddNdd

मेरे लिए यह स्पष्ट नहीं है कि कैसे समझदारी से pcl , क्योंकि हमारे पास आयोजित दस्तावेजों के लिए विषय मिश्रण नहीं है। आदर्श रूप से, हम सभी संभव विषय मिश्रणों के लिए डिरिचलेट से पहले एकीकृत करेंगे और हमारे द्वारा सीखे गए विषय बहुसंख्या का उपयोग करेंगे। इस अभिन्न की गणना हालांकि एक आसान काम नहीं है।p(wd)

वैकल्पिक रूप से, हम प्रत्येक आयोजित दस्तावेज़ के लिए एक इष्टतम विषय मिश्रण सीखने का प्रयास कर सकते हैं (हमारे सीखे हुए विषय दिए गए हैं) और इसका उपयोग पेर्फोक्सिटी की गणना करने के लिए करते हैं। यह उल्लेखनीय होगा, हालांकि यह इतना छोटा नहीं है जितना कि होटोर एट अल और ब्लेई एट अल जैसे कागजात सुझाव देते हैं, और यह मेरे लिए तुरंत स्पष्ट नहीं है कि परिणाम ऊपर के आदर्श मामले के बराबर होगा।

जवाबों:


17

यह वास्तव में अक्सर चमकता हुआ कुछ है।

कुछ लोग कुछ चुटीले तरीके से कर रहे हैं: प्रत्येक दस्तावेज़ में शब्दों के अनुपात को पकड़ना, और इन आयोजित किए गए शब्दों की अनुमानित संभावनाओं का उपयोग करके दस्तावेज़-विषय मिश्रण के साथ-साथ विषय-शब्द मिश्रण भी दिए गए हैं। यह स्पष्ट रूप से आदर्श नहीं है क्योंकि यह किसी भी आयोजित दस्तावेजों पर प्रदर्शन का मूल्यांकन नहीं करता है।

सुझाए गए दस्तावेजों के साथ इसे ठीक से करने के लिए, जैसा कि सुझाव दिया गया है, आपको "सभी संभव विषय मिश्रण के लिए डरिचलेट से पहले एकीकृत करने की आवश्यकता है"। http://people.cs.umass.edu/~wallach/talks/evaluation.pdf इस थोड़े अप्रिय अभिन्न से निपटने के लिए कुछ तरीकों की समीक्षा करता है। मैं बस कोशिश कर रहा हूं और वास्तव में इसे लागू करने के लिए, इसलिए शुभकामनाएं!


3
इस प्रश्न को समाप्त करने के लिए धन्यवाद! Wallach et al में विषय मॉडल मूल्यांकन पर एक पेपर भी है: विषय मॉडल के लिए मूल्यांकन के तरीके
drevicko

1
कोई चिंता नहीं। मैंने पाया है कि MALLET विषय मॉडलिंग टूलबॉक्स में वलाक की बाएं से दाएं विधि के लिए कुछ कोड हैं, यदि आप अपने एलडीए कार्यान्वयन का उपयोग करके खुश हैं तो यह एक आसान जीत है, हालांकि इसे सेट पर चलाना आसान नहीं लगता है विषय एलडीए के एक अलग संस्करण से कहीं और सीखा है, जो कि मैं क्या करना चाह रहा हूं। मैंने अपने पेपर से चिब-शैली के अनुमानक को लागू करने के लिए समाप्त कर दिया, क्योंकि वे एक गाइड के रूप में आपूर्ति करते हैं, हालांकि ऐसा करने में कुछ मुद्दों को ठीक करना था, मुझे बताएं कि क्या आप कोड चाहते हैं।
मैट

हाय @Matt क्या यह संभव है कि मुझे LDA पर प्रासंगिकता मूल्यांकन के लिए matlab कोड सौंपना चाहिए? साभार
फारस की राजकुमारी

@princessofpersia मुझे लगता है कि लेखक ने इस समस्या को ठीक कर दिया है जिसे मैंने matlab कोड के साथ जोड़ दिया था, यहां देखें: homepages.inf.ed.ac.uk/imurray2/pub/09etm
मैट

0

हम जानते हैं कि एलडीए के मापदंडों का अनुमान वैरिएशन इनफेरेंस के माध्यम से लगाया जाता है। इसलिए

logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]+D(q(θ,z)||p(θ,z))

D(q(θ,z)||p(θ,z))=0logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]

logp(w|α,β)


1
मुझे लगता है कि परीक्षण सेट पर गड़बड़ी की वास्तव में गणना कैसे की जाए, इसके बारे में अधिक विशिष्ट होने के उत्तर को सुधारना संभव है।
मोमो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.