मैं इस बात को लेकर असमंजस में हूँ कि लैट्रेंट डिरिक्लेट आवंटन (LDA) करते समय होल्डआउट के नमूने की गड़बड़ी की गणना कैसे की जाए। इस पर विषय हवा पर कागज, मुझे लगता है कि मैं कुछ स्पष्ट याद आ रही है ...
एलडीए के लिए प्रदर्शन का एक अच्छा उपाय के रूप में चिंता को देखा जाता है। विचार यह है कि आप एक होल्डआउट नमूना रखते हैं, अपने एलडीए को बाकी डेटा पर प्रशिक्षित करते हैं, फिर होल्डआउट की पूर्णता की गणना करते हैं।
सूत्र द्वारा सूत्र दिया जा सकता है:
( बड़े पैमाने पर छवि डेटाबेस, हॉस्टर एट अल पर छवि पुनर्प्राप्ति से लिया गया ।)
यहाँ दस्तावेजों की संख्या (परीक्षण के नमूने में, शायद) है, दस्तावेज़ में शब्द का प्रतिनिधित्व करता है , दस्तावेज़ में शब्दों की संख्या ।
मेरे लिए यह स्पष्ट नहीं है कि कैसे समझदारी से pcl , क्योंकि हमारे पास आयोजित दस्तावेजों के लिए विषय मिश्रण नहीं है। आदर्श रूप से, हम सभी संभव विषय मिश्रणों के लिए डिरिचलेट से पहले एकीकृत करेंगे और हमारे द्वारा सीखे गए विषय बहुसंख्या का उपयोग करेंगे। इस अभिन्न की गणना हालांकि एक आसान काम नहीं है।
वैकल्पिक रूप से, हम प्रत्येक आयोजित दस्तावेज़ के लिए एक इष्टतम विषय मिश्रण सीखने का प्रयास कर सकते हैं (हमारे सीखे हुए विषय दिए गए हैं) और इसका उपयोग पेर्फोक्सिटी की गणना करने के लिए करते हैं। यह उल्लेखनीय होगा, हालांकि यह इतना छोटा नहीं है जितना कि होटोर एट अल और ब्लेई एट अल जैसे कागजात सुझाव देते हैं, और यह मेरे लिए तुरंत स्पष्ट नहीं है कि परिणाम ऊपर के आदर्श मामले के बराबर होगा।