मैंने हाल ही में इन पत्रों में वर्णित पारेटो के चिकने महत्त्व वाले नमूने का नमूना-वन-आउट क्रॉस-वैरिडेशन (PSIS-LOO) उपयोग करना शुरू किया:
- व्हीत्सारी, ए।, और गेलमैन, ए। (2015)। पारेतो ने महत्त्वपूर्ण नमूनाकरण किया। arXiv preprint ( लिंक )।
- व्हीत्सारी, ए।, गेलमैन, ए।, और गैब्री, जे। (2016)। प्रैक्टिकल बायेसियन मॉडल मूल्यांकन लीव-वन-आउट क्रॉस-वैलिडेशन और WAIC का उपयोग कर। आर्क्सिव प्रिन्प्रिंट ( लिंक )
यह आउट-ऑफ-सैंपल मॉडल मूल्यांकन के लिए एक बहुत ही मोहक दृष्टिकोण का प्रतिनिधित्व करता है क्योंकि यह एक एकल MCMC चलाने के साथ LOO-CV प्रदर्शन करने की अनुमति देता है, और यह WAIC जैसे मौजूदा सूचना मानदंडों से कथित रूप से बेहतर है।
PSIS-LOO में यह बताने के लिए एक डायग्नोस्टिक्स है कि अनुमानित प्रतिपादक द्वारा दिए गए अनुमान को विश्वसनीय बताया गया है, के के अनुभवजन्य वितरण की पूंछ (प्रति डेटा बिंदु पर एक वजन) पर फिट किए गए। संक्षेप में, यदि अनुमानित वजन , बुरी चीजें हो सकती हैं।
अफसोस की बात है, मैंने पाया कि मेरी समस्या के लिए इस पद्धति के आवेदन में, अधिकांश रुचि के मॉडल के लिए मुझे पता चलता है कि \ _ {k} _i \ gg 0.7 का एक बड़ा अंश । अप्रत्याशित रूप से, रिपोर्ट किए गए कुछ लू-लॉग-लाइबिलिटीज स्पष्ट रूप से निरर्थक थे (अन्य डेटासेट की तुलना में)। एक डबल-चेक के रूप में, मैंने 10-पार क्रॉस-सत्यापन के लिए एक पारंपरिक (और समय लेने वाला) प्रदर्शन किया, यह पाते हुए कि वास्तव में उपरोक्त मामले में पीएसआईएस-एलओयू भयानक रूप से गलत परिणाम दे रहा था (उल्टा, परिणाम 10 के साथ बहुत अच्छे समझौते में थे उन मॉडलों के लिए CV जिसमें सभी ) शामिल हैं। रिकॉर्ड के लिए, मैं अकी व्हीत्सारी द्वारा PSIS-LOO के MATLAB कार्यान्वयन का उपयोग कर रहा हूं।
हो सकता है कि मैं अभी बहुत अशुभ हूं कि मेरी वर्तमान और पहली समस्या जिसमें मैं इस पद्धति को लागू करता हूं, PSIS-LOO के लिए "कठिन" है, लेकिन मुझे संदेह है कि यह मामला अपेक्षाकृत सामान्य हो सकता है। मेरे जैसे मामलों के लिए, वाहन, गेलमैन और गैबी पेपर बस कहता है:
यहां तक कि अगर PSIS अनुमान एक परिमित विचरण, जब है , उपयोगकर्ता से सीधे नमूने पर विचार करना चाहिए समस्याग्रस्त के लिए , उपयोग गुना पार सत्यापन, या अधिक मजबूत मॉडल का उपयोग करें।
ये स्पष्ट हैं लेकिन वास्तव में आदर्श समाधान नहीं हैं क्योंकि वे सभी समय लेने वाली हैं या अतिरिक्त फ़िडलिंग की आवश्यकता है (मैं सराहना करता हूं कि एमसीएमसी और मॉडल मूल्यांकन सभी फ़िडलिंग के बारे में हैं, लेकिन कम बेहतर)।
क्या कोई सामान्य तरीका है जिसे हम पहले से लागू करने की कोशिश कर सकते हैं और PSIS-LOO को विफल होने से रोक सकते हैं? मेरे पास कुछ अस्थायी विचार हैं, लेकिन मुझे आश्चर्य है कि अगर पहले से ही एक अनुभवजन्य समाधान है जिसे लोग अपना रहे हैं।