मान लें कि आपके पास एक डेटा है घनत्व वितरण साथ निरंतर वितरण से पर समर्थित है, जो ज्ञात नहीं है, लेकिन बहुत बड़ा है इसलिए कर्नेल घनत्व (उदाहरण के लिए) का अनुमान, , बहुत सटीक है। एक विशेष एप्लिकेशन के लिए मुझे एक द्रव्यमान फ़ंक्शन साथ सेट करने के लिए नए डेटा सेट करने के लिए श्रेणियों के एक परिमित संख्या में मनाया डेटा को बदलने की आवश्यकता है । पी ( y ) [ 0 , 1 ] n पी ( y ) जेड 1 , । । । , Z n g ( z )
एक सरल उदाहरण होगा जब और जब । इस मामले में प्रेरित सामूहिक कार्य होगावाई मैं ≤ 1 / 2 जेड मैं = 1 Y मैं > 1 / 2
दो "ट्यूनिंग पैरामीटर" यहां समूहों की संख्या, , और (m-1) लंबाई के थ्रेसहोल्ड \ lambda के वेक्टर हैं । प्रेरित द्रव्यमान समारोह को \ hat {g} _ {m, \ lambda} (y) द्वारा निरूपित करें ।( मीटर - 1 ) λ छ मीटर , λ ( y )
मैं एक ऐसी प्रक्रिया चाहता हूं, जिसका उत्तर हो, उदाहरण के लिए, " m, \ lambda का सबसे अच्छा विकल्प क्या है ताकि समूहों की संख्या m + 1 तक बढ़ जाए (और वहां इष्टतम \ _ lambda को चुनना ) एक नगण्य सुधार लाएगा?" । मुझे ऐसा लगता है कि शायद एक परीक्षण आँकड़ा बनाया जा सकता है (शायद केएल विचलन या कुछ इसी तरह के अंतर के साथ) जिसका वितरण प्राप्त किया जा सकता है। कोई विचार या प्रासंगिक साहित्य?
संपादित करें: मैंने समान रूप से एक निरंतर चर के लौकिक माप को स्थान दिया है और अस्थायी निर्भरता को मॉडल करने के लिए एक अमानवीय मार्कोव श्रृंखला का उपयोग कर रहा हूं। सच कहूँ तो, असतत राज्य मार्कोव श्रृंखला को संभालना बहुत आसान है और यही मेरी प्रेरणा है। देखे गए डेटा प्रतिशत हैं। मैं वर्तमान में एक तदर्थ विवेक का उपयोग कर रहा हूं जो मुझे बहुत अच्छा लगता है लेकिन मुझे लगता है कि यह एक दिलचस्प समस्या है जहां एक औपचारिक (और सामान्य) समाधान संभव है।
संपादित करें 2: वास्तव में केएल विचलन को कम करना डेटा को बिल्कुल भी नहीं समझने के बराबर होगा, ताकि यह विचार पूरी तरह से बाहर हो जाए। मैंने शरीर को उसी के अनुसार संपादित किया है।