एक सतत वितरण से डेटा का एक इष्टतम विवेक निर्धारित करना


11

मान लें कि आपके पास एक डेटा है घनत्व वितरण साथ निरंतर वितरण से पर समर्थित है, जो ज्ञात नहीं है, लेकिन बहुत बड़ा है इसलिए कर्नेल घनत्व (उदाहरण के लिए) का अनुमान, , बहुत सटीक है। एक विशेष एप्लिकेशन के लिए मुझे एक द्रव्यमान फ़ंक्शन साथ सेट करने के लिए नए डेटा सेट करने के लिए श्रेणियों के एक परिमित संख्या में मनाया डेटा को बदलने की आवश्यकता है । पी ( y ) [ 0 , 1 ] n पी ( y ) जेड 1 , , Z n g ( z )Y1,,Ynपी(y)[0,1]nपी^(y)जेड1,,जेडnजी(z)

एक सरल उदाहरण होगा जब और जब । इस मामले में प्रेरित सामूहिक कार्य होगावाई मैं1 / 2 जेड मैं = 1 Y मैं > 1 / 2जेडमैं=0Yमैं1/2जेडमैं=1Yमैं>1/2

जी^(0)=01/2पी^(y)y,   जी^(1)=1/21पी^(y)y

दो "ट्यूनिंग पैरामीटर" यहां समूहों की संख्या, , और (m-1) लंबाई के थ्रेसहोल्ड \ lambda के वेक्टर हैं । प्रेरित द्रव्यमान समारोह को \ hat {g} _ {m, \ lambda} (y) द्वारा निरूपित करें ।( मीटर - 1 ) λ मीटर , λ ( y )(-1)λजी^,λ(y)

मैं एक ऐसी प्रक्रिया चाहता हूं, जिसका उत्तर हो, उदाहरण के लिए, " m, \ lambda का सबसे अच्छा विकल्प क्या है ,λताकि समूहों की संख्या m + 1 तक बढ़ जाए +1(और वहां इष्टतम \ _ lambda को चुनना λ) एक नगण्य सुधार लाएगा?" । मुझे ऐसा लगता है कि शायद एक परीक्षण आँकड़ा बनाया जा सकता है (शायद केएल विचलन या कुछ इसी तरह के अंतर के साथ) जिसका वितरण प्राप्त किया जा सकता है। कोई विचार या प्रासंगिक साहित्य?

संपादित करें: मैंने समान रूप से एक निरंतर चर के लौकिक माप को स्थान दिया है और अस्थायी निर्भरता को मॉडल करने के लिए एक अमानवीय मार्कोव श्रृंखला का उपयोग कर रहा हूं। सच कहूँ तो, असतत राज्य मार्कोव श्रृंखला को संभालना बहुत आसान है और यही मेरी प्रेरणा है। देखे गए डेटा प्रतिशत हैं। मैं वर्तमान में एक तदर्थ विवेक का उपयोग कर रहा हूं जो मुझे बहुत अच्छा लगता है लेकिन मुझे लगता है कि यह एक दिलचस्प समस्या है जहां एक औपचारिक (और सामान्य) समाधान संभव है।

संपादित करें 2: वास्तव में केएल विचलन को कम करना डेटा को बिल्कुल भी नहीं समझने के बराबर होगा, ताकि यह विचार पूरी तरह से बाहर हो जाए। मैंने शरीर को उसी के अनुसार संपादित किया है।


1
ज्यादातर मामलों में अनुवर्ती आवेदन की आवश्यकताएं किसी भी समाधान की अच्छाई का निर्धारण करेगी। शायद, हमें कुछ मार्गदर्शन देने के लिए, आप इसके बारे में अधिक कह सकते हैं।
whuber

सबसे पहले, परिभाषित करें कि आप नगण्य से क्या मतलब है । ऑफ-हैंड, यह दर-विकृति समस्या से संबंधित लगता है। कवर और थॉमस पाठ जैसे विषयों के लिए एक अच्छी पठनीय परिचय प्रदान करता है।
कार्डिनल

मुझे लगता है कि k - 1 मापदंडों (थ्रेसहोल्ड के लिए) जैसे मॉडल के साथ स्तर के साथ विवेक । इस सेटिंग में जब मैं कहता हूं कि मैं नगण्य हूं, तो मेरा मतलब "सांख्यिकीय पैरामीटर में अतिरिक्त पैरामीटर जोड़ने के लायक नहीं है"। -1
मैक्रों

मुझे यकीन नहीं है कि अगर विवेक वास्तव में एक अच्छा कदम है। आप उन सीमाओं पर सामान्यीकरण नहीं कर पाएंगे जो असतत मान आपकी टिप्पणियों के मूल स्थान पर बनाते हैं।
19

जवाबों:


3

मैं कुछ समय पहले इस समस्या के समाधान के बारे में बताने जा रहा हूं - यह एक औपचारिक सांख्यिकीय परीक्षण नहीं है, लेकिन एक उपयोगी अंक प्रदान कर सकता है।


सामान्य मामले पर विचार करें जहां आपके पास निरंतर अवलोकन ; सामान्यता के नुकसान के बिना मान लीजिए कि प्रत्येक अवलोकन का नमूना स्थान अंतराल है [ 0 , 1 ] । एक वर्गीकरण योजना कई श्रेणियों, मीटर और स्थानों पर निर्भर करती है, जो श्रेणियों को विभाजित करती हैं, 0 < λ 1 < λ 2 < < λ m - 1 < 1Y1,Y2,,Yn[0,1]0<λ1<λ2<<λ-1<1

में वर्गीकृत के संस्करण निरूपित द्वारा जेड मैं ( मीटर , λ ) , जहां λ = { λ 1 , λ 2 , , λ मीटर - 1 } । वर्गों में मूल डेटा के विभाजन के रूप में डेटा के विवेकाधिकार के बारे में सोचते हुए, Y i के प्रसरण को m , λ के एक निश्चित मूल्य के लिए और समूहों के बीच भिन्नता के संयोजन के रूप में सोचा जा सकता है :Yमैंजेडमैं(,λ)λ={λ1,λ2,,λ-1}Yमैं,λ

vआर(Yमैं)=vआर((Yमैं|जेडमैं(,λ)))+(vआर(Yमैं|जेडमैं(,λ)))

एक दिया गया वर्गीकरण समरूप समूहों का निर्माण करने में सफल होता है यदि समूह विचरण के भीतर अपेक्षाकृत कम है, जो कि द्वारा परिमाणित है । इसलिए, हम एक परसेंटिव समूहीकरण की तलाश करते हैं, जो कि अधिकांश को दर्शाता है। Y i से v में r ( E ( Y i | Z i ( m , λ ) ) शब्द में भिन्नता । विशेष रूप से, हम m को चुनना चाहते हैं (vआर(Yमैं|जेडमैं(,λ))Yमैंvआर((Yमैं|जेडमैं(,λ))ताकि अतिरिक्त स्तर जोड़कर, हम समूह समरूपता में महत्वपूर्ण रूप से न जोड़ें। इस मन के साथ, हम एम के एक निश्चित मूल्य के लिए इष्टतम को परिभाषित करते हैंλ

λ=आरजीमैंnλ(vआर(Yमैं|जेडमैं(,λ)))

निर्धारित करने के लिए मोटे तौर पर निदान क्या की पसंद पर्याप्त है में ड्रॉपऑफ़ को देखने के लिए ( v एक आर ( Y मैं | जेड मैं ( मीटर , λ हिन्दी ⋆ मीटर ) ) ) के एक समारोह के रूप में मीटर इस प्रक्षेपवक्र होगा- गैर है - बढ़ती और उसके बाद तेजी से घटती है, तो आप देख सकते हैं कि आप अधिक श्रेणियों को शामिल करके अपेक्षाकृत कम परिशुद्धता प्राप्त कर रहे हैं। यह अनुमानी आत्मा में समान है कि कैसे " स्क्री प्लॉट " का उपयोग कभी-कभी यह देखने के लिए किया जाता है कि कितने प्रमुख घटक भिन्नता के "पर्याप्त" की व्याख्या करते हैं।(vआर(Yमैं|जेडमैं(,λ)))

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.