यदि चर कर्नेल चौड़ाई अक्सर कर्नेल प्रतिगमन के लिए अच्छी होती है, तो वे आमतौर पर कर्नेल घनत्व के अनुमान के लिए अच्छे क्यों नहीं होते हैं?

यह प्रश्न अन्यत्र चर्चा से प्रेरित है ।

परिवर्तनीय गुठली का उपयोग अक्सर स्थानीय प्रतिगमन में किया जाता है। उदाहरण के लिए, लोस व्यापक रूप से उपयोग किया जाता है और एक प्रतिगमन चिकनी के रूप में अच्छी तरह से काम करता है, और चर चौड़ाई के कर्नेल पर आधारित होता है जो डेटा स्पार्सिटी के लिए अनुकूल होता है।

दूसरी ओर, चर कर्नेल को आमतौर पर कर्नेल घनत्व अनुमान में खराब अनुमानकर्ताओं का नेतृत्व करने के लिए माना जाता है ( टेरेल और स्कॉट, 1992 देखें )।

क्या एक सहज कारण है कि वे प्रतिगमन के लिए अच्छा काम करेंगे, लेकिन घनत्व के आकलन के लिए नहीं?

— रॉब Hyndman
स्रोत

आपने लिखा है "दूसरी ओर, चर गुठली को आमतौर पर कर्नेल घनत्व अनुमान में खराब अनुमानकर्ताओं का नेतृत्व करने के लिए सोचा जाता है", आपके द्वारा उल्लिखित पेपर का क्या हिस्सा है जो आपको विश्वास दिलाता है कि? मेरे पास बहुत सारे संदर्भ हैं जो अन्य व्युत्पत्ति में जाते हैं, उदाहरण के लिए इस पत्र में उल्लिखित संदर्भ देखें: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

— रॉबिन गिरी

टेरेल और स्कॉट का सार इसे अच्छी तरह से सारांशित करता है: "सभी संस्करणों में निकटतम पड़ोसी अनुमानक एक और दो आयामों में खराब प्रदर्शन करते हैं"। वे केवल बहुभिन्नरूपी घनत्व अनुमान में अधिक लाभ पाते हैं।

— रॉब हयंडमैन

"निकटतम पड़ोसी" केवल चर कर्नेल नहीं है। मैं जिन कागजों का उल्लेख करता हूं, वे अन्य उपकरण जैसे लेप्स्की के एल्गोरिथ्म का उपयोग करते हैं। मैं AOS पेपर पढ़ूंगा, लेकिन जैसा कि निकटतम पड़ोसी के प्रदर्शन को आयाम के साथ घटाना चाहिए, मुझे यह अजीब लगा कि आयाम बढ़ने से "बहुत ही गैर-पैरामीट्रिक" अनुमानक को लाभ मिलता है (यदि हम निरंतर बैंडविड्थ स्वीकार करते हैं तो कम पैरामीट्रिक की तुलना में कम है अलग-अलग बैंडवाथ)। इस प्रकार की स्थिति में, मूल्यांकन मामले का उपयोग किया जाता है जो अक्सर परिणामों को निर्धारित करता है ...

— रोबिन जिरार्ड

@ रोबिन गिरार्ड:> * यह अजीब पाया गया कि आयाम बढ़ने से "बहुत ही गैर-पैरामीट्रिक" अनुमानक को लाभ मिलता है (यदि हम मानते हैं कि निरंतर बैंडविड्थ अलग-अलग बैंडविथ की तुलना में अधिक गैर पैरामीट्रिक है) * क्या इस वाक्य में एक टाइपो है? अन्यथा आप लेखकों के साथ कम से कम सहज स्तर पर सहमत होंगे। धन्यवाद पुष्टि / सही करने के लिए।

— user603

@kwak नोटिस करने के लिए धन्यवाद! यह एक टाइपो है: मैं कहना चाहता था कि निरंतर बैंडविड्थ कम एनपी है ... मैं अपनी टिप्पणी को संशोधित नहीं कर सकता :( इस बारे में खेद है।

— रॉबिन जिरार्ड

जवाबों:

यहाँ दो अलग-अलग प्रश्न प्रतीत होते हैं, जिन्हें मैं विभाजित करने का प्रयास करूँगा:

1) कैसे केएस, कर्नेल स्मूथिंग, केडीई से अलग है, कर्नेल घनत्व अनुमान? खैर, कहते हैं कि मेरे पास एक अनुमानक / चिकनी / प्रक्षेपक है

est( xi, fi -> gridj, estj )

और xi पर "वास्तविक" डेन्सिटीफ () को जानने के लिए भी होता है। फिर रनिंग est( x, densityf ) को डेन्सिटीफ () का अनुमान देना चाहिए: एक केडीई। यह अच्छी तरह से हो सकता है कि केएस और केडीई का अलग-अलग तरह से मूल्यांकन किया जाता है - अलग चिकनाई मानदंड, अलग मानदंड - लेकिन मुझे मौलिक अंतर नहीं दिखता है। मुझे किसकी याद आ रही है ?

2) कैसे आयाम आकलन या समरेखण को प्रभावित करता है, intuitivly ? यहाँ एक खिलौना उदाहरण है, बस अंतर्ज्ञान की मदद करने के लिए। एक समान ग्रिड में N = 10000 अंक के एक बॉक्स पर विचार करें, और एक खिड़की, एक पंक्ति या वर्ग या घन, W = 64 अंक के भीतर:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

यहां "साइड रेश्यो" विंडो साइड / बॉक्स साइड है, और "जीतने के लिए डिस्टेंस" बॉक्स में एक यादृच्छिक बिंदु के साथ यादृच्छिक रूप से रखी गई विंडो की औसत दूरी का अनुमान है।

क्या इसका कोई मतलब है? (एक तस्वीर या एप्लेट वास्तव में मदद करेगा: कोई भी?)

विचार यह है कि एक निश्चित-आकार के बॉक्स के भीतर एक निश्चित आकार की खिड़की में बॉक्स के बाकी हिस्सों में 1d 2d 3 डी 4 डी में बहुत भिन्नता है। यह एक समान ग्रिड के लिए है; शायद आयाम पर मजबूत निर्भरता अन्य वितरणों को वहन करती है, शायद नहीं। वैसे भी, यह एक मजबूत सामान्य प्रभाव की तरह दिखता है, जो आयामीता के अभिशाप का एक पहलू है।

— Denis
स्रोत

कर्नेल घनत्व अनुमान का अर्थ है स्थानीय (फ़ज़ी) विंडो पर एकीकरण , और कर्नेल स्मूदिंग का अर्थ है स्थानीय (फ़ज़ी) विंडो पर औसत ।

कर्नेल चौरसाई: $\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$ ।

कर्नेल घनत्व आकलन: $\rho(x) \propto \sum K(||x-x_i||)$ ।

ये कैसे समान हैं?

एक बूलियन-मूल्यवान फ़ंक्शन के नमूनों पर विचार करें, अर्थात एक सेट जिसमें दोनों "सच्चे नमूने" (प्रत्येक इकाई मूल्य के साथ) और "झूठे नमूने" (प्रत्येक शून्य मूल्य के साथ हों)। समग्र नमूना घनत्व मान लिया जाये कि इस समारोह के स्थानीय औसत है निरंतर (एक ग्रिड की तरह) है, हूबहू सच-मान उप-समूह की स्थानीय (आंशिक) घनत्व के लिए आनुपातिक। (झूठे नमूने हमें स्मूथिंग समीकरण के हर को लगातार निरस्त करने की अनुमति देते हैं, जबकि समन में शून्य शब्द जोड़ते हैं, ताकि यह घनत्व आकलन समीकरण में सरल हो जाए।)

इसी प्रकार यदि आपके नमूनों को बूलियन रैस्टर पर विरल तत्वों के रूप में दर्शाया गया था, तो आप रिस्टर को ब्लर फिल्टर लगाकर उनके घनत्व का अनुमान लगा सकते हैं।

ये कैसे अलग हैं?

सहजता से, आप नमूना माप महत्वपूर्ण माप त्रुटि है या नहीं पर निर्भर करने के लिए एल्गोरिथ्म चौरसाई की पसंद की उम्मीद कर सकते हैं।

एक चरम पर (कोई शोर नहीं) बस आपको नमूना स्थानों पर बिल्कुल ज्ञात मूल्यों के बीच अंतर करने की आवश्यकता है। कहते हैं, डेलुनाय ट्राइंगुलेशन (बिलिनियर पीसवाइज इंटरपोलेशन के साथ)।

घनत्व का अनुमान विपरीत चरम जैसा दिखता है, यह पूरी तरह से शोर है, क्योंकि अलगाव में नमूना उस बिंदु पर घनत्व मूल्य के माप के साथ नहीं है। (इसलिए इसमें केवल अंतर करने के लिए कुछ नहीं है। आप वोरोनोई आरेख सेल-क्षेत्रों को मापने पर विचार कर सकते हैं, लेकिन फिर भी चौरसाई / निंदा महत्वपूर्ण होगी ..)

मुद्दा यह है कि समानता के बावजूद ये मूलभूत रूप से भिन्न समस्याएं हैं, इसलिए विभिन्न दृष्टिकोण इष्टतम हो सकते हैं।

— benjimin
स्रोत