अनिश्चितताओं को शामिल करते हुए कर्नेल घनत्व का अनुमान


12

जब एक-आयामी डेटा की कल्पना करते हैं, तो यह गलत तरीके से चुने गए बिन चौड़ाई के लिए खाता करने के लिए कर्नेल घनत्व अनुमान तकनीक का उपयोग करना आम है।

जब मेरे एक आयामी डेटासेट में माप अनिश्चितता होती है, तो क्या इस जानकारी को शामिल करने का कोई मानक तरीका है?

उदाहरण के लिए (और अगर मेरी समझ भोली है तो मुझे माफ़ कर दें) KDE टिप्पणियों के डेल्टा फ़ंक्शंस के साथ एक गाऊसी प्रोफ़ाइल का विरोध करता है। यह गाऊसी कर्नेल प्रत्येक स्थान के बीच साझा किया जाता है, लेकिन माप अनिश्चितताओं से मेल खाने के लिए गाऊसी का पैरामीटर विविध हो सकता है। क्या यह प्रदर्शन करने का एक मानक तरीका है? मैं व्यापक गुठली के साथ अनिश्चित मूल्यों को प्रतिबिंबित करने की उम्मीद कर रहा हूं।σ

मैंने इसे केवल पायथन में लागू किया है, लेकिन मुझे यह करने के लिए एक मानक विधि या फ़ंक्शन का पता नहीं है। क्या इस तकनीक में कोई समस्या है? मैं ध्यान देता हूं कि यह कुछ अजीब दिखने वाले रेखांकन देता है! उदाहरण के लिए

केडीई तुलना

इस मामले में कम मूल्यों में बड़ी अनिश्चितता होती है, इसलिए व्यापक फ्लैट कर्नेल प्रदान करते हैं, जबकि केडीई कम (और अनिश्चित) मूल्यों को अधिक वजन करता है।


क्या आप कह रहे हैं कि लाल वक्र चर-चौड़ाई वाले गॉसियन हैं और हरे रंग की वक्र उनकी राशि है? (यही कारण है कि इन रेखांकन से प्रशंसनीय नहीं लगती है।)
whuber

क्या आप जानते हैं कि प्रत्येक अवलोकन के लिए माप त्रुटि क्या है?
अक्कल

@ जब भी लाल घटता चर चौड़ाई के गॉसियन होते हैं और नीला वक्र उनकी राशि होता है। हरे रंग की वक्र एक निरंतर चौड़ाई के साथ केडीई है, भ्रम की स्थिति के लिए खेद है
साइमन वॉकर

@ अक्षल हां, प्रत्येक माप में एक अलग अनिश्चितता है
साइमन वॉकर

एक साइड-इश्यू, लेकिन यह कर्नेल घनत्व अनुमान की परिभाषा नहीं है कि आप गॉसियन गुठली का उपयोग करें। आप किसी भी कर्नेल का उपयोग कर सकते हैं जिसे आप 1 से एकीकृत करना चाहते हैं, हालांकि कुछ गुठली दूसरों की तुलना में अधिक समझदार या उपयोगी होती हैं ....
निक कॉक्स

जवाबों:


6

यह चौड़ाई को अलग करने के लिए समझ में आता है, लेकिन अनिश्चितता के लिए कर्नेल चौड़ाई से मेल खाने के लिए आवश्यक नहीं है।

यादृच्छिक चर के साथ काम करते समय बैंडविड्थ के उद्देश्य पर विचार करें, जिसके लिए टिप्पणियों में अनिवार्य रूप से कोई अनिश्चितता नहीं है (यानी जहां आप उन्हें वास्तव में पर्याप्त रूप से करीब से देख सकते हैं) - फिर भी, केडी शून्य बैंडविड्थ का उपयोग नहीं करेगा, क्योंकि बैंडविड्थ संबंधित है वितरण में परिवर्तनशीलता, अवलोकन में अनिश्चितता के बजाय (यानी 'बीच-अवलोकन' भिन्नता है, 'भीतर-अवलोकन' अनिश्चितता नहीं)।

आपके पास अनिवार्य रूप से भिन्नता का अतिरिक्त स्रोत है ('कोई अवलोकन-अनिश्चितता के मामले में') जो प्रत्येक अवलोकन के लिए अलग है।

तो पहले कदम के रूप में, मैं कहूंगा कि "सबसे छोटी बैंडविड्थ मैं क्या उपयोग करूंगा यदि डेटा में अनिश्चितता थी?" और फिर एक नया बैंडविड्थ बनाते हैं जो उस बैंडविड्थ के वर्गों के योग का वर्गमूल है और आपके द्वारा अवलोकन अनिश्चितता के लिए उपयोग किए गए ।σi

समस्या को देखने का एक वैकल्पिक तरीका यह होगा कि आप प्रत्येक अवलोकन को थोड़ा कर्नेल मानें (जैसा आपने किया, जो प्रतिनिधित्व करेगा कि अवलोकन कहाँ हो सकता है), लेकिन सामान्य (kde-) कर्नेल (आमतौर पर निश्चित-चौड़ाई, लेकिन अवलोकन-अनिश्चितता कर्नेल के साथ नहीं होना चाहिए) और फिर एक संयुक्त घनत्व अनुमान है। (मेरा मानना ​​है कि वास्तव में वही परिणाम है जो मैंने ऊपर सुझाया था।)


2

मैं चर बैंडविड्थ कर्नेल घनत्व आकलनकर्ता को लागू करूंगा, जैसे कि माप त्रुटि वितरण के ज्ञात होने पर अनुकूली विंडो KDE का निर्माण करने के लिए स्थानीय बैंडविड्थ चयनकर्ताओं के लिए deconvolution कर्नेल घनत्व आकलन पेपर प्रयास। आपने कहा था कि आप त्रुटि भिन्नता को जानते हैं, इसलिए यह दृष्टिकोण आपके मामले में लागू होना चाहिए। एक दूषित नमूने के साथ इसी तरह के दृष्टिकोण पर एक और पेपर दिया गया है: एक संवेदनशील नमूना से KERNEL घनत्व की स्थिति में BOOTSTRAP BANDWIDTH चयन।


आपका पहला लिंक मुझे ms.unimelb.edu.au पर ले गया , यह कागज नहीं है। मुझे लगता है कि आपको लिंक का
आदि रो

ये उपाय बहुत अच्छे लगते हैं! क्या आप इन्हें लागू करने वाले कोड के बारे में जानते हैं?
आदि रो

@ अदीराव, मैंने टूटी हुई कड़ी को ठीक किया। मेरे पास कोड नहीं है
अक्सकल

0

आप डेविड डब्ल्यू स्कॉट, 1992, विली द्वारा "मल्टीवेरेट डेंसिटी एस्टिमेशन: थ्योरी, प्रैक्टिस, और विज़ुअलाइज़ेशन" में अध्याय 6 से परामर्श करना चाह सकते हैं।

अविभाजित मामले (पीपी 130-131) के लिए, वह बैंडविड्थ चयन के लिए सामान्य संदर्भ नियम प्राप्त करता है: जहां आपके आयाम के साथ विचरण है, डेटा की मात्रा है और बैंडविड्थ है (आपने अपने प्रश्न में उपयोग किया है , इसलिए इसे मेरे नोटेशन में भ्रमित न करें)।σ n h σ

h=(4/3)1/5σn1/5(6.17)
σnhσ

सामान्य KDE संकेतन जिसका वह उपयोग करता है: जहां कर्नेल फ़ंक्शन है।कश्मीर()

f^(x)=1nhi=1nK(xxih)
K()

0

वास्तव में, मुझे लगता है कि आपके द्वारा प्रस्तावित विधि को प्रोबेबिलिटी डेंसिटी प्लॉट (पीडीपी) कहा जाता है जैसा कि भू-विज्ञान में व्यापक रूप से उपयोग किया जाता है, यहां एक पेपर देखें: https://www.sciencedirect.com/science/article/pii/S0009254112007878

हालांकि, ऊपर कागज में वर्णित कमियां हैं। जैसे कि अगर मापी गई त्रुटियां छोटी हैं, तो पीडीएफ में स्पाइक्स होंगे जो आपको अंत में मिलते हैं। लेकिन कोई पीडीई को केडीई के तरीके की तरह ही सुचारू कर सकता है, ठीक उसी तरह जैसे @ ग्लेन_ब the ने उल्लेख किया है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.