क्या आप आम आदमी की शर्तों में परिजन खिड़की (कर्नेल) घनत्व का अनुमान लगा सकते हैं?


24

Parzen खिड़की घनत्व अनुमान के रूप में वर्णित है

p(x)=1ni=1n1h2ϕ(xixh)

जहां वेक्टर में तत्वों की संख्या है, एक वेक्टर, है के एक प्रायिकता घनत्व है , Parzen खिड़की के आयाम है, और एक खिड़की कार्य है।एक्स पी ( एक्स ) एक्स एच φnxp(x)xhϕ

मेरे प्रश्न हैं:

  1. Parzen Window फ़ंक्शन और अन्य घनत्व फ़ंक्शंस जैसे Gaussian Function और इतने पर मूल अंतर क्या है?

  2. का घनत्व ज्ञात करने में विंडो फंक्शन ( ) की क्या भूमिका है ?xϕx

  3. हम विंडो फ़ंक्शन के स्थान पर अन्य घनत्व कार्यों को क्यों प्लग कर सकते हैं?

  4. का घनत्व ज्ञात करने में की भूमिका क्या है ?xhx

जवाबों:


44

Parzen विंडो घनत्व अनुमान कर्नेल घनत्व अनुमान का दूसरा नाम है । यह डेटा से निरंतर घनत्व फ़ंक्शन का आकलन करने के लिए एक गैर-समरूप विधि है।

कल्पना कीजिए कि आपके पास कुछ डाटापॉइंट्स जो सामान्य अज्ञात से आते हैं, संभवतः निरंतर, वितरण । आप अपने डेटा दिए गए वितरण का अनुमान लगाने में रुचि रखते हैं। एक चीज जो आप कर सकते हैं, वह है केवल अनुभवजन्य वितरण को देखना और इसे सच्चे वितरण के समकक्ष नमूने के रूप में मानना। हालाँकि यदि आपका डेटा निरंतर है, तो संभवतः आप प्रत्येक को देखेंगेx1,,xnfxiबिंदु केवल डेटासेट में एक बार दिखाई देते हैं, इसलिए इसके आधार पर, आप यह निष्कर्ष निकालेंगे कि आपका डेटा एक समान वितरण से आता है क्योंकि प्रत्येक मान में समान संभावना है। उम्मीद है, आप बेहतर कर सकते हैं तो यह: आप अपने डेटा को कुछ समान रूप से अंतराल अंतराल में पैक कर सकते हैं और उन मूल्यों को गिन सकते हैं जो प्रत्येक अंतराल में आते हैं। यह विधि हिस्टोग्राम के आकलन पर आधारित होगी । दुर्भाग्य से, हिस्टोग्राम के साथ आप कुछ संख्या में डिब्बे के साथ समाप्त होते हैं, बल्कि तब निरंतर वितरण के साथ होते हैं, इसलिए यह केवल एक मोटा अनुमान है।

कर्नेल घनत्व का अनुमान तीसरा विकल्प है। मुख्य विचार यह है कि आप अनुमानित है एक से मिश्रण निरंतर वितरण के (का उपयोग कर अपने अंकन ) कहा जाता है, कर्नेल , उस पर केंद्रित कर रहे हैं datapoints और बड़े पैमाने (राशि बैंडविड्थ ) के बराबर :fK ϕ x iKϕxih

^(एक्स)=1nΣमैं=1nकश्मीर(एक्स-एक्समैं)

यह जहां सामान्य वितरण गिरी के रूप में प्रयोग किया जाता है नीचे चित्र, पर दर्शाया गया है और बैंडविड्थ के लिए अलग मान सात datapoints (भूखंडों के शीर्ष पर रंगीन लाइनों द्वारा चिह्नित) निर्दिष्ट वितरण अनुमान लगाने के लिए किया जाता है। भूखंडों पर रंगीन घनत्व kernels बिंदुओं पर केंद्रित हैं । ध्यान दें कि एक सापेक्ष पैरामीटर है, यह हमेशा आपके डेटा के आधार पर चुना जाता है और का समान मान विभिन्न डेटासेट के लिए समान परिणाम नहीं दे सकता है।कश्मीरएक्समैंएच

एक ही डेटा पर अनुमानित चार कर्नेल घनत्व

कर्नेल को एक संभावना घनत्व फ़ंक्शन के रूप में माना जा सकता है, और इसे एकता को एकीकृत करने की आवश्यकता है। इसे सममित होना भी आवश्यक है ताकि और, जो निम्नानुसार हो, शून्य पर केंद्रित हो। गुठली पर विकिपीडिया लेख कई लोकप्रिय गुठली की सूची देता है, जैसे कि गौसियन (सामान्य वितरण), एपानेचिकोव, आयताकार (समान वितरण), आदि मूल रूप से किसी भी वितरण बैठक में उन आवश्यकताओं को कर्नेल के रूप में इस्तेमाल किया जा सकता है।कश्मीरकश्मीर(एक्स)=कश्मीर(-एक्स)

जाहिर है, अंतिम अनुमान आपकी पसंद के कर्नेल (लेकिन उतना नहीं) और बैंडविड्थ पैरामीटर पर निर्भर करेगा । निम्नलिखित थ्रेड कर्नेल घनत्व आकलन में बैंडविड्थ मान की व्याख्या कैसे करें? बैंडविड्थ मापदंडों के उपयोग का अधिक विस्तार से वर्णन करता है।

सादे अंग्रेजी में यह कहते हुए कि आप यहाँ क्या मान रहे हैं कि देखे गए बिंदु सिर्फ एक नमूना हैं और अनुमान लगाने के लिए कुछ वितरण का पालन ​​करें । चूंकि वितरण निरंतर है, हम मानते हैं कि अंक (पड़ोस को पैरामीटर द्वारा परिभाषित किया गया है ) के आस-पास के आस-पास कुछ अज्ञात लेकिन गैर-अक्षीय घनत्व है और हम इसका उपयोग करने के लिए कर्नेल का उपयोग करते हैं। अधिक अंक कुछ पड़ोस में हैं, इस क्षेत्र के चारों ओर अधिक घनत्व जमा है और इसलिए, उच्च घनत्व of । परिणामस्वरूप फ़ंक्शन मूल्यांकन अब किसी भी बिंदु लिए किया जा सकता हैएक्समैंएक्समैंकश्मीर^^ x ^ f h ( x ) f ( x )एक्स(बिना सबस्क्रिप्ट के) इसके लिए घनत्व का अनुमान प्राप्त करने के लिए, इस तरह से हमने फ़ंक्शन किया है जो अज्ञात घनत्व फ़ंक्शन का एक अनुमान है ।^(एक्स)(एक्स)

कर्नेल घनत्व के बारे में अच्छी बात यह है कि हिस्टोग्राम की तरह नहीं, वे निरंतर कार्य कर रहे हैं और वे स्वयं संभावित वैधता घनत्व हैं क्योंकि वे वैध संभावना घनत्व का मिश्रण हैं। कई मामलों में यह उतना ही करीब है जितना कि आप सन्निकटन तक पहुँच सकते हैं ।

सामान्य वितरण के रूप में कर्नेल घनत्व और अन्य घनत्वों के बीच का अंतर यह है कि "सामान्य" घनत्व गणितीय कार्य हैं, जबकि कर्नेल घनत्व आपके डेटा का उपयोग करके अनुमानित अनुमानित घनत्व का एक अनुमान है, इसलिए वे "स्टैंडअलोन" वितरण नहीं हैं।

मैं आपको सिल्वरमैन (1986) और वैंड और जोन्स (1995) द्वारा इस विषय पर दो अच्छी परिचयात्मक पुस्तकों की सिफारिश करूंगा।


सिल्वरमैन, बीडब्ल्यू (1986)। सांख्यिकी और डेटा विश्लेषण के लिए घनत्व आकलन। सीआरसी / चैपमैन और हॉल।

वैंड, एमपी और जोन्स, एमसी (1995)। कर्नेल स्मूदी। लंदन: चैपमैन एंड हॉल / सीआरसी।


यहाँ क्या है ? एक्स
user366312

@ अनाम आपके डेटा पॉइंट हैं, वह बिंदु है जिस पर आप घनत्व फ़ंक्शन का मूल्यांकन करते हैं। xएक्समैंएक्स
टिम

1
@anonymous मैंने "सादे अंग्रेजी में यह कहना ..." अनुच्छेद के अंत में टिप्पणी में आपके प्रश्न का संदर्भ देते हुए संपादन जोड़ा।
टिम

4

1) मेरी समझ यह है कि उपयोगकर्ताओं के पास लिए उपयोग करने के लिए कार्यों का एक विकल्प है , और यह कि गॉसियन फ़ंक्शन एक बहुत ही सामान्य विकल्प है।φ

2) पर घनत्व के विभिन्न मूल्यों का मतलब है में । उदाहरण के लिए, आपके पास , , और एक गौसियन वितरण for । इस मामले में, पर घनत्व होगा ।φ एच ( एक्स मैं - एक्स ) एक्स एक्स 1 = 1 x 2 = 2 σ = 1 φ एच एक्स एन 1 , 1 ( x ) + एन 2 , 1 ( एक्स )एक्सφ(एक्समैं-एक्स)एक्सएक्स1=1एक्स2=2σ=1φएक्सएन1,1(एक्स)+एन2,1(एक्स)2

3) आप अपने विंडो फ़ंक्शन की तरह किसी भी घनत्व फ़ंक्शन में प्लग कर सकते हैं।

4) आपके चुने हुए विंडो फ़ंक्शन की चौड़ाई निर्धारित करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.