Parzen विंडो घनत्व अनुमान कर्नेल घनत्व अनुमान का दूसरा नाम है । यह डेटा से निरंतर घनत्व फ़ंक्शन का आकलन करने के लिए एक गैर-समरूप विधि है।
कल्पना कीजिए कि आपके पास कुछ डाटापॉइंट्स जो सामान्य अज्ञात से आते हैं, संभवतः निरंतर, वितरण । आप अपने डेटा दिए गए वितरण का अनुमान लगाने में रुचि रखते हैं। एक चीज जो आप कर सकते हैं, वह है केवल अनुभवजन्य वितरण को देखना और इसे सच्चे वितरण के समकक्ष नमूने के रूप में मानना। हालाँकि यदि आपका डेटा निरंतर है, तो संभवतः आप प्रत्येक को देखेंगेएक्स1, ... , एक्सnचएक्समैंबिंदु केवल डेटासेट में एक बार दिखाई देते हैं, इसलिए इसके आधार पर, आप यह निष्कर्ष निकालेंगे कि आपका डेटा एक समान वितरण से आता है क्योंकि प्रत्येक मान में समान संभावना है। उम्मीद है, आप बेहतर कर सकते हैं तो यह: आप अपने डेटा को कुछ समान रूप से अंतराल अंतराल में पैक कर सकते हैं और उन मूल्यों को गिन सकते हैं जो प्रत्येक अंतराल में आते हैं। यह विधि हिस्टोग्राम के आकलन पर आधारित होगी । दुर्भाग्य से, हिस्टोग्राम के साथ आप कुछ संख्या में डिब्बे के साथ समाप्त होते हैं, बल्कि तब निरंतर वितरण के साथ होते हैं, इसलिए यह केवल एक मोटा अनुमान है।
कर्नेल घनत्व का अनुमान तीसरा विकल्प है। मुख्य विचार यह है कि आप अनुमानित है एक से मिश्रण निरंतर वितरण के (का उपयोग कर अपने अंकन ) कहा जाता है, कर्नेल , उस पर केंद्रित कर रहे हैं datapoints और बड़े पैमाने (राशि बैंडविड्थ ) के बराबर :चK ϕ x iकश्मीरφएक्समैंज
चज^( x ) = 1एन एचΣमैं = १nकश्मीर( एक्स - एक्समैंज)
यह जहां सामान्य वितरण गिरी के रूप में प्रयोग किया जाता है नीचे चित्र, पर दर्शाया गया है और बैंडविड्थ के लिए अलग मान सात datapoints (भूखंडों के शीर्ष पर रंगीन लाइनों द्वारा चिह्नित) निर्दिष्ट वितरण अनुमान लगाने के लिए किया जाता है। भूखंडों पर रंगीन घनत्व kernels बिंदुओं पर केंद्रित हैं । ध्यान दें कि एक सापेक्ष पैरामीटर है, यह हमेशा आपके डेटा के आधार पर चुना जाता है और का समान मान विभिन्न डेटासेट के लिए समान परिणाम नहीं दे सकता है।कश्मीरजएक्समैंजएचज
कर्नेल को एक संभावना घनत्व फ़ंक्शन के रूप में माना जा सकता है, और इसे एकता को एकीकृत करने की आवश्यकता है। इसे सममित होना भी आवश्यक है ताकि और, जो निम्नानुसार हो, शून्य पर केंद्रित हो। गुठली पर विकिपीडिया लेख कई लोकप्रिय गुठली की सूची देता है, जैसे कि गौसियन (सामान्य वितरण), एपानेचिकोव, आयताकार (समान वितरण), आदि मूल रूप से किसी भी वितरण बैठक में उन आवश्यकताओं को कर्नेल के रूप में इस्तेमाल किया जा सकता है।कश्मीरकश्मीर( x ) = के( - x )
जाहिर है, अंतिम अनुमान आपकी पसंद के कर्नेल (लेकिन उतना नहीं) और बैंडविड्थ पैरामीटर पर निर्भर करेगा । निम्नलिखित थ्रेड
कर्नेल घनत्व आकलन में बैंडविड्थ मान की व्याख्या कैसे करें? बैंडविड्थ मापदंडों के उपयोग का अधिक विस्तार से वर्णन करता है।ज
सादे अंग्रेजी में यह कहते हुए कि आप यहाँ क्या मान रहे हैं कि देखे गए बिंदु सिर्फ एक नमूना हैं और अनुमान लगाने के लिए कुछ वितरण का पालन करें । चूंकि वितरण निरंतर है, हम मानते हैं कि अंक (पड़ोस को पैरामीटर द्वारा परिभाषित किया गया है ) के आस-पास के आस-पास कुछ अज्ञात लेकिन गैर-अक्षीय घनत्व है और हम इसका उपयोग करने के लिए कर्नेल का उपयोग करते हैं। अधिक अंक कुछ पड़ोस में हैं, इस क्षेत्र के चारों ओर अधिक घनत्व जमा है और इसलिए, उच्च घनत्व of । परिणामस्वरूप फ़ंक्शन मूल्यांकन अब किसी भी बिंदु लिए किया जा सकता हैएक्समैंचएक्समैंजकश्मीरचज^चज^ x ^ f h ( x ) f ( x )एक्स(बिना सबस्क्रिप्ट के) इसके लिए घनत्व का अनुमान प्राप्त करने के लिए, इस तरह से हमने फ़ंक्शन किया है जो अज्ञात घनत्व फ़ंक्शन का एक अनुमान है ।चज^( x )च( x )
कर्नेल घनत्व के बारे में अच्छी बात यह है कि हिस्टोग्राम की तरह नहीं, वे निरंतर कार्य कर रहे हैं और वे स्वयं संभावित वैधता घनत्व हैं क्योंकि वे वैध संभावना घनत्व का मिश्रण हैं। कई मामलों में यह उतना ही करीब है जितना कि आप सन्निकटन तक पहुँच सकते हैं ।च
सामान्य वितरण के रूप में कर्नेल घनत्व और अन्य घनत्वों के बीच का अंतर यह है कि "सामान्य" घनत्व गणितीय कार्य हैं, जबकि कर्नेल घनत्व आपके डेटा का उपयोग करके अनुमानित अनुमानित घनत्व का एक अनुमान है, इसलिए वे "स्टैंडअलोन" वितरण नहीं हैं।
मैं आपको सिल्वरमैन (1986) और वैंड और जोन्स (1995) द्वारा इस विषय पर दो अच्छी परिचयात्मक पुस्तकों की सिफारिश करूंगा।
सिल्वरमैन, बीडब्ल्यू (1986)। सांख्यिकी और डेटा विश्लेषण के लिए घनत्व आकलन। सीआरसी / चैपमैन और हॉल।
वैंड, एमपी और जोन्स, एमसी (1995)। कर्नेल स्मूदी। लंदन: चैपमैन एंड हॉल / सीआरसी।