घनत्व अनुमान उपयोगी कहाँ है?


14

कुछ थोड़े कठिन गणित से गुजरने के बाद, मुझे लगता है कि मुझे कर्नेल घनत्व के अनुमान का थोड़ा सा अंतर्ज्ञान है। लेकिन मुझे यह भी ज्ञात है कि तीन से अधिक चरों के लिए बहुभिन्नरूपी घनत्व का आकलन करना एक अच्छा विचार नहीं हो सकता है, अपने अनुमानकों के सांख्यिकीय गुणों के संदर्भ में।

तो, मुझे गैर-पैरामीट्रिक विधियों का उपयोग करके किस प्रकार की स्थितियों का अनुमान लगाना चाहिए, द्विभाजित घनत्व करना चाहिए? क्या दो से अधिक चर के लिए इसका आकलन करने के बारे में चिंता करना पर्याप्त है?

यदि आप बहुभिन्नरूपी घनत्व के आकलन के आवेदन के संबंध में कुछ उपयोगी लिंक को इंगित कर सकते हैं, तो यह बहुत अच्छा होगा।

जवाबों:


16

घनत्व के आकलन के आवेदन के लिए एक विशिष्ट मामला नवीनता का पता लगाने, उर्फ ​​बाहरी पता लगाना है, जहां यह विचार है कि आपके पास केवल (या अधिकतर) एक प्रकार का डेटा है, लेकिन आप बहुत दुर्लभ, गुणात्मक अलग-अलग डेटा में रुचि रखते हैं, जो इससे काफी भटकता है उन सामान्य मामलों।

उदाहरण धोखाधड़ी का पता लगाना, सिस्टम में विफलताओं का पता लगाना, आदि हैं। ये ऐसी स्थितियां हैं, जिनमें आपकी रुचि के प्रकार को इकट्ठा करना बहुत कठिन और / या महंगा है। ये दुर्लभ मामले, यानी कम संभावना वाले मामले होते हैं।

ज्यादातर बार आप सटीक वितरण का सही आकलन करने में रुचि नहीं रखते हैं, लेकिन सापेक्ष बाधाओं पर (वास्तविक रूप से बनाम एक नहीं होने के लिए किसी दिए गए नमूने की संभावना कितनी है)।

विषय पर दर्जनों ट्यूटोरियल और समीक्षाएं हैं। यह एक अच्छी शुरुआत हो सकती है।

EDIT: कुछ लोगों के लिए बाहर का पता लगाने के लिए घनत्व आकलन का उपयोग करना अजीब लगता है। आइए हम पहले एक बात पर सहमत हों: जब कोई अपने डेटा के लिए एक मिश्रण मॉडल फिट बैठता है , तो वह वास्तव में घनत्व का आकलन कर रहा होता है। एक मिश्रण मॉडल संभावना के वितरण का प्रतिनिधित्व करता है।

केएनएन और जीएमएम वास्तव में संबंधित हैं: वे संभावना के ऐसे घनत्व का आकलन करने के दो तरीके हैं। नवीनता का पता लगाने में कई दृष्टिकोणों के लिए यह अंतर्निहित विचार है। उदाहरण के लिए, यह kNN पर आधारित एक है , यह अन्य परजेन विंडो पर आधारित है (जो कि पेपर की शुरुआत में इस विचार पर जोर देता है), और कई अन्य

यह मुझे लगता है (लेकिन यह सिर्फ मेरी व्यक्तिगत धारणा है) कि सबसे ज्यादा अगर इस विचार पर काम नहीं किया जाए। आप किसी अन्य / दुर्लभ घटना के विचार को कैसे व्यक्त करेंगे?


नोट ने आपको उल्लिखित किया (खंड 6, "घनत्व आधारित दृष्टिकोण") कुछ बहुत गूढ़ता को दर्शाता है (इस विषय पर औसत-धारा और शांत विकसित साहित्य से) बाहरी खोज का दृष्टिकोण। निश्चित रूप से, अधिक सामान्य अनुप्रयोगों का अस्तित्व होना चाहिए।
user603

2
क्षमा करें, मुझे आपकी टिप्पणी समझ में नहीं आ रही है। दो बहुत बुनियादी उदाहरण केएनएन और जीएमएम होंगे। ये दो विधियां संभाव्यता के घनत्व का अनुमान प्रदान करती हैं, और ऐसे मामलों के लिए इस्तेमाल किया जा सकता है।
jpmuc

धन्यवाद। GMM क्या है? मुझे नहीं लगता कि केएनएन आउटलाइज़ डिटेक्शन के लिए एक अर्थ-स्ट्रीम दृष्टिकोण है। क्या आप हाल के पाठ्यपुस्तक को मजबूत आँकड़ों पर संदर्भित कर सकते हैं जहाँ यह उस संदर्भ में उपयोग किया जाता है? (मैंने स्लाइड सेट में उन कागजों को देखा, जो आपको स्पष्ट रूप से पता लगाने से संबंधित हैं, या तो सम्मेलन प्रक्रियाओं या पुरानी पुस्तकों से प्रतीत होते हैं)
user603

GMM = गाऊसी मिश्रण मॉडल। स्लाइड्स में वे केएनएन के आधार पर स्कोर का उल्लेख करते हैं। मैंने निजी तौर पर एसवीएम का उपयोग नोवली डिटेक्शन के लिए किया है अफसोस कि मैं आपको एक ठोस पाठ्यपुस्तक की सिफारिश नहीं कर सकता। हो सकता है कि ये नोट्स ( आँकड़ें .ox.ac.uk/pub/StatMeth/Robust.pdf ) पर्याप्त हों।
jpmuc

1
मैं @ user603 के साथ दृढ़ता से सहमत हूं। घनत्व का अनुमान पहली नजर में बाहरी लोगों को खोजने की कोशिश करने का एक बहुत ही अजीब और अप्रत्यक्ष तरीका है। आपका उत्तर संक्षेप में बताकर बढ़ाया जाएगा कि व्यवहार में कैसे लागू किया जाता है - और आपको क्यों लगता है कि यह अच्छी तरह से काम करता है।
निक कॉक्स

4

(xi)

fh(x)xiexp((xix)TΣ1(xix)),
Σ1xi

4

आमतौर पर , केडीई को हिस्टोग्राम के विकल्प के रूप में जाना जाता है। हिस्टोग्राम्स पर केडीई का मुख्य लाभ, इस संदर्भ में, प्रक्रिया के दृश्य आउटपुट पर मनमाने ढंग से चुने गए मापदंडों के प्रभावों को कम करना है। विशेष रूप से (और जैसा कि ऊपर दिए गए लिंक में चित्रित किया गया है), केडीई को प्रारंभ और समाप्ति बिंदु निर्दिष्ट करने के लिए उपयोगकर्ता की आवश्यकता नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.