निरंतर वितरण से सैंपल किए गए डेटा के मोड की गणना करना


12

निरंतर वितरण से नमूना किए गए डेटा के 'मोड' की फिटिंग के लिए सबसे अच्छे तरीके क्या हैं?

चूंकि निरंतर वितरण के लिए मोड तकनीकी रूप से अपरिभाषित है (दाएं?), मैं वास्तव में पूछ रहा हूं कि 'आप सबसे सामान्य मूल्य कैसे पाते हैं'?

यदि आप मानते हैं कि माता-पिता का वितरण गॉसियन है, तो आप डेटा को बिन कर सकते हैं और कह सकते हैं कि मोड सबसे बड़ी गिनती वाला बिन स्थान है। हालांकि, आप बिन आकार कैसे निर्धारित करते हैं? क्या मजबूत कार्यान्वयन उपलब्ध हैं? (यानी, आउटलेर्स से मजबूत)। मैं python/ scipy/ का उपयोग करता हूं numpy, लेकिन मैं Rबहुत अधिक कठिनाई के बिना अनुवाद कर सकता हूं ।


8
मुझे यकीन नहीं है कि अगर मोड को तकनीकी रूप से इस तरह परिभाषित किया गया है, लेकिन एक निरंतर वितरण का वैश्विक मोड आमतौर पर उच्चतम घनत्व के साथ बिंदु का अर्थ लिया जाता है।
मैक्रो

1
@ मैक्रो - यह मददगार है। आप तब मेरे प्रश्न को पढ़ सकते हैं, 'चोटी (शिखर) के घनत्व को निर्धारित करने के लिए सबसे अच्छे तरीके क्या हैं?'
केफ्लेविच

1
शायद आपके डेटा के लिए एक कर्नेल घनत्व अनुमान फिट है और उस के शिखर के रूप में मोड का अनुमान लगाते हैं? यह एक उचित दृष्टिकोण की तरह लगता है लेकिन मैं इस समस्या पर साहित्य से परिचित नहीं हूं।
मैक्रो

1
यदि आप यह नहीं मानते हैं कि मूल वितरण गौसियन है, तो क्या डेटा को बिन करना संभव है और सबसे बड़ी गिनती के साथ बिन स्थान होना चाहिए? क्यों या क्यों नहीं? एक और अधिक गंभीर नोट पर, क्यों नहीं मिल deciles ताकि नमूने के अंतराल में हैं , और इसलिए यह संभव है कि मोड सबसे कम समय के अंतराल पर अंतराल ? फिर बिन आकार को लें, कहें, इस सबसे छोटे अंतराल का एक-चौथाई अंतराल। x0=xmin,x1,x2,,x9,x10=xmax10%xi+1ximin1j10xj+1xj
दिलीप सरवटे

2
आप माता-पिता के वितरण, केफ्लेविच के बारे में क्या धारणा बना सकते हैं? यदि वे पैरामीट्रिक हैं, तो मापदंडों का अनुमान लगाना और फिर उन मापदंडों से मोड का अनुमान लगाना सबसे अच्छा है। (जैसे, नमूना माध्य एक सामान्य वितरण की विधा का अनुमान लगाता है।) यदि नहीं, तो बिनिंग एक खराब पद्धति हो सकती है। इसके बजाय, एक अनुक्रम हाफ़विड्थ अलग-अलग गिरी आकलनकर्ता की आकलनकर्ता के अनुक्रम प्रदान करने के लिए इस्तेमाल किया जा सकता; आम तौर पर, यदि अंतर्निहित वितरण अनिमॉडल है, तो कर्नेल स्मूद के मोड एक अद्वितीय मोड की ओर अभिसरण होते दिखाई देंगे, क्योंकि अर्धांश बड़े हो जाते हैं और यह आपका अनुमान हो सकता है।
whuber

जवाबों:


4

आर में, उस विधि को लागू करना जो अंतर्निहित वितरण के पैरामीट्रिक मॉडलिंग पर आधारित नहीं है और 10000 गामा वितरित चर के लिए घनत्व के डिफ़ॉल्ट कर्नेल अनुमानक का उपयोग करता है:

x <- rgamma(10000, 2, 5)
z <- density(x)
plot(z) # always good to check visually
z$x[z$y==max(z$y)]

0.199 लौटाता है जो x का मान है जिसका उच्चतम घनत्व है (घनत्व अनुमान "z $ y" के रूप में संग्रहीत हैं)।


3
केवल एक चीज जो मैं अलग तरीके से करूंगा वह एक अलग बैंडविड्थ का उपयोग है। घनत्व के लिए डिफ़ॉल्ट बैंडविड्थ () विशेष रूप से अच्छा नहीं है। घनत्व (x, bw = "SJ") बेहतर है। मोड अनुमान के लिए डिज़ाइन किए गए बैंडविड्थ का उपयोग करना बेहतर होगा। कुछ चर्चा के लिए scirectirect.com/science/article/pii/0167715295000240 देखें ।
रोब हायंडमैन

2

मान लीजिए कि आप अपने आकार के n के कुल नमूने से, बिन आकार b का हिस्टोग्राम बनाते हैं, और सबसे बड़े बिन में k प्रविष्टियाँ हैं। तब उस बिन के भीतर की औसत पीडीएफ को b * k / n के रूप में अनुमानित किया जा सकता है।

समस्या यह है कि एक अन्य बिन, जिसमें कम कुल सदस्य हैं, एक उच्च स्थान घनत्व हो सकता है। आप इस बारे में केवल तभी जान सकते हैं जब आपके पास पीडीएफ के परिवर्तन की दर के बारे में एक उचित धारणा हो। यदि आप करते हैं, तो आप इस संभावना का अनुमान लगा सकते हैं कि दूसरे सबसे बड़े बिन में वास्तव में मोड शामिल है।

अंतर्निहित समस्या यह है। एक नमूना कोलमोगोरोव-स्मिरनोव प्रमेय द्वारा सीडीएफ का अच्छा ज्ञान प्रदान करता है, और इसलिए मंझला और अन्य मात्राओं का एक अच्छा अनुमान है। लेकिन L1 में एक फ़ंक्शन के लिए एक सन्निकटन जानना उसके व्युत्पन्न का अनुमानित ज्ञान प्रदान नहीं करता है। तो कोई भी नमूना अतिरिक्त मान्यताओं के बिना, पीडीएफ का अच्छा ज्ञान प्रदान नहीं करता है।


0

यहाँ कुछ सामान्य समाधान रेखाचित्र हैं जो उच्च-आयामी वितरण के लिए भी काम करते हैं:

  • जनरेटर के लिए कोई यादृच्छिक इनपुट दिए बिना (यानी इसे नियतात्मक होने के लिए मजबूर करें) एफएल-जीएएन को रिवर्स केएल डायवर्जन के साथ प्रशिक्षित करें।

  • एफएल-जीएएन को रिवर्स केएल डायवर्जेंस के साथ प्रशिक्षित करें, डिस्ट्रीक इनपुट इनपुट को डिस्ट्रीक डेल्टा फंक्शन की ओर ले जाएं क्योंकि ट्रेनिंग आगे बढ़ती है, और जेनरेटर लॉस फंक्शन में एक ग्रैडिएंट पेनल्टी जोड़ते हैं।

  • किसी अलग बिंदु पर पीडीएफ के सन्निकटन का आंकलन कर सकते हैं। (मुझे विश्वास है कि उदाहरण के लिए एक वीएई, एक प्रवाह-आधारित मॉडल, या एक ऑटोर्रिजिव मॉडल करेगा)। फिर किसी प्रकार के अनुकूलन का उपयोग करें (उस ढाल का अधिकतम पता लगाने के लिए अगर मॉडल इनजेक्शन अलग है तो ग्रेडिएंट एसेंट का कुछ स्वाद इस्तेमाल किया जा सकता है)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.