कैसे एक संभावना घनत्व समारोह के मोड को खोजने के लिए?


14

मेरे अन्य प्रश्न से प्रेरित होकर , मैं पूछना चाहता हूं कि कोई व्यक्ति फ़ंक्शन प्रायिकता घनत्व फ़ंक्शन (PDF) की विधि कैसे खोजता है ?f(x)

क्या इसके लिए कोई "कुक-बुक" प्रक्रिया है? जाहिरा तौर पर, यह कार्य पहले की तुलना में बहुत अधिक कठिन है।


3
यदि आपको अपने द्वारा प्राप्त किए गए बहुत भिन्न उत्तरों के बारे में आश्चर्य होता है, तो ध्यान दें कि निक का उत्तर * एक नमूने से अनुमान से संबंधित है , बजाय उस स्थिति के जहां आपको एक ज्ञात पीडीएफ है; मैं आपके प्रश्न को ज्ञात-पीडीएफ मामले के बारे में पूछ रहा हूं, लेकिन यह एक बहुत ही उपयोगी पोस्ट है यदि आप नमूनों से चीजों को कैसे करना चाहते हैं, यह देखना चाहते हैं। ... (* पियरे के एक नमूने से अनुमान के बारे में भी है)
Glen_b -Reinstate Monica

जवाबों:


13

"मोड" कहने का अर्थ है कि वितरण में एक और केवल एक है। सामान्य तौर पर एक वितरण में कई मोड हो सकते हैं, या (यकीनन) कोई नहीं।

यदि एक से अधिक मोड हैं, तो आपको यह निर्दिष्ट करने की आवश्यकता है कि क्या आप उन सभी को या सिर्फ वैश्विक मोड (यदि वास्तव में एक है) चाहते हैं।

यह मानते हुए कि हम अपने आप को असमान वितरण * तक सीमित रखते हैं , इसलिए हम "इन" मोड के बारे में बात कर सकते हैं, वे उसी तरह से पाए जाते हैं जैसे कार्यों की मैक्सिमा को अधिक सामान्यतः पाया जाता है।

* नोट करें कि पृष्ठ "के रूप में" शब्द "मोड" के कई अर्थ हैं, इसलिए "अनिमॉडल" शब्द का अर्थ है और मोड की कई परिभाषाएं प्रस्तुत करता है - जो कि बदल सकता है, वास्तव में, एक मोड के रूप में गिना जाता है, चाहे 0 1 हो या अधिक - और उन्हें पहचानने की रणनीति को भी बदल देता है। ध्यान दें कि सामान्य रूप से "अधिक सामान्य" खोलने के अनुच्छेद में असमानता क्या है की असंगतता " असमानता का मतलब है कि केवल एक ही उच्चतम मूल्य है, किसी तरह परिभाषित "

उस पृष्ठ पर दी गई एक परिभाषा है:

निरंतर संभाव्यता वितरण का एक मोड एक ऐसा मूल्य है जिस पर प्रायिकता घनत्व फ़ंक्शन (पीडीएफ) अपना अधिकतम मूल्य प्राप्त करता है

तो दिया आप इसे खोजने के मोड की एक विशिष्ट परिभाषा के रूप में आप "उच्चतम मूल्य" के उस विशेष परिभाषा मिलेगा जब अधिक आम तौर पर काम करता है के साथ काम कर, (यह सोचते हैं कि वितरण कि परिभाषा के तहत unimodal है)।

परिस्थितियों के आधार पर ऐसी चीजों की पहचान के लिए गणित में कई तरह की रणनीतियां हैं। देखें, "ढूँढना कार्यात्मक मॅक्सिमा और न्यूनतम" विकिपीडिया पेज की पर अनुभाग मैक्सिमा और न्यूनतम जो एक संक्षिप्त चर्चा देता है।

उदाहरण के लिए, अगर चीजें पर्याप्त रूप से अच्छी हैं - मान लें कि हम एक सतत यादृच्छिक चर के साथ काम कर रहे हैं, जहां घनत्व फ़ंक्शन में निरंतर पहला व्युत्पन्न है - आप यह खोजने की कोशिश करके आगे बढ़ सकते हैं कि घनत्व फ़ंक्शन का व्युत्पन्न शून्य कहां है, और जाँच कर रहा है यह किस प्रकार का क्रिटिकल पॉइंट है (अधिकतम, न्यूनतम, इन्फ्लेक्शन का क्षैतिज बिंदु)। यदि वास्तव में ऐसा एक बिंदु है जो एक स्थानीय अधिकतम है, तो यह एक असमान वितरण का तरीका होना चाहिए।

हालांकि, सामान्य तौर पर चीजें अधिक जटिल होती हैं (जैसे कि मोड एक महत्वपूर्ण बिंदु नहीं हो सकता है), और में कार्यों की अधिकतम सीमा को खोजने के लिए व्यापक रणनीति।

कभी-कभी, जहां डेरिवेटिव शून्य से बीजगणितीय रूप से कठिन या कम से कम बोझिल हैं, वहां खोजना, लेकिन फिर भी अन्य तरीकों से मैक्सिमा की पहचान करना संभव हो सकता है। उदाहरण के लिए, यह हो सकता है कि कोई एक असमान वितरण के मोड की पहचान करने में समरूपता पर विचार कर सकता है। या कोई व्यक्ति किसी मोड पर संख्यात्मक रूप से संख्यात्मक एल्गोरिथ्म का किसी प्रकार का आविष्कार कर सकता है।

यहां कुछ मामले हैं जो विशिष्ट चीजों को चित्रित करते हैं जिनकी आपको जांच करने की आवश्यकता है - यहां तक ​​कि जब फ़ंक्शन अनिमॉडल है और कम से कम टुकड़ों में निरंतर।

यहाँ छवि विवरण दर्ज करें

इसलिए, उदाहरण के लिए, हमें एंडपॉइंट्स (केंद्र आरेख), बिंदुओं की जांच करनी चाहिए जहां व्युत्पन्न परिवर्तन संकेत करते हैं (लेकिन शून्य नहीं हो सकता है; पहला आरेख), और विच्छेदन के बिंदु (तीसरा आरेख)।

कुछ मामलों में, ये तीनों चीजें इतनी साफ-सुथरी नहीं हो सकती हैं; आपको उस विशेष फ़ंक्शन की विशेषताओं को समझने की कोशिश करनी होगी, जिसके साथ आप काम कर रहे हैं।


मैंने बहुभिन्नरूपी मामले को नहीं छुआ है, यहां तक ​​कि जब फ़ंक्शन काफी "अच्छा" होते हैं, तो बस स्थानीय मैक्सिमा ढूंढना काफी अधिक जटिल हो सकता है (जैसे ऐसा करने के लिए संख्यात्मक तरीके व्यावहारिक अर्थ में विफल हो सकते हैं, तब भी जब उन्हें तार्किक रूप से सफल होना चाहिए अंत में)।


1
+1 एक मामूली अवलोकन के रूप में, वैश्विक मोड भी अद्वितीय नहीं हो सकता है; उदाहरण के लिए, एक और एक यादृच्छिक चर के बराबर वजन के साथ एक मिश्रण घनत्व । N(1,1)N(1,1)
दिलीप सरवटे 13

@ डिलिप मैं उस पर एक छोटा पाठ जोड़ूंगा।
Glen_b -Reinstate मोनिका

1
@DilipSarwate इसके अलावा संयुक्त वितरण के मोड सीमांत वितरण से मोड से भिन्न हो सकते हैं।
मार्सेलो वेंचुरा

17

यह उत्तर एक नमूने से पूरी तरह से मोड आकलन पर केंद्रित है, जिसमें एक विशेष विधि पर जोर दिया गया है। यदि कोई मजबूत अर्थ है जिसमें आप पहले से ही घनत्व, विश्लेषणात्मक या संख्यात्मक रूप से जानते हैं, तो पसंदीदा उत्तर संक्षेप में, सीधे एकल या एकाधिक मैक्सिमा की तलाश में है, जैसा कि @Glen_b से उत्तर में है।

"आधा-नमूना मोड" की गणना कम से कम लंबाई वाले आधे नमूने के पुनरावर्ती चयन का उपयोग करके की जा सकती है। हालांकि इसकी जड़ें लंबी हैं, इस विचार की एक उत्कृष्ट प्रस्तुति बिकल और फ्रुविर्थ (2006) द्वारा दी गई थी।

मोड को कम से कम अंतराल के मध्य बिंदु के रूप में आकलन करने का विचार जिसमें निश्चित संख्या में अवलोकन शामिल हैं, कम से कम डालेनियस (1965) में वापस चला जाता है। मोड के अन्य अनुमानकों पर रॉबर्टसन और क्रायर (1974), बिकल (2002) और बिकल और फ्रुविर्थ (2006) भी देखें।

का एक नमूना के आदेश आँकड़े के मूल्यों द्वारा परिभाषित कर रहे ।nxx(1)x(2)x(n1)x(n)

आधा नमूना मोड यहां दो नियमों का उपयोग करके परिभाषित किया गया है।

नियम 1. यदि , आधा नमूना मोड । यदि , आधा-नमूना मोड है । यदि , आधा-नमूना मोड है यदि और से अधिक निकट हैं और , यदि विपरीत सत्य है, और अन्यथा।n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1)x(2)x(2)x(3)(x(2)+x(3))/2x(2)

नियम 2. यदि , हम पुनरावर्ती चयन को या उससे कम मानों तक छोड़ देते हैं। पहले । रैंक से रैंक तक के सबसे छोटे डेटा की पहचान से अधिक । फिर उन मानों का सबसे छोटा आधा , और इसी तरह का उपयोग करके पहचाना जाता है । समाप्त करने के लिए, नियम 1 का उपयोग करें।n43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1h1+1h2=h1/2

सबसे छोटे आधे को पहचानने का विचार JW Tukey द्वारा नामित "Shorth" में लागू किया गया है और एंड्रयूज, Bickel, Hampel, Huber, Rogers और Tukey (1972, p.26) के रूप में स्थान के अनुमानकों के प्रिंसटन मजबूती अध्ययन में पेश किया गया है। छोटी आधी लंबाई का मतलब लिए । हंपेल (1975) के सुझाव पर निर्माण करने वाले राउसीवू (1984) ने बताया कि सबसे कम आधे का मध्य बिंदु स्थान का कम से कम मध्य (LMS) अनुमानक है के लिएx(k),,x(k+h)h=n/2(xk+x(k+h))/2x। एलएमएस के अनुप्रयोगों और प्रतिगमन और अन्य समस्याओं के लिए संबंधित विचारों के लिए राउसीउव (1984) और रूसेवु और लेरॉय (1987) देखें। ध्यान दें कि इस LMS मिडपॉइंट को कुछ और हालिया साहित्य (जैसे मारोना, मार्टिन और योहाई 2006, पी ..48) में शोर भी कहा जाता है। इसके अलावा, सबसे छोटे आधे हिस्से को कभी-कभी शोरथ भी कहा जाता है, जैसा कि ग्रुबेल (1988) का शीर्षक इंगित करता है। एक Stata कार्यान्वयन और अधिक विवरण के लिए, shorthSSC से देखें ।

व्यावहारिक डेटा विश्लेषकों के दृष्टिकोण से गणितीय या सैद्धांतिक सांख्यिकीविदों के रूप में कुछ व्यापक-ब्रश टिप्पणियां आधे-नमूना मोड के फायदे और नुकसान का पालन करती हैं। जो भी परियोजना है, यह हमेशा मानक सारांश उपायों (जैसे मध्यस्थ या साधन, ज्यामितीय और हार्मोनिक साधन सहित) के साथ परिणामों की तुलना करने और वितरण के ग्राफ़ के परिणामों से संबंधित होने के लिए बुद्धिमान होगा। इसके अलावा, यदि आपकी रुचि जैव-विविधता या बहुविधता के अस्तित्व या सीमा में है, तो घनत्व फ़ंक्शन के उपयुक्त रूप से सुचारू रूप से सीधे अनुमान लगाने के लिए यह सबसे अच्छा होगा।

मोड का आकलन जहां डेटा सघन है, संक्षेप में, आधा-नमूना मोड टूलबॉक्स में मोड का एक स्वचालित अनुमानक जोड़ता है। हिस्टोग्राम्स या यहां तक ​​कि कर्नेल घनत्व भूखंडों पर चोटियों की पहचान के आधार पर मोड के अधिक पारंपरिक अनुमान बिन उत्पत्ति या चौड़ाई या कर्नेल प्रकार और कर्नेल अर्ध-चौड़ाई के बारे में निर्णय के प्रति संवेदनशील हैं और किसी भी मामले में स्वचालित करने के लिए अधिक कठिन हैं। जब उन वितरणों पर लागू किया जाता है जो असमान और लगभग सममित होते हैं, तो आधा-नमूना मोड मध्यमान और माध्यिका के करीब होगा, लेकिन दोनों पूंछों में आउटलेयर की तुलना में अधिक प्रतिरोधी। जब उन वितरणों पर लागू किया जाता है जो असमान और असममित होते हैं, तो आधा-नमूना मोड आमतौर पर औसत या माध्यिका की तुलना में अन्य तरीकों से पहचाने जाने वाले मोड के अधिक निकट होगा।

सादगी आधा नमूना मोड का विचार उन छात्रों और शोधकर्ताओं को समझाने के लिए काफी सरल और आसान है जो खुद को सांख्यिकीय विशेषज्ञ नहीं मानते हैं।

ग्राफिक व्याख्या आधा नमूना मोड आसानी से कर्नेल घनत्व भूखंडों, संचयी वितरण और मात्रात्मक भूखंडों, हिस्टोग्राम और स्टेम-लीफ प्लॉट जैसे वितरण के मानक डिस्प्ले से संबंधित हो सकता है।

उसी समय, ध्यान दें कि

सभी वितरणों के लिए उपयोगी नहीं है जब लगभग जे-आकार वाले वितरणों पर लागू किया जाता है, तो आधा-नमूना मोड डेटा के न्यूनतम अनुमानित करेगा। जब वितरणों पर लागू किया जाता है जो लगभग यू-आकार का होता है, तो आधा-नमूना मोड जो भी वितरण के आधे के भीतर होता है, उच्च घनत्व होता है। न तो व्यवहार विशेष रूप से दिलचस्प या उपयोगी लगता है, लेकिन समान रूप से जे-आकार या यू-आकार के वितरण के लिए एकल मोड जैसे सारांश के लिए बहुत कम कॉल है। यू आकृतियों के लिए, द्विअर्थीता एकल मोड मूट का विचार बनाती है, यदि अमान्य नहीं है।

संबंध सबसे छोटा आधा विशिष्ट रूप से परिभाषित नहीं किया जा सकता है। मापे गए डेटा के साथ भी, रिपोर्ट किए गए मानों की गोलाई अक्सर संबंधों को जन्म दे सकती है। साहित्य में दो या दो से अधिक छोटे पड़ावों का क्या किया जाए, इसकी चर्चा कम ही की गई है। ध्यान दें कि बंधे हुए हिस्सों को या तो ओवरलैप किया जा सकता है या वे असंतुष्ट हो सकते हैं।

टाईट hsmodeदिए गए स्टैटा इंप्लीमेंटेशन में अपनाई गई प्रक्रिया को क्रम में सबसे ज्यादा इस्तेमाल करना है, सिवाय इसके कि जब तक विषम न हो जाए तब तक इसे विशिष्ट रूप से परिभाषित नहीं किया जाता है। सबसे मध्य को मनमाने ढंग से स्थिति लिया जाता है , जो ऊपर की ओर गिना जाता है। यह इस प्रकार 2 का 1, 3 या 4 का दूसरा, और आगे है।ttt/2

इस टाई-ब्रेक नियम के कुछ विचित्र परिणाम हैं। इस प्रकार मानों के साथ , नियम को आधा-नमूना मोड के रूप में प्राप्त करते हैं, न कि रूप में अन्य सभी आधारों पर स्वाभाविक होगा। अन्यथा, यह समस्या इसलिए उत्पन्न हो सकती है क्योंकि एक खिड़की के लिए सममित रूप से रखी जाने वाली खिड़की की लंबाई विषम और यहां तक ​​कि लिए भी होनी चाहिए , जो कि अन्य राइडरटाटा को प्राप्त करना मुश्किल है, विशेष रूप से खिड़की की लंबाई नमूना आकार के साथ कभी नहीं घटनी चाहिए। हम यह मानना ​​पसंद करते हैं कि यह उचित आकार के डेटासेट के साथ एक छोटी समस्या है।9,4,1,0,1,4,90.501+n/2nn

खिड़की की लंबाई के लिए तर्क क्यों आधा मतलब लिया जाता है भी चर्चा में नहीं आता है। जाहिर तौर पर हमें एक ऐसे नियम की आवश्यकता होती है जो विषम और समीप दोनों के लिए एक खिड़की की लंबाई पैदा करता है ; यह बेहतर है कि नियम सरल हो; और इस तरह का नियम चुनने में आमतौर पर कुछ मामूली मनमानी होती है। यह भी महत्वपूर्ण है कि कोई भी नियम छोटे लिए यथोचित व्यवहार करता है : भले ही किसी कार्यक्रम को बहुत छोटे नमूना आकारों के लिए जानबूझकर लागू न किया गया हो, जिस प्रक्रिया का उपयोग किया जाना चाहिए वह सभी संभावित आकारों के लिए समझ में आना चाहिए। ध्यान दें कि, दिया गया आधा-नमूना मोड सिर्फ एकल नमूना मान है, और, दिया गया है1+n/2nnn=1,n=2, यह दो नमूना मूल्यों का औसत है। इस नियम के बारे में एक और विस्तार यह है कि यह हमेशा मामूली बहुमत को परिभाषित करता है, इस प्रकार डेटा के बारे में लोकतांत्रिक निर्णय लागू करता है। हालाँकि, ऐसा कोई मजबूत कारण नहीं लगता है कि को और भी सरल नियम के रूप में उपयोग न किया जाए , सिवाय इसके कि यदि यह बहुत अंतर करता है, तो यह संभावना है कि आपका नमूना आकार या चर उद्देश्य के लिए अनुपयुक्त है।n/2

रॉबर्टसन और क्रायर (1974, p.1014) ने यूरिक एसिड (मिलीग्राम / 100 मिलीलीटर में) के 35 मापों की सूचना दी: स्टैटा कार्यान्वयन 5.38 के मोड की रिपोर्ट करता है। रॉबर्टसन और क्रायर्स के अपने स्वयं के अनुमानों के बजाय एक अलग प्रक्रिया का उपयोग कर रहे हैं । अपने पसंदीदा घनत्व आकलन प्रक्रिया के साथ तुलना करें।5.00 , 5.02 , 5.041.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode5.00,5.02,5.04

एंड्रयूज, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers और JW Tukey। 1972. स्थान का मजबूत अनुमान: सर्वेक्षण और अग्रिम। प्रिंसटन, एनजे: प्रिंसटन यूनिवर्सिटी प्रेस।

बिकेल, डीआर 2002। निरंतर डेटा के मोड और तिरछापन का अनुमान लगाने वाले। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण 39: 153-163।

बिकल, डीआर और आर। फ्रुविर्थ। 2006. मोड के तेज, मजबूत अनुमानक पर: अनुप्रयोगों के साथ अन्य अनुमानकों की तुलना। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण 50: 3500-3530।

डेलेनियस, टी। 1965. मोड - एक उपेक्षित सांख्यिकीय पैरामीटर। जर्नल, रॉयल स्टैटिस्टिकल सोसायटी ए 128: 110-117।

ग्रुबेल, आर। 1988. शोर की लंबाई। आँकड़ों की संख्या 16: 619-628।

हम्पेल, एफआर 1975। स्थान के मापदंडों से परे: मजबूत अवधारणाएं और तरीके। बुलेटिन, अंतर्राष्ट्रीय सांख्यिकीय संस्थान 46: 375-382।

मैरोना, आरए, आरडी मार्टिन और वीजे योहाई। 2006. मजबूत आंकड़े: सिद्धांत और तरीके । चिचर: जॉन विली।

रॉबर्टसन, टी। और जेडी क्रायेर। 1974. मोड का अनुमान लगाने के लिए एक पुनरावृत्ति प्रक्रिया। जर्नल, अमेरिकन स्टैटिस्टिकल एसोसिएशन 69: 1012-1016।

रूसेवु, पीजे 1984। वर्गों के प्रतिगमन के कम से कम मध्यस्थ। जर्नल, अमेरिकन सांख्यिकीय एसोसिएशन 79: 871-880।

रूससीव, पीजे और एएम लेरॉय। 1987. रोबस्ट रिग्रेशन एंड आउटलाइयर डिटेक्शन । न्यूयॉर्क: जॉन विली।

यह खाता प्रलेखन के लिए आधारित है

कॉक्स, एनजे 2007. HSMODE: आधा नमूना मोड, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 गणना करने के लिए स्टैटा मॉड्यूल ।

अन्य सॉफ्टवेयर में कार्यान्वयन के बारे में जानकारी के लिए यहां डेविड आर। बिकेल की वेबसाइट भी देखें ।


5

यदि आपके पास वेक्टर "x" में वितरण से नमूने हैं, तो मैं यह करूंगा:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

आपको घनत्व फ़ंक्शन को ट्यून करना चाहिए ताकि यह शीर्ष पर काफी चिकना हो; ;-)

यदि आपके पास वितरण का केवल घनत्व है, तो मैं मोड (REML, LBFGS, सिंप्लेक्स, आदि) को खोजने के लिए एक अनुकूलक का उपयोग करूंगा ...।

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

या वितरण (पैकेज रस्टर) से कुछ नमूने प्राप्त करने के लिए मोंटे-कार्लो नमूना का उपयोग करें और ऊपर की प्रक्रिया का उपयोग करें। (वैसे भी, स्टेन पैकेज एक वितरण के मोड को पाने के लिए "अनुकूलन" फ़ंक्शन के रूप में)।


ऐसा लगता है कि इस तरह के अनुमान कभी भी अधिक उपयोग नहीं किए जाते हैं। आपको कर्नेल घनत्व अनुमानक का उपयोग करने के लिए कर्नेल चौड़ाई निर्दिष्ट करना होगा। दूसरी ओर, एचएसएम और एचआरएम को बिल्कुल भी ट्यूनिंग की आवश्यकता नहीं है और रैखिक समय में काम करते हैं।
विक्टर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.