क्या मैं वितरण के नमूने के वितरण के क्षणों का उपयोग कर सकता हूं?


14

मैं आंकड़ों / मशीन सीखने के तरीकों में ध्यान देता हूं, एक वितरण अक्सर गौसियन द्वारा अनुमानित किया जाता है, और फिर उस गाऊसी का उपयोग नमूने के लिए किया जाता है। वे वितरण के पहले दो क्षणों की गणना करके शुरू करते हैं, और उन अनुमानों का उपयोग और का अनुमान लगाने के लिए करते हैं । फिर वे उस गाऊसी से नमूना ले सकते हैं।μσ2

मुझे लगता है कि मैं जितने अधिक क्षणों की गणना करता हूं, उतना ही बेहतर होगा कि मैं उस नमूने का वितरण करना चाहता हूं जो मैं चाहता हूं।

क्या होगा यदि मैं 3 क्षणों की गणना करता हूं ... मैं वितरण से नमूना लेने के लिए उनका उपयोग कैसे कर सकता हूं? और क्या इसे N क्षण तक बढ़ाया जा सकता है?


2
तीन क्षण एक वितरण रूप का निर्धारण नहीं करते हैं; यदि आप तीन मापदंडों के साथ वितरण-फेमी चुनते हैं, जो पहले तीन आबादी के क्षणों से संबंधित हैं, तो आप तीन मापदंडों का अनुमान लगाने के लिए मिलान ("क्षणों की विधि") कर सकते हैं और फिर इस तरह के वितरण से मान उत्पन्न कर सकते हैं। ऐसे कई वितरण हैं।[* वास्तव में, कभी-कभी सभी क्षणों में वितरण का निर्धारण करना पर्याप्त नहीं होता है।]
Glen_b -Reinstate Monica

धन्यवाद, @Glen_b! जब संभव हो तो समझने के लिए मैं "क्षणों की विधि" के बारे में पढ़ूंगा। क्या आप मुझे उस सिद्धांत की ओर संकेत कर सकते हैं जो यह वर्णन करता है कि वितरण को निर्धारित करने के लिए क्षण पर्याप्त नहीं हैं?
जिज्ञासु_दान

"क्षणों की विधि" आपको बस यह बताती है कि क्षणों से मापदंडों का अनुमान कैसे लगाया जाए। आपकी टिप्पणी का शेष एक नया प्रश्न है (मुझे लगता है कि यह पहले से ही साइट पर उत्तर दिया गया है); संक्षेप में - यदि क्षण उत्पन्न करने वाला कार्य मौजूद है (0 के पड़ोस में) तो यह विशिष्ट रूप से एक वितरण की पहचान करता है (तकनीकी रूप से, आप सिद्धांत रूप में एक उलटा लाप्लास परिवर्तन कर सकते हैं)। निश्चित रूप से अगर कुछ क्षण परिमित नहीं होते हैं तो इसका मतलब यह होगा कि एमजीएफ मौजूद नहीं है, लेकिन ऐसे भी मामले हैं जहां सभी क्षण परिमित हैं, लेकिन एमजीएफ अभी भी 0 के पड़ोस में मौजूद नहीं है ..
ग्लेन_ब -राइनेट मोनिका

मैं अपनी टिप्पणी के आधार पर उत्तर लिख रहा हूं।
Glen_b -Reinstate Monica

जवाबों:


22

तीन क्षण एक वितरणीय रूप निर्धारित नहीं करते हैं; यदि आप तीन मापदंडों के साथ वितरण-फेमी चुनते हैं, जो पहले तीन आबादी के क्षणों से संबंधित हैं, तो आप तीन मापदंडों का अनुमान लगाने के लिए मिलान ("क्षणों की विधि") कर सकते हैं और फिर इस तरह के वितरण से मान उत्पन्न कर सकते हैं। ऐसे कई वितरण हैं।

कभी-कभी वितरण को निर्धारित करने के लिए भी सभी क्षण पर्याप्त नहीं होते हैं। यदि क्षण उत्पन्न करने वाला कार्य मौजूद है (0 के पड़ोस में) तो यह विशिष्ट रूप से एक वितरण की पहचान करता है (आप सिद्धांत रूप में इसे प्राप्त करने के लिए उलटा लाप्लास परिवर्तन कर सकते हैं)।

[अगर कुछ क्षण परिमित नहीं हैं तो इसका मतलब यह होगा कि mgf मौजूद नहीं है, लेकिन ऐसे भी मामले हैं जहां सभी क्षण परिमित हैं, लेकिन mgf अभी भी 0. के पड़ोस में मौजूद नहीं है।]

यह देखते हुए कि वितरण का एक विकल्प है, किसी को पहले तीन क्षणों में बाधा के साथ अधिकतम एन्ट्रापी समाधान पर विचार करने के लिए लुभाया जा सकता है, लेकिन वास्तविक लाइन पर कोई वितरण नहीं होता है जो इसे प्राप्त करता है (क्योंकि घातांक में जिसके परिणामस्वरूप घन अप्रभावित होगा)।


वितरण की एक विशिष्ट पसंद के लिए प्रक्रिया कैसे काम करेगी

γ1=μ3/μ23/2

हम ऐसा इसलिए कर सकते हैं क्योंकि संबंधित तिरछापन के साथ वितरण का चयन करने के बाद, हम स्केलिंग और शिफ्टिंग के माध्यम से वांछित माध्य और विचरण कर सकते हैं।

आइए एक उदाहरण पर विचार करें। कल मैंने एक बड़ा डेटा सेट बनाया (जो अभी भी मेरे आर सत्र में होता है) जिसका वितरण मैंने कार्यात्मक रूप की गणना करने के लिए नहीं किया है (यह एक कॉची के नमूने के विचरण के मान का एक बड़ा सेट है। n = 10)। हमारे पास पहले तीन कच्चे पलों के रूप में क्रमशः 1.519, 3.597 और 11.479 हैं, या तदनुसार 1.518 का एक मतलब है, 1.136 का एक मानक विचलन * और 1.429 का तिरछा (इसलिए ये एक बड़े नमूने से नमूना मान हैं)।

औपचारिक रूप से, क्षणों की विधि कच्चे क्षणों से मेल खाने का प्रयास करेगी, लेकिन गणना सरल है अगर हम तिरछेपन के साथ शुरू करते हैं (तीन समीकरणों में तीन समीकरणों को एक समय में एक पैरामीटर के लिए हल करने में, बहुत सरल कार्य करते हैं)।

* मैं विचरण पर एक एन-डिनॉमिनेटर का उपयोग करने के बीच के अंतर को दूर करने जा रहा हूं - जैसा कि क्षणों की औपचारिक विधि के अनुरूप होगा - और एन -1 डाइनोमिनेटर और बस नमूना गणना का उपयोग करें।

σμγ

γ1=(eσ2+2)eσ21

σ2σ~2

γ12(τ+2)2(τ1)τ=eσ2τ3+3τ24=γ12τ~1.1995σ~20.1819γ1

μ

लेकिन हम आसानी से एक स्थानांतरित-गामा या एक स्थानांतरित-वेइबुल वितरण (या एक स्थानांतरित-एफ या किसी भी अन्य विकल्प की संख्या) को चुन सकते थे और अनिवार्य रूप से उसी प्रक्रिया से गुजर सकते थे। उनमें से प्रत्येक अलग होगा।

[मैं जिस नमूने के साथ काम कर रहा था, उसके लिए एक स्थानांतरित गामा शायद एक स्थानांतरित लॉगनॉर्मल की तुलना में काफी बेहतर विकल्प था, क्योंकि मानों के लॉग के वितरण को तिरछा छोड़ दिया गया था और उनके घनमूल का वितरण सममित के बहुत करीब था; आप गामा घनत्व के साथ जो कुछ भी देखेंगे, उसके अनुरूप हैं, लेकिन लॉग के बाएं-तिरछे घनत्व को किसी भी स्थानांतरित लॉगऑनॉर्मल के साथ प्राप्त नहीं किया जा सकता है।]

यहां तक ​​कि एक पियर्सन प्लॉट में तिरछा-कुर्तोसिस आरेख ले सकता है और वांछित तिरछा पर एक रेखा खींच सकता है और इस तरह एक दो-बिंदु वितरण, बीटा वितरण का अनुक्रम, एक गामा वितरण, बीटा-प्राइम अनुक्रम का अनुक्रम, एक व्युत्क्रम प्राप्त कर सकता है। गामा विस्थापन और पियर्सन प्रकार IV का एक क्रम सभी समान तिरछापन के साथ वितरित करता है।

β1=γ12β2

इच्छित तिरछी रेखा के साथ पियरसन प्लॉट

γ12=2.042σ


अधिक क्षण

क्षण बहुत अच्छे से वितरण को पिन नहीं करते हैं, इसलिए यदि आप कई क्षणों को निर्दिष्ट करते हैं, तब भी कई अलग-अलग वितरण होंगे (विशेषकर उनके चरम-पूंछ व्यवहार के संबंध में) जो उनसे मेल खाएंगे।

आप कम से कम चार मापदंडों के साथ कुछ वितरण परिवार चुन सकते हैं और तीन से अधिक क्षणों का मिलान करने का प्रयास कर सकते हैं; उदाहरण के लिए ऊपर दिए गए पियर्सन वितरण हमें पहले चार क्षणों का मिलान करने की अनुमति देते हैं, और वितरण के अन्य विकल्प हैं जो समान डिग्री के लचीलेपन की अनुमति देते हैं।

डिस्ट्रीब्यूशन फीचर्स से मेल खाने वाले डिस्ट्रीब्यूशन को चुनने के लिए कोई भी अन्य स्ट्रैटेजी अपना सकता है - मिक्स डिस्ट्रीब्यूशन, स्प्लिन का उपयोग करके लॉग-डेंसिटी को मॉडलिंग करना, और इसके बाद।

अक्सर, हालांकि, यदि कोई प्रारंभिक उद्देश्य के लिए वापस जाता है जिसके लिए कोई वितरण खोजने की कोशिश कर रहा था, तो अक्सर यह पता चलता है कि कुछ बेहतर है जिसे यहां बताई गई रणनीति की तरह से किया जा सकता है।


2

तो, जवाब आम तौर पर नहीं है, आप ऐसा नहीं कर सकते, लेकिन कभी-कभी आप कर सकते हैं।

जब आप नहीं कर सकते

जिन कारणों से आप ऐसा नहीं कर सकते, वे आमतौर पर दो सिलवटों के होते हैं।

सबसे पहले, यदि आपके पास एन अवलोकन हैं, तो अधिकतम आप एन क्षणों की गणना कर सकते हैं। दूसरे पलों का क्या? आप बस उन्हें शून्य पर सेट नहीं कर सकते।

γ100=ixi100n

जब आप कर सकते हैं

अब, कभी-कभी आप क्षणों से वितरण प्राप्त कर सकते हैं। यह तब होता है जब आप किसी प्रकार के वितरण के बारे में धारणा बनाते हैं। उदाहरण के लिए, आप घोषणा करते हैं कि यह सामान्य है। इस मामले में आपको केवल दो पल की आवश्यकता होती है, जिसे आमतौर पर सभ्य परिशुद्धता के साथ गणना की जा सकती है। ध्यान दें, कि सामान्य वितरण में उच्च क्षण होते हैं, वास्तव में, उदाहरण के लिए कर्टोसिस, लेकिन हमें उनकी आवश्यकता नहीं है। यदि आप सामान्य वितरण के सभी क्षणों की गणना कर रहे थे (यह सामान्य मान के बिना), तो वितरण से नमूने के लिए विशेषता फ़ंक्शन को पुनर्प्राप्त करने का प्रयास किया, यह काम नहीं करेगा। हालांकि, जब आप उच्च क्षणों के बारे में भूल जाते हैं और पहले दो से चिपक जाते हैं, तो यह काम करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.