पहले k (अनुभवजन्य) क्षणों का उपयोग करके एक अनुमानित पीडीएफ (यानी: घनत्व का अनुमान) कैसे फिट किया जाए?


11

मेरे पास एक ऐसी स्थिति है जहां मैं डेटा-सेट के (पहले) क्षणों का अनुमान लगाने में सक्षम हूं , और घनत्व फ़ंक्शन के अनुमान का उत्पादन करने के लिए इसका उपयोग करना चाहूंगा।

मैं पहले से ही पियर्सन वितरण में आया था , लेकिन यह महसूस किया कि यह केवल पहले 4 क्षणों (कुछ क्षणों के संभावित संयोजनों पर प्रतिबंध के साथ) पर निर्भर करता है।

मैं यह भी समझता हूं कि किसी भी परिमित क्षण का उपयोग विशिष्ट वितरण को "पिन डाउन" करने के लिए पर्याप्त नहीं है, जब अधिक मान्यताओं का उपयोग नहीं किया जाता है। हालाँकि, मैं अभी भी वितरण के एक अधिक सामान्य वर्ग (वितरण के पियर्सन परिवार के अलावा) के लिए चाहूंगा। अन्य प्रश्नों को देखते हुए, मुझे ऐसा कोई वितरण नहीं मिला (देखें: यहां , यहां , यहां , यहां , यहां और यहां )।

क्या वितरण के कुछ सामान्य ("सरल") परिवार हैं जिन्हें किसी भी सेट के लिए परिभाषित किया जा सकता है? (शायद परिवर्तनों का एक सेट जो एक मानक सामान्य वितरण ले सकता है और इसे तब तक बदल देता है जब तक कि यह क्षणों के सभी सेटों के साथ पुष्टि नहीं कर देता )

(यदि हम अन्य क्षणों को 0 या न तो मुझे कोई चिंता नहीं है)+1...

धन्यवाद।

ps: मैं एक विस्तारित उदाहरण के लिए खुश हो जाएगा। अधिमानतः एक आर कोड उदाहरण के साथ।


2
पहले क्षणों में विशेषता फ़ंक्शन के पहले डेरिवेटिव को शून्य पर परिभाषित किया जाता है: । तो आप जानते हैं कि विशेषता फ़ंक्शन के टेलर विस्तार के पहले शब्द शून्य के आसपास हैं। फिर आप घनत्व को प्राप्त करने के लिए व्युत्क्रम प्रमेयों का उपयोग करने में सक्षम हो सकते हैं। कश्मीर [ एक्स कश्मीर ] = ( - मैं ) कश्मीर φ ( कश्मीर ) एक्स ( 0 ) कश्मीर[एक्स]=(-मैं)φएक्स()(0)
स्टीफन कोलासा 14

धन्यवाद @StephanKolassa - एक विस्तारित उत्तर के लिए कोई मौका / एक आर कोड उदाहरण?
ताल गलिली

2
en.wikipedia.org/wiki/Maximum_entropy_probability_distribution एक सामान्य विधि बताता है।
whuber

प्रिय @whuber, क्या आप कृपया R कोड उदाहरण सुझा सकते हैं? (यह भी, क्या यह भेड़ियों के जवाब के साथ जाता है?)
ताल

यह उस उत्तर से बिल्कुल अलग दृष्टिकोण है।
whuber

जवाबों:


11

विधि 1: उच्च-क्रम पियर्सन सिस्टम

पियर्सन प्रणाली, कन्वेंशन के द्वारा, विभेदक समीकरण के समाधान के परिवार के लिए लिया जाता है:पी(एक्स)

पी(एक्स)एक्स=-(+एक्स)सी0+सी1एक्स+सी2एक्स2पी(एक्स)

जहां चार पियर्सन पैरामीटर को आबादी के पहले चार क्षणों के संदर्भ में व्यक्त किया जा सकता है।(,सी0,सी1,सी2)

Pearson प्रणाली को द्विघात पर आधारित करने के बजाय, उच्चतर बहुपद का उपयोग आधारशिला के रूप में करने पर विचार कर सकते हैं। इसलिए, उदाहरण के लिए, एक क्यूबिक बहुपद पर आधारित पियर्सन-शैली प्रणाली पर विचार कर सकता है। यह विभेदक समीकरण के समाधान का परिवार होगा :सी0+सी1एक्स+सी2एक्स2पी(एक्स)

पी(एक्स)एक्स=-(+एक्स)सी0+सी1एक्स+सी2एक्स2+सी3एक्स3पी(एक्स)

जो हल निकालता है:

यहाँ छवि विवरण दर्ज करें

मैंने इसे कुछ समय पहले मज़े के लिए हल किया था (ओपी के रूप में एक ही विचार वाली ट्रेन): व्युत्पत्ति और समाधान हमारी पुस्तक के अध्याय 5 में दिया गया है; यदि रुचि है, तो एक मुफ्त डाउनलोड यहाँ उपलब्ध है:

http://www.mathstatica.com/book/bookcontents.html

ध्यान दें कि जबकि दूसरे क्रम (द्विघात) पियर्सन परिवार को पहले 4 क्षणों के संदर्भ में व्यक्त किया जा सकता है, तीसरे क्रम (घन) पियर्सन शैली के परिवार को पहले 6 क्षणों की आवश्यकता होती है।

विधि 2: ग्राम-धर्मार्थ विस्तार

उसी अध्याय 5 (खंड 5.4 देखें) में ग्राम-चैरली विस्तार पर भी चर्चा की गई है ... और यह भी कि मनमाने ढंग से बड़े क्षणों के आधार पर, एक फिट घनत्व के निर्माण की अनुमति देता है। जैसा कि ओपी ने सुझाव दिया है, ग्राम-चैरली विस्तार मानक पीडीएफ के डेरिवेटिव की एक श्रृंखला के एक समारोह के रूप में फिट पीडीएफ को व्यक्त करता है, जिसे हरमाइट बहुपद के रूप में जाना जाता है। ग्राम-चैरली गुणांक आबादी के क्षणों के एक समारोह के रूप में हल किया जाता है ... और जितना बड़ा विस्तार, उतने अधिक क्षणों की आवश्यकता होती है। आप संबंधित एजुवेथ विस्तार को देखने की इच्छा भी कर सकते हैं।टी

जनसंख्या क्षण या नमूना क्षण ??

पियर्सन-शैली प्रणाली के लिए: यदि आबादी के क्षणों को जाना जाता है, तो उच्च क्षणों का उपयोग करते हुए स्पष्ट रूप से एक बेहतर फिट का उत्पादन करना चाहिए। यदि, हालांकि, देखा गया डेटा आबादी से खींचा गया एक यादृच्छिक नमूना है, तो एक व्यापार बंद है: एक उच्च आदेश बहुपद का अर्थ है कि उच्च आदेश क्षणों की आवश्यकता होती है, और बाद के अनुमान अविश्वसनीय हो सकते हैं (उच्च विचरण करते हैं), जब तक कि नमूना का आकार 'बड़ा' न हो। दूसरे शब्दों में, नमूना डेटा दिए जाने पर, उच्च क्षणों का उपयोग करके फिटिंग 'अस्थिर' हो सकती है और अवर परिणाम उत्पन्न कर सकती है। ग्राम-चार्लीली विस्तार के लिए भी यही सच है: अतिरिक्त शब्द जोड़ने से वास्तव में एक खराब फिट हो सकता है, इसलिए कुछ देखभाल की आवश्यकता होती है।


प्रिय @wolfies - आपके उत्तर के लिए धन्यवाद! अगर मैं आपको सही तरीके से समझूं, तो ग्राम-चैरली विस्तार मैं जो खोज रहा हूं, उसके अनुरूप अधिक है (हालांकि अधिक सामान्यीकृत पियर्सन वितरण के बारे में जानना दिलचस्प है)। मैंने आपकी पुस्तक को देखा (अध्याय 5, पृष्ठ 175 से शुरू), और देखें कि आप वास्तव में एक विस्तृत विवरण देते हैं (अनुमानित क्षणों से निपटने के बारे में भी, जो मेरा मामला है)। केवल एक चीज यह है कि मैं आपके कोड का उपयोग नहीं कर सकता (क्योंकि मैं एक आर उपयोगकर्ता हूं)। आपके उत्तर के लिए धन्यवाद (और आपकी पुस्तक के लिए भी जो प्रभावशाली और सामान्य रूप से दिलचस्प लगता है)
ताल गैलिली

2
विभिन्न तरीकों से निपटने के लिए बस एक R पैकेज मिला: cran.us.r-project.org/web/packages/PDQutils/vignettes/…
Tal Galili
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.