यह कैसे परीक्षण करें कि क्या डेटा का एक नमूना गामा वितरण के परिवार को फिट बैठता है?


13

मेरे पास डेटा का एक नमूना है जो एक सतत यादृच्छिक चर एक्स से उत्पन्न हुआ था। और हिस्टोग्राम से मैं आर का उपयोग कर रहा हूं, मुझे लगता है कि शायद एक्स का वितरण एक निश्चित गामा वितरण का पालन करता है। लेकिन मुझे इस गामा वितरण के सटीक मापदंडों का पता नहीं है।

मेरा प्रश्न यह है कि कैसे एक्स का वितरण गामा वितरण के एक परिवार से संबंधित है? फिट परीक्षणों की कुछ अच्छाई मौजूद है जैसे कि कोलमोगोरोव-स्मिरनोव परीक्षण, एंडरसन-डार्लिंग परीक्षण, और इसी तरह, लेकिन इन परीक्षणों का उपयोग करते समय प्रतिबंध में से एक यह है कि सैद्धांतिक वितरण के मापदंडों को पहले से जाना जाना चाहिए। क्या कोई मुझे बताएगा कि इस समस्या को कैसे हल किया जाए?


शायद मुझे कुछ याद आ रहा है, लेकिन अगर आप पहले से ही वितरण के फिट के परीक्षण के लिए एक परीक्षण के बारे में जानते हैं और आप सभी को पता होना चाहिए कि सैद्धांतिक वितरण के मूल्य हैं, तो आप बस गामा के मापदंडों के अधिकतम संभावना आकलनकर्ताओं का उपयोग कर सकते हैं मापदंडों का अनुमान प्राप्त करने के लिए अपने डेटा पर वितरण। फिर आप अपने परीक्षण में सैद्धांतिक वितरण को परिभाषित करने के लिए उन अनुमानों का उपयोग कर सकते हैं।
डेविड

डेविड, आपके उत्तर के लिए धन्यवाद। इसका उत्तर यह भी है कि मैं किस बारे में सोच रहा हूं, लेकिन मुझे यकीन नहीं है कि क्या कुछ सिद्धांत हैं जो इस विचार का समर्थन कर सकते हैं, क्या आप मेरे लिए इसका जवाब दे सकते हैं?
user8363

यदि आप R का उपयोग करते हैं, तो आप फ़िटडिस्टेरप्लस पैकेज पर एक नज़र डालने में दिलचस्पी ले सकते हैं , जिसमें इस तरह की चीज़ करने के लिए सुविधाएं हैं।
गंग -

जवाबों:


8

मुझे लगता है कि प्रश्न सटीक सांख्यिकीय परीक्षण के लिए कहता है, न कि हिस्टोग्राम तुलना के लिए। अनुमानित मापदंडों के साथ कोल्मोगोरोव-स्मिर्नोव परीक्षण का उपयोग करते समय , अशक्त के तहत परीक्षण के आँकड़ों का वितरण परीक्षण किए गए वितरण पर निर्भर करता है, जैसा कि बिना किसी अनुमानित पैरामीटर के मामले के विपरीत है। उदाहरण के लिए, उपयोग करना (R में)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

फलस्वरूप होता है

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

जबकि हम प्राप्त करते हैं

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

उसी नमूने के लिए x। इस प्रकार महत्व स्तर या पी-मूल्य को मोंटे कार्लो सिमुलेशन द्वारा अशक्त के तहत निर्धारित किया जाना है, अनुमानित वितरण के तहत सिम्युलेटेड नमूनों से कोलमोगोरोव-स्मिरनोव आँकड़ों के वितरण का उत्पादन किया, जिसके परिणाम में एक मामूली सन्निकटन के साथ मनाया गया नमूना। एक और वितरण से आता है, यहां तक ​​कि अशक्त के तहत)।


1
(+1) मुझे ठीक से नहीं पता है कि अनुमानित वितरण के तहत नमूनों का अनुकरण करना सही क्यों है। मुझे लगता है कि हमें मापदंडों के लिए एक पूर्व की आवश्यकता है, और सभी संभावित वितरण से नमूना ... क्या आप थोड़ा और समझा सकते हैं?
एल्विस

1
शीआन, आपका जवाब बिल्कुल वही है जिसकी मुझे चिंता है। आपका मतलब है कि "अनुमानित मापदंडों के साथ कोलमोगोरोव-स्मिरनोव परीक्षण का उपयोग करते समय, अशक्त के तहत परीक्षण आंकड़ों का वितरण परीक्षण किए गए वितरण पर निर्भर करता है"। हालांकि, हम एक्स के वितरण को नहीं जानते हैं, अधिक सटीक रूप से, हम शून्य परिकल्पना के तहत एक्स के वितरण के पैरामीटर को नहीं जानते हैं, इसलिए परीक्षण सांख्यिकीय का वितरण, इसलिए, हम मोंटे कार्लो का उपयोग करते हैं। क्या पी मूल्य प्राप्त करने के लिए मोंटे कार्लो का उपयोग करके इसे हल करने के कुछ अन्य तरीके होंगे? धन्यवाद
user8363

इस तथ्य को ध्यान में रखते हुए कि "अवलोकन किया गया नमूना नल के नीचे भी एक अन्य वितरण से आता है", क्या नमूना को बूटस्ट्रैप करना उचित नहीं होगा, प्रत्येक प्रतिकृति पर मापदंडों का पुनर्मूल्यांकन करें?
एल्विस

1
@ एल्विस (1): यह शास्त्रीय आंकड़े हैं, न कि फिट समस्या की अच्छाई का बायेसियन संकल्प। स्थान-स्केल मापदंडों के साथ वितरण के लिए, नकली नमूनों का अनुकरण करने के लिए उपयोग किए जाने वाले मापदंडों का विकल्प कोई फर्क नहीं पड़ता।
शीआन

1
@ एल्विस (2): एक बार फिर कुछ मैंने अपने छात्रों के साथ चर्चा की! बूटस्ट्रैप कोलमोगोरोव-स्मिर्नोव दूरी के डेटा के सही वितरण के तहत व्यवहार का आकलन करने में मदद करेगा, न कि नल के नीचे! फिशर-नेमन-पियर्सन सिद्धांत यह है कि क्या मायने रखता है कि नल के नीचे कोलमोगोरोव-स्मिर्नोव दूरी का व्यवहार है, ताकि यह अस्वीकार कर दिया जाए यदि अवलोकन दूरी शून्य के तहत इस वितरण को बहुत चरम है।
शीआन

4

अपने डेटा के लिए गामा वितरण मानने वाले मापदंडों के MLE की गणना करें और अपने डेटा के हिस्टोग्राम के साथ सैद्धांतिक घनत्व की तुलना करें। यदि दोनों बहुत अलग हैं, तो गामा dstribution आपके डेटा का खराब अनुमान है। एक औपचारिक परीक्षण के लिए जिसकी आप गणना कर सकते हैं, उदाहरण के लिए, कोलमोगोरोव-स्मरनॉफ परीक्षण सांख्यिकीय अनुभवजन्य वितरण और महत्व के लिए परीक्षण के साथ सबसे अच्छा फिटिंग गामा वितरण की तुलना करता है।


3
+1, यह एक ठोस जवाब है। हालांकि, मैं हिस्टोग्राम के बजाय सैद्धांतिक गामा के खिलाफ एक qq- प्लॉट की जांच करने का सुझाव दूंगा - यह विचलन के लिए आकलन करना आसान होगा।
गंग -

1
समस्या यह है कि केएस परीक्षण पहले से दिए गए सैद्धांतिक वितरण को मानता है, डेटा से अनुमान नहीं लगाया गया है। शीआन (आंशिक रूप से) ने उस बिंदु पर उत्तर दिया ...
एल्विस

आपका मतलब है कि हम सबसे पहले डेटा के इस नमूने का उपयोग एमएलएस एसेटर को प्राप्त करने और गामा वितरण में एमएलएस एसेटर के मूल्य का उपयोग करने के लिए करते हैं, और फिर केएस परीक्षण का उपयोग करके गामा वितरण (अनुमानित पैरामीटर के साथ) डेटा की तुलना करते हैं?
user8363

एल्विस, क्या आप मुझे बताएंगे कि इस समस्या को कैसे हल किया जाए कि जब सैद्धांतिक वितरण का पैरामीटर अनजाना हो और अनुमान लगाने की आवश्यकता हो। इस कैस में, एक परिकल्पना के अपेक्षाकृत सटीक निर्णय लेने के लिए केएस परीक्षण का उपयोग कैसे किया जा सकता है, धन्यवाद!
user8363

1
@ एल्विस: मुझे नहीं लगता कि गामा वितरण के मामले में सटीक व्युत्पत्ति संभव है। स्वयं cdf बंद रूप में उपलब्ध नहीं है। इसके अलावा, तथ्य यह है कि आकार पैरामीटर न तो पैमाना है और न ही स्थान का अर्थ है कि आकार पैरामीटर के प्रत्येक मान के लिए एक अलग वितरण है ...
शीआन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.