क्या मैं Kolmogorov-Smirnov परीक्षण का उपयोग कर सकता हूं और वितरण मापदंडों का अनुमान लगा सकता हूं?


14

मैंने पढ़ा है कि कोलमोगोरोव-स्मिर्नोव परीक्षण का उपयोग किसी वितरण के फिट होने के परीक्षण के लिए नहीं किया जाना चाहिए, जिसके मापदंडों का अनुमान नमूने से लगाया गया है।

क्या मेरे नमूने को दो में विभाजित करने और पैरामीटर अनुमान के लिए पहले छमाही का उपयोग करने और केएस-परीक्षण के लिए दूसरा एक का मतलब है?

अग्रिम में धन्यवाद


1
आप किस वितरण के विरुद्ध परीक्षण करना चाहते हैं और क्यों?
गूँज - मोनिका

मुझे संदेह है कि डेटा एक घातीय वितरण का अनुसरण करता है।
sortega

जवाबों:


13

बेहतर तरीका यह है कि सिमुलेशन द्वारा पी-वैल्यू के अपने महत्वपूर्ण मूल्य की गणना करें। समस्या यह है कि जब आप परिकल्पित मूल्यों का उपयोग करने के बजाय डेटा से मापदंडों का अनुमान लगाते हैं, तो केएस आंकड़े का वितरण शून्य वितरण का पालन नहीं करता है।

आप इसके बजाय केएस परीक्षण से पी-मानों को अनदेखा कर सकते हैं और इसके बजाय अपने वास्तविक डेटा के समान उम्मीदवार के वितरण (मापदंडों के एक सार्थक सेट के साथ) से डेटासेट का एक गुच्छा अनुकरण कर सकते हैं। फिर प्रत्येक सेट के लिए मापदंडों का अनुमान लगाएं और अनुमानित मापदंडों का उपयोग करके केएस परीक्षण करें। आप पी-वैल्यू उन नकली सेटों से परीक्षण के आंकड़ों का अनुपात होंगे जो आपके मूल डेटा की तुलना में अधिक व्यापक हैं।


2
मैं समाधान को थोड़ा भ्रमित करता हूं (कम से कम मेरे लिए); आप उम्मीदवार वितरण के लिए "मापदंडों का एक सार्थक सेट" से क्या मतलब है? आप शुरू में उम्मीदवार वितरण के मापदंडों को नहीं जानते हैं, आप कैसे जानेंगे कि "मापदंडों का सार्थक सेट" क्या है?
नेस्टर डे

आप यह देखने के लिए मापदंडों के अलग-अलग सेटों की कोशिश कर सकते हैं कि इससे कोई फर्क पड़ता है या नहीं (सामान्य के लिए यह नहीं है, लेकिन कुछ वितरण हो सकते हैं)। फिर अपने डेटा के पीछे के विज्ञान के बारे में सोचें, या क्षेत्र के किसी विशेषज्ञ से बात करें, आपको एक सामान्य विचार प्राप्त करने में सक्षम होना चाहिए कि कहां से शुरू करें, उदाहरण के लिए मुझे पता है कि नाइजीरिया में वयस्क पुरुषों की औसत ऊंचाई क्या है, लेकिन मैं यह निश्चित है कि यह सकारात्मक है और 3 मीटर से कम है।
ग्रेग स्नो

@GregSnow मैं इस पोस्ट पर आया क्योंकि यह मेरे वर्तमान कार्य के लिए प्रासंगिक है। मैं सोच रहा था कि क्या आपके द्वारा सुझाई गई विधि का कोई सैद्धांतिक औचित्य है? यही है, हम कैसे जानते हैं कि प्रस्तावित "पी-मूल्य" वास्तव में 0 से 1 तक समान रूप से वितरित किया गया है? प्रस्तावित p- मान nto को पारंपरिक p-value प्रतीत होता है क्योंकि Null परिकल्पना अब वितरण का एक सेट है
renrenthehamster

@renrenthehamster, आपके पास एक अच्छा बिंदु है, यही कारण है कि मैंने विभिन्न परिस्थितियों में अनुकरण करने का सुझाव दिया है। कुछ वितरणों के लिए (मैं सामान्य की अपेक्षा करता हूं) यह ज्यादा मायने नहीं रखेगा, लेकिन अन्य लोगों को विभिन्न सच्चे पैरामीटर मानों के लिए अलग-अलग कट-ऑफ की आवश्यकता हो सकती है। यदि ऐसा है तो उपयोगकर्ता (आप) को परीक्षण करने के लिए एक सार्थक अशक्तता खोजने की जरूरत है, जिसमें वितरण का आकार और एक सेट या श्रेणी दोनों शामिल हैं, जिनके साथ आप सहज हैं।
ग्रेग स्नो

1
@ लिलीलॉन्ग, सिमुलेशन में बहुत अधिक कठिन और समय लगता था, इसलिए परीक्षणों को अनुकरण की तुलना में तेज / आसान होने के लिए विकसित किया गया था, कुछ शुरुआती तालिकाओं को सिमुलेशन द्वारा बनाया गया था। कई परीक्षणों को अब आसानी से सिमुलेशन द्वारा प्रतिस्थापित किया जा सकता है, लेकिन परंपरा और सादगी के कारण शायद कुछ समय के लिए हमारे साथ होगा।
ग्रेग स्नो

7

सैंपल स्प्लिटिंग शायद आंकड़े के वितरण के साथ समस्या को कम कर सकता है, लेकिन यह इसे दूर नहीं करता है।

आपका विचार इस मुद्दे से बचता है कि अनुमान जनसंख्या मूल्यों के सापेक्ष 'बहुत करीब' होंगे क्योंकि वे एक ही नमूने पर आधारित हैं।

आप उस समस्या से नहीं बच रहे हैं जिसका वे अभी भी अनुमान लगा रहे हैं। परीक्षण आँकड़ा का वितरण सारणीबद्ध नहीं है।

इस मामले में यह नाटकीय रूप से कम करने के बजाय, नल के नीचे अस्वीकृति दर को बढ़ाता है।

एक बेहतर विकल्प एक परीक्षण का उपयोग करना है जहां पैरामीटर ज्ञात नहीं हैं, जैसे कि शापिरो विलक।

यदि आप एक कोलमोगोरोव-स्मिर्नोव प्रकार के परीक्षण के लिए तैयार हैं, तो आप लिलीफोरस के परीक्षण का दृष्टिकोण ले सकते हैं।

यही है, केएस आँकड़ा का उपयोग करना है लेकिन परीक्षण आँकड़ा का वितरण मापदंडों के आकलन के प्रभाव को दर्शाता है - पैरामीटर अनुमान के तहत परीक्षण आँकड़ा के वितरण का अनुकरण करना। (यह अब वितरण-मुक्त नहीं है, इसलिए आपको प्रत्येक वितरण के लिए नए तालिकाओं की आवश्यकता है।)

http://en.wikipedia.org/wiki/Lilliefors_test

लिलिफ़ोर्स ने सामान्य और घातीय मामले के लिए सिमुलेशन का उपयोग किया, लेकिन आप इसे किसी भी विशिष्ट वितरण के लिए आसानी से कर सकते हैं; आर जैसे कुछ में 10,000 या 100,000 नमूनों का अनुकरण करना और अशक्त के तहत परीक्षण सांख्यिकीय का वितरण प्राप्त करना क्षणों की बात है।

[एंडरसन-डार्लिंग पर विचार करने के लिए एक विकल्प हो सकता है, जिसमें एक ही मुद्दा है, लेकिन जो - डी'ऑगोस्टिनो और स्टीफंस ( गुडनेस-ऑफ-फिट-तकनीक ) द्वारा पुस्तक को देखते हुए इसके प्रति कम संवेदनशील लगता है। आप लिलीफोरस विचार को अनुकूलित कर सकते हैं, लेकिन वे अपेक्षाकृत सरल समायोजन का सुझाव देते हैं जो काफी अच्छी तरह से काम करता है।]

लेकिन अभी भी अन्य दृष्टिकोण हैं; उदाहरण के लिए, फिट की अच्छाई के सहज परीक्षणों के परिवार हैं (उदाहरण के लिए रेनर और बेस्ट द्वारा पुस्तक देखें) जो कि कई विशिष्ट मामलों में पैरामीटर अनुमान से निपट सकते हैं।

* प्रभाव अभी भी बहुत बड़ा हो सकता है - शायद इससे बड़ा आमतौर पर स्वीकार्य माना जाएगा; मोमो इसके बारे में चिंता व्यक्त करने के लिए सही है। यदि एक उच्च प्रकार I त्रुटि दर (और एक चापलूसी शक्ति वक्र) एक समस्या है, तो यह एक सुधार नहीं हो सकता है!


1
क्या आप बता सकते हैं कि "नमूना विभाजन, सांख्यिकीय के वितरण के साथ समस्या को कैसे हल करेगा"? मेरी राय में, मापदंडों को एक सबमप्लिमेंट से अनुमानित किया जाएगा और फिर दूसरे सबमप्ले के केएस टेस्ट के लिए प्लग इन किया जाएगा, लेकिन पैरामीटर अभी भी सैंपलिंग एरर से जुड़े होंगे, जो कि नल वितरण में शामिल नहीं है। यह मेरे लिए ऐसा लगता है जैसे कि एक समान विचार वाला व्यक्ति सामान्य वितरण से एक नमूना विभाजित कर सकता है, एक सदस्यता में मानक विचलन का अनुमान लगाता है और दूसरी सदस्यता में टी-डिस्ट के बजाय मानक सामान्य के साथ औसत तुलना करता है।
मोमो

1
@Momo 'हल' बहुत मजबूत है; 'कम' करना बेहतर है। यदि पैरामीटर उसी परीक्षण से अनुमानित किए जाते हैं, जिसका आप परीक्षण कर रहे हैं, तो - जब तक आप उस प्रभाव का हिसाब नहीं देते हैं - वितरण से नमूने का विचलन 'बहुत छोटा' होगा - अस्वीकृति दर कम हो जाती है। दूसरे नमूने का उपयोग करने से वह प्रभाव दूर हो जाता है। एक दूसरे नमूने से अनुमान लगाने के परिणामस्वरूप पैरामीटर मान अभी भी नमूनाकरण त्रुटि से ग्रस्त हैं। परीक्षण पर इसका कुछ प्रभाव पड़ेगा (टाइप I त्रुटि दर को बढ़ाता है), लेकिन नाटकीय पूर्वाग्रह प्रभाव नहीं होगा जो दोनों के लिए समान डेटा का उपयोग करता है।
Glen_b -Reinstate मोनिका

@ मैमो मैंने 'हल' निकालने के लिए अपनी टिप्पणी संपादित की है और इसे कुछ स्पष्टीकरण के साथ प्रतिस्थापित किया है
Glen_b -Reinstate Monica

5

मुझे डर है कि समस्या हल नहीं होगी। मेरा मानना ​​है कि समस्या यह नहीं है कि मापदंडों का अनुमान एक ही नमूने से है, बल्कि किसी भी नमूने से है। केएस परीक्षण के सामान्य अशक्त वितरण की व्युत्पत्ति संदर्भ वितरण के मापदंडों में किसी भी अनुमान त्रुटि के लिए नहीं होती है, बल्कि उन्हें दिए गए अनुसार देखता है। डर्बिन 1973 भी देखें जो इस मुद्दे पर चर्चा करता है और समाधान पेश करता है।


1
ये वास्तव में दो अलग-अलग समस्याएं हैं। यदि आप मापदंडों का अनुमान लगाने और केएस-टेस्ट करने के लिए समान डेटा का उपयोग करते हैं, तो आप आमतौर पर फुलाए हुए पी-मान देखेंगे , क्योंकि आप अनिवार्य रूप से इसके खिलाफ परीक्षण से पहले डेटा को वितरण को अनुकूलित करते हैं। यदि आप नमूनों के दो स्वतंत्र सेट का उपयोग करते हैं, हालांकि, यह मामला नहीं है। हालाँकि, पैरामीटर पैरामीटर का अनुमान इस मामले में आपके द्वारा प्राप्त किए जाने वाले पी-मूल्यों को कम कर सकता है , क्योंकि अब आप अनिवार्य रूप से एक (थोड़े) गलत वितरण के खिलाफ परीक्षण कर रहे हैं
fgp
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.