किस पर विश्वास करें: कोलमोगोरोव-स्मिरनोव परीक्षण या क्यूक्यू साजिश?


16

मैं यह निर्धारित करने की कोशिश कर रहा हूं कि क्या मेरे डेटा का निरंतर डेटा पैरामीटर आकार 1.7 और दर 0.000063 के साथ एक गामा वितरण का अनुसरण करता है ।==

समस्या यह है कि जब मैं सैद्धांतिक वितरण गामा (1.7, 0.000063) के खिलाफ अपने डेटासेट का QQ प्लॉट बनाने के लिए R का उपयोग करता हूं , तो मुझे एक प्लॉट मिलता है जो दिखाता है कि अनुभवजन्य डेटा लगभग गामा वितरण से सहमत है। यही बात ECDF प्लॉट के साथ भी होती है।एक्स

हालाँकि जब मैं एक कोलमोगोरोव-स्मिर्नोव परीक्षण चलाता हूं, तो यह मुझे अनुचित रूप से छोटे -value का ।पी<1%

मुझे विश्वास करने के लिए कौन सा चुनना चाहिए? ग्राफिकल आउटपुट या केएस-टेस्ट से परिणाम?

QQplot और ECDF प्लॉट


क्या आप प्राप्त घनत्व वितरण भूखंड भी प्रदान कर सकते हैं?
स्क्रैच

13
परीक्षण और नैदानिक ​​साजिश असंगत नहीं हैं। वितरण सैद्धांतिक के समान है, जैसा कि क्यूक्यू प्लॉट दिखाता है। नमूना आकार काफी बड़ा है कि आप सैद्धांतिक एक से भी छोटे अंतर लेने की संभावना रखते हैं।
Glen_b -Reinstate मोनिका

जवाबों:


18

मुझे क्यूक्यू प्लॉट पर "विश्वास नहीं" करने में कोई समझदारी नहीं है (यदि आपने इसे ठीक से निर्मित किया है); यह आपके डेटा की वास्तविकता का केवल एक चित्रमय प्रतिनिधित्व है, जो कि निश्चित वितरण के साथ जुड़ा हुआ है। स्पष्ट रूप से यह एक आदर्श मैच नहीं है, लेकिन अगर यह आपके उद्देश्यों के लिए पर्याप्त है, तो कहानी का अंत कम या ज्यादा हो सकता है। आप इस संबंधित प्रश्न की जांच कर सकते हैं: क्या सामान्यता परीक्षण 'अनिवार्य रूप से बेकार' है?

एस परीक्षण से -value मूल रूप से कह रहा है कि अपने नमूने का आकार बड़ा पर्याप्त रिक्त परिकल्पना के खिलाफ मजबूत सबूत है कि आपके डेटा आपके संदर्भ के वितरण (के रूप में बिल्कुल वैसा ही वितरण से संबंधित देने के लिए मुझे लगता है आप गामा वितरण संदर्भित है, आप हो सकता है कि आपने दोबारा जाँच की हो)। यह QQ के कथानक से काफी स्पष्ट है (यानी, विचलन के कुछ छोटे लेकिन प्रतीत होते व्यवस्थित पैटर्न हैं), इसलिए मुझे नहीं लगता कि यहाँ वास्तव में कोई परस्पर विरोधी जानकारी है।पी

क्या आपका डेटा आपके इच्छित उद्देश्यों के लिए एक गामा वितरण से बहुत अलग है, एक और सवाल है। केएस परीक्षण अकेले आपके लिए इसका जवाब नहीं दे सकता है (क्योंकि इसका परिणाम आपके नमूना आकार पर निर्भर करेगा, अन्य कारणों के साथ), लेकिन क्यूक्यू साजिश आपको तय करने में मदद कर सकती है। आप अपने द्वारा चलाए जा रहे किसी भी अन्य विश्लेषण के लिए मजबूत विकल्पों पर गौर करना चाहते हैं, और यदि आप गामा वितरण से विचलन के लिए किसी भी बाद के विश्लेषण की संवेदनशीलता को ध्यान में रखते हुए विशेष रूप से गंभीर हैं, तो आप कुछ सिमुलेशन परीक्षण भी करने पर विचार कर सकते हैं। ।


15

आप क्या कर सकते हैं अपने सैद्धांतिक वितरण से कई नमूने बना सकते हैं और अपने QQ- प्लॉट की पृष्ठभूमि पर उन प्लॉट कर सकते हैं। इससे आपको अंदाजा हो जाएगा कि सिर्फ नमूने से आप किस तरह की परिवर्तनशीलता की उम्मीद कर सकते हैं।

आप उस विचार को सैद्धांतिक पंक्ति के चारों ओर एक लिफाफा बनाने के लिए विस्तारित कर सकते हैं, उदाहरण के लिए 86-89 के पृष्ठों का उपयोग कर सकते हैं:

वेनबल्स, डब्ल्यूएन और रिप्ले, बीडी 2002। एस। न्यूयॉर्क के साथ आधुनिक लागू आंकड़े: स्प्रिंगर।

यह एक बिंदुवार लिफाफा होगा। आप उस विचार को और भी बढ़ा सकते हैं, जिसमें पेज 151-154 के विचारों का उपयोग करते हुए एक समग्र लिफाफा बनाया जा सके।

डेविसन, एसी और हिंकले, डीवी 1997। बूटस्ट्रैप के तरीके और उनके आवेदन। कैम्ब्रिज: कैम्ब्रिज यूनिवर्सिटी प्रेस।

हालाँकि, बुनियादी अन्वेषण के लिए, मुझे लगता है कि आपके QQ- प्लॉट की पृष्ठभूमि में सिर्फ संदर्भ नमूने के एक जोड़े की साजिश रचने से अधिक होगा।


अच्छा विचार! 11 घंटों में इसे बढ़ाने के लिए मुझे याद दिलाएं ( कार्टूनों पर अपने सभी वोटों का उपयोग करें ) ... मुझे विशेष रूप से ECDF को बूटस्ट्रैप करना पसंद है, जो इस तरह के कथानक को समृद्ध करता है।
निक स्टनर

1
CRAN पैकेज sfsmisc पर भी एक नज़र डालें, जिसमें फ़ंक्शन ecdf.ksCI है जो Ecdf प्लॉट पर एक विश्वास बैंड को ड्रॉइंग करता है। एक ही विचार क्यूक्यू प्लॉट पर एक विश्वास बैंड को आकर्षित करने के लिए इस्तेमाल किया जा सकता है ...
kjetil b halvorsen

2

KS परीक्षण आपके वितरण के विशेष मापदंडों को मानता है। यह परिकल्पना का परीक्षण करता है "डेटा इस विशेष वितरण के अनुसार वितरित किया जाता है"। आपने शायद इन मापदंडों को निर्दिष्ट किया है। यदि नहीं, तो कुछ मेल खाने वाले डिफॉल्ट का उपयोग नहीं किया जा सकता है। ध्यान दें कि यदि अनुमानित पैरामीटर परिकल्पना में प्लग किए गए हैं, तो केएस परीक्षण रूढ़िवादी हो जाएगा।

हालांकि, ज्यादातर अच्छाई-से-फिट परीक्षणों का उपयोग गलत तरीके से किया जाता है। यदि केएस परीक्षण ने महत्व नहीं दिखाया होता, तो इसका मतलब यह नहीं है कि जिस मॉडल को आप साबित करना चाहते थे वह उपयुक्त है। यही कारण है कि @ नाइक स्टैनर ने बहुत छोटे नमूने के आकार के बारे में कहा। यह मुद्दा बिंदु परिकल्पना परीक्षण और तुल्यता परीक्षण के समान है।

तो अंत में: केवल QQ- भूखंडों पर विचार करें।


-1

QQ प्लॉट एक खोजपूर्ण डेटा विश्लेषण तकनीक है और इसे इस तरह माना जाना चाहिए - इसलिए अन्य सभी EDA प्लॉट हैं। वे केवल आपको हाथ में डेटा में प्रारंभिक अंतर्दृष्टि देने के लिए हैं। आपको QQ प्लॉट जैसे EDA भूखंडों के आधार पर कभी भी अपने विश्लेषण का निर्णय या रोक नहीं करना चाहिए। केवल क्यूक्यू भूखंडों पर विचार करना एक गलत सलाह है। आपको केएस टेस्ट जैसी परिमाणात्मक तकनीकों द्वारा निश्चित रूप से जाना चाहिए। मान लीजिए कि आपके पास समान डेटा सेट के लिए एक और QQ प्लॉट है, तो आप दोनों की तुलनात्मक उपकरण के बिना कैसे करेंगे? ईडीए और केएस परीक्षण के बाद आपके लिए सही अगला कदम यह पता लगाना है कि केएस परीक्षण कम पी-मूल्य क्यों दे रहा है (आपके मामले में, यह कुछ त्रुटि के कारण भी हो सकता है)।

EDA तकनीक निर्णय लेने के उपकरण के रूप में काम करने के लिए नहीं होती है। वास्तव में, मैं कहूंगा कि अनुमान के आंकड़े केवल खोजपूर्ण होने के लिए हैं। वे आपको संकेत देते हैं कि आपके सांख्यिकीय विश्लेषण को किस दिशा में आगे बढ़ना चाहिए। उदाहरण के लिए, एक नमूने पर एक टी-टेस्ट आपको केवल एक विश्वास स्तर देगा कि नमूना जनसंख्या का हो सकता है (या नहीं हो सकता है), आप अभी भी उस अंतर्दृष्टि के आधार पर आगे बढ़ सकते हैं कि आपका डेटा किस वितरण से संबंधित है और क्या है इसके पैरामीटर आदि हैं, वास्तव में, जब कुछ राज्य जो कि मशीन लर्निंग लाइब्रेरी के हिस्से के रूप में कार्यान्वित किए जाते हैं, प्रकृति में भी खोजपूर्ण हैं !!! मुझे आशा है कि वे इस अर्थ में इसका मतलब ...!

भूखंडों या विज़ुअलाइज़ेशन तकनीकों के आधार पर सांख्यिकीय निर्णय लेने के लिए सांख्यिकीय विज्ञान में किए गए अग्रिमों का मज़ाक बना रहा है। यदि आप मुझसे पूछते हैं, तो आपको अपने मात्रात्मक सांख्यिकीय विश्लेषण के आधार पर अंतिम निष्कर्षों को संप्रेषित करने के लिए इन भूखंडों को उपकरण के रूप में उपयोग करना चाहिए।


यह मुझे ऐसा कुछ करने से मना करता है जो मैं अक्सर करता हूं और समझदार के रूप में मानता हूं, एक खोजपूर्ण कथानक दिया गया निर्णय लें और अधिक औपचारिक महत्व परीक्षण से पहले रोकें। किसी भी तरह का मजाक नहीं उड़ाया जाता है। यह एक दोहराव और हठधर्मी टिप्पणी है जो मौजूदा उत्कृष्ट के लिए उपयोगी कुछ भी नहीं जोड़ता है, और बहुत अधिक अति सूक्ष्म, उत्तर देता है। QQ भूखंडों की तुलना करना बहुत आसान है ...
निक कॉक्स

मैंने अन्य उत्तर नहीं पढ़े हैं, लेकिन यदि वे मात्रात्मक तरीकों को प्रोत्साहित करते हैं, तो मैं ठीक हूं। पूछे गए सवाल के लिए, मैंने अपना जवाब दिया था। लेकिन, मैं उत्सुक हूं, आर जैसे अब उपलब्ध पैकेजों के साथ औपचारिक मात्रा परीक्षण (केएस परीक्षण करने के लिए सिर्फ कुछ मिनट) करने में ज्यादा समय नहीं लगता है, इसलिए ईडीए के प्लॉटों पर कोई भी रोक क्यों लगाएगा? बूटस्ट्रैपिंग के साथ आर के केएस परीक्षा परिणाम को मान्य करने के बाद, मैंने कई स्थानों पर ध्यान दिया जहां इसका उपयोग करने के लिए उपयोग नहीं करना पसंद किया गया था। .. क्या यह पारंपरिक स्टेट विधियों के बारे में एक सामान्य संदेह के कारण है? मेरी
तीखी

पोस्ट करने से पहले आपको वास्तव में अन्य उत्तर पढ़ने चाहिए। पोस्ट करने का निहितार्थ यह है कि आपके पास कहने के लिए कुछ अलग (और साथ ही दोषपूर्ण) है। आपकी टिप्पणी का अर्थ है कि QQ के प्लॉट "मात्रात्मक तरीके" नहीं हैं। QQ का प्लॉट सैद्धांतिक रूप से वितरण की मात्रा के आकलन में प्रासंगिक सभी मात्रात्मक जानकारी को दर्शाता है। इसके विपरीत कोलमोगोरोव-स्मिर्नोव की तरह एक परीक्षण एक आयामी कमी देता है और आगे क्या करना है पर थोड़ी मदद देता है।
निक कॉक्स

QQ कथानक दिए गए परीक्षण डेटा के साथ सैद्धांतिक वितरण की तुलना करता है और एक दृश्य प्रतिनिधित्व प्रदान करता है लेकिन केएस परीक्षण सांख्यिकीय अवधारणाओं का उपयोग करते हुए बहुत अधिक कठोर तरीके से एक ही काम करता है और अंत में एक संभाव्यता मूल्य देता है। आप दो क्यूक्यू भूखंडों की तुलना नहीं कर सकते हैं, लेकिन जब आप केएस परीक्षण का उपयोग करते हैं तो आपको मात्रात्मक अंतर मिलेगा। यह गलत है कि केएस परीक्षण पी-मूल्य गलत है। यह भी गलत है कि अनुभवजन्य डेटा सेट का उपयोग वितरण मापदंडों को निकालने के लिए नहीं किया जा सकता है। मैंने व्यक्तिगत रूप से बूटस्ट्रैपिंग की है और दोनों तालिकाओं के साथ पी मूल्यों के साथ सत्यापित किया है और मैन्युअल रूप से गणना की गई कोलोमोग्रोव वितरण।
मुरुगेसन नारायणस्वामी

आपकी टिप्पणी में बहुत छाया बॉक्सिंग है, कौन तर्क दे रहा है कि आप पैरामीटर अनुमान प्राप्त करने के लिए अनुभवजन्य डेटा का उपयोग नहीं कर सकते हैं? यही हम सभी को सहमत होना चाहिए। चर्चा को आगे नहीं बढ़ाने के लिए आपको मुझे माफ़ करना होगा। मैं आपके जवाब पर अपनी प्रतिक्रिया के साथ खड़ा हूं।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.