मैंने एक प्रोग्राम लिखा है जो यादृच्छिक डेटा उत्पन्न करता है। यदि प्रोग्राम सही ढंग से काम कर रहा है, तो उस डेटा को एक विशिष्ट, ज्ञात संभावना वितरण का पालन करना चाहिए। मैं कार्यक्रम को चलाना चाहता हूं, परिणाम पर कुछ गणना करता हूं, और पी-मूल्य के साथ आता हूं।
इससे पहले कि कोई और यह कहे: मैं समझता हूं कि परिकल्पना परीक्षण यह पता नहीं लगा सकता है कि कार्यक्रम कब सही ढंग से चल रहा है। यह केवल तभी पता लगा सकता है जब यह एक विशिष्ट तरीके से गलत तरीके से काम कर रहा हो। (और फिर भी, परीक्षण "समय का X% विफल" होना चाहिए, जो आपके द्वारा चुने गए महत्व के स्तर पर निर्भर करता है ...)
इसलिए, मैं यह समझने की कोशिश कर रहा हूं कि कौन से उपकरण उपयुक्त हो सकते हैं। विशेष रूप से:
मैं जितना चाहे उतना यादृच्छिक डेटा उत्पन्न कर सकता हूं। मुझे बस इतना करना है कि कार्यक्रम को लंबे समय तक छोड़ दें। इसलिए मैं किसी विशिष्ट नमूने के आकार तक सीमित नहीं हूं।
मैं उन तकनीकों में रुचि रखता हूं जो एक पी-मूल्य का उत्पादन करती हैं। तो एक ग्राफ को घूरते हुए और "हाँ, जो थोड़े रैखिक दिखता है" कह रहा है एक दिलचस्प विकल्प नहीं है। जब तक एक ग्राफ की "जीत" पर एक कठिन संख्या डालने का कोई तरीका नहीं है। ;-)
मैं अब तक क्या जानता हूं:
मैंने परीक्षण के तीन मुख्य प्रकारों का उल्लेख किया है, जो ध्वनि की तरह वे लागू हो सकते हैं: [पीयरसन] ची-स्क्वेर्ड परीक्षण, कोलमोगोरोव-स्मिरनोव परीक्षण और एंडरसन-डार्लिंग परीक्षण।
ऐसा प्रतीत होता है कि ची-चुकता परीक्षण असतत वितरण के लिए उपयुक्त है , जबकि अन्य दो निरंतर वितरण के लिए अधिक उपयुक्त हैं । (?)
विभिन्न स्रोत संकेत देते हैं कि AD परीक्षण KS परीक्षण की तुलना में "बेहतर" है, लेकिन आगे किसी भी विवरण में जाने में विफल है।
अंत में, इन सभी परीक्षणों में निश्चित रूप से निर्दिष्ट अशक्त वितरण से विचलन के "विभिन्न तरीकों" का पता चलता है। लेकिन मैं वास्तव में नहीं जानता कि क्या अंतर हैं अभी तक ... सारांश में, मैं किसी प्रकार के सामान्य विवरण की तलाश कर रहा हूं जहां प्रत्येक प्रकार का परीक्षण सबसे अधिक लागू होता है, और यह किस प्रकार की समस्याओं का सबसे अच्छा पता लगाता है।