मैं प्रत्येक दिन श्रेणीबद्ध डेटा के बहुत बड़े नमूने (> 1,000,000) एकत्र करता हूं और डेटा संग्रह में त्रुटियों का पता लगाने के लिए डेटा को "महत्वपूर्ण" दिनों के बीच अलग-अलग देखना चाहता हूं।
मैंने सोचा कि एक अच्छा-फिट परीक्षण (विशेष रूप से, एक जी-टेस्ट) का उपयोग करना इसके लिए एक अच्छा फिट (सजा का उद्देश्य) होगा। पिछले दिन के वितरण के द्वारा अपेक्षित वितरण दिया जाता है।
लेकिन, क्योंकि मेरे नमूने का आकार बहुत बड़ा है, इसलिए परीक्षण में बहुत अधिक शक्ति है और कई झूठी सकारात्मकता को बंद कर देता है। यह कहना है, यहां तक कि एक बहुत ही मामूली दैनिक उतार-चढ़ाव एक शून्य-शून्य पी-मूल्य देगा।
मैंने अपने परीक्षण के आंकड़े को कुछ स्थिर (0.001) से गुणा किया, जिसकी उस दर पर डेटा का नमूना लेने की अच्छी व्याख्या है। यह लेख इस दृष्टिकोण से सहमत लगता है। वे कहते है:
ची वर्ग लगभग 100 से 2500 लोगों के बीच के नमूने के साथ सबसे विश्वसनीय है
मैं इस बारे में कुछ और आधिकारिक टिप्पणियों की तलाश कर रहा हूं। या शायद बड़े डेटा सेट पर सांख्यिकीय परीक्षण चलाने पर झूठी सकारात्मक के लिए कुछ वैकल्पिक समाधान।