बहुत बड़े नमूना आकारों के लिए अच्छाई-से-फिट


12

मैं प्रत्येक दिन श्रेणीबद्ध डेटा के बहुत बड़े नमूने (> 1,000,000) एकत्र करता हूं और डेटा संग्रह में त्रुटियों का पता लगाने के लिए डेटा को "महत्वपूर्ण" दिनों के बीच अलग-अलग देखना चाहता हूं।

मैंने सोचा कि एक अच्छा-फिट परीक्षण (विशेष रूप से, एक जी-टेस्ट) का उपयोग करना इसके लिए एक अच्छा फिट (सजा का उद्देश्य) होगा। पिछले दिन के वितरण के द्वारा अपेक्षित वितरण दिया जाता है।

लेकिन, क्योंकि मेरे नमूने का आकार बहुत बड़ा है, इसलिए परीक्षण में बहुत अधिक शक्ति है और कई झूठी सकारात्मकता को बंद कर देता है। यह कहना है, यहां तक ​​कि एक बहुत ही मामूली दैनिक उतार-चढ़ाव एक शून्य-शून्य पी-मूल्य देगा।

मैंने अपने परीक्षण के आंकड़े को कुछ स्थिर (0.001) से गुणा किया, जिसकी उस दर पर डेटा का नमूना लेने की अच्छी व्याख्या है। यह लेख इस दृष्टिकोण से सहमत लगता है। वे कहते है:

ची वर्ग लगभग 100 से 2500 लोगों के बीच के नमूने के साथ सबसे विश्वसनीय है

मैं इस बारे में कुछ और आधिकारिक टिप्पणियों की तलाश कर रहा हूं। या शायद बड़े डेटा सेट पर सांख्यिकीय परीक्षण चलाने पर झूठी सकारात्मक के लिए कुछ वैकल्पिक समाधान।


3
यह एक अच्छा सवाल है। हालाँकि, आपके तदर्थ दृष्टिकोण के लिए कोई उद्देश्यपूर्ण आधार नहीं है । इसका मतलब यह नहीं है कि यह खराब प्रदर्शन करेगा - लेकिन यह दृढ़ता से सुझाव देता है कि बेहतर प्रक्रियाएं हैं। उन्हें खोजने के लिए, यदि आप इस प्रश्न को संपादित करने में मदद कर सकते हैं कि आप किस प्रकार की त्रुटियों की पहचान करने का प्रयास कर रहे हैं, जिसमें वे कितने बड़े हो सकते हैं, उनमें से कितने हो सकते हैं, और क्या परिणाम (ए) में विफल हो रहे हैं। त्रुटियों में से कुछ की पहचान करें और (बी) सही डेटा को त्रुटियों के रूप में चिह्नित कर रहे हैं।
whuber

2
गणितीय दृष्टिकोण से, बहुत बड़े साथ एक अच्छाई-की-फिट परीक्षण पूरी तरह से ठीक है - यह सिर्फ इतना है कि संबंधित शून्य परिकल्पना बहुत दिलचस्प नहीं है: आप "हां / नहीं" प्रश्न क्यों पूछ सकते हैं जब आप कर सकते हैं एक "कितना" जवाब मिलता है? आपके मामले में, दैनिक आधार पर, आप प्रत्येक श्रेणी के लिए अनुपात में बदलाव का अनुमान लगा सकते हैं, प्रत्येक में एक आत्मविश्वास अंतराल जोड़ सकते हैं और देख सकते हैं कि क्या वे एक पूर्वनिर्धारित सहिष्णुता क्षेत्र के आसपास नहीं मारते हैं 0.n
माइकल एम

'महत्वपूर्ण' और 'गलत पॉज़िटिव' जैसे शब्दों का उपयोग उन शब्दों के सांख्यिकीय अर्थ के साथ अजीब लगता है, खासकर यदि आप परीक्षण सही कर रहे हैं *। मेरा सुझाव है कि आप उन शब्दों से बचें जब तक कि आप उन्हें तकनीकी अर्थों में कड़ाई से उपयोग न करें। आपकी मूल समस्या उन स्थितियों में परिकल्पना परीक्षणों का उपयोग करने में से एक है जहां ऐसा करने के लिए बहुत कम समझ हो सकती है; सादे, गैर-तकनीकी, अंग्रेजी में आपकी रुचि का वास्तविक प्रश्न क्या है? * (विशेष रूप से, पिछले दिन को 'जनसंख्या' के रूप में उपयोग करना सही नहीं है, यदि आप इसकी परिवर्तनशीलता के लिए अनुमति नहीं देते हैं - आम तौर पर यह आज की तरह ही परिवर्तनशील है)
Glen_b -Reateate Monica

जवाबों:


4

परीक्षण सही परिणाम दे रहा है। दिन से ही वितरण समान नहीं हैं। यह निश्चित रूप से, आप के लिए कोई फायदा नहीं है। आप जिस मुद्दे का सामना कर रहे हैं वह लंबे समय से जाना जाता है। देखें: कार्ल पेयर्सन और आरए फिशर पर सांख्यिकीय परीक्षण: ए 1935 एक्सचेंज फ्रॉम नेचर

इसके बजाय आप पिछले डेटा (या तो आपके या कहीं और से) पर वापस देख सकते हैं और प्रत्येक श्रेणी के लिए दिन-प्रतिदिन के परिवर्तन प्राप्त कर सकते हैं। फिर आप जाँचें कि क्या वर्तमान परिवर्तन उस वितरण को दिए जाने की संभावना है। डेटा और त्रुटियों के प्रकार के बारे में जाने बिना विशेष रूप से उत्तर देना मुश्किल है, लेकिन यह दृष्टिकोण आपकी समस्या के अधिक अनुकूल लगता है।


4

चलो आगे बढ़ते हैं और 5% की पवित्र गाय को मारते हैं।

आपने (सही ढंग से) बताया है कि मुद्दा परीक्षण की प्रबल शक्ति का है। आप इसे और अधिक प्रासंगिक शक्ति की ओर फिर से देखना चाहते हैं, जैसे 80% का अधिक पारंपरिक मूल्य कहें:

  1. उस प्रभाव के आकार पर निर्णय लें जिसका आप पता लगाना चाहते हैं (उदाहरण के लिए, 0.2% बदलाव)
  2. उस शक्ति पर निर्णय लें जो आपके लिए पर्याप्त है ताकि यह अति-प्रबल न हो (उदाहरण के लिए,1β=80%)
  3. से काम वापस मौजूदा सिद्धांत पियर्सन परीक्षण के स्तर पर आपके कौन से परीक्षण व्यावहारिक बनाना होगा निर्धारित करने के लिए।

मान लें कि आपके पास समान संभावनाओं वाली 5 श्रेणियां हैं, , और आपका विकल्प । तो , । विषम वितरण गैर-केंद्रीय ची-वर्ग है जिसमें (# श्रेणियां -1) = 4 df और गैर-केंद्रीयता पैरामीटर इसके साथ है का बड़ा मान , यह के काफी करीब है । 80% -tileपी + δ / पी1=पी2=पी3=पी4=पी5=0.2n=106δ=(-2,+2,0,0,0)कश्मीर=λ= Σ जे δ 2 जे /पीजे=4/0.2+4/0.2=40λएन(μ=λ)पी+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(-2,+2,0,0,0)=

λ=Σजेδजे2/पीजे=4/0.2+4/0.2=40
λएन(μ=λ+=44,σ2=2(+2λ)=168)44+13Φ-1(0.8)=44+130.84=54.91। इसलिए परीक्षण के अपने वांछनीय स्तर का प्रतिलोम पूंछ CDF है 54.91 से: तो उस स्तर होगा आपको चाहिए अपने डेटा का परीक्षण करने पर विचार करें ताकि 0.2% अंतर का पता लगाने के लिए 80% की शक्ति हो।χ42
पीआर[χ42>54.91]=3.310-1 1

(कृपया मेरे गणित की जांच करें, यह एक परीक्षण का एक हास्यास्पद स्तर है, लेकिन यही आप अपने बिग डेटा के साथ चाहते थे, क्या आप नहीं थे? दूसरी तरफ, यदि आप नियमित रूप से एक जोड़ी की सीमा में पियर्सन देखते हैं सौ, यह मनोरंजन के लिए पूरी तरह से सार्थक महत्वपूर्ण मूल्य हो सकता है।)χ2

ध्यान रखें कि हालांकि, अशक्त और वैकल्पिक दोनों के लिए अनुमान, पूंछ में खराब काम कर सकते हैं, इस चर्चा को देखें ।


2

इन मामलों में, मेरे प्रोफेसर ने Cramér के V की गणना करने का सुझाव दिया है जो ची-स्क्विट स्टेटिस्टिक पर आधारित एसोसिएशन का एक उपाय है। इससे आपको ताकत मिलनी चाहिए और यह तय करने में मदद मिलेगी कि परीक्षण हाइपरसेंसिटिव है या नहीं। लेकिन, मुझे यकीन नहीं है कि क्या आप वी का उपयोग उस तरह के आंकड़े के साथ कर सकते हैं जो जी 2 परीक्षण वापस आते हैं।

यह V के लिए सूत्र होना चाहिए:

φसी=χ2n(-1)

जहाँ टिप्पणियों का कुल योग है और पंक्तियों की संख्या या स्तंभों की संख्या जो भी कम है। या फिट परीक्षणों की अच्छाई के लिए, स्पष्ट रूप से नहीं है। पंक्तियों की।के केn


0

एक दृष्टिकोण यह होगा कि डेटा के छोटे ब्लॉकों पर प्रदर्शन करके फिट परीक्षणों की अच्छाई को और अधिक सार्थक बनाया जाए।

α=0.05α

α


क्या आप उस अर्थ पर विस्तृत जानकारी दे सकते हैं जिसमें यह दृष्टिकोण "अधिक सार्थक" होगा?
whuber

यह सांख्यिकीय महत्व बनाम वास्तविक-विश्व महत्व है। 10 ^ 6 नमूनों के बजाय 10 ^ 3 का उपयोग करके, एकल परीक्षण की शक्ति को जानबूझकर कम किया जाता है, इसलिए अशक्त परिकल्पना के अस्वीकार बड़े-से-फिट के अनुरूप होंगे। यह एकल परीक्षण के परिणाम को अधिक सार्थक बनाता है क्योंकि ओपी को "मामूली दैनिक उतार-चढ़ाव" की परवाह नहीं है। 10 ^ 6 नमूनों के लिए, परीक्षण हमेशा मामूली अंतर के कारण H0 को अस्वीकार कर सकता है, इसलिए यह स्पष्ट नहीं है कि एक परीक्षा परिणाम सार्थक जानकारी का प्रतिनिधित्व करता है या नहीं।
सीजे स्टोनकिंग

1
धन्यवाद: आपकी टिप्पणी दिलचस्प और महत्वपूर्ण मुद्दों को उठाती है जो मुझे लगता है कि असली अंतर्निहित प्रश्न है; अर्थात्, त्रुटियों का पता लगाने के लिए किसी को डेटा में अंतर कैसे मापना चाहिए और चिंता का कितना बड़ा अंतर होगा? यद्यपि आपका उत्तर कुछ परिस्थितियों में उचित हो सकता है, यह संभावना नहीं है कि यह प्रभावी रूप से कई प्रकार की त्रुटियों का पता लगाएगा जो डेटा में हो सकते हैं और यह डेटा के किस आकार के ब्लॉक का उपयोग करना चाहिए (प्राकृतिक) का खुला प्रश्न छोड़ता है।
व्हीबर

@whuber, क्या समस्या को इस तरह से पुनर्परिभाषित किया जा सकता है ताकि अशक्त और उसके विचलन में डेटा आकार अपरिवर्तनीय हो लेकिन कुछ गुणात्मक प्रतिनिधित्व चाहता है?
वास
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.