IID नमूने के लिए परीक्षण करें


16

आप कैसे परीक्षण करेंगे या जाँचेंगे कि नमूना IID (स्वतंत्र और समान रूप से वितरित) है? ध्यान दें कि मेरा मतलब गौसियन और आइडेंटिटीली डिस्ट्रिब्यूटेड नहीं है, सिर्फ IID है।

और यह विचार मेरे दिमाग में आता है कि नमूना को समान आकार के दो उप-नमूनों में बार-बार विभाजित करना है, कोलमोगोरोव-स्मिरनोव परीक्षण करें और जांच करें कि पी-वैल्यू का वितरण एक समान है।

उस दृष्टिकोण पर कोई टिप्पणी, और किसी भी सुझाव का स्वागत है।

इनाम शुरू करने के बाद स्पष्टीकरण: मैं एक सामान्य परीक्षण की तलाश में हूं जिसे गैर-समय श्रृंखला डेटा पर लागू किया जा सकता है।


क्या यह समय श्रृंखला डेटा है?
danas.zuokas

@ gui11aume क्या आपने "नेत्रगोलक" परीक्षण की कोशिश की है? यही है, डेटा को प्लॉट करें और देखें कि क्या यह आईआईडी दिखता है।
मैक्रों

मैंने नहीं किया है मुझे यकीन नहीं है कि आपका क्या मतलब है: वे आने वाले क्रम में मूल्यों की साजिश करें (संभवतः यादृच्छिक)? और फिर हड़ताली पैटर्न की अनुपस्थिति की जांच करें?
गुई ११

1
क्या आपकी नज़र "रन टेस्ट" पर थी? en.wikipedia.org/wiki/Wald%E2%80%93Wolfowitz_runs_test
स्टीफन लॉरेंट

1
माफ़ करना। मैं निम्नलिखित रन टेस्ट को ध्यान में रख रहा था: apprendre-en-ligne.net/random/run.html (लेकिन यह फ्रेंच में लिखा गया है)
स्टीफन लॉरेंट

जवाबों:


14

यदि आप निष्कर्ष निकालते हैं कि क्या डेटा IID बाहरी जानकारी से आता है, न कि स्वयं डेटा से। आपको वैज्ञानिक के रूप में यह निर्धारित करने की आवश्यकता है कि डेटा एकत्र किया गया था या अन्य बाहरी जानकारी के आधार पर डेटा IID को मान्य करना उचित है।

कुछ उदाहरणों पर गौर कीजिए।

परिदृश्य 1: हम एक एकल वितरण से स्वतंत्र रूप से डेटा का एक सेट उत्पन्न करते हैं जो 2 मानदंडों का मिश्रण होता है।

परिदृश्य 2: हम पहले एक द्विपद वितरण से एक लिंग चर उत्पन्न करते हैं, फिर पुरुषों और महिलाओं के भीतर हम स्वतंत्र रूप से एक सामान्य वितरण से डेटा उत्पन्न करते हैं (लेकिन पुरुष और महिलाओं के लिए मानदंड भिन्न होते हैं), फिर हम लिंग की जानकारी को हटा देते हैं या खो देते हैं।

परिदृश्य 1 में डेटा IID है और परिदृश्य 2 में डेटा स्पष्ट रूप से पहचाना नहीं गया है (पुरुषों और महिलाओं के लिए अलग-अलग वितरण), लेकिन 2 परिदृश्यों के लिए 2 वितरण डेटा से अप्रभेद्य हैं, आपको यह जानना होगा कि डेटा कैसे है अंतर निर्धारित करने के लिए उत्पन्न किया गया था।

परिदृश्य 3: मैं अपने शहर में रहने वाले लोगों का एक सरल यादृच्छिक नमूना लेता हूं और एक सर्वेक्षण करता हूं और शहर के सभी लोगों के बारे में अनुमान लगाने के लिए परिणामों का विश्लेषण करता हूं।

परिदृश्य 4: मैं अपने शहर में रहने वाले लोगों का एक सरल यादृच्छिक नमूना लेता हूं और एक सर्वेक्षण करता हूं और देश के सभी लोगों के बारे में अनुमान लगाने के लिए परिणामों का विश्लेषण करता हूं।

परिदृश्य 3 में विषयों को स्वतंत्र (ब्याज की आबादी का सरल यादृच्छिक नमूना) माना जाएगा, लेकिन परिदृश्य 4 में उन्हें स्वतंत्र नहीं माना जाएगा क्योंकि वे ब्याज की आबादी के एक छोटे से उपसमुच्चय से चुने गए थे और भौगोलिक निकटता संभवतः लागू होगी निर्भरता। लेकिन 2 डेटासेट समान हैं, यह तरीका है कि हम उस डेटा का उपयोग करने का इरादा रखते हैं जो यह निर्धारित करता है कि क्या वे इस मामले में स्वतंत्र या निर्भर हैं।

इसलिए केवल डेटा दिखाने के लिए परीक्षण करने का कोई तरीका नहीं है कि डेटा IID है, प्लॉट और अन्य डायग्नोस्टिक्स कुछ प्रकार के गैर-IID दिखा सकते हैं, लेकिन इनमें से कोई भी गारंटी नहीं देता है कि डेटा IID है। आप विशिष्ट मान्यताओं से भी तुलना कर सकते हैं (IID सामान्य है IID की तुलना में अधिक आसान है)। कोई भी परीक्षण अभी भी एक नियम है, लेकिन परीक्षणों को अस्वीकार करने में विफलता कभी साबित नहीं करती है कि यह आईआईडी है।

इस बारे में निर्णय कि क्या आप यह मानने को तैयार हैं कि IID की स्थिति को इस आधार पर बनाए जाने की आवश्यकता है कि डेटा कैसे एकत्र किया गया था, यह अन्य जानकारी से कैसे संबंधित है, और इसका उपयोग कैसे किया जाएगा।

संपादन:

यहां गैर-समरूप के लिए उदाहरणों का एक और सेट दिया गया है।

परिदृश्य 5: डेटा एक रिग्रेशन से अवशिष्ट है जहां पर विषमता है (संस्करण समान नहीं हैं)।

परिदृश्य 6: डेटा औसत 0 के साथ मानदंडों के मिश्रण से है, लेकिन अलग-अलग संस्करण हैं।

परिदृश्य 5 में हम स्पष्ट रूप से देख सकते हैं कि अवशेषों को समान रूप से वितरित नहीं किया जाता है यदि हम अवशेष मूल्यों या अन्य चर (भविष्यवक्ताओं, या संभावित भविष्यवक्ताओं) के खिलाफ अवशेषों की साजिश करते हैं, लेकिन स्वयं अवशिष्ट (बाहरी जानकारी के बिना) परिदृश्य 6 से अप्रभेद्य होंगे।


इस उत्तर का पहला भाग, विशेष रूप से, मुझे थोड़ा भ्रमित (या भ्रमित) लगता है। बीइंग आईड यादृच्छिक वेरिएबल्स के परिमित सेट की एक अच्छी तरह से परिभाषित गणितीय संपत्ति है । यदि दूसरे मामले में "लिंग की जानकारी खोने के बाद" यादृच्छिक चर मिलते हैं तो आपके परिदृश्य 1 और 2 समान हैं । वे दोनों मामलों में Iid हैं!
कार्डिनल

ग्रेगसेन मैं आपके दावे से पूरी तरह सहमत नहीं हूं। हो सकता है कि आपको पता हो कि डेटा समान रूप से वितरित यादृच्छिक चर के अनुक्रम से आते हैं। आपको ठीक-ठीक पता नहीं है कि किस मॉडल ने इसे बनाया है। यह हो सकता है कि वे स्वतंत्र रूप से उत्पन्न होते हैं या वैकल्पिक रूप से एक स्थिर समय श्रृंखला से आते हैं। यह तय करने के लिए कि कौन सा मामला है कि आप जानते हैं कि समान वितरण सामान्य है। फिर दोनों possiblities एक स्थिर अनुक्रम की श्रेणी में आते हैं और यह आईआईडी तभी सभी नॉनज़ीरो अंतराल autocorrelations 0. हैं यह देखने के लिए पूरी तरह से परीक्षण करने के लिए उचित है हो सकता है अगर correla
माइकल आर Chernick

2
@ कार्डिनल, तो क्या आप इस बात से सहमत हैं कि परिदृश्य 2 में डेटा को लिंग की जानकारी खोने से पहले समान रूप से वितरित नहीं किया गया है? इसलिए हमारे पास एक ऐसा मामला होगा जहां वे समान नहीं हैं, लेकिन अंतर बताने का एकमात्र तरीका चर के बाहर की जानकारी का उपयोग करना है (इस मामले में लिंग)। हाँ, IID एक अच्छी तरह से परिभाषित गणितीय संपत्ति है, लेकिन ऐसा एक पूर्णांक है, क्या आप परीक्षण कर सकते हैं कि क्या डेटा बिंदु 3. एक पूर्णांक है जो एक फ़्लोटिंग पॉइंट नंबर या एक निरंतर मान के रूप में संग्रहीत है जिसे बाहर की जानकारी के बिना राउंड किया गया है जहां यह आया था। से।
ग्रेग स्नो

2
जेडएक्समैंएक्सजे,मैंजेएक्समैं|जेडएक्सजे|जेडजेडजेड

लेकिन आप जो भी ऊपर कहते हैं, उसके बारे में सभी जानकारी का उपयोग करता है कि कैसे डेटा एकत्र / उत्पन्न किया गया था, न कि केवल डेटा। और यहां तक ​​कि अगर हमारे पास डेटा है जो समर्थन करता है कि कोई भी समय श्रृंखला ऑटोक्रेलेशन नहीं है जो हमें स्थानिक सहसंबंध या गैर-स्वतंत्रता के अन्य प्रकारों के बारे में कुछ भी नहीं बताता है। क्या हम वास्तव में हर संभव प्रकार की निर्भरता के लिए परीक्षण कर सकते हैं और सार्थक परिणाम प्राप्त कर सकते हैं? या हमें इस बारे में जानकारी का उपयोग करना चाहिए कि डेटा को कैसे निर्देशित करने के लिए एकत्र किया गया था जो परीक्षण सार्थक होने की सबसे अधिक संभावना है?
ग्रेग स्नो

5

यदि डेटा में एक इंडेक्स ऑर्डरिंग है तो आप समय श्रृंखला के लिए सफेद शोर परीक्षणों का उपयोग कर सकते हैं। अनिवार्य रूप से इसका मतलब है कि सभी गैर शून्य लैग में ऑटोक्रॉलेशन का परीक्षण करना 0. यह स्वतंत्रता का हिस्सा है। मुझे लगता है कि आपका दृष्टिकोण मुख्य रूप से धारणा के पहचाने गए वितरित भाग को संबोधित करने की कोशिश कर रहा है। मुझे लगता है कि आपके दृष्टिकोण के साथ कुछ समस्याएं हैं। मुझे लगता है कि एकरूपता के लिए परीक्षण करने के लिए पर्याप्त पी-मान प्राप्त करने के लिए आपको बहुत सारे विभाजन की आवश्यकता है। फिर प्रत्येक केएस परीक्षण शक्ति खो देता है। यदि आप विभाजन का उपयोग कर रहे हैं जो डेटा के कुछ हिस्सों पर ओवरलैप करता है तो परीक्षण सहसंबद्ध होंगे। कम संख्या में विभाजन के साथ एकरूपता के परीक्षण में शक्ति की कमी होती है। लेकिन कई विभाजन के साथ एकरूपता परीक्षण शक्तिशाली हो सकता है लेकिन केएस परीक्षण नहीं होगा। यह भी लगता है कि यह दृष्टिकोण चर के बीच निर्भरता का पता लगाने में मदद नहीं करेगा।

@ gu11aume मुझे यकीन नहीं है कि आप गैर-समय श्रृंखला के लिए एक सामान्य परीक्षण के साथ क्या पूछ रहे हैं। स्थानिक डेटा गैर-समय श्रृंखला डेटा का एक रूप प्रदान करते हैं। वहाँ फ़ंक्शन जिसे वैरोग्राम कहा जाता है, को देखा जा सकता है। एक-आयामी अनुक्रमों के लिए, मुझे डेटा के आदेश देने के किसी भी अन्य तरीके से समय के अनुसार अनुक्रमों के बीच बहुत अंतर नहीं दिखता है। एक ऑटोकैरेलेशन फ़ंक्शन को अभी भी परिभाषित और परीक्षण किया जा सकता है। जब आप कहते हैं कि आप नमूने में स्वतंत्रता का परीक्षण करना चाहते हैं, तो मुझे लगता है कि आपके पास एक आदेश है जिसमें नमूने एकत्र किए गए हैं। इसलिए मुझे लगता है कि सभी 1-आयामी मामले उसी तरह काम करते हैं।


2
(+1) चूंकि मैं यही सोच रहा था, लेकिन पुन:: "यदि डेटा में एक इंडेक्स ऑर्डरिंग है, तो आप समय श्रृंखला के लिए सफेद शोर परीक्षणों का उपयोग कर सकते हैं। अनिवार्य रूप से इसका मतलब है कि सभी गैर शून्य लैग में ऑटोक्रॉलेशन का परीक्षण 0. है।" - यह तर्क तभी लागू होता है जब आप एक स्थिर समय श्रृंखला के साथ काम कर रहे होते हैं, है ना? अन्यथा, आप पिछड़े हुए सहसंबंधों के बारे में भ्रामक परिणाम प्राप्त कर सकते हैं। उदाहरण के लिए, क्या होगा यदि केवल "बाद में" समय श्रृंखला का हिस्सा स्वतःसंबंधित था?
मैक्रों

1
@ मैक्रो ने सोचा कि ओपी के लिए आपके प्रश्न के आधार पर आपके मन में क्या था। लेकिन मुझे नहीं लगा कि यह इंगित करने के लिए उनकी प्रतिक्रिया की प्रतीक्षा करना आवश्यक था। यह तब लागू होता है जब आप स्वतंत्रता की तलाश में होते हैं। लेकिन मैं आपकी बात समझता हूं। व्यवहार में आप केवल पहले k lags की जांच करते हैं। यदि श्रृंखला स्थिर होती तो सहसंबंध कश्मीर के साथ घट जाते लेकिन गैर-श्रृंखलाओं के लिए ऐसा नहीं होता। तो कम से कम सिद्धांत में आप एक गैर-श्रृंखला के लिए बड़े अंतराल पर सहसंबंध को याद करेंगे।
माइकल आर। चेरिक

2
सीआर(yटी,yरों)=(रों,टी)(रों,टी)|रों-टी|

आपके उत्तर के लिए धन्यवाद माइकल! आप सही हैं: यदि डेटा एक समय श्रृंखला है, तो ऑटो-सहसंबंध की जांच करना सबसे अच्छा तरीका है। विभाजन केएस दृष्टिकोण की आपकी आलोचना के लिए, आपके पास एक बिंदु भी है। इसलिए, हम अभी भी सामान्य (गैर समय श्रृंखला) मामले में कोई परीक्षण नहीं छोड़ रहे हैं।
गुई ११

2
पहला नॉन-जीरो ऑटोकॉर्पेशन लैग 60 और केवल 60 के अन्य गुणकों पर है। यदि समय श्रृंखला की लंबाई 55 है, तो हम दो बिंदु 60 लैग को अलग नहीं कर सकते। सॉवे यह देखने के लिए जाँच नहीं कर सकता है कि लैग 60 सहसंबंध 0 है या नहीं। यदि श्रृंखला की लंबाई 65 है तो हम अंतराल 60 सहसंबंध का अनुमान लगा सकते हैं लेकिन केवल 5 अंतराल 60 जोड़े पर आधारित है। इसलिए अनुमान का विचलन बड़ा है और हमारे पास इस गैर-शून्य सहसंबंध का पता लगाने की शक्ति नहीं है।
माइकल आर। चेरिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.