यदि आप निष्कर्ष निकालते हैं कि क्या डेटा IID बाहरी जानकारी से आता है, न कि स्वयं डेटा से। आपको वैज्ञानिक के रूप में यह निर्धारित करने की आवश्यकता है कि डेटा एकत्र किया गया था या अन्य बाहरी जानकारी के आधार पर डेटा IID को मान्य करना उचित है।
कुछ उदाहरणों पर गौर कीजिए।
परिदृश्य 1: हम एक एकल वितरण से स्वतंत्र रूप से डेटा का एक सेट उत्पन्न करते हैं जो 2 मानदंडों का मिश्रण होता है।
परिदृश्य 2: हम पहले एक द्विपद वितरण से एक लिंग चर उत्पन्न करते हैं, फिर पुरुषों और महिलाओं के भीतर हम स्वतंत्र रूप से एक सामान्य वितरण से डेटा उत्पन्न करते हैं (लेकिन पुरुष और महिलाओं के लिए मानदंड भिन्न होते हैं), फिर हम लिंग की जानकारी को हटा देते हैं या खो देते हैं।
परिदृश्य 1 में डेटा IID है और परिदृश्य 2 में डेटा स्पष्ट रूप से पहचाना नहीं गया है (पुरुषों और महिलाओं के लिए अलग-अलग वितरण), लेकिन 2 परिदृश्यों के लिए 2 वितरण डेटा से अप्रभेद्य हैं, आपको यह जानना होगा कि डेटा कैसे है अंतर निर्धारित करने के लिए उत्पन्न किया गया था।
परिदृश्य 3: मैं अपने शहर में रहने वाले लोगों का एक सरल यादृच्छिक नमूना लेता हूं और एक सर्वेक्षण करता हूं और शहर के सभी लोगों के बारे में अनुमान लगाने के लिए परिणामों का विश्लेषण करता हूं।
परिदृश्य 4: मैं अपने शहर में रहने वाले लोगों का एक सरल यादृच्छिक नमूना लेता हूं और एक सर्वेक्षण करता हूं और देश के सभी लोगों के बारे में अनुमान लगाने के लिए परिणामों का विश्लेषण करता हूं।
परिदृश्य 3 में विषयों को स्वतंत्र (ब्याज की आबादी का सरल यादृच्छिक नमूना) माना जाएगा, लेकिन परिदृश्य 4 में उन्हें स्वतंत्र नहीं माना जाएगा क्योंकि वे ब्याज की आबादी के एक छोटे से उपसमुच्चय से चुने गए थे और भौगोलिक निकटता संभवतः लागू होगी निर्भरता। लेकिन 2 डेटासेट समान हैं, यह तरीका है कि हम उस डेटा का उपयोग करने का इरादा रखते हैं जो यह निर्धारित करता है कि क्या वे इस मामले में स्वतंत्र या निर्भर हैं।
इसलिए केवल डेटा दिखाने के लिए परीक्षण करने का कोई तरीका नहीं है कि डेटा IID है, प्लॉट और अन्य डायग्नोस्टिक्स कुछ प्रकार के गैर-IID दिखा सकते हैं, लेकिन इनमें से कोई भी गारंटी नहीं देता है कि डेटा IID है। आप विशिष्ट मान्यताओं से भी तुलना कर सकते हैं (IID सामान्य है IID की तुलना में अधिक आसान है)। कोई भी परीक्षण अभी भी एक नियम है, लेकिन परीक्षणों को अस्वीकार करने में विफलता कभी साबित नहीं करती है कि यह आईआईडी है।
इस बारे में निर्णय कि क्या आप यह मानने को तैयार हैं कि IID की स्थिति को इस आधार पर बनाए जाने की आवश्यकता है कि डेटा कैसे एकत्र किया गया था, यह अन्य जानकारी से कैसे संबंधित है, और इसका उपयोग कैसे किया जाएगा।
संपादन:
यहां गैर-समरूप के लिए उदाहरणों का एक और सेट दिया गया है।
परिदृश्य 5: डेटा एक रिग्रेशन से अवशिष्ट है जहां पर विषमता है (संस्करण समान नहीं हैं)।
परिदृश्य 6: डेटा औसत 0 के साथ मानदंडों के मिश्रण से है, लेकिन अलग-अलग संस्करण हैं।
परिदृश्य 5 में हम स्पष्ट रूप से देख सकते हैं कि अवशेषों को समान रूप से वितरित नहीं किया जाता है यदि हम अवशेष मूल्यों या अन्य चर (भविष्यवक्ताओं, या संभावित भविष्यवक्ताओं) के खिलाफ अवशेषों की साजिश करते हैं, लेकिन स्वयं अवशिष्ट (बाहरी जानकारी के बिना) परिदृश्य 6 से अप्रभेद्य होंगे।