वर्णनात्मक रूप से कहूं तो, "मैं एक डेटा सैंपल को सेंसर किए जाने की पेशकश करूंगा, अगर उसमें कुछ अवलोकनों को लिया जाए या उसका गठन किया जाए, तो सैंपल के चरम मूल्य लेकिन उनका सही मूल्य प्रेक्षित सैंपल रेंज के बाहर है"। लेकिन यह भ्रामक सीधा है।
तो चलिए पहले चर्चा करते हैं कि हम कैसे निष्कर्ष निकाल सकते हैं कि एक डेटा सेट सेंसर किया गया है, जो स्वाभाविक रूप से प्रश्न में प्रस्तुत मामलों पर चर्चा करने के लिए हमें ले जाएगा।
मान लीजिए कि हमें असतत रैंडम वेरिएबल से निम्न डेटा सेट दिया गया है , जिसके लिए केवल एक चीज जो हम जानते हैं, वह है गैर-नकारात्मक:X
{0,1,1,2,2,2,2,2,2,2}
क्या हम कह सकते हैं कि डेटा सेट सेंसर है? ठीक है, हम यह सोचने के हकदार हैं कि यह हो सकता है, लेकिन ऐसा जरूरी नहीं है:
1) की सीमा { 0 , 1 , 2 } और संभाव्यता वितरण { 0.1 , 0.1 हो सकती हैX{0,1,2} । यदि यह वास्तव में मामला है, तो ऐसा प्रतीत होता है कि यहां कोई सेंसर नहीं है, बस ऐसे यादृच्छिक चर से "प्रत्याशित" नमूना, बाउंडेड समर्थन और अत्यधिक विषम वितरण के साथ। {0.1,0.1,0.8}
2) लेकिन यह मामला हो सकता है कि की सीमा { 0 , 1 , 1 है । । । , 9 } वर्दी संभावना वितरण के साथ { 0.1 , 0.1 , । ।X{0,1,...,9} , जिस स्थिति में हमारे डेटा सैंपल को सबसे अधिक सेंसर किया गया है। {0.1,0.1,...0.1}
हम कैसे बता सकते हैं? यदि हम पूर्व ज्ञान या जानकारी रखते हैं , तो हम उसे नहीं छोड़ सकते , जो हमें एक या दूसरे मामले के पक्ष में बहस करने की अनुमति देगा। क्या प्रश्न में प्रस्तुत तीन मामले सेंसरिंग के प्रभाव से पहले के ज्ञान का प्रतिनिधित्व करते हैं? चलो देखते हैं:
केस ए) एक ऐसी स्थिति का वर्णन करता है, जहां कुछ टिप्पणियों के लिए हमारे पास केवल गुणात्मक जानकारी होती है जैसे "बहुत बड़े", "बहुत छोटे" आदि, जो हमें अवलोकन को एक अत्यधिक मूल्य पर असाइन करने की ओर ले जाता है। ध्यान दें कि केवल वास्तविक एहसास मूल्य को नहीं जानना एक चरम मूल्य निर्दिष्ट करने का औचित्य नहीं है। इसलिए हमारे पास इस आशय के बारे में कुछ जानकारी होनी चाहिए कि इन टिप्पणियों के लिए, उनका मूल्य सभी देखे गए लोगों से अधिक है या नीचे है। इस मामले में, यादृच्छिक चर की वास्तविक सीमा अज्ञात है, लेकिन हमारी गुणात्मक जानकारी हमें सेंसर नमूना बनाने की अनुमति देती है (यह एक और चर्चा है कि हम केवल उन टिप्पणियों को क्यों नहीं छोड़ते जिनके लिए हमारे पास वास्तविक एहसास मूल्य नहीं है। )।
प्रकरण बी) है नहीं , पर रोक लगाए का मामला अगर मैं इसे सही ढंग से समझ, बल्कि दूषित नमूना का मामला: हमारे एक प्रायोरी जानकारी हमें बताता है कि यादृच्छिक चर का अधिकतम मूल्य अधिक नहीं हो सकता (एक भौतिक कानून या एक की वजह से कहते हैं सामाजिक कानून -इस प्रकार यह ग्रेडिंग सिस्टम का डेटा है जो केवल 1 , 2 , 3 ) का उपयोग करता है । लेकिन हमने मान 4 और मान 5 भी देखे हैं । यह कैसे हो सकता है? डेटा की रिकॉर्डिंग में गलती। लेकिन ऐसे मामले में, हम कुछ के लिए नहीं जानते हैं कि 4 और 5 सभी 3 होना चाहिए31,2,345453(वास्तव में, एक कंप्यूटर के साइड कीबोर्ड को देखते हुए, यह अधिक संभावना है कि के 1 's हैं और 5 के 2 ' s हैं!)। नमूना को किसी भी तरह से "सही" करके, हम इसे सेंसर नहीं करते हैं, क्योंकि यादृच्छिक चर को पहली जगह में दर्ज की गई सीमा में नहीं माना जाता है (इसलिए मान 4 और 5 के लिए सौंपी गई कोई सच्ची संभावना नहीं है) )। 415245
केस सी) एक संयुक्त नमूने को संदर्भित करता है, जहां हमारे पास एक आश्रित चर और भविष्यवाणियां हैं। यहां, हमारे पास एक नमूना हो सकता है जहां अध्ययन के तहत घटना की संरचना के कारण आश्रित चर के मान एक या दोनों चरम पर केंद्रित होते हैं: "घंटे काम" सामान्य उदाहरण में, बेरोजगार लोग काम नहीं करते हैं लेकिन उनके पास होता काम किया (ध्यान से सोचें: क्या यह मामला वास्तव में इस उत्तर की शुरुआत में वर्णनात्मक "परिभाषा" के अंतर्गत आता है?)। इसलिए उन्हें रिकॉर्ड किए गए घंटों "शून्य" के साथ प्रतिगमन में पूर्वाग्रह पैदा करते हैं। अन्य चरम तक, अधिकतम काम की संख्या को 16 तक पहुंचने में सक्षम होने के लिए तर्क दिया जा सकता है16 / दिन, और ऐसे कर्मचारी हो सकते हैं जो दिए गए वेतन के लिए इतने काम करने को तैयार हों। लेकिन कानूनी ढांचा इसकी अनुमति नहीं देता है और इसलिए हम ऐसे "घंटों काम" का पालन नहीं करते हैं। यहां, हम " इच्छित श्रम आपूर्ति समारोह" का अनुमान लगाने की कोशिश कर रहे हैं और यह इस चर के संबंध में है कि नमूना सेंसर के रूप में विशेषता है।
लेकिन अगर हमने घोषित किया कि हम क्या करना चाहते हैं तो अनुमान लगाना है " बेरोजगारी और कानूनी ढांचे की घटना को देखते हुए , तो नमूना सेंसर नहीं किया जाएगा, क्योंकि यह इन दो पहलुओं के प्रभाव को प्रतिबिंबित करेगा, कुछ ऐसा जो हम चाहते हैं यह करना है।
तो हम देखते हैं कि सेंसर के रूप में एक डेटा नमूना विशेषता बताने
क) विभिन्न स्थितियों और से आ सकता है
ख) कुछ देखभाल की आवश्यकता होती
-let अकेला तथ्य यह है कि यह करने के मामले के साथ भ्रमित किया जा सकता है काट-छांट ।