सेंसर और ट्रंकेशन के बीच अंतर क्या है?


30

लाइफटाइम डेटा के लिए सांख्यिकीय मॉडल और तरीके पुस्तक में , यह लिखा है:

सेंसर करना: जब किसी यादृच्छिक कारण के कारण अवलोकन अधूरा होता है।
Truncation: जब अवलोकन की अधूरी प्रकृति अध्ययन डिजाइन के लिए अंतर्निहित एक व्यवस्थित चयन प्रक्रिया के कारण होती है।

ट्रंकेशन की परिभाषा में "अध्ययन डिजाइन के लिए अंतर्निहित व्यवस्थित चयन प्रक्रिया" का क्या मतलब है?

सेंसर और ट्रंकेशन के बीच अंतर क्या है?


3
यहाँ उत्तर पर एक नज़र डालें ।
दिमित्री वी। मास्टरोव

3
सेंसरिंग: "हमने उस क्षेत्र में कहीं अवलोकन किया है लेकिन हम नहीं जानते कि यह क्या है"। Truncation: "अवलोकन? क्या अवलोकन?"
Glen_b -रिटनेट मोनिका

आपकी परिभाषाएँ कहाँ से उद्धृत की गई हैं?
Glen_b -Reinstate मोनिका

1
@Glen_b मैंने अपना प्रश्न संपादित किया है।
ABC

जवाबों:


57

परिभाषाएँ अलग-अलग होती हैं, और कभी-कभी दोनों शब्दों का उपयोग एक-दूसरे से किया जाता है। मैं निम्नलिखित डेटा सेट का उपयोग करके सबसे आम उपयोगों को समझाने की कोशिश करूँगा:

11.25245

सेंसरिंग : कुछ टिप्पणियों को सेंसर किया जाएगा, जिसका अर्थ है कि हम केवल यह जानते हैं कि वे नीचे (या ऊपर) कुछ बाध्य हैं। यह उदाहरण के लिए हो सकता है यदि हम एक पानी के नमूने में एक रसायन की एकाग्रता को मापते हैं। यदि एकाग्रता बहुत कम है, तो प्रयोगशाला उपकरण रासायनिक की उपस्थिति का पता नहीं लगा सकते हैं। यह अभी भी मौजूद हो सकता है, लेकिन हम केवल यह जानते हैं कि एकाग्रता प्रयोगशाला की पहचान सीमा से नीचे है।

<1.5<1.5245,

ट्रंकेशन : डेटा जनरेट करने की प्रक्रिया ऐसी होती है कि ट्रंकेशन लिमिट के ऊपर (या नीचे) परिणामों का निरीक्षण करना संभव है। यह उदाहरण के लिए हो सकता है यदि माप एक डिटेक्टर का उपयोग करके लिया जाता है जो केवल तभी सक्रिय होता है जब यह संकेत का पता लगाता है एक निश्चित सीमा से ऊपर। बहुत से कमजोर संकेत आ सकते हैं, लेकिन हम इस डिटेक्टर का उपयोग करके कभी नहीं बता सकते।

यदि ट्रंकेशन सीमा 1.5 है, तो हमारा उदाहरण डेटा सेट हो जाएगा

245

इसलिए, यदि हम शब्द के गैर-तकनीकी उपयोग की अवधि में सोचते हैं, तो "सेंसर" भ्रामक है? इस सांख्यिकीय अर्थ में, इसका अर्थ है "अस्पष्ट" या "केवल कुछ सीमा के भीतर गिरने के लिए जाना जाता है", जैसे कि गैर-तकनीकी अर्थ की तरह कुछ में - अर्थात दबा हुआ या हटा दिया गया, जैसे कि कोई किताब दुकानों से हटा दी जाती है क्योंकि इसकी सामग्री के।
मंगल

3
ट्रंकेशन के एक ठोस उदाहरण के लिए, कार बीमा कंपनियां उन दुर्घटनाओं के बारे में कभी नहीं सुनती हैं, जहां क्षति कम होने से कम है, क्योंकि लोग वहां रिपोर्ट करते हैं। यह छंटनी छोड़ दी गई है; हम कभी भी इन घटनाओं का डेटा नहीं देखते हैं। सही सेंसरिंग के उदाहरण के लिए, जब कोई बीमार मरीज अपने डॉक्टर को देखना बंद करने का फैसला करता है, या किसी अलग शहर में चला जाता है, तो यह सब पता चल जाता है कि वे जिस दिन बचे थे उस दिन जीवित थे, लेकिन हम नहीं जानते कि उनकी मृत्यु कब हुई ।
डेविड व्हाइट

@ मार्स: मैं मानता हूं कि यह आधुनिक गैर-तकनीकी उपयोग से पीछे की ओर लगता है जहां "सेंसर" सभी ट्रेस को हटा रहा है, और "ट्रंकटिंग" विवरण हटा रहा है। लेकिन आंकड़ों में "सेंसरिंग" का उपयोग अधिक पुराने जमाने की गैर-तकनीकी अर्थों में किया जाता है, जहां सेंसर हटा सकता है, लेकिन किसी चीज का कोई निशान नहीं मिटा सकता: किसी तस्वीर या वीडियो के आक्रामक हिस्सों पर रखे गए ब्लैक बॉक्स या ब्लर्स, कवर अपवित्रता रेडियो या सैनिकों के पत्रों पर घर या वर्गीकृत दस्तावेज़ जारी करते हैं जहां सेंसर किए गए (अधिक आधुनिक शब्द "रिडक्टेड") भागों को काला कर दिया जाता है।
वेन

कल्पना कीजिए कि मैं दो प्रकार की घटनाओं के बीच के समय को मापता हूं। लेकिन मैं केवल 1 साल के लिए ही रिकॉर्ड कर सकता हूं। क्या समय को सेंसर या काट दिया जाएगा?
स्कैन

4

दूसरे क्षेत्र (प्रोग्रामिंग) से एक परिप्रेक्ष्य के रूप में, सेंसरिंग और ट्रंकटिंग दो अलग-अलग ऑपरेशन हैं।

एक संवेदनशील डेटासेट के साथ काम करते समय, उदाहरण के लिए सामाजिक सुरक्षा नंबर और टेलीफोन नंबर, मैं इसे सेंसर कर सकता हूं या इसे एक्सेस करने से पहले सेंसर कर देना चाहिए :

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

यह बाकी एप्लिकेशन को समान डेटा संरचनाओं के साथ सामान्य रूप से संचालित करने की अनुमति देता है, लेकिन कोई वास्तविक सूचना सामग्री या निजी जानकारी के प्रसार के साथ नहीं।

इसके विपरीत ट्रंकेशन, आमतौर पर एक निश्चित बिंदु के बाद शेष मूल्यों को काट रहा है। एक आवेदन पर काम करने के लिए, मुझे सैकड़ों हजारों अभिलेखों की आवश्यकता नहीं है, शायद मुझे केवल प्रत्येक के ~ 50 की आवश्यकता है जो डेटा तक पहुंच को बहुत तेज बनाता है और डेटा छोटा होता है।

ट्रंकेशन का एक समान प्रकार तब होता है जब किसी कॉलम को एक मान या सीमित लंबाई या सटीक के डेटा टाइप में सम्मिलित किया जाता है:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

1
+1 यह जानना महत्वपूर्ण है कि सेंसर और ट्रंकेशन के आंकड़ों के बाहर पूरी तरह से अलग अर्थ हो सकते हैं!
मॉन्सट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.