सेंसर किए गए डेटा वास्तव में क्या हैं?


14

मैंने सेंसर डेटा के विभिन्न विवरण पढ़े हैं:

ए) जैसा कि इस थ्रेड में बताया गया है , एक निश्चित सीमा से नीचे या उससे ऊपर के बिना अयोग्य डेटा को सेंसर किया गया है। अयोग्य का मतलब है कि डेटा एक निश्चित सीमा से ऊपर या नीचे है, लेकिन हमें सही मूल्य नहीं पता है। डेटा फिर प्रतिगमन मॉडल में कम या उच्च सीमा मूल्य पर चिह्नित किया गया है । यह इस प्रस्तुति में वर्णन से मेल खाता है , जिसे मैंने बहुत स्पष्ट पाया है (प्रथम पृष्ठ पर दूसरी स्लाइड)। दूसरे शब्दों में, Y को न्यूनतम, अधिकतम मान या दोनों पर कैप किया जाता है क्योंकि हम उस सीमा के बाहर का सही मूल्य नहीं जानते हैं।

B) एक मित्र ने मुझे बताया कि हम आंशिक रूप से अज्ञात Y टिप्पणियों के लिए सेंसर किए गए डेटा मॉडल को लागू कर सकते हैं , बशर्ते हमारे पास अज्ञात Yi परिणामों के बारे में कम से कम कुछ जानकारी हो । उदाहरण के लिए, हम कुछ गुणात्मक मानदंडों (सामानों, देश, बोलीदाताओं धन, आदि) के आधार पर चुप और खुली नीलामी के मिश्रण के लिए अंतिम कीमत का अनुमान लगाना चाहते हैं। जबकि खुले नीलामी के लिए हम सभी को अंतिम कीमतों को पता Yi , मूक नीलामी के लिए हम केवल पहले बोली (जैसे कि, $ 1,000) नहीं बल्कि अंतिम कीमत पता है। मुझे बताया गया था कि इस मामले में डेटा ऊपर से सेंसर किया गया है और सेंसर रिग्रेशन मॉडल लागू किया जाना चाहिए।

ग) अंत में विकिपीडिया द्वारा दी गई परिभाषा है जहाँ पूरी तरह से गायब है लेकिन भविष्यवक्ता उपलब्ध हैं। मुझे यकीन नहीं है कि यह उदाहरण छंटे हुए डेटा से अलग कैसे है।Y

तो वास्तव में सेंसर किए गए डेटा क्या हैं?


6
अधिक प्रासंगिक विकिपीडिया लेख en.wikipedia.org/wiki/Censoring_%28statistics%29 पर है । हालांकि व्यापक नहीं है, यह कम से कम टाइप I और टाइप II सेंसर का वर्णन करता है और बाएं और दाएं सेंसर के साथ-साथ इंटरवल सेंसर को स्वीकार करता है।
whuber

जवाबों:


8

एक परिणाम और एक कोवरिएट x पर निम्नलिखित आंकड़ों पर विचार करें :yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

उपयोगकर्ता 1 के लिए, हमारे पास पूरा डेटा है। बाकी सभी के लिए, हमारे पास अधूरा डेटा है। उपयोगकर्ता 2, 3 और 4 सभी सेंसर किए गए हैं: सहसंयोजक के ज्ञात मूल्यों के अनुरूप परिणाम नहीं देखा गया है या ठीक से नहीं देखा गया है (बाएं- दाएं- और अंतराल-सेंसर)। कभी-कभी यह सर्वेक्षण डिजाइन में गोपनीयता के विचारों की एक कलाकृति है। अन्य समयों में, यह अन्य कारणों से होता है। उदाहरण के लिए, हम न्यूनतम मजदूरी या अखाड़ा क्षमता से ऊपर कंसर्ट टिकटों की वास्तविक मांग से नीचे किसी भी वेतन का निरीक्षण नहीं करते हैं।

उपयोगकर्ता 5 को काट दिया गया है: परिणाम और सहसंयोजक दोनों गायब हैं। यह आमतौर पर होता है क्योंकि हम केवल उन लोगों के डेटा एकत्र करते हैं जिन्होंने कुछ किया। उदाहरण के लिए, हम केवल उन लोगों का सर्वेक्षण करते हैं जिन्होंने कुछ खरीदा है ( ), इसलिए हम किसी को भी y = 0 के साथ उनके x s के साथ बाहर कर देते हैं । हमारे पास आउट डेटा में इस प्रकार के उपयोगकर्ता के लिए एक पंक्ति भी नहीं हो सकती है, हालांकि हम जानते हैं कि वे मौजूद हैं क्योंकि हम उस नियम को जानते हैं जिसका उपयोग उनके नमूने को उत्पन्न करने के लिए किया गया था। एक अन्य उदाहरण आकस्मिक ट्रंकेशन है: हम केवल उन लोगों के लिए वेतन प्रस्तावों का निरीक्षण करते हैं जो कार्यबल में हैं, क्योंकि हम मानते हैं कि जब आप काम कर रहे हैं तो मजदूरी की पेशकश मजदूरी है। ट्रंकेशन आकस्मिक है क्योंकि यह वाई पर निर्भर नहीं करता हैy>0y=0xy, लेकिन एक और चर पर।

संक्षेप में, ट्रंकेशन का अर्थ है कि सेंसर (अंक ए और बी) की तुलना में अधिक जानकारी हानि। इन दोनों प्रकार के "लापता" व्यवस्थित हैं।

इस प्रकार के डेटा के साथ काम करना आमतौर पर त्रुटि के बारे में एक मजबूत वितरण धारणा बनाना और इसे ध्यान में रखने की संभावना को संशोधित करता है। अधिक लचीले अर्ध-पैरामीट्रिक दृष्टिकोण भी संभव हैं। यह आपकी बात B में निहित है।


2
इस उत्तर के दो पहलू मुझे भ्रमित करते हैं। सबसे पहले, विशुद्ध रूप से लापता मूल्य जरूरी नहीं कि छंटनी को दर्शाता है। दूसरा, सेंसर करने का तरीका ("यादृच्छिक" बनाम "सूचनात्मक") अक्सर सेंसर करने के तथ्य जितना महत्वपूर्ण है, यह दर्शाता है कि अंतराल-मूल्यवान डेटा की मात्र रिकॉर्डिंग की तुलना में सेंसर करने के लिए अधिक है।
whuber

यह बहुत अच्छा उदाहरण है। क्या इसका मतलब है कि प्रत्येक " " पर अलग-अलग "सेंसरिंग सीमाएं" लागू की जा सकती हैं ? हम इस मामले में मॉडल कैसे बनाते हैं? यह B में मेरे मित्र के कथन को मान्य करेगा)।y
रॉबर्ट कुब्रिक

1
यदि आप होमोसैकेस्टिक, सामान्य रूप से वितरित त्रुटियों को मानने के लिए तैयार हैं, तो संभावना को लिखा जा सकता है इस और आप MLE का उपयोग अवलोकन-विशिष्ट सेंसर थ्रेसहोल्ड के साथ कर सकते हैं।
दिमित्री वी। मास्टरोव

3
@Peter (सही) सेंसर नहीं है? ट्रंकेशन तब होता है जब ऐसे सभी लोगों को बाहर रखा जाता है और नमूने में बिल्कुल भी नहीं गिना जाता है। En.wikipedia.org/wiki/Truncation_(statistics) देखें ।
whuber

1
@ पेटर क्या भ्रमित कर रहा है आप लिख रहे हैं "तो हम जानते हैं कि उस व्यक्ति का बीएमआई 30 से अधिक है": आप संभवतः किसी ऐसे व्यक्ति को कैसे संदर्भित कर सकते हैं जो आपके नमूने में भी नहीं है ("गिना नहीं गया")? प्रपत्र "बीएमआई> 30" का अवलोकन सेंसर कर रहा है, जबकि आपके विश्लेषण से ऐसे सभी टिप्पणियों का पूर्ण बहिष्करण, जब वे आबादी में मौजूद हो सकते हैं, तो विच्छेदन होता है। बाद के मामले में आप सभी कह सकते हैं "30 से ऊपर बीएमआई वाले लोगों को नमूने से बाहर रखा गया है।"
व्हीबर

9

वर्णनात्मक रूप से कहूं तो, "मैं एक डेटा सैंपल को सेंसर किए जाने की पेशकश करूंगा, अगर उसमें कुछ अवलोकनों को लिया जाए या उसका गठन किया जाए, तो सैंपल के चरम मूल्य लेकिन उनका सही मूल्य प्रेक्षित सैंपल रेंज के बाहर है"। लेकिन यह भ्रामक सीधा है।

तो चलिए पहले चर्चा करते हैं कि हम कैसे निष्कर्ष निकाल सकते हैं कि एक डेटा सेट सेंसर किया गया है, जो स्वाभाविक रूप से प्रश्न में प्रस्तुत मामलों पर चर्चा करने के लिए हमें ले जाएगा।

मान लीजिए कि हमें असतत रैंडम वेरिएबल से निम्न डेटा सेट दिया गया है , जिसके लिए केवल एक चीज जो हम जानते हैं, वह है गैर-नकारात्मक:X

{0,1,1,2,2,2,2,2,2,2}

क्या हम कह सकते हैं कि डेटा सेट सेंसर है? ठीक है, हम यह सोचने के हकदार हैं कि यह हो सकता है, लेकिन ऐसा जरूरी नहीं है:

1) की सीमा { 0 , 1 , 2 } और संभाव्यता वितरण { 0.1 , 0.1 हो सकती हैX{0,1,2} । यदि यह वास्तव में मामला है, तो ऐसा प्रतीत होता है कि यहां कोई सेंसर नहीं है, बस ऐसे यादृच्छिक चर से "प्रत्याशित" नमूना, बाउंडेड समर्थन और अत्यधिक विषम वितरण के साथ। {0.1,0.1,0.8}

2) लेकिन यह मामला हो सकता है कि की सीमा { 0 , 1 , 1 है , 9 } वर्दी संभावना वितरण के साथ { 0.1 , 0.1 , X{0,1,...,9} , जिस स्थिति में हमारे डेटा सैंपल को सबसे अधिक सेंसर किया गया है। {0.1,0.1,...0.1}

हम कैसे बता सकते हैं? यदि हम पूर्व ज्ञान या जानकारी रखते हैं , तो हम उसे नहीं छोड़ सकते , जो हमें एक या दूसरे मामले के पक्ष में बहस करने की अनुमति देगा। क्या प्रश्न में प्रस्तुत तीन मामले सेंसरिंग के प्रभाव से पहले के ज्ञान का प्रतिनिधित्व करते हैं? चलो देखते हैं:

केस ए) एक ऐसी स्थिति का वर्णन करता है, जहां कुछ टिप्पणियों के लिए हमारे पास केवल गुणात्मक जानकारी होती है जैसे "बहुत बड़े", "बहुत छोटे" आदि, जो हमें अवलोकन को एक अत्यधिक मूल्य पर असाइन करने की ओर ले जाता है। ध्यान दें कि केवल वास्तविक एहसास मूल्य को नहीं जानना एक चरम मूल्य निर्दिष्ट करने का औचित्य नहीं है। इसलिए हमारे पास इस आशय के बारे में कुछ जानकारी होनी चाहिए कि इन टिप्पणियों के लिए, उनका मूल्य सभी देखे गए लोगों से अधिक है या नीचे है। इस मामले में, यादृच्छिक चर की वास्तविक सीमा अज्ञात है, लेकिन हमारी गुणात्मक जानकारी हमें सेंसर नमूना बनाने की अनुमति देती है (यह एक और चर्चा है कि हम केवल उन टिप्पणियों को क्यों नहीं छोड़ते जिनके लिए हमारे पास वास्तविक एहसास मूल्य नहीं है। )।

प्रकरण बी) है नहीं , पर रोक लगाए का मामला अगर मैं इसे सही ढंग से समझ, बल्कि दूषित नमूना का मामला: हमारे एक प्रायोरी जानकारी हमें बताता है कि यादृच्छिक चर का अधिकतम मूल्य अधिक नहीं हो सकता (एक भौतिक कानून या एक की वजह से कहते हैं सामाजिक कानून -इस प्रकार यह ग्रेडिंग सिस्टम का डेटा है जो केवल 1 , 2 , 3 ) का उपयोग करता है । लेकिन हमने मान 4 और मान 5 भी देखे हैं । यह कैसे हो सकता है? डेटा की रिकॉर्डिंग में गलती। लेकिन ऐसे मामले में, हम कुछ के लिए नहीं जानते हैं कि 4 और 5 सभी 3 होना चाहिए31,2,345453(वास्तव में, एक कंप्यूटर के साइड कीबोर्ड को देखते हुए, यह अधिक संभावना है कि के 1 's हैं और 5 के 2 ' s हैं!)। नमूना को किसी भी तरह से "सही" करके, हम इसे सेंसर नहीं करते हैं, क्योंकि यादृच्छिक चर को पहली जगह में दर्ज की गई सीमा में नहीं माना जाता है (इसलिए मान 4 और 5 के लिए सौंपी गई कोई सच्ची संभावना नहीं है) )। 415245

केस सी) एक संयुक्त नमूने को संदर्भित करता है, जहां हमारे पास एक आश्रित चर और भविष्यवाणियां हैं। यहां, हमारे पास एक नमूना हो सकता है जहां अध्ययन के तहत घटना की संरचना के कारण आश्रित चर के मान एक या दोनों चरम पर केंद्रित होते हैं: "घंटे काम" सामान्य उदाहरण में, बेरोजगार लोग काम नहीं करते हैं लेकिन उनके पास होता काम किया (ध्यान से सोचें: क्या यह मामला वास्तव में इस उत्तर की शुरुआत में वर्णनात्मक "परिभाषा" के अंतर्गत आता है?)। इसलिए उन्हें रिकॉर्ड किए गए घंटों "शून्य" के साथ प्रतिगमन में पूर्वाग्रह पैदा करते हैं। अन्य चरम तक, अधिकतम काम की संख्या को 16 तक पहुंचने में सक्षम होने के लिए तर्क दिया जा सकता है16 / दिन, और ऐसे कर्मचारी हो सकते हैं जो दिए गए वेतन के लिए इतने काम करने को तैयार हों। लेकिन कानूनी ढांचा इसकी अनुमति नहीं देता है और इसलिए हम ऐसे "घंटों काम" का पालन नहीं करते हैं। यहां, हम " इच्छित श्रम आपूर्ति समारोह" का अनुमान लगाने की कोशिश कर रहे हैं और यह इस चर के संबंध में है कि नमूना सेंसर के रूप में विशेषता है।
लेकिन अगर हमने घोषित किया कि हम क्या करना चाहते हैं तो अनुमान लगाना है " बेरोजगारी और कानूनी ढांचे की घटना को देखते हुए , तो नमूना सेंसर नहीं किया जाएगा, क्योंकि यह इन दो पहलुओं के प्रभाव को प्रतिबिंबित करेगा, कुछ ऐसा जो हम चाहते हैं यह करना है।

तो हम देखते हैं कि सेंसर के रूप में एक डेटा नमूना विशेषता बताने
क) विभिन्न स्थितियों और से आ सकता है
ख) कुछ देखभाल की आवश्यकता होती
-let अकेला तथ्य यह है कि यह करने के मामले के साथ भ्रमित किया जा सकता है काट-छांट


6
यह एक अर्थशास्त्रीय परिप्रेक्ष्य प्रतीत होता है। ध्यान दें कि बायोमेडिकल रिसर्च में एक प्रतिक्रिया के रूप में अवधि (संभवतः शाब्दिक रूप से जीवित रहना), और अवलोकन अवधि के अंत तक घटना का अनुभव नहीं होने से रोगियों को सेंसर करना आम है। लेकिन उन रोगियों के लिए भी जो अवलोकन अवधि के दौरान फॉलो अप करने के लिए बाहर हो गए या खो गए थे। (शायद वे चले गए और संपर्क खो गया था।) हम जान सकते हैं कि अस्तित्व का समय> अंतिम संपर्क है, लेकिन अवलोकन अवधि के अंत से कम हो सकता है।
गूँग - मोनिका

केस बी गलत या दूषित डेटा के लिए नहीं है। मान लीजिए कि हम कुछ गुणात्मक मानदंडों (सामानों, देश, बोलीदाताओं के धन, ...) के आधार पर चुप और खुली नीलामी के मिश्रण की अंतिम कीमत का अनुमान लगाना चाहते हैं । मौन नीलामियों के लिए हम केवल पहली बोली (कहते हैं, $ 1,000) जानते हैं, लेकिन अंतिम कीमत नहीं। मुझे बताया गया था कि हम बिना सेंसर के मॉडलिंग के कुछ तरीकों का उपयोग करके मौन नीलामियों के डेटा का उपयोग कर सकते हैं।
रॉबर्ट कुब्रिक

1
@ यह निश्चित रूप से एक अर्थमितीय दृष्टिकोण है, जिसने उत्तर लिखा है!
एलेकोस पापाडोपोलोस

1
@RobertKunrick आप जिस मामले का वर्णन करते हैं, वह केस बी से मेल नहीं खाता है। जिस तरह से केस बी का वर्णन किया गया है, हम कई मानों का पालन ​​करते हैं, और फिर हमें बताया जाता है कि कुछ देखे गए मूल्य वास्तव में असंभव हैं। नीलामी के उदाहरण से यह कैसे मेल खाता है?
एलेकोस पापाडोपोलोस

कृपया इसे आलोचना के रूप में न लें, @AlecosPapadopoulos। मुझे नहीं लगता कि कुछ गलत है। मैं सिर्फ यह बताना चाहता हूं कि विभिन्न क्षेत्रों में शब्दों का अलग-अलग तरह से उपयोग किया जाता है, और यह कन्वेंशन स्टेट / बायोस्टैट नहीं है।
गंग -

2

मेरे लिए, सेंसर करने का मतलब है कि हम एक अवलोकन बारे में आंशिक जानकारी का निरीक्षण करते हैं । कि क्या मैं यह मतलब है, को देख के बजाय जेड मैं = z मैं हम देख जेड मैंएक मैं जहां एक मैं की प्राप्ति है एक मैं , जो नमूना अंतरिक्ष के कुछ यादृच्छिक coarsening है। हम सोच सकता है कि हम पहले एक विभाजन का चयन एक मैं नमूना अंतरिक्ष के जेड , तो जेड मैं उत्पन्न होता है, और हम रिपोर्ट एक मैंएक मैं ऐसा है किZiZi=ziZiaiaiAiAiZZiAiAiZiAiI(ZiA)AAiZiAiZi

[ZiZiai]Zi censored. We also might note that, as defined, this is a generalization of missing data where for Zi=(Xi,Yi) one might say Yi is missing if ai={x}×Y where Y is the sample space of Y and say Zi is missing if ai=Z. When one says "Zi is censored", if they are following my definition, what they usually mean is "Zi is censored, but is not missing".


1

It's important to distinguish censored versus truncated as well as missing data.

Censoring applies specifically to the issue of survival analysis and time-to-event outcomes wherein the event at hand is assumed to have occurred at some time past the point at which you stopped observing that individual. An example is men-who-have-sex-with-men (MSM) and the risk of incident HIV in a prospective study who move and cease contact with study coordinators.

Truncation applies to a continuous variable that evaluates to a specific point at which the actual value is known to be either greater than or less than that point. An example is the monitoring of subjects with HIV and the development of full blown AIDS, CD4 cell counts falling below 300 are evaluated to the lower-limit-of-detection 300.

Lastly, missing data are data that have actual values that are not observed in any sense. Censored data are not missing time-to-event data nor are they truncated.


1
There's another use of "truncation": to describe a data-generating process where observations above/below cut-offs are unobtainable. A classic example involves counting the no.eggs found in the nests of a particular bird species, where the species can only be identified from the egg; empty nests could be from any species so the no. zeroes is unknown. If the no. eggs follows a Poisson distribution, the egg counts from non-empty nests follow a truncated Poisson. So truncation produces missing data according to a specific well defined mechanism.
Scortchi - Reinstate Monica

1
... Your cell count data are indeed censored according to many people's understanding of the term, which is not restricted to time-to-event measurements, because you know everything about each subject except how far below 300 his cell count is; "truncation" here (alternatively "Winsorization") describes the method of analysis, viz the treatment of values below 300 as if they were equal to 300.
Scortchi - Reinstate Monica

A clear reference on the survival analysis concept of censoring: itl.nist.gov/div898/handbook/apr/section1/apr131.htm.
Eric O Lebigot

-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred

3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica

3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber

@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin

@DWin Thank you for that thoughtful clarification. I can only agree with the first point. In the great majority of datasets I have analyzed, though, it was necessary to re-express concentrations as logarithms--and there the distinction disappears. In other datasets where background has been subtracted (such as radiological measurements), there is no definite left endpoint, either. Your second point strikes me as unusual: I have never seen "truncation" used to refer to creating a subset of a distribution family.
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.