बूटस्ट्रैपिंग - क्या मुझे पहले आउटलेर्स को हटाने की आवश्यकता है?


19

हमने एक नई उत्पाद सुविधा का विभाजन परीक्षण चलाया है और यह मापना चाहते हैं कि राजस्व का उत्थान महत्वपूर्ण है या नहीं। हमारी टिप्पणियों को निश्चित रूप से वितरित नहीं किया जाता है (हमारे अधिकांश उपयोगकर्ता खर्च नहीं करते हैं, और जो ऐसा करते हैं, उनके भीतर यह बहुत सारे छोटे खर्च करने वालों और कुछ बहुत बड़े खर्च करने वालों के लिए भारी है)।

हमने साधन की तुलना करने के लिए बूटस्ट्रैपिंग का उपयोग करने का निर्णय लिया है, डेटा के मुद्दे को सामान्य रूप से वितरित नहीं करने के लिए (साइड-क्वेश्चन: क्या यह बूटस्ट्रैपिंग का वैध उपयोग है?)

मेरा प्रश्न यह है कि क्या बूटस्ट्रैपिंग चलाने से पहले मुझे डेटा सेट से आउटलेर को ट्रिम करना होगा (जैसे कुछ बहुत बड़े खर्च करने वाले), या इससे कोई फर्क नहीं पड़ता?


1
अच्छा सवाल: मैं शायद प्रो और बहस कर सकता हूं और आउटलेर्स को हटाने के खिलाफ हूं। यदि आप आउटलेयर के बारे में चिंतित हैं और आप जो तलाश रहे हैं, तो मध्ययुगीनों का उपयोग क्यों नहीं करते हैं? यह देखते हुए कि पैसे से संबंधित चर में अक्सर अत्यधिक तिरछा वितरण होता है (उदाहरण के लिए पेरेटो) जो पहले स्थान पर अनुचित नहीं हो सकता है।
us --r11852

1
@ user11852 मीडियाकर्मी आपको इस बारे में बहुत कम बताते हैं कि राजस्व के लिए क्या प्रासंगिक है। यह "आउटलेर्स" को हटाने के पक्ष में आपके तर्क को देखना दिलचस्प होगा, खासकर जब ये कुल राजस्व में प्रमुख योगदानकर्ता होते हैं।
whuber

1
दुर्भाग्य से माध्य हमेशा शून्य होगा, जैसा कि <10% उपयोगकर्ता
31228

2
@ user11852 आपका सामान्य तर्क है कि आउटलेयर वैध हैं सहायक है। लेकिन, प्रवर्धन की संभावना के संबंध में, यह मुझे लगता है कि इसके विपरीत सच है: बूटस्ट्रैपिंग में केवल तभी काम करने का मौका होता है जब पूर्ण नमूने का उपयोग किया जाता है। अन्यथा यह एक परियों की कहानी प्रस्तुत करता है, हमें बता रहा है कि आउटलेर मौजूद नहीं होने पर चीजें कैसी होंगी - लेकिन जाहिर है वे करते हैं। बड़ी समस्या यह है कि छोटे नमूनों पर लागू होने पर बूटस्ट्रैपिंग का सैद्धांतिक रूप से औचित्य है: सिद्धांत एक स्पर्शोन्मुख है।
whuber

2
यह एक महत्वपूर्ण प्रश्न (+1) है। क्या आप अपने डेटासेट का एक छोटा सा नमूना या एक नकली नमूना जोड़ सकते हैं जो इसे प्रश्न से मिलता जुलता है? मुझे लगता है कि इस मामले में चित्रण प्रदान करना अधिक फलदायी होगा।
user603

जवाबों:


6

इसे संबोधित करने से पहले, यह स्वीकार करना महत्वपूर्ण है कि "आउटलेर्स को हटाने" के सांख्यिकीय कदाचार को बहुत अधिक लागू सांख्यिकीय शिक्षाशास्त्र में गलत तरीके से प्रख्यापित किया गया है। परंपरागत रूप से, आउटलेर को उच्च उत्तोलन, उच्च प्रभाव टिप्पणियों के रूप में परिभाषित किया जाता है। एक को डेटा के विश्लेषण में इस तरह की टिप्पणियों की पहचान करनी चाहिए, लेकिन वे शर्तें अकेले उन टिप्पणियों को हटाने का वारंट नहीं करती हैं। एक "वास्तविक रूपरेखा" एक उच्च उत्तोलन / उच्च प्रभाव अवलोकन है जो प्रयोगात्मक डिजाइन के प्रतिकृति के साथ असंगत है। अवलोकन के लिए इस तरह के रूप में उस आबादी और "डेटा जनरेटिंग तंत्र" के पीछे विज्ञान के विशेष ज्ञान की आवश्यकता होती है। सबसे महत्वपूर्ण पहलू यह है कि आपको संभावित आउटलेर एप्रीओरी की पहचान करने में सक्षम होना चाहिए ।

बूटस्ट्रैप चीजों के पहलू के रूप में, बूटस्ट्रैप का अर्थ है स्वतंत्र, अनुकरण करने के लिए, नमूना आबादी से दोहराया ड्रॉ। यदि आप अपने विश्लेषण योजना में बहिष्करण मानदंडों को निर्धारित करते हैं, तो आपको अभी भी संदर्भित बूटस्ट्रैप नमूना वितरण में बहिष्कृत मान छोड़ना चाहिए । ऐसा इसलिए है क्योंकि आप अपने डेटा का नमूना लेने के बाद बहिष्करण लागू करने के कारण बिजली की हानि के लिए जिम्मेदार होंगे। हालाँकि, यदि कोई निर्धारित बहिष्करण मानदंड नहीं हैं और पोस्ट हॉक एडजुडिकेशन का उपयोग करके आउटलेर्स को हटा दिया जाता है , जैसा कि मैं स्पष्ट रूप से विरोध कर रहा हूं, इन मूल्यों को हटाने से इनफ्लेशन में वही त्रुटियां फैलेंगी जो आउटलेर्स को हटाने के कारण होती हैं।

100 लोगों के एक अनियंत्रित सरल यादृच्छिक नमूने में धन और खुशी पर एक अध्ययन पर विचार करें। यदि हमने बयान लिया, "1% आबादी के पास दुनिया की 90% संपत्ति है", तो हम वास्तव में, एक बहुत ही प्रभावशाली मूल्य का निरीक्षण करेंगे। आगे मान लीजिए कि, जीवन की एक बुनियादी गुणवत्ता से परे, बड़ी आय (गैर-अस्थिर रैखिक प्रवृत्ति) के कारण कोई अतिरिक्त खुशी नहीं थी। तो यह व्यक्तिगत लाभ भी अधिक है।

अनधिकृत डेटा पर कम से कम वर्ग प्रतिगमन गुणांक फिट का अनुमान है कि इन आंकड़ों में एक जनसंख्या पहले क्रम प्रवृत्ति का औसत है। यह हमारे 1 व्यक्ति द्वारा नमूने में भारी रूप से देखा गया है, जिसकी खुशी औसत आय स्तर के करीब लोगों के साथ संगत है। यदि हम इस व्यक्ति को हटा देते हैं, तो कम से कम वर्ग प्रतिगमन ढलान बहुत बड़ा है, लेकिन प्रतिगामी का विचलन कम हो जाता है, इसलिए एसोसिएशन के बारे में अनुमान लगभग समान है। ऐसा करने में कठिनाई यह है कि मैंने उन शर्तों को निर्धारित नहीं किया था जिनमें व्यक्तियों को बाहर रखा जाएगा। यदि किसी अन्य शोधकर्ता ने इस अध्ययन के डिजाइन को दोहराया, तो वे औसतन एक उच्च आय का नमूना लेंगे, जो व्यक्तिगत रूप से खुश होंगे, और मेरे "छंटनी" परिणामों के साथ असंगत परिणाम प्राप्त करेंगे।

यदि हम मध्यम आय खुशी एसोसिएशन में रुचि रखते थे , तो हमें यह निर्धारित करना चाहिए कि हम "$ 100,000 वार्षिक आय से कम आय वाले व्यक्तियों की तुलना करें"। इसलिए बाहरी रूप से हटाने के कारण हम एक ऐसे एसोसिएशन का अनुमान लगा सकते हैं जिसका हम वर्णन नहीं कर सकते हैं, इसलिए पी-मान अर्थहीन हैं।

दूसरी ओर, मिसकैरिब्रेटेड चिकित्सा उपकरण और मुखर स्व-रिपोर्ट किए गए सर्वेक्षण झूठ को हटाया जा सकता है। वास्तविक विश्लेषण होने से पहले बहिष्करण मानदंडों को जितना अधिक सटीक रूप से वर्णित किया जा सकता है, उतना अधिक मान्य और सुसंगत परिणाम ऐसे विश्लेषण का उत्पादन करेगा।


मुझे यकीन नहीं है कि मैं समझता हूं कि " यदि आप अपनी विश्लेषण योजना में बहिष्करण मानदंडों को निर्धारित करते हैं, तो आपको अभी भी संदर्भित बूटस्ट्रैप नमूना वितरण में बहिष्कृत मान छोड़ना चाहिए। " आप उल्लेख करते हैं कि यह "है क्योंकि आप शक्ति के नुकसान के लिए जिम्मेदार होंगे। " आपके डेटा का नमूना लेने के बाद बहिष्करण लागू करना। "मुझे नहीं लगता कि यह क्यों माना जाता है कि नमूनाकरण के बाद बहिष्करण मानदंड लागू करने से बिजली की हानि होती है, और न ही कैसे / क्यों बाहर किए गए मामलों को बूटस्ट्रैप नमूने में छोड़ दिया जाता है" (?) के लिए यह? और न ही क्यों यह कुछ ऐसा है जो स्पष्ट रूप से "के लिए जिम्मेदार होना चाहिए।" शायद मैं यहाँ सघन हो रहा हूँ।
जेक वेस्टफॉल

पी

हम्म, मेरी सोच यह थी कि अगर किसी ने बहिष्करण मानदंड को अग्रिम में निर्दिष्ट किया है - ताकि हम स्पष्ट रूप से कुछ प्रकार के मामलों में दिलचस्पी न रखें, और भविष्य में भविष्य के अध्ययन की प्रतिकृति इन समान बहिष्करण मानदंडों का उपयोग करेगी - तो छोड़ने का मतलब होगा उन मामलों में बूटस्ट्रैप नमूने के बाहर, क्योंकि वे जनसंख्या के एक खंड हैं जिनके बारे में हम कोई निष्कर्ष नहीं निकालना चाहते हैं। मैं यह देखता हूं कि भविष्य की प्रतिकृति कैसे अलग-अलग मामलों को छोड़कर समाप्त हो सकती हैं, लेकिन मैं इस बात से बहुत संबंध नहीं बना सकता कि यह उन मामलों के लिए क्यों मायने रखता है जिन्हें हम स्पष्ट रूप से रुचि रखते हैं ..
जेक वेस्टफॉल

1
पीएच0

0

इसे एक बाहरी समस्या के रूप में देखना मुझे गलत लगता है। यदि "<10% उपयोगकर्ता सभी खर्च करते हैं", तो आपको उस पहलू को मॉडल करना होगा। टोबिट या हेकमैन रिग्रेशन दो संभावनाएँ होंगी।


2
वर्तमान में, यह एक जवाब की तुलना में अधिक टिप्पणी है। क्या आप इसे और अधिक जवाब देने के लिए इसका विस्तार करने का मन करेंगे-ईश?
गूँग -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.