हमें बूटस्ट्रैपिंग की आवश्यकता क्यों है?


16

मैं वर्तमान में लैरी वासरमैन के "ऑल स्टैटिस्टिक्स" पढ़ रहा हूं और उन्होंने अध्याय में कुछ लिखा है, जो उन्होंने गैर-पैरामीट्रिक मॉडल के सांख्यिकीय कार्यों के आकलन के बारे में लिखा है।

उसने लिखा

"कभी-कभी हम कुछ गणनाएँ करके सांख्यिकीय फ़ंक्शन की अनुमानित मानक त्रुटि पा सकते हैं। हालांकि अन्य मामलों में यह स्पष्ट नहीं है कि मानक त्रुटि का अनुमान कैसे लगाया जाए"।

मैं यह बताना चाहूंगा कि अगले अध्याय में वह बूटस्ट्रैप के बारे में इस मुद्दे पर बात करने के लिए बात कर रहा है, लेकिन जब से मैं वास्तव में इस कथन को नहीं समझ पाया हूं, मुझे बूटस्ट्रैपिंग के पीछे पूरी तरह से प्रोत्साहन नहीं मिलता है?

उदाहरण के लिए क्या है जब यह स्पष्ट नहीं है कि मानक त्रुटि का अनुमान कैसे लगाया जाए?

सभी उदाहरण मैं अब तक देखा है किया गया "स्पष्ट" जैसे है X1,...Xn Ber(p) तोse^(p^n)=p^(1p^)/n


4
मैं एक साइट पर अन्य उदाहरणों के लिए बहुत सारे उदाहरण ढूंढ रहा हूं जो बूटस्ट्रैप का प्रस्ताव करते हैं । इनमें आंकड़े.स्टैकएक्सचेंज . com / questions / 14213 , सांख्यिकी.स्टैकएक्सचेंज. com / questions / 63979 , सांख्यिकी . stackexchange.com/questions/25218 , और बहुत अधिक शामिल हैं।
whuber

जवाबों:


16

दो उत्तर।

  1. दो साधनों के अनुपात की मानक त्रुटि क्या है? माध्यिका की मानक त्रुटि क्या है? किसी भी जटिल सांख्यिकीय की मानक त्रुटि क्या है? हो सकता है कि एक बंद फॉर्म समीकरण है, लेकिन यह संभव है कि किसी ने भी इसे अभी तक काम नहीं किया है।
  2. माध्य की मानक त्रुटि के लिए सूत्र (कहने) का उपयोग करने के लिए, हमें कुछ धारणाएँ बनानी चाहिए। यदि उन मान्यताओं का उल्लंघन किया जाता है, तो हम जरूरी तरीके का उपयोग नहीं कर सकते हैं। जैसा कि @Whuber टिप्पणियों में बताता है, बूटस्ट्रैपिंग हमें इन मान्यताओं में से कुछ को आराम करने की अनुमति देता है और इसलिए अधिक उपयुक्त मानक त्रुटियां प्रदान कर सकता है (हालांकि यह अतिरिक्त धारणाएं भी बना सकता है)।

2
उत्तर 1 ठीक है, लेकिन उत्तर 2 प्रश्न से भीख मांगता है, क्योंकि बूटस्ट्रैपिंग धारणा बनाता है, भी। मुझे लगता है कि बिंदु यह हो सकता है कि यह आम तौर पर अन्य लोकप्रिय प्रक्रियाओं की तुलना में अलग - अलग धारणाएं बनाता है , लेकिन यह सिर्फ मेरा अनुमान है कि आप क्या कहना चाह रहे हैं और मुझसे गलती हो सकती है।
whuber

@ धन्यवाद - धन्यवाद, मैंने थोड़ा स्पष्टीकरण जोड़ा है।
जेरेमी मील

5
संपादन के लिए धन्यवाद। लेकिन यह मामला है कि आम तौर पर बूटस्ट्रैपिंग बनाता नहीं है भिन्न अनुमान के बजाय वास्तव में आराम कुछ? उदाहरण के लिए, नमूने के एसई का अनुमान लगाने के लिए आवश्यक धारणाएं हैं कि डेटा आईआईडी हैं और अंतर्निहित वितरण में एक परिमित विचरण है। बूटस्ट्रैप को वास्तव में इस मामले में मान्यताओं को जोड़ना है : यह तब तक काम नहीं करता है जब तक कि नमूना का आकार "पर्याप्त रूप से बड़ा न हो।" यद्यपि यह तकनीकीताओं पर क़ुबूल करने जैसा लग सकता है, मैं जो पता करने की कोशिश कर रहा हूं वह बड़ी तस्वीर है: बूटस्ट्रैपिंग न तो रामबाण है और न ही यह हमेशा लागू होता है।
whuber

3
@JeremyMiles बूटस्ट्रैप मान्यताओं से मुक्त नहीं है। आपको यह सत्यापित करने की आवश्यकता है कि वितरण अधिकांश बूटस्ट्रैप त्रुटि गणनाओं के लिए निर्णायक है, जो अक्सर मानक त्रुटि के लिए एक सुसंगत अनुमानक प्राप्त करने की तुलना में अधिक जटिल हो सकता है। इसके अतिरिक्त, साधनों के अनुपात में error-पद्धति से प्राप्त एक बहुत आसान त्रुटि सन्निकटन है। इसलिए मुझे नहीं लगता कि उदाहरण ओपी की बात को गलत ठहराते हैं।
एडमो

9

एक उदाहरण चित्रण करने में मदद कर सकता है। मान लीजिए, एक कारण मॉडलिंग फ्रेमवर्क में, आप यह निर्धारित करने में रुचि रखते हैं कि क्या (ब्याज का एक जोखिम) Y (ब्याज का एक परिणाम ) के बीच संबंध एक चर डब्ल्यू द्वारा मध्यस्थता है । इसका मतलब है कि दो प्रतिगमन मॉडल में:XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

प्रभाव प्रभाव से अलग है γ 1β1γ1

एक उदाहरण के रूप में, धूम्रपान और हृदय (सीवी) जोखिम के बीच संबंध पर विचार करें। धूम्रपान स्पष्ट रूप से सीवी जोखिम (दिल का दौरा और स्ट्रोक जैसी घटनाओं के लिए) बढ़ता है जिससे नसें भंगुर और शांत हो जाती हैं। हालाँकि, धूम्रपान भी एक भूख दमनकारी है। इसलिए हम उत्सुक होंगे कि क्या धूम्रपान और सीवी जोखिम के बीच अनुमानित संबंध बीएमआई द्वारा मध्यस्थता है, जो स्वतंत्र रूप से सीवी जोखिम के लिए एक जोखिम कारक है। यहाँ एक लॉजिस्टिक रिग्रेशन मॉडल या कोरोनरी आर्टेरियल कैल्सीफिकेशन (CAC), लेफ्ट वेंट्रिकुलर इजेक्शन अंश (LVEF), या लेफ्ट वेंट्रिकुलर मास (LVM) जैसे एक द्विआधारी घटना (मायोकार्डियल या न्यूरोलॉजिकल इन्फर्क्शन) हो सकता है।Y

हम दो मॉडल फिट करेंगे: धूम्रपान के लिए समायोजन और अन्य कन्फ्यूडर जैसे उम्र, लिंग, आय, और हृदय रोग के पारिवारिक इतिहास के साथ परिणाम 2: फिर पिछले सभी सहसंयोजकों के साथ-साथ बॉडी मास इंडेक्स। मॉडल 1 और 2 के बीच धूम्रपान के प्रभाव में अंतर यह है कि हम अपने अनुमान को आधार बनाते हैं।

हम हाइपोथेसिस एच के परीक्षण में रुचि रखते हैं

H:β1=γ1K:β1γ1

एक संभावित प्रभाव माप हो सकता है: या एस = β 1 / γ 1 या माप के किसी भी संख्या। आप टी और एस के लिए सामान्य अनुमानक का उपयोग कर सकते हैं । इन अनुमानकों की मानक त्रुटि व्युत्पन्न करने के लिए बहुत जटिल है। उनमें से वितरण बूटस्ट्रेपिंग, तथापि, एक आम तौर पर लागू किया तकनीक है, और यह गणना करने के लिए आसान है पी कि से सीधे -value।T=β1γ1S=β1/γ1TSp


मुझे लगता है कि मैं समझता हूं कि आप इस उत्तर के साथ कहां जा रहे हैं, लेकिन मैं विवरण से हैरान हूं। क्या आप और एस के अपने विवरण में मापदंडों पर टोपी लगाने का इरादा रखते थे ? पाठ ऐसा लगता है जैसे अनुमानकों के बजाय एक मॉडल के गुण होने चाहिए। इस तरह से दो अलग-अलग मॉडलों के गुणों को मिलाने से क्या समझ में आता है ? यदि आप वास्तव में टोपी का मतलब करते हैं, तो टी और एस आँकड़े हैं, जाहिरा तौर पर अनुमानकर्ताओं के रूप में उपयोग किया जाना है, लेकिन वे अनुमान लगाने के लिए क्या हैं? TSTS
whuber

@ मुझे लगता है कि आप सही हैं कि पारंपरिक अंकन में वे टोपी का उपयोग नहीं करते हैं। मैं संपादन कर दूंगा। शायद मैं पर्याप्त स्पष्ट नहीं था ... समान डेटासेट पर दो अलग-अलग मॉडलों में एक ही चर फिट के लिए दो पैरामीटर हैं। और एस के आंकड़ों की मानक त्रुटि को सीधे गणना करना बहुत मुश्किल है । TS
एडमो

γ2=0

@ वाउचर आह मुझे भ्रम दिखाई देता है। कृपया यहाँ MacKinnon का एक अनुशंसित लेख देखें ।
एडमो

TSTTT

2

प्रत्येक सांख्यिकीय उपाय के लिए पैरामीट्रिक समाधान होना वांछनीय होगा, लेकिन एक ही समय में, काफी अवास्तविक। उन उदाहरणों में बूटस्ट्रैप काम में आता है। मेरे दिमाग में स्प्रिंग्स का उदाहरण अत्यधिक तिरछी लागत वितरण के दो साधनों के बीच अंतर को दर्शाता है। उस मामले में, क्लासिक दो-नमूना टी-परीक्षण अपनी सैद्धांतिक आवश्यकताओं को पूरा करने में विफल रहता है (जिन वितरणों से जांच के तहत नमूने खींचे गए थे, निश्चित रूप से सामान्यता से हट जाते हैं, उनकी लंबी दाएं पूंछ के कारण) और गैर-पैरामीट्रिक परीक्षणों को व्यक्त करने की कमी होती है निर्णयकर्ताओं (जो आमतौर पर रैंक में रुचि नहीं रखते हैं) के लिए उपयोगी घुसपैठ। उस मुद्दे पर रोक से बचने का एक संभावित समाधान दो-नमूना बूटस्ट्रैप टी-परीक्षण है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.