नमूना का बूटस्ट्रैप नमूना बनाम सांख्यिकीय


18

मैं एक है का कहना है कि नमूना और बूटस्ट्रैप नमूना एक stastitic के लिए इस नमूने से χ (जैसे मतलब)। जैसा कि हम सभी जानते हैं, यह बूटस्ट्रैप नमूना आंकड़े के अनुमानक के नमूना वितरण का अनुमान लगाता है ।

अब, इस बूटस्ट्रैप नमूने का मतलब मूल नमूने के आंकड़ों की तुलना में जनसंख्या के आंकड़ों का बेहतर अनुमान है ? किन स्थितियों में ऐसा होगा?


2
बूटस्ट्रैप नमूने का मतलब नमूने का मतलब है और आपको इस मामले में बूटस्ट्रैप नमूने की आवश्यकता नहीं है।
शीआन

1
धन्यवाद @ शीआन मुझे यकीन नहीं है कि मैं अनुसरण करता हूं। बूटस्ट्रैप नमूने का माध्य नमूना के माध्य से संख्यात्मक रूप से भिन्न हो सकता है। क्या आप यह कहना चाह रहे हैं कि दोनों अभी भी सैद्धांतिक रूप से समान हैं? क्या आप दोनों सिरों पर पुष्टि कर सकते हैं?
अमेलियो वाज़केज़-रीना

2
आइए हमारी शब्दावली को स्पष्ट करें: "बूटस्ट्रैप नमूना" या तो डेटा से एक विशिष्ट नमूना-के-प्रतिस्थापन के लिए संदर्भित हो सकता है या यह एक (बहुभिन्नरूपी) यादृच्छिक चर का उल्लेख कर सकता है , जिसमें इस तरह के नमूने को एक प्रतीति माना जाएगा। आप सही हैं कि एक बोध का मतलब डेटा के माध्य से भिन्न हो सकता है, लेकिन @ शीआन अधिक प्रासंगिक अवलोकन प्रदान करता है कि रैंडम वैरिएबल का मतलब (जो परिभाषा के अनुसार जनसंख्या का बूटस्ट्रैप अनुमान है ) को मेल खाना चाहिए डेटा के मतलब के साथ।
whuber

1
फिर आपका प्रश्न लगभग आँकड़ा के समान है ।stackexchange.com/questions/126633/… ; एकमात्र अंतर यह है कि बूटस्ट्रैप नमूना अहसास ओवरलैप कर सकता है, लेकिन उत्तर में दिए गए विश्लेषण को समान परिणाम के साथ बूटस्ट्रैप स्थिति में आसानी से ले जाया जाता है।
whuber

1
जैसा कि आपने कहा था कि मैं कनेक्शन देख रहा हूं, हालांकि बूटस्ट्रैप में एक "सबसेट विद रिप्लेसमेंट" है और अहसास ओवरलैप हो सकता है। मुझे लगता है कि बूटस्ट्रैप में पुनः नमूने प्राप्त करने के लिए उपयोग किए जाने वाले वितरण (जैसे pseudorandomness) भी बूटस्ट्रैप नमूने से अनुमान के पूर्वाग्रह को प्रभावित कर सकता है। शायद इसका उत्तर यह है कि सभी व्यावहारिक मामलों के लिए अंतर नगण्य है। यह वह है जो प्रश्न के बाद है: स्थिति, सूक्ष्मता और व्यवहार में अंतर।
अमेलियो वाज़केज़-रीना

जवाबों:


19

आइए सामान्यकरण करें, ताकि मामले के क्रूस पर ध्यान केंद्रित किया जा सके। मैं बिना किसी संदेह के छोड़ने के लिए सबसे बारीक विवरण लिखूंगा। विश्लेषण के लिए केवल निम्नलिखित की आवश्यकता होती है:

  1. समांतर माध्य संख्या का एक सेट के होने के लिए परिभाषित किया गया हैz1,,zm

    1m(z1++zm).
  2. उम्मीद एक रैखिक ऑपरेटर है। यही है, जब यादृच्छिक चर हैं और α मैं संख्याएं हैं, तो एक रैखिक संयोजन की अपेक्षा, उम्मीदों का रैखिक संयोजन है,Zi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

चलो एक नमूना हो ( बी 1 , ... , बी कश्मीर ) एक डाटासेट से प्राप्त एक्स = ( एक्स 1 , ... , एक्स एन ) लेने के द्वारा कश्मीर से समान रूप से तत्वों एक्स प्रतिस्थापन के साथ। चलो मीटर ( बी ) का समांतर माध्य हो बी । यह एक यादृच्छिक चर है। फिरB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

अपेक्षा की रैखिकता द्वारा निम्नानुसार है। चूँकि के तत्व सभी एक ही अंदाज़ में प्राप्त होते हैं, इसलिए सभी को एक ही तरह की उम्मीद होती है, b कहते हैं:Bb

E(B1)==E(Bk)=b.

यह पूर्वगामी को सरल बनाता है

E(m(B))=1k(b+b++b)=1k(kb)=b.

परिभाषा के अनुसार, प्रत्याशा मूल्यों की संभाव्यता-भारित राशि है। चूँकि प्रत्येक मान को चुने जाने के 1 / n के बराबर मौका है ,X1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

डेटा के अंकगणितीय माध्य।

, प्रश्न का उत्तर देने अगर एक का उपयोग करता है डेटा मतलब आबादी मतलब अनुमान लगाने के लिए है, तो बूटस्ट्रैप मतलब (जो मामला है कश्मीर = n ) भी बराबर होती है ˉ एक्स , और इसलिए है समान जनसंख्या माध्य का एक आकलनकर्ता के रूप में।x¯k=nx¯


आंकड़ों के लिए जो डेटा के रैखिक कार्य नहीं हैं, वही परिणाम जरूरी नहीं रखता है। हालाँकि, डेटा पर आंकड़े के मूल्य के लिए बूटस्ट्रैप माध्य को प्रतिस्थापित करना गलत होगा: यह नहीं है कि बूटस्ट्रैपिंग कैसे काम करता है। इसके बजाय, डेटा स्टैटिस्टिक से बूटस्ट्रैप का मतलब है कि हम आंकड़े के पूर्वाग्रह के बारे में जानकारी प्राप्त करते हैं। यह पूर्वाग्रह को हटाने के लिए मूल सांख्यिकीय को समायोजित करने के लिए इस्तेमाल किया जा सकता है । इस प्रकार, पूर्वाग्रह-सही अनुमान मूल सांख्यिकी और बूटस्ट्रैप माध्य का बीजगणितीय संयोजन बन जाता है। अधिक जानकारी के लिए, "बीसीए" (पूर्वाग्रह-सुधारित और त्वरित बूटस्ट्रैप) और "एबीसी" देखें। विकिपीडिया कुछ संदर्भ प्रदान करता है।


आपका मतलब है कि बूटस्ट्रैप माध्य की अपेक्षा डेटा माध्य के बराबर है, नहीं? बूटस्ट्रैप का मतलब स्वयं (मूल) डेटा नमूने द्वारा निर्धारित नहीं है।
कैप्यबरेटल

@ user2429920 बूटस्ट्रैप माध्य नमूना द्वारा निर्धारित एक आँकड़ा है। इस अर्थ में यह नमूना माध्य के समान है। इसकी उम्मीद नमूना वितरण के अर्थ में ली गई है। मुझे लगता है कि आप प्रतिस्थापन के साथ बार-बार subsampling के माध्यम से बूटस्ट्रैप माध्य की गणना करने की प्रक्रिया के सापेक्ष "अपेक्षा" का उपयोग कर रहे होंगे ।
whuber

1
मुझे लगता है कि अंतिम पैराग्राफ इस प्रश्न का वास्तविक उत्तर है क्योंकि यह सामान्य है और केवल माध्य सांख्यिकीय पर केंद्रित नहीं है। मुझे वही संदेह था जो ओपी ने किया था, और मुझे बीसीए के अस्तित्व के बारे में पता नहीं था। हालाँकि इस उत्तर में प्रदर्शन से मुझे बहुत मदद नहीं मिली (मैं अपने स्टेटिक के रूप में माध्य का उपयोग नहीं कर रहा हूँ) अंतिम पैराग्राफ इस मामले के क्रूक्स के बारे में बहुत स्पष्ट था। मेरा मानना ​​है कि शीआन का जवाब उस मामले को भी संबोधित करता है जहां माध्य सांख्यिकी का उपयोग किया जाता है, इसलिए वही मुद्दा। धन्यवाद!
गेब्रियल

1
@ गैब्रिएल अच्छे अंक। मैंने रिकॉर्ड की जाँच की: संपादन से पहले, यह प्रश्न मूल रूप से केवल माध्य के बारे में पूछा गया था । इसीलिए उत्तर उस सांख्यिकीय पर केंद्रित होते प्रतीत होते हैं।
व्हीबर

9

के बाद से बूटस्ट्रैप वितरण के रूप में परिभाषित किया गया है एफ एन ( एक्स ) = 1 बूटस्ट्रैप वितरण का मतलब हैएफ एन [ एक्स

F^n(x)=1ni=1nIXixXiiidF(x),
जब आप (आप करना चाहते हैं) इस उम्मीद, यानी, रैंडम ड्रॉ के एक औसत के अनुकरण संस्करण को लागू है, वहाँ है की इस सन्निकटन में मोंटे कार्लो परिवर्तनशीलता एफ एन[X], लेकिन इसका मतलब (अनुभवजन्य औसत का निष्कासन) और इसकी सीमा जब बूटस्ट्रैप सिमुलेशन की संख्या अनंत तक बढ़ती है, दोनों बिल्कुल ˉ X n हैं
EF^n[X]=1ni=1nXi=X¯n
EF^n[X]X¯n

2
+1 यह वह उत्तर है जो मैं मूल रूप से लिखना चाहता था, लेकिन डर था कि यह कुछ पाठकों के लिए बहुत अपारदर्शी हो सकता है। फिर भी मुझे यह देखकर खुशी हुई कि इतनी भव्यता से प्रस्तुत किया गया। मुझे यकीन नहीं है कि आप अपने अंतिम वाक्य में क्या मतलब रखते हैं, हालांकि, जहां आप अपनी "सीमा" से मतलब के लिए सिम्युलेटेड सन्निकटन की "अपेक्षा" को अंतर करने के लिए दिखाई देते हैं: क्योंकि उम्मीद निरंतर है (यह सिमुलेशन आकार के साथ भिन्न नहीं होती है ), वास्तव में लेने की कोई सीमा नहीं है।
whuber

@whuber: टिप्पणी के लिए धन्यवाद और मेरी कविता का जवाब लिखने के लिए क्षमा करें, ठीक उसी समय पर जैसा कि आपका! आपके स्पष्टीकरण बूटस्ट्रैप में नौसिखियों द्वारा निश्चित रूप से अधिक पठनीय हैं। मैंने अंतिम वाक्य को सही किया, जिसका सीमित हिस्सा बड़ी संख्या का कानून है।
शियान

3
उस अंतिम वाक्य में "माध्य" का आपका उपयोग काफी अस्पष्ट है! मैंने आपके एलएलएन सुराग से इसका पता लगाया। बूटस्ट्रैप वितरण के किसी भी परिमित सिमुलेशन के लिए, अनुकार में प्रत्येक नमूना अपना स्वयं का मतलब ("अर्थ" का एक अर्थ है) पैदा करता है। किसी दिए गए सिमुलेशन में उन सभी नमूनों का औसत एक सिमुलेशन मतलब पैदा करता है ( इसका एक और अर्थ है)। सिमुलेशन माध्य एक स्थिर में परिवर्तित हो जाता है क्योंकि अनुकार का आकार बड़ा हो जाता है, जो कि बूटस्ट्रैप माध्य (तीसरा अर्थ) है, और यह नमूना माध्य (चौथा अर्थ) के बराबर है । (और इस आबादी का अनुमान है मतलब --a पांचवें अर्थ!)
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.