ड्राइंग द्वारा एक प्रदर्शन तथाकथित गैर पैरामीट्रिक बूटस्ट्रैप मान लीजिए आकार के नमूने मूल से प्रत्येक प्रतिस्थापन के साथ टिप्पणियों। मेरा मानना है कि यह प्रक्रिया आनुभविक cdf द्वारा संचयी वितरण समारोह का आकलन करने के बराबर है:
http://en.wikipedia.org/wiki/Empirical_distribution_function
और फिर एक पंक्ति में अनुमानित cdf बार से टिप्पणियों का अनुकरण करके बूटस्ट्रैप नमूने प्राप्त करना ।
यदि मैं इसमें सही हूं, तो किसी को ओवरफिटिंग के मुद्दे को संबोधित करना होगा, क्योंकि अनुभवजन्य सीएफडी में एन मापदंडों के बारे में है। बेशक, asymptotically यह जनसंख्या cdf में परिवर्तित होता है, लेकिन परिमित नमूनों के बारे में क्या? उदाहरण के लिए, अगर मैं आपको बताऊं कि मेरे पास 100 अवलोकन हैं और मैं cdf को के रूप में दो मापदंडों के साथ अनुमान लगाने जा रहा हूं , तो आप चिंतित नहीं होंगे। हालाँकि, यदि मापदंडों की संख्या 100 तक जाती है, तो यह बिल्कुल उचित नहीं होगा।
इसी तरह, जब कोई एक मानक कई रैखिक प्रतिगमन को नियोजित करता है, तो त्रुटि शब्द का वितरण रूप में अनुमानित किया जाता है । यदि कोई अवशिष्ट को बूटस्ट्रैप करने के लिए स्विच करने का निर्णय लेता है, तो उसे यह महसूस करना होगा कि अब n पैरामीटर हैं जिनका उपयोग केवल त्रुटि अवधि वितरण को संभालने के लिए किया जाता है।
क्या आप मुझे कुछ ऐसे स्रोतों तक सीमित कर सकते हैं जो इस मुद्दे को स्पष्ट रूप से संबोधित करते हैं, या मुझे बताएं कि यदि आपको लगता है कि यह गलत है, तो यह मुद्दा क्यों नहीं है।