आँकड़ों में हम रेखीय प्रतिगमन कर रहे हैं, उनमें से बहुत शुरुआत है। सामान्य तौर पर, हम जानते हैं कि जितना बेहतर होगा, लेकिन क्या कभी ऐसा परिदृश्य है जहां एक उच्च एक बेकार मॉडल होगा?
आँकड़ों में हम रेखीय प्रतिगमन कर रहे हैं, उनमें से बहुत शुरुआत है। सामान्य तौर पर, हम जानते हैं कि जितना बेहतर होगा, लेकिन क्या कभी ऐसा परिदृश्य है जहां एक उच्च एक बेकार मॉडल होगा?
जवाबों:
हाँ। सांख्यिकीय मॉडल के मूल्यांकन के मानदंड हाथ में विशिष्ट समस्या पर निर्भर करते हैं और या सांख्यिकीय महत्व के कुछ यांत्रिक कार्य नहीं हैं (हालांकि वे मायने रखते हैं)। प्रासंगिक सवाल यह है, "क्या मॉडल आपको डेटा को समझने में मदद करता है?"
उच्च प्राप्त करने का सबसे सरल तरीका बाएं जूते पर दाहिने जूते के कुछ बराबर करना है। मुझे अपने दाहिने जूते का आकार बताएं, और मैं आपके बाएं जूते के आकार की बड़ी सटीकता से भविष्यवाणी कर सकता हूं। विशाल ! क्या शानदार सांख्यिकीय मॉडल है! सिवाय इसके कि इसका मतलब था कि पूजा। आप एक प्रतिगमन के बाएँ और दाएँ हाथ की तरफ एक ही चर लगाकर महान प्राप्त कर सकते हैं , लेकिन यह विशाल प्रतिगमन लगभग निश्चित रूप से बेकार होगा।
ऐसे अन्य मामले हैं जिनमें दाहिने हाथ की तरफ एक चर शामिल है, यह वैचारिक रूप से गलत काम है (भले ही यह उठाता हो )। मान लीजिए कि आप अनुमान लगाने की कोशिश कर रहे हैं कि कुछ अल्पसंख्यक समूह के साथ भेदभाव किया जाता है और नौकरी पाने की संभावना कम है। आपको इस बात पर नियंत्रण नहीं करना चाहिए कि कंपनी ने नौकरी के आवेदन के बाद कॉल बैक दिया क्योंकि अल्पसंख्यकों के नौकरी के आवेदनों पर प्रतिक्रिया देने की संभावना कम हो सकती है, जिसके माध्यम से भेदभाव होता है! गलत नियंत्रण को जोड़ना आपके प्रतिगमन को व्यर्थ कर सकता है।
आप अधिक रेजिस्टर जोड़कर हमेशा को बढ़ा सकते हैं ! मैं दाहिने हाथ की ओर जब तक मैं जो कुछ भी मुझे पसंद करता है, तब तक रेजिस्टर जोड़कर रख सकता हूं। श्रम आय की भविष्यवाणी करने के लिए, मैं कुछ बिंदुओं पर शिक्षा नियंत्रण, आयु नियंत्रण, तिमाही नियत प्रभाव, ज़िप कोड निश्चित प्रभाव, व्यवसाय नियत प्रभाव, फर्म निश्चित प्रभाव, परिवार नियत प्रभाव, पालतू निश्चित प्रभाव, बाल लंबाई आदि जोड़ सकता हूं। समझ बनाने के लिए संघर्ष लेकिन ऊपर जा रहा है। एक रजिस्ट्रार के रूप में सब कुछ जोड़ना "किचन सिंक" रिग्रेशन के रूप में जाना जाता है। आप उच्च प्राप्त कर सकते हैं, लेकिन बड़े पैमाने पर डेटा को ओवरफिट कर सकते हैं: आपका मॉडल मॉडल का अनुमान लगाने के लिए उपयोग किए गए नमूने की पूरी तरह से भविष्यवाणी करता है (उच्च) लेकिन अनुमानित मॉडल नए डेटा पर बुरी तरह विफल रहता है।
एक ही विचार बहुपद वक्र फिटिंग में दिखाई दे सकता है। मुझे यादृच्छिक डेटा दें, और मैं 200 डिग्री बहुपद को फिट करके शायद महान प्राप्त कर सकता हूं । हालांकि नए डेटा पर, अनुमानित बहुपद के कारण काम करने में विफल हो जाएगा। फिर से, अनुमानित मॉडल के लिए उच्च लेकिन अनुमानित मॉडल बेकार है।
बिंदु (3-4) यही कारण है कि हमने को समायोजित किया है , जो अधिक रजिस्टरों को जोड़ने के लिए कुछ जुर्माना प्रदान करता है, लेकिन समायोजित को आम तौर पर डेटा ओवरफिट करके अभी भी रस लिया जा सकता है। इसमें आश्चर्यजनक रूप से निरर्थक विशेषता भी है कि यह नकारात्मक हो सकता है।
मैं ऐसे उदाहरण भी दे सकता हूं जहां कम ठीक है (जैसे परिसंपत्ति मूल्य निर्धारण मॉडल में दांव का अनुमान लगाना) लेकिन यह पोस्ट पहले ही बहुत लंबी हो गई है। संक्षेप में, समग्र प्रश्न कुछ ऐसा होना चाहिए, "यह जानना कि मैं समस्या के बारे में और आँकड़ों के बारे में क्या जानता हूं, क्या यह मॉडल मुझे डेटा को समझने / समझाने में मदद करता है?" इस प्रश्न का उत्तर देने में मदद करने के लिए एक उपकरण हो सकता है, लेकिन यह इतना सरल नहीं है जितना उच्च मॉडल हमेशा बेहतर होते हैं।
"उच्चतर बेहतर है" आर-स्क्वायर के लिए अंगूठे का एक बुरा नियम है।
डॉन मॉरिसन ने कुछ साल पहले कुछ प्रसिद्ध लेख लिखे थे जिसमें दिखाया गया था कि उद्योग के आधार पर आर-स्क्वायर शून्य तक पहुंच सकते हैं जो अभी भी कार्रवाई योग्य और लाभदायक दोनों हैं। उदाहरण के लिए, 10 मिलियन घरों को मेल करने वाली पत्रिका की सदस्यता के लिए प्रत्यक्ष विपणन की भविष्यवाणी में, कम एकल अंकों में आर-वर्ग लाभदायक अभियान (आरओआई के आधार पर) उत्पन्न कर सकते हैं यदि मेलिंग प्रतिक्रिया के शीर्ष 2 या 3 डिकाइल पर आधारित हो संभावना।
एक अन्य समाजशास्त्री (जिसका नाम मुझसे बच जाता है) ने डेटा टाइपिंग पर आर-वर्ग को खंडित किया है, जो कि wrt सर्वेक्षण अनुसंधान, 10-20% रेंज में आर-वर्ग मानक थे, जबकि व्यावसायिक डेटा के लिए, 40-60% रेंज में आर-वर्ग। उम्मीद की जा रही थी। उन्होंने कहा कि 80-90% या उससे अधिक के आर-वर्ग शायद मौलिक प्रतिगमन मान्यताओं के उल्लंघन में थे। हालाँकि, इस लेखक को मार्केटिंग मिक्स, टाइम सीरीज़ डेटा या "कारण" सुविधाओं के पूर्ण सेट वाले मॉडल (उदाहरण के लिए, मूल्य, पदोन्नति, स्थान और उत्पाद) के क्लासिक 4 "पीएस" के साथ कोई अनुभव नहीं था, जो आर- और का उत्पादन कर सकते हैं वर्गों 100% आ रहा है।
उन्होंने कहा, यहां तक कि समझदार, थम्बनेल के नियम जैसे कि ये तकनीकी रूप से निरक्षर होने के दौरान बहुत मददगार नहीं होते हैं, जिनके बारे में भविष्यवाणी वाले मॉडल के बारे में पहला सवाल हमेशा यही होगा, "आर-स्क्वायर क्या है?"
अन्य उत्तर कई तरीकों की महान सैद्धांतिक व्याख्या प्रस्तुत करते हैं, जिन्हें आर-स्क्वैयर मानों को तय किया जा सकता है / फेक / भ्रामक / आदि .. यहाँ एक हाथ पर प्रदर्शन है जो हमेशा मेरे साथ अटका हुआ है, इसमें कोडित है r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
यह R-squared मान> 0.90 प्रदान कर सकता है। पर्याप्त regressors जोड़ें और यहां तक कि यादृच्छिक मान यादृच्छिक मानों की "भविष्यवाणी" कर सकते हैं।
set.seed(1)
और set.seed(2)
।