क्या एक उच्च कभी बेकार है?


23

आँकड़ों में हम रेखीय प्रतिगमन कर रहे हैं, उनमें से बहुत शुरुआत है। सामान्य तौर पर, हम जानते हैं कि जितना बेहतर होगा, लेकिन क्या कभी ऐसा परिदृश्य है जहां एक उच्च एक बेकार मॉडल होगा?R2R2


8
आँकड़ों का जवाब ।stackexchange.com / questions / 13314 आपको कुछ विचार दे सकता है।
whuber

2
एक उदाहरण के साथ यहां एक स्थिति पर चर्चा की गई है । उदाहरण के लिए, अगर आपने वहां के उदाहरण में coin2 पर coin1 के परिणामों को फिर से प्राप्त किया है, तो आपको 85% से अधिक मिलेगा , लेकिन यह स्पष्ट संबंध पूरी तरह से सहज है। R2
Glen_b -Reinstate मोनिका

2
R2 एक मॉडल नहीं है। इसलिए आपको कहना चाहिए "... एक उच्च एक बेकार मॉडल से आएगा" या "बल्कि एक उच्च एक बेकार मॉडल होगा"। R2R2
रिचर्ड हार्डी


एक प्रासंगिक धागा: आंकड़े.stackexchange.com/q/414349/121522
मोनिका

जवाबों:


43

हाँ। सांख्यिकीय मॉडल के मूल्यांकन के मानदंड हाथ में विशिष्ट समस्या पर निर्भर करते हैं और या सांख्यिकीय महत्व के कुछ यांत्रिक कार्य नहीं हैं (हालांकि वे मायने रखते हैं)। प्रासंगिक सवाल यह है, "क्या मॉडल आपको डेटा को समझने में मदद करता है?"R2

उच्च के साथ व्यर्थ प्रतिगमनR2

  1. उच्च प्राप्त करने का सबसे सरल तरीका बाएं जूते पर दाहिने जूते के कुछ बराबर करना है। मुझे अपने दाहिने जूते का आकार बताएं, और मैं आपके बाएं जूते के आकार की बड़ी सटीकता से भविष्यवाणी कर सकता हूं। विशाल ! क्या शानदार सांख्यिकीय मॉडल है! सिवाय इसके कि इसका मतलब था कि पूजा। आप एक प्रतिगमन के बाएँ और दाएँ हाथ की तरफ एक ही चर लगाकर महान प्राप्त कर सकते हैं , लेकिन यह विशाल प्रतिगमन लगभग निश्चित रूप से बेकार होगा।R2R2R2R2

  2. ऐसे अन्य मामले हैं जिनमें दाहिने हाथ की तरफ एक चर शामिल है, यह वैचारिक रूप से गलत काम है (भले ही यह उठाता हो )। मान लीजिए कि आप अनुमान लगाने की कोशिश कर रहे हैं कि कुछ अल्पसंख्यक समूह के साथ भेदभाव किया जाता है और नौकरी पाने की संभावना कम है। आपको इस बात पर नियंत्रण नहीं करना चाहिए कि कंपनी ने नौकरी के आवेदन के बाद कॉल बैक दिया क्योंकि अल्पसंख्यकों के नौकरी के आवेदनों पर प्रतिक्रिया देने की संभावना कम हो सकती है, जिसके माध्यम से भेदभाव होता है! गलत नियंत्रण को जोड़ना आपके प्रतिगमन को व्यर्थ कर सकता है।R2

  3. आप अधिक रेजिस्टर जोड़कर हमेशा को बढ़ा सकते हैं ! मैं दाहिने हाथ की ओर जब तक मैं जो कुछ भी मुझे पसंद करता है, तब तक रेजिस्टर जोड़कर रख सकता हूं। श्रम आय की भविष्यवाणी करने के लिए, मैं कुछ बिंदुओं पर शिक्षा नियंत्रण, आयु नियंत्रण, तिमाही नियत प्रभाव, ज़िप कोड निश्चित प्रभाव, व्यवसाय नियत प्रभाव, फर्म निश्चित प्रभाव, परिवार नियत प्रभाव, पालतू निश्चित प्रभाव, बाल लंबाई आदि जोड़ सकता हूं। समझ बनाने के लिए संघर्ष लेकिन ऊपर जा रहा है। एक रजिस्ट्रार के रूप में सब कुछ जोड़ना "किचन सिंक" रिग्रेशन के रूप में जाना जाता है। आप उच्च प्राप्त कर सकते हैं, लेकिन बड़े पैमाने पर डेटा को ओवरफिट कर सकते हैं: आपका मॉडल मॉडल का अनुमान लगाने के लिए उपयोग किए गए नमूने की पूरी तरह से भविष्यवाणी करता है (उच्चR2R2R2R2R2) लेकिन अनुमानित मॉडल नए डेटा पर बुरी तरह विफल रहता है।

  4. एक ही विचार बहुपद वक्र फिटिंग में दिखाई दे सकता है। मुझे यादृच्छिक डेटा दें, और मैं 200 डिग्री बहुपद को फिट करके शायद महान प्राप्त कर सकता हूं । हालांकि नए डेटा पर, अनुमानित बहुपद के कारण काम करने में विफल हो जाएगा। फिर से, अनुमानित मॉडल के लिए उच्च लेकिन अनुमानित मॉडल बेकार है।R2R2

  5. बिंदु (3-4) यही कारण है कि हमने को समायोजित किया है , जो अधिक रजिस्टरों को जोड़ने के लिए कुछ जुर्माना प्रदान करता है, लेकिन समायोजित को आम तौर पर डेटा ओवरफिट करके अभी भी रस लिया जा सकता है। इसमें आश्चर्यजनक रूप से निरर्थक विशेषता भी है कि यह नकारात्मक हो सकता है।R2R2

मैं ऐसे उदाहरण भी दे सकता हूं जहां कम ठीक है (जैसे परिसंपत्ति मूल्य निर्धारण मॉडल में दांव का अनुमान लगाना) लेकिन यह पोस्ट पहले ही बहुत लंबी हो गई है। संक्षेप में, समग्र प्रश्न कुछ ऐसा होना चाहिए, "यह जानना कि मैं समस्या के बारे में और आँकड़ों के बारे में क्या जानता हूं, क्या यह मॉडल मुझे डेटा को समझने / समझाने में मदद करता है?" इस प्रश्न का उत्तर देने में मदद करने के लिए एक उपकरण हो सकता है, लेकिन यह इतना सरल नहीं है जितना उच्च मॉडल हमेशा बेहतर होते हैं।R2R2R2


बहुत सारे अच्छे अंकों के लिए +1। मैं यह जानने की कोशिश कर रहा हूं कि स्वर के बारे में क्या कहना है ....
rolando2

2
R2

2
R2

7

"उच्चतर बेहतर है" आर-स्क्वायर के लिए अंगूठे का एक बुरा नियम है।

डॉन मॉरिसन ने कुछ साल पहले कुछ प्रसिद्ध लेख लिखे थे जिसमें दिखाया गया था कि उद्योग के आधार पर आर-स्क्वायर शून्य तक पहुंच सकते हैं जो अभी भी कार्रवाई योग्य और लाभदायक दोनों हैं। उदाहरण के लिए, 10 मिलियन घरों को मेल करने वाली पत्रिका की सदस्यता के लिए प्रत्यक्ष विपणन की भविष्यवाणी में, कम एकल अंकों में आर-वर्ग लाभदायक अभियान (आरओआई के आधार पर) उत्पन्न कर सकते हैं यदि मेलिंग प्रतिक्रिया के शीर्ष 2 या 3 डिकाइल पर आधारित हो संभावना।

एक अन्य समाजशास्त्री (जिसका नाम मुझसे बच जाता है) ने डेटा टाइपिंग पर आर-वर्ग को खंडित किया है, जो कि wrt सर्वेक्षण अनुसंधान, 10-20% रेंज में आर-वर्ग मानक थे, जबकि व्यावसायिक डेटा के लिए, 40-60% रेंज में आर-वर्ग। उम्मीद की जा रही थी। उन्होंने कहा कि 80-90% या उससे अधिक के आर-वर्ग शायद मौलिक प्रतिगमन मान्यताओं के उल्लंघन में थे। हालाँकि, इस लेखक को मार्केटिंग मिक्स, टाइम सीरीज़ डेटा या "कारण" सुविधाओं के पूर्ण सेट वाले मॉडल (उदाहरण के लिए, मूल्य, पदोन्नति, स्थान और उत्पाद) के क्लासिक 4 "पीएस" के साथ कोई अनुभव नहीं था, जो आर- और का उत्पादन कर सकते हैं वर्गों 100% आ रहा है।

उन्होंने कहा, यहां तक ​​कि समझदार, थम्बनेल के नियम जैसे कि ये तकनीकी रूप से निरक्षर होने के दौरान बहुत मददगार नहीं होते हैं, जिनके बारे में भविष्यवाणी वाले मॉडल के बारे में पहला सवाल हमेशा यही होगा, "आर-स्क्वायर क्या है?"


7

अन्य उत्तर कई तरीकों की महान सैद्धांतिक व्याख्या प्रस्तुत करते हैं, जिन्हें आर-स्क्वैयर मानों को तय किया जा सकता है / फेक / भ्रामक / आदि .. यहाँ एक हाथ पर प्रदर्शन है जो हमेशा मेरे साथ अटका हुआ है, इसमें कोडित है r:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

यह R-squared मान> 0.90 प्रदान कर सकता है। पर्याप्त regressors जोड़ें और यहां तक ​​कि यादृच्छिक मान यादृच्छिक मानों की "भविष्यवाणी" कर सकते हैं।


1
दिलचस्प: इसके विपरीत set.seed(1)और set.seed(2)
पैट्रिक टीटी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.