क्या नियमितीकरण मददगार हो सकता है यदि हम मॉडल के मापदंडों का केवल अनुमान लगाने (और व्याख्या) में रुचि रखते हैं, पूर्वानुमान या भविष्यवाणी में नहीं?
मैं देखता हूं कि यदि आपका लक्ष्य नए डेटा पर अच्छे पूर्वानुमान लगाना है, तो नियमितीकरण / क्रॉस-वैरिफिकेशन कितना उपयोगी है। लेकिन क्या होगा अगर आप पारंपरिक अर्थशास्त्र कर रहे हैं और आप सभी के बारे में परवाह कर रहे हैं अनुमान लगा रहा है ? क्या उस संदर्भ में क्रॉस-वैधीकरण भी उपयोगी हो सकता है? मेरे साथ संघर्ष करने वाली वैचारिक कठिनाई यह है कि हम परीक्षण डेटा पर वास्तव में गणना कर सकते हैं, लेकिन हम कभी भी गणना नहीं कर सकते क्योंकि सच परिभाषा द्वारा कभी नहीं मनाया गया है। (इस धारणा को ध्यान में रखें कि एक सच्चा भी है , अर्थात हम उन मॉडलों के परिवार को जानते हैं जिनसे डेटा उत्पन्न किया गया था।)एल ( वाई , वाई ) एल ( बीटा , बीटा ) बीटा बीटा
मान लीजिए कि आपका नुकसान । आप एक पूर्वाग्रह-विचरण व्यापार का सामना करते हैं, है ना? इसलिए, सिद्धांत रूप में, आप कुछ नियमित करने से बेहतर हो सकते हैं। लेकिन आप संभवतः अपने नियमितीकरण पैरामीटर का चयन कैसे कर सकते हैं?
मैं गुणांक \ बीटा \ इक्विव (\ Beta_1, \ beta_2, \ ldots, \ beta_k) के साथ एक रेखीय प्रतिगमन मॉडल का एक सरल संख्यात्मक उदाहरण देखकर खुश हूं , जहां शोधकर्ता का नुकसान फ़ंक्शन उदाहरण के लिए , या यहां तक कि बस । व्यवहार में, कोई भी उन उदाहरणों में अपेक्षित नुकसान को सुधारने के लिए क्रॉस-सत्यापन का उपयोग कर सकता है?
संपादित करें : DJohnson ने मुझे https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf पर इंगित किया , जो इस प्रश्न के लिए प्रासंगिक है। लेखक लिखते हैं कि
मशीन लर्निंग तकनीक ... \ टोपी {Y} की भविष्यवाणी करने के लिए एक अनुशासित तरीका प्रदान करती है जो (i) डेटा का उपयोग करके यह तय करती है कि कैसे पूर्वाग्रह-व्यापार को बंद किया जाए और (ii) बहुत समृद्ध सेट पर खोज करने की अनुमति देता है चर और कार्यात्मक रूप। लेकिन सब कुछ लागत पर आता है: एक को हमेशा ध्यान रखना चाहिए कि क्योंकि वे लिए तैयार हैं (वे कई अन्य मान्यताओं के बिना) \ टोपी {\ बीटा} के लिए बहुत उपयोगी गारंटी नहीं देते हैं ।
एक और प्रासंगिक पेपर, फिर से डीजेकोसन के लिए धन्यवाद: http://arxiv.org/pdf/1504.01132v3.pdf । यह पेपर उस प्रश्न को संबोधित करता है जो मैं ऊपर से संघर्ष कर रहा था:
एक ... मशीन शिक्षण विधियों को लागू करने के लिए मौलिक चुनौती जैसे कि प्रतिगमन पेड़ों को ऑफ-शेल्फ की समस्या का कारण अनुमान है कि क्रॉस-वैलिडेशन के आधार पर नियमितीकरण दृष्टिकोण आमतौर पर "जमीनी सच्चाई" को देखने पर निर्भर करते हैं, जो कि वास्तविक परिणाम हैं एक क्रॉस-सत्यापन नमूने में। हालांकि, यदि हमारा लक्ष्य उपचार प्रभावों की औसत चुकता त्रुटि को कम करना है, तो हम मुठभेड़ करते हैं [11] जिसे "कार्य-कारण समस्या की मूलभूत समस्या" कहते हैं: कारण प्रभाव किसी भी व्यक्तिगत इकाई के लिए नहीं देखा जाता है, और इसलिए हम सीधे नहीं करते हैं एक जमीनी सच्चाई है। हम उपचार के कारण प्रभाव के मतलब-चुकता त्रुटि के निष्पक्ष अनुमानों के निर्माण के लिए दृष्टिकोण का प्रस्ताव करके इसे संबोधित करते हैं।