कहानी:
मेरी दादी चलती है, लेकिन चढ़ाई नहीं करती। कुछ दादी करती हैं। एक दादी किलिमंजारो पर चढ़ने के लिए प्रसिद्ध थीं ।
वह सुप्त ज्वालामुखी बड़ा है। यह अपने बेस से 16,000 फीट ऊपर है। (मेरी शाही इकाइयों से घृणा मत करो।) इसके शीर्ष पर ग्लेशियर भी हैं, कभी-कभी।
यदि आप एक वर्ष पर चढ़ते हैं जहां कोई ग्लेशियर नहीं है, और आप शीर्ष पर पहुंचते हैं, तो क्या यह वही शीर्ष है जैसे कि ग्लेशियर था? ऊंचाई अलग है। आपको जो रास्ता अपनाना है वह अलग है। क्या होगा अगर आप ग्लेशियर की मोटाई अधिक होने पर शीर्ष पर जाते हैं? क्या वह इसे एक उपलब्धि के रूप में अधिक बनाता है? लगभग 35,000 लोग हर साल इसे चढ़ने का प्रयास करते हैं , लेकिन लगभग 16,000 ही सफल होते हैं।
आवेदन:
इसलिए मैं अपनी दादी को वजन (उर्फ कम से कम मॉडल जटिलता) के नियंत्रण की व्याख्या करूंगा, इस प्रकार है:
दादी, आपका मस्तिष्क एक अद्भुत विचारक है कि आप इसे जानते हैं या नहीं। अगर मैं आपसे पूछूं कि 16,000 में से कितने लोग सोचते हैं कि वे वास्तव में शीर्ष पर पहुंच गए थे, तो आप कहेंगे "वे सभी"।
अगर मैं सभी 30,000 पर्वतारोहियों के जूते में सेंसर लगाता हूं, और समुद्र तल से ऊँचाई नापता हूं, तो उनमें से कुछ लोग दूसरों की तरह ऊँचे नहीं उठते और न ही योग्य हो सकते हैं। जब मैं ऐसा करता हूं कि मैं एक निरंतर मॉडल पर जा रहा हूं - मैं कह रहा हूं कि यदि ऊंचाई मापा अधिकतम ऊंचाई के कुछ प्रतिशत के बराबर नहीं है, तो यह शीर्ष नहीं है। कुछ लोग शीर्ष पर कूदते हैं। कुछ लोग बस लाइन पार करके बैठ जाते हैं।
मैं सेंसर में अक्षांश और देशांतर जोड़ सकता था, और कुछ उच्च क्रम समीकरणों को फिट कर सकता था और शायद मैं एक बेहतर फिट हो सकता था, और इसमें अधिक लोग हो सकते हैं, शायद कुल लोगों का 45% भी जो इसे प्रयास करते हैं।
तो मान लें कि अगले साल एक "बड़ा ग्लेशियर" वर्ष या "कोई ग्लेशियर" वर्ष नहीं है क्योंकि कुछ ज्वालामुखी वास्तव में पृथ्वी के अल्बेडो को बदल देते हैं । यदि मैं इस वर्ष से अपने जटिल और सटीक मॉडल को लेता हूं और इसे उन लोगों पर लागू करता हूं जो अगले साल चढ़ते हैं तो मॉडल के अजीब परिणाम होने वाले हैं। शायद हर कोई "पास" करेगा या पास होने के लिए बहुत अधिक होगा। शायद कोई भी पास नहीं होगा, और यह सोचेगा कि वास्तव में किसी ने चढ़ाई पूरी नहीं की है। खासकर जब मॉडल जटिल होता है तो यह अच्छी तरह से सामान्य नहीं होगा। यह इस वर्ष के "प्रशिक्षण" डेटा में बिल्कुल फिट हो सकता है, लेकिन जब नया डेटा आता है तो यह खराब व्यवहार करता है।
चर्चा:
जब आप मॉडल की जटिलता को सीमित करते हैं, तो आप आमतौर पर ओवर-फिटिंग के बिना बेहतर सामान्यीकरण कर सकते हैं। सरल मॉडल का उपयोग करना, जो वास्तविक दुनिया की भिन्नता को समायोजित करने के लिए अधिक निर्मित होते हैं, बेहतर परिणाम देने के लिए जाते हैं, बाकी सभी समान हैं।
अब आपके पास एक निश्चित नेटवर्क टोपोलॉजी है, इसलिए आप कह रहे हैं "मेरा पैरामीटर गिनती तय है" - मैं मॉडल जटिलता में भिन्नता नहीं रख सकता। बकवास। वजन में एन्ट्रापी को मापें। जब एन्ट्रापी अधिक होती है तो इसका मतलब है कि कुछ गुणांक दूसरों की तुलना में काफी अधिक "सूचनात्मकता" रखते हैं। यदि आपके पास बहुत कम एन्ट्रॉपी है, तो इसका मतलब है कि सामान्य तौर पर गुणांक "सूचनात्मकता" के समान स्तरों को ले जाता है। जरूरी नहीं कि अनौपचारिकता अच्छी चीज हो। लोकतंत्र में आप चाहते हैं कि सभी लोग समान हों, और जॉर्ज ऑरवेल जैसी चीजें "दूसरों की तुलना में अधिक समान" प्रणाली की विफलताओं का एक उपाय है। यदि आपके पास इसके लिए एक बड़ा कारण नहीं है, तो आप चाहते हैं कि वजन एक दूसरे के समान हो।
एक व्यक्तिगत टिप्पणी पर: वूडू या हेयूरिस्टिक्स का उपयोग करने के बजाय, मैं "सूचना मानदंड" जैसी चीजों को प्राथमिकता देता हूं क्योंकि वे मुझे विश्वसनीय और सुसंगत परिणाम प्राप्त करने की अनुमति देते हैं। AIC , AICc और BIC कुछ सामान्य और उपयोगी शुरुआती बिंदु हैं। समाधान की स्थिरता, या सूचना मानदंड परिणामों की सीमा निर्धारित करने के लिए विश्लेषण को दोहराना एक सामान्य दृष्टिकोण है। एक तौल में एंट्रोपी पर छत डालकर देख सकता है।