मैं कुछ समय सीखने की मशीन सीखने में व्यतीत कर रहा हूँ (पुनरावृत्ति के लिए खेद है :) और मैं मल्टीग्रेट लीनियर प्रतिगमन के मामले में कंप्यूटिंग रिग्रेशन गुणांक के लिए सीधे समीकरण हल करने पर ग्रेडिएंट डिसेंट को चुनने के अंगूठे के नियम के द्वारा साज़िश करने में मदद नहीं कर सकता ।
अंगूठे का नियम: यदि विशेषताओं की संख्या (गुणांक / स्वतंत्र चर पढ़ें) या एक लाख से ऊपर है, तो ग्रेडिएंट डिसेंट के साथ जाएं, और मैट्रिक्स व्युत्क्रम गणना कमोडिटी हार्डवेयर के लिए काफी प्रबंधनीय है और इस प्रकार कंप्यूटिंग गुणांक सीधे पर्याप्त रूप से अच्छा प्रदर्शन करना चाहिए।
कम्प्यूटेशनल रूप से बोलते हुए, मुझे ट्रेडऑफ / सीमाएं मिलती हैं। लेकिन एक सांख्यिकीय दृष्टिकोण से क्या हम वास्तव में कई गुणांक वाले मॉडल की गणना करते हैं? अगर मुझे ग्रेड स्कूल में मेरी बहुभिन्नरूपी रेखीय प्रतिगमन कक्षाएं याद हैं, तो हमें बहुत से स्वतंत्र चर का उपयोग करने के खिलाफ आगाह किया गया था क्योंकि वे आश्रित चर पर बहुत ही नगण्य प्रभाव डाल सकते हैं या उनके वितरण डेटा के बारे में हमारे द्वारा बनाई गई मान्यताओं का पालन नहीं करेंगे। यहां तक कि अगर मैंने "कई आईवीएस" सोचने के लिए अपने दिमाग का विस्तार किया, तब भी मैंने लाखों में नहीं सोचा होगा ।
प्रशन):
- क्या वास्तव में ऐसा होता है या यह एक सैद्धांतिक मुद्दा है?
- एक लाख IVs का विश्लेषण करने की बात क्या है? क्या यह वास्तव में हमें जानकारी के मूल्य में इतनी वृद्धि देता है कि उन्हें अनदेखा करने का विरोध किया जाता है?
- या ऐसा इसलिए है क्योंकि, शुरू में हमें पता नहीं है कि क्या उपयोगी है, इसलिए हम सिर्फ यह देखने के लिए लानत रिग्रेशन चलाते हैं कि क्या उपयोगी है और वहां से जाएं और संभवतः IVs के सेट को प्रून करें?
मैं अभी भी सिर्फ इसलिए विश्वास करता हूं क्योंकि हम "सब कुछ" का विश्लेषण कर सकते हैं, वास्तव में इसका मतलब यह नहीं है कि हमें इसे एक सॉल्वर में फेंक देना चाहिए (या यह करता है) और मेरे कुछ पिछले प्रश्न समान पीओवी को दर्शाते हैं।
मैं अभी कोर्स खत्म नहीं कर रहा हूं और मैं जल्द ही सवाल पूछ सकता हूं, लेकिन मैं अभी अपने सिर से यह "क्यों" नहीं सोच पाया और इसे अपनी क्षमता के अनुसार समझने की कोशिश कर रहा हूं।