क्या हम वास्तव में * मिलियन * गुणांक / स्वतंत्र चर के साथ बहुभिन्नरूपी प्रतिगमन विश्लेषण करते हैं?


18

मैं कुछ समय सीखने की मशीन सीखने में व्यतीत कर रहा हूँ (पुनरावृत्ति के लिए खेद है :) और मैं मल्टीग्रेट लीनियर प्रतिगमन के मामले में कंप्यूटिंग रिग्रेशन गुणांक के लिए सीधे समीकरण हल करने पर ग्रेडिएंट डिसेंट को चुनने के अंगूठे के नियम के द्वारा साज़िश करने में मदद नहीं कर सकता ।

अंगूठे का नियम: यदि विशेषताओं की संख्या (गुणांक / स्वतंत्र चर पढ़ें) या एक लाख से ऊपर है, तो ग्रेडिएंट डिसेंट के साथ जाएं, और मैट्रिक्स व्युत्क्रम गणना कमोडिटी हार्डवेयर के लिए काफी प्रबंधनीय है और इस प्रकार कंप्यूटिंग गुणांक सीधे पर्याप्त रूप से अच्छा प्रदर्शन करना चाहिए।10,000-1,000,000

कम्प्यूटेशनल रूप से बोलते हुए, मुझे ट्रेडऑफ / सीमाएं मिलती हैं। लेकिन एक सांख्यिकीय दृष्टिकोण से क्या हम वास्तव में कई गुणांक वाले मॉडल की गणना करते हैं? अगर मुझे ग्रेड स्कूल में मेरी बहुभिन्नरूपी रेखीय प्रतिगमन कक्षाएं याद हैं, तो हमें बहुत से स्वतंत्र चर का उपयोग करने के खिलाफ आगाह किया गया था क्योंकि वे आश्रित चर पर बहुत ही नगण्य प्रभाव डाल सकते हैं या उनके वितरण डेटा के बारे में हमारे द्वारा बनाई गई मान्यताओं का पालन नहीं करेंगे। यहां तक ​​कि अगर मैंने "कई आईवीएस" सोचने के लिए अपने दिमाग का विस्तार किया, तब भी मैंने लाखों में नहीं सोचा होगा ।

प्रशन):

  • क्या वास्तव में ऐसा होता है या यह एक सैद्धांतिक मुद्दा है?
  • एक लाख IVs का विश्लेषण करने की बात क्या है? क्या यह वास्तव में हमें जानकारी के मूल्य में इतनी वृद्धि देता है कि उन्हें अनदेखा करने का विरोध किया जाता है?
  • या ऐसा इसलिए है क्योंकि, शुरू में हमें पता नहीं है कि क्या उपयोगी है, इसलिए हम सिर्फ यह देखने के लिए लानत रिग्रेशन चलाते हैं कि क्या उपयोगी है और वहां से जाएं और संभवतः IVs के सेट को प्रून करें?

मैं अभी भी सिर्फ इसलिए विश्वास करता हूं क्योंकि हम "सब कुछ" का विश्लेषण कर सकते हैं, वास्तव में इसका मतलब यह नहीं है कि हमें इसे एक सॉल्वर में फेंक देना चाहिए (या यह करता है) और मेरे कुछ पिछले प्रश्न समान पीओवी को दर्शाते हैं।

मैं अभी कोर्स खत्म नहीं कर रहा हूं और मैं जल्द ही सवाल पूछ सकता हूं, लेकिन मैं अभी अपने सिर से यह "क्यों" नहीं सोच पाया और इसे अपनी क्षमता के अनुसार समझने की कोशिश कर रहा हूं।

जवाबों:


14

क्या वास्तव में ऐसा होता है या यह एक सैद्धांतिक मुद्दा है?

ऐसा होता है, कंप्यूटर दृष्टि के लिए किसी भी लोकप्रिय deeplearning मॉडल को देखें। कहते हैं, एलेक्सनेट का 2048 और 2048 इकाइयों के बीच घना संबंध है, यह 4 मिलियन गुणांक है।

एक लाख IVs का विश्लेषण करने की बात क्या है? क्या यह वास्तव में हमें जानकारी के मूल्य में इतनी वृद्धि देता है कि उन्हें अनदेखा करने का विरोध किया जाता है?

यदि आप अत्यधिक श्रेणीबद्ध डेटा (कहते हैं, इंटरनेट विज्ञापन डेटा) का विश्लेषण कर रहे हैं , तो आपके मॉडल को प्रत्येक श्रेणी (जैसे शहर, पेज आईडी, साइटनाम, विज्ञापन आईडी, उपयोगकर्ता आईडी, आदि) के लिए कुछ सार्थक 'विवरण' रखना होगा, वास्तविक 'विवरण' का आकार चयनित एमएल मॉडल पर निर्भर करता है।

यहां तक ​​कि सरल लॉजिस्टिक रिग्रेशन में दर्जनों हजारों पैरामीटर फिट किए जाएंगे (एक श्रेणी)। अधिक उन्नत मॉडल जैसे कारककरण मशीनें कई गुना अधिक होने वाली हैं।

या ऐसा इसलिए है क्योंकि, शुरू में हमें पता नहीं होता है कि क्या उपयोगी है, इसलिए हम सिर्फ यह देखने के लिए लानत रिग्रेशन चलाते हैं कि क्या उपयोगी है और वहां से जाएं और संभवतः IVs के सेट को प्रून करें?

दरअसल, इन मॉडलों में अधिकांश फिट किए गए मापदंडों को गिराया जा सकता है, लेकिन आप यह नहीं जान सकते हैं कि पहले से, इसलिए आप यह परिभाषित करने की समस्या छोड़ देते हैं कि मशीन सीखने के लिए कौन से पैरामीटर महत्वपूर्ण हैं, और प्रभावी संख्या के लिए 'सॉफ्ट लिमिट' लगाने के लिए कुछ नियमितताएं लागू करें। रहने के लिए मापदंडों।

... और मुझे लगता है कि इस तरह के उदाहरण आपको अपने एमएल कोर्स में मिल जाएंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.