प्रतिगमन में डेटा को केंद्र और मानकीकृत करने की आवश्यकता


16

कुछ नियमितीकरण के साथ रैखिक प्रतिगमन पर विचार करें: जैसे कि पता लगाएं कि x कम करता है ||Axb||2+λ||x||1

आमतौर पर, ए के कॉलम को शून्य मीन और यूनिट मानदंड के लिए मानकीकृत किया जाता है, जबकि को शून्य माध्य के लिए केंद्रित किया जाता है। मैं यह सुनिश्चित करना चाहता हूं कि मानकीकरण और केंद्र के कारण की मेरी समझ सही है या नहीं।b

और b शून्य के स्तंभों को साधन बनाकर , हमें अब किसी अवरोधक शब्द की आवश्यकता नहीं है। अन्यथा, उद्देश्य होता | | एक एक्स - एक्स 0 1 - बी | | 2 + λ | | x | | 1 है । A के स्तंभों के मानदंड को 1 के बराबर बनाकर, हम एक ऐसे मामले की संभावना को दूर करते हैं, जहाँ A का केवल एक स्तंभ बहुत उच्च मानदंड का है, यह x में एक निम्न गुणांक प्राप्त करता है , जो हमें गलत तरीके से निष्कर्ष निकालने के लिए प्रेरित कर सकता है। ए 'की व्याख्या "नहीं है x अच्छी तरह से।Ab||Axx01b||2+λ||x||1xx

यह तर्क बिल्कुल कठोर नहीं है, लेकिन सहज रूप से, यह सोचने का सही तरीका है?

जवाबों:


14

आप और b के कॉलम के साधनों को शून्य करने के बारे में सही हैंAb

हालांकि, के कॉलम के मानदंडों को समायोजित करने के लिए , विचार करें कि क्या होगा यदि आप एक मानक ए के साथ शुरू हुए , और एक्स के सभी तत्व लगभग एक ही परिमाण के थे। तब हमारे द्वारा, कहते हैं, गुणा एक स्तंभ जाने 10 - 6X का संगत तत्व , एक अनियमित प्रतिगमन में, 10 6 के कारक द्वारा बढ़ाया जाएगा । देखें कि नियमितीकरण शब्द का क्या होगा? सभी व्यावहारिक उद्देश्यों के लिए नियमितीकरण केवल उसी गुणांक पर लागू होगा। AAx106x106

के स्तंभों Norming तक है, हम, सहज लेखन, उन सब को एक ही पैमाने पर डाल दिया। नतीजतन, एक्स के तत्वों के परिमाण में अंतर सीधे व्याख्यात्मक फ़ंक्शन ( एक्स ) के "विग्लगनेस" से संबंधित हैं , जो कि, शिथिल रूप से बोल रहा है, जो नियमितीकरण को नियंत्रित करने की कोशिश करता है। इसके बिना, एक गुणांक मान, उदाहरण के लिए, 0.1 बनाम 10.0 का एक अन्य आपको बताएगा, ए के बारे में ज्ञान की अनुपस्थिति में , कुछ भी नहीं जिसके बारे में गुणांक एक्स के "विग्लगनेस" में सबसे अधिक योगदान दे रहा था । (एक रैखिक समारोह के लिए, एक्स की तरहAxAxAAxAx , "विग्लगनेस" 0. से विचलन से संबंधित है)

, अपने स्पष्टीकरण पर लौटने के लिए अगर में से एक स्तंभ एक बहुत ही उच्च आदर्श है, और किसी कारण से में एक कम गुणांक हो जाता है एक्स , हम निष्कर्ष निकाल नहीं होता है कि स्तंभ एक "समझाने" नहीं है x अच्छी तरह से। " एक्स " की व्याख्या बिल्कुल नहीं करता है । AxAxAx


क्या आपका मतलब $x$ does not ''explain'' $A$ well, और मतलब है x does not ''explain'' $A$ at all? डेटा है जबकि x इस मामले में मॉडल है। Ax
user3813057

@ user3813057 - यह नियमितीकरण के बारे में एक प्रश्न था, और इसका व्याख्यात्मक शक्ति से कोई लेना-देना नहीं है। को आमतौर पर लेबल किया जाएगा β , A को आमतौर पर X लेबल किया जाएगा , और b को आमतौर पर लेबल किया जाएगा yx , A को समझाने के लिए बिल्कुल भी नहीं है । xβAXbyxA
जम्मन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.