क्या लॉजिस्टिक रिग्रेशन फिट करने से पहले मानकीकरण की आवश्यकता है?


39

मेरा सवाल यह है कि लॉजिस्टिक रिग्रेशन को फिट करने से पहले हमें यह सुनिश्चित करने के लिए डेटा सेट को मानकीकृत करने की ज़रूरत है कि सभी वेरिएबल्स के बीच एक ही पैमाना हो, [0,1]। सूत्र है:

ximin(xi)max(xi)min(xi)

मेरे डेटा सेट में 2 चर हैं, वे दो चैनलों के लिए एक ही बात का वर्णन करते हैं, लेकिन मात्रा अलग है। कहते हैं कि यह दो दुकानों में ग्राहक की यात्रा की संख्या है, यहाँ है कि क्या एक ग्राहक खरीद करता है। क्योंकि ग्राहक खरीदारी करने से पहले दोनों स्टोर या दो बार पहली दुकान पर जा सकता है। लेकिन 1 स्टोर के लिए ग्राहकों की कुल संख्या दूसरी दुकान से 10 गुना बड़ी है। जब मैं मानकीकरण के बिना इस लॉजिस्टिक प्रतिगमन को फिट करता हूं coef(store1)=37, coef(store2)=13; अगर मैं डेटा को मानकीकृत करता हूं, तो coef(store1)=133, coef(store2)=11। कुछ इस तरह। कौन सा दृष्टिकोण अधिक समझ में आता है?

क्या होगा अगर मैं एक निर्णय ट्री मॉडल फिट कर रहा हूं? मुझे पता है कि वृक्ष संरचना मॉडल को मानकीकरण की आवश्यकता नहीं है क्योंकि मॉडल खुद ही इसे किसी तरह समायोजित करेगा। लेकिन आप सभी के साथ जाँच।


10
जब तक आपके प्रतिगमन को नियमित नहीं किया जाता है तब तक आपको मानकीकरण करने की आवश्यकता नहीं है। हालांकि, यह कभी-कभी व्याख्या करने में मदद करता है, और शायद ही कभी दर्द होता है।
एलेक्स

3
क्या सामान्य तरीका \ frac {x_i- \ bar {x}} {sd (x)} को मानकीकृत करने का नहीं है xix¯sd(x)?
पीटर फ्लॉम - मोनिका

1
@Peter, जो मैंने पहले सोचा था, लेकिन मुझे एक लेख benetzkorn.com/2011/11/data-normalization-and-standardization/… > मिला , ऐसा लगता है कि सामान्यीकरण और मानकीकरण अलग-अलग चीजें हैं। एक का मतलब 0 विचरण 1 करना है, दूसरा प्रत्येक चर को पुनर्विक्रय करना है। यहीं से मेरी उलझन हो जाती है। आपके जवाब के लिए धन्यवाद।
user1946504

7
मेरे लिए मानकीकरण व्याख्या को और अधिक कठिन बना देता है।
फ्रैंक हरेल

2
@Alex ने जो कहा, उस पर स्पष्ट करने के लिए, आपके डेटा को स्केल करने का मतलब है कि इष्टतम नियमितीकरण कारक Cपरिवर्तन। इसलिए आपको Cडेटा को मानकीकृत करने के बाद चुनने की आवश्यकता है ।
akxlr

जवाबों:


37

लॉजिस्टिक रिग्रेशन के लिए मानकीकरण की आवश्यकता नहीं है। सुविधाओं के मानकीकरण का मुख्य लक्ष्य अनुकूलन के लिए उपयोग की जाने वाली तकनीक के अभिसरण में मदद करना है। उदाहरण के लिए, यदि आप संभावना को अधिकतम करने के लिए न्यूटन-राफसन का उपयोग करते हैं, तो सुविधाओं को मानकीकृत करना अभिसरण को तेज बनाता है। अन्यथा, आप सुविधाओं पर किसी भी मानकीकरण उपचार के बिना अपने लॉजिस्टिक प्रतिगमन को चला सकते हैं।


आपके जवाब के लिए धन्यवाद। क्या इसका मतलब मानकीकरण पसंद है? चूंकि हम निश्चित रूप से मॉडल को परिवर्तित करना चाहते हैं और जब हमारे पास लाखों चर होते हैं, तो चर को एक-एक करके आवश्यकतानुसार बदलने से मॉडलिंग पाइपलाइन में मानकीकरण के तर्क को लागू करना आसान है। क्या मैं सही समझ रहा हूँ?
user1946504

4
यह विश्लेषण के उद्देश्य पर निर्भर करता है। आधुनिक सॉफ्टवेयर मानकीकरण के बिना बहुत चरम डेटा को संभाल सकता है। यदि प्रत्येक चर (वर्ष, यूरो, किग्रा, आदि) के लिए एक प्राकृतिक इकाई है, तो मुझे मानकीकरण करने में संकोच होगा, हालांकि मुझे लगता है कि इकाई को किलो से बदलने के लिए स्वतंत्र महसूस हो रहा है उदाहरण के लिए टन या ग्राम जब भी अधिक समझ में आता है।
मार्टन बुइस

19

@ आयमन सही है, आपको लॉजिस्टिक रिग्रेशन के लिए अपने डेटा को सामान्य करने की आवश्यकता नहीं है। (अधिक सामान्य जानकारी के लिए, इस CV थ्रेड के माध्यम से पढ़ने में मदद मिल सकती है: आपको अपना डेटा कब केंद्र में करना चाहिए और कब मानकीकृत करना चाहिए? आप यह भी ध्यान रख सकते हैं कि आपके परिवर्तन को आमतौर पर 'सामान्यीकरण' कहा जाता है, देखें: कैसे सत्यापित करें वितरण सामान्यीकृत है? ) मुझे प्रश्न में कुछ अन्य बिंदुओं को संबोधित करने दें।

यहां यह ध्यान देने योग्य है कि लॉजिस्टिक रिग्रेशन में आपके गुणांक 'सफलता' के लॉग ऑड्स पर आपके प्रेडिक्टर वेरिएबल में एक-यूनिट परिवर्तन के प्रभाव को इंगित करते हैं। एक चर को बदलना (जैसे कि मानकीकरण या सामान्यीकरण के माध्यम से) को बदलने के लिए हम अपने मॉडल के संदर्भ में एक 'इकाई' कह रहे हैं। मूल मीट्रिक में कुछ इकाइयों की संख्या में आपका कच्चा डेटा विविध था। आपके सामान्य होने के बाद, आपका डेटा से । यही है, एक इकाई का एक परिवर्तन अब सबसे कम मूल्यवान अवलोकन से उच्चतम मूल्यवान अवलोकन तक जाने का मतलब है। सफलता की लॉग बाधाओं में वृद्धि की मात्रा नहीं बदली है। इन तथ्यों से, मुझे संदेह है कि आपका पहला चर ( ) तक फैला हैx01store1133/373.6मूल इकाइयाँ, और आपका दूसरा चर ( store2) केवल मूल इकाइयाँ हैं। 11/130.85


17

यदि आप LASSO या रिज रिग्रेशन के साथ लॉजिस्टिक रिग्रेशन का उपयोग करते हैं (जैसा कि वीका लॉजिस्टिक क्लास करता है) आपको करना चाहिए। जैसा कि हस्ती, टिबशिरानी और फ्रीडमैन बताते हैं (पीडीएफ का 82 पेज या किताब के पेज 63 पर):

रिज समाधान इनपुट की स्केलिंग के तहत समान नहीं हैं, और इसलिए आमतौर पर हल करने से पहले इनपुट को मानकीकृत किया जाता है।

साथ ही यह धागा भी करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.