मेरा सवाल यह है कि लॉजिस्टिक रिग्रेशन को फिट करने से पहले हमें यह सुनिश्चित करने के लिए डेटा सेट को मानकीकृत करने की ज़रूरत है कि सभी वेरिएबल्स के बीच एक ही पैमाना हो, [0,1]। सूत्र है:
मेरे डेटा सेट में 2 चर हैं, वे दो चैनलों के लिए एक ही बात का वर्णन करते हैं, लेकिन मात्रा अलग है। कहते हैं कि यह दो दुकानों में ग्राहक की यात्रा की संख्या है, यहाँ है कि क्या एक ग्राहक खरीद करता है। क्योंकि ग्राहक खरीदारी करने से पहले दोनों स्टोर या दो बार पहली दुकान पर जा सकता है। लेकिन 1 स्टोर के लिए ग्राहकों की कुल संख्या दूसरी दुकान से 10 गुना बड़ी है। जब मैं मानकीकरण के बिना इस लॉजिस्टिक प्रतिगमन को फिट करता हूं coef(store1)=37, coef(store2)=13
; अगर मैं डेटा को मानकीकृत करता हूं, तो coef(store1)=133, coef(store2)=11
। कुछ इस तरह। कौन सा दृष्टिकोण अधिक समझ में आता है?
क्या होगा अगर मैं एक निर्णय ट्री मॉडल फिट कर रहा हूं? मुझे पता है कि वृक्ष संरचना मॉडल को मानकीकरण की आवश्यकता नहीं है क्योंकि मॉडल खुद ही इसे किसी तरह समायोजित करेगा। लेकिन आप सभी के साथ जाँच।
C
परिवर्तन। इसलिए आपको C
डेटा को मानकीकृत करने के बाद चुनने की आवश्यकता है ।