इस उत्तर का श्रेय @ttnphns को जाता है जिन्होंने उपरोक्त टिप्पणियों में सब कुछ समझाया। फिर भी, मैं एक विस्तारित जवाब देना चाहूंगा।
आपके प्रश्न के लिए: क्या एलडीए के मानकीकृत और गैर-मानकीकृत सुविधाओं पर परिणाम बिल्कुल समान हैं? --- इसका उत्तर हां है । मैं पहले एक अनौपचारिक तर्क दूंगा, और फिर कुछ गणित के साथ आगे बढ़ूंगा।
एक गुब्बारे के एक तरफ एक बिखरे हुए भूखंड के रूप में दिखाए गए 2 डी डेटासेट की कल्पना करें ( यहाँ से लिया गया मूल गुब्बारा चित्र ):
यहाँ लाल डॉट्स एक क्लास, ग्रीन डॉट्स एक और क्लास हैं, और ब्लैक लाइन एलडीए क्लास की सीमा है। अब या कुल्हाड़ियों का आकार बदलना गुब्बारे को क्षैतिज या लंबवत रूप से फैलाने से मेल खाता है। यह स्पष्ट रूप से स्पष्ट है कि भले ही काली रेखा का ढलान इस तरह के विस्तार के बाद बदल जाएगा, कक्षाएं पहले की तरह ही अलग हो जाएंगी, और काली रेखा की सापेक्ष स्थिति नहीं बदलेगी। प्रत्येक परीक्षण का अवलोकन स्ट्रेचिंग से पहले उसी कक्षा को सौंपा जाएगा। तो कोई कह सकता है कि स्ट्रेचिंग एलडीए के परिणामों को प्रभावित नहीं करता है।xy
अब, गणितीय रूप से, LDA , जहां और की गणना करता है, के बीच और कक्षा के भीतर हैं। तितर-बितर करना। समान रूप से, ये सामान्यीकृत eigenvalue problem सामान्यीकृत eigenvectors हैं ।W−1BWBBv=λWv
पंक्तियों में स्तंभों और डेटा बिंदुओं में चर के साथ एक केंद्रित डेटा मैट्रिक्स पर विचार करें , ताकि कुल तितर बितर मैट्रिक्स । एक निश्चित संख्या द्वारा प्रत्येक कॉलम को स्केल करने के लिए डेटा मात्रा को मानकीकृत करना , अर्थात इसे , जहां विकर्ण पर स्केलिंग गुणांक (प्रत्येक स्तंभ के मानक विचलन के व्युत्क्रम) के साथ एक विकर्ण मैट्रिक्स है। इस तरह के एक rescaling के बाद, बिखराव मैट्रिक्स निम्नानुसार बदल जाएगा: , और एक ही परिवर्तन के साथ होगाXT=X⊤XXXnew=XΛΛTnew=ΛTΛWnew और ।Bnew
बता दें कि मूल समस्या का एक आइजनवेक्टर है, यानीयदि हम बाईं ओर साथ इस समीकरण को गुणा करते हैं , और से पहले, दोनों पक्षों पर लिए करते हैं, तो हम यानी जिसका अर्थ है किv
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1vपहले की तरह ही eigenvalue साथ rescaling के बाद एक eigenvector है ।
λ
तो विभेदक अक्ष (eigenvector द्वारा दिया गया) बदल जाएगा, लेकिन इसका आइजेनवेल्यू, यह दर्शाता है कि कक्षाएं कितनी अलग हैं, बिल्कुल वैसी ही रहेंगी। इसके अलावा, इस धुरी पर प्रक्षेपण, जिसे मूल रूप से द्वारा दिया गया था, अब , यानी भी बिल्कुल वैसा ही रहेगा (शायद स्केलिंग फैक्टर तक)।XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
नहीं, यह कथन गलत है। एलडीए के साथ मानकीकरण का मुद्दा किसी भी बहुभिन्नरूपी विधि की तरह ही है। उदाहरण के लिए, पी.सी.ए. महालनोबिस दूरी का उस विषय से कोई लेना-देना नहीं है।