सबसे पहले, मुझे लगता है कि डी-सहसंबंधी और सफेद करना दो अलग-अलग प्रक्रियाएं हैं।
डेटा को डी-कॉलेरेट करने के लिए, हमें इसे बदलने की आवश्यकता है ताकि ट्रांसफ़ॉर्म किए गए डेटा में एक विकर्ण सहसंयोजक मैट्रिक्स हो। यह परिवर्तन आइगेनवैल्यू समस्या को हल करके पाया जा सकता है। हम eigenvectors और की सहप्रसरण मैट्रिक्स जुड़े eigenvalues लगता है को सुलझाने के द्वाराΣ=XX′
ΣΦ=ΦΛ
जहां एक विकर्ण मैट्रिक्स इसके विकर्ण तत्वों के रूप में eigenvalues चल रहा है।Λ
मैट्रिक्स इस प्रकार एक्स के सहसंयोजक मैट्रिक्स को विकर्ण करता है । C के स्तंभ सहसंयोजक मैट्रिक्स के प्रतिजन हैं।ΦXΦ
हम विकर्ण कोविरियन के रूप में भी लिख सकते हैं:
Φ′ΣΦ=Λ(1)
इसलिए एक एकल वेक्टर को डी-सहसंबंधित करने के लिए , हम करते हैं:xi
x∗i=Φ′xi(2)
में विकर्ण तत्व (eigenvalues) समान या भिन्न हो सकते हैं। यदि हम उन सभी को समान बनाते हैं, तो इसे डेटा को व्हाइट करना कहा जाता है। चूंकि प्रत्येक eigenvalue अपने संबंधित eigenvector की लंबाई निर्धारित करता है, डेटा के श्वेत न होने पर सहसंयोजक एक दीर्घवृत्त के अनुरूप होगा, और जब डेटा सफ़ेद हो जाता है, तो एक क्षेत्र (सभी आयाम समान लंबाई, या समान) होता है। श्वेतकरण इस प्रकार किया जाता है:Λ
Λ−1/2ΛΛ−1/2=I
समान रूप से, में प्रतिस्थापित , हम लिखते हैं:(1)
Λ−1/2Φ′ΣΦΛ−1/2=I
इस प्रकार, लागू करने के लिए इस सफेद करने के लिए बदलने बस गुणा यह है कि हम इस पैमाने पहलू से, सफेद डेटा बिंदु प्राप्त एक्स † मैं :x∗ix†i
x†i=Λ−1/2x∗i=Λ−1/2Φ′xi(3)
अब की सहप्रसरण , न केवल विकर्ण, लेकिन यह भी एक समान (सफेद) के बाद से की सहप्रसरण एक्स † मैं , ई ( एक्स † मैं एक्स † मैं ' ) = मैं ।x†ix†iE(x†ix†i′)=I
इसके बाद, मैं दो मामलों को देख सकता हूं जहां यह उपयोगी नहीं हो सकता है। पहला बल्कि तुच्छ है, ऐसा हो सकता है कि डेटा उदाहरणों को स्केल करना किसी तरह से महत्वपूर्ण है कि आप जिस समस्या को देख रहे हैं। बेशक आप इस के आसपास पाने के लिए सुविधाओं के एक अतिरिक्त सेट के रूप में eigenvalues कर सकते हैं। दूसरा एक कम्प्यूटेशनल मुद्दा है: सबसे पहले आपको सहसंयोजक मैट्रिक्स गणना करनी होगी , जो मेमोरी में फिट होने के लिए बहुत बड़ी हो सकती है (यदि आपके पास हजारों विशेषताएं हैं) या गणना करने में बहुत लंबा समय लगता है; दूसरी बात यह है कि स्वदेशी अपघटन व्यवहार में O (n ^ 3) है, जो फिर से बड़ी संख्या में सुविधाओं के साथ बहुत भयानक है।Σ
और अंत में, एक आम "गेटचा" है जिससे लोगों को सावधान रहना चाहिए। एक सावधान रहना चाहिए कि आप प्रशिक्षण डेटा पर स्केलिंग कारकों की गणना करते हैं , और फिर आप परीक्षण डेटा पर समान स्केलिंग कारकों को लागू करने के लिए समीकरणों (2) और (3) का उपयोग करते हैं, अन्यथा आपको ओवरफिटिंग का खतरा है (आप उपयोग कर रहे होंगे) प्रशिक्षण प्रक्रिया में परीक्षण सेट से जानकारी)।
स्रोत: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf