क्या सफ़ेद होना हमेशा अच्छा होता है?


27

मशीन लर्निंग एल्गोरिदम के लिए एक सामान्य प्री-प्रोसेसिंग कदम डेटा का श्वेतकरण है।

ऐसा लगता है कि डेटा को डी-कॉर्लेट करने के बाद से वाइटनिंग करना हमेशा अच्छा होता है, क्योंकि यह मॉडल को सरल बनाता है।

कब व्हाइटिंग की सिफारिश नहीं की जाती है?

नोट: मैं डेटा के डी-सहसंबंध की बात कर रहा हूं।


1
क्या आप व्हाइटनिंग के लिए संदर्भ दे सकते हैं?
एटिला ओजगुर

2
मुझे लगता है कि यह धागा एक स्टब है। इसका वास्तव में विस्तार होना चाहिए। - - वर्तमान में स्वीकृत जवाब में बहुत कम जानकारी है। - - मैं इसे अस्वीकार करूंगा और यहां एक इनाम खोलूंगा।
लेओ लेपोल्ड हर्ट्ज़ '

आपका प्रश्न भी पक्षपाती है, "हमेशा" होने से। बेशक, व्हाइटनिंग हमेशा अच्छा नहीं होता है। इसके अलावा, सफेद करने के प्रकार को परिभाषित करें। मुझे लगता है कि यह अपने आप को इतना रचनात्मक जवाब नहीं देता है। - - उपयोग किए जाने वाले डेटा के प्रकार को परिभाषित करें। - - मुझे लगता है कि एक बेहतर सवाल यह हो सकता है कि आप इस अच्छे पर्याप्त डेटा पर व्हाइटनिंग के आवेदन को कैसे सुधार सकते हैं? । - - @AtillaOzgur एक स्रोत en.wikipedia.org/wiki/Whitening_transformation अगर व्हाइटनिंग के बुनियादी परिवर्तन पर विचार किया जाता है।
लेओ लेपोल्ड हर्ट्ज़ '

जवाबों:


13

पूर्व-श्वेतकरण सुविधा के सामान्यीकरण का एक सामान्यीकरण है, जो इनपुट को एक परिवर्तित इनपुट सहसंयोजक मैट्रिक्स के खिलाफ बदलकर स्वतंत्र बनाता है। मैं नहीं देख सकता कि यह एक बुरी बात क्यों हो सकती है।

हालांकि, एक त्वरित खोज से पता चला "मौसम की रडार के प्रदर्शन को बेहतर बनाने के लिए डेटा शमन की व्यवहार्यता" ( पीडीएफ ) जो पढ़ता है:

विशेष रूप से, श्वेतकरण ने घातीय एसीएफ (जो मोनाकोव के परिणामों के साथ समझौते में है) के मामले में अच्छी तरह से काम किया है, लेकिन गौसियन के मामले में कम अच्छी तरह से। संख्यात्मक प्रयोग के बाद, हमने पाया कि गाऊसी मामला इस अर्थ में संख्यात्मक रूप से बीमार है कि हालत संख्या (न्यूनतम से न्यूनतम ईजेनवल्यू का अनुपात) गाऊसी सहसंयोजक मैट्रिक्स के लिए बहुत बड़ी है।

मैं इस पर टिप्पणी करने के लिए पर्याप्त शिक्षित नहीं हूं। हो सकता है कि आपके प्रश्न का उत्तर यह हो कि श्वेत करना हमेशा अच्छा होता है, लेकिन निश्चित गोच (उदाहरण के लिए, यादृच्छिक डेटा के साथ यह अच्छी तरह से काम नहीं करेगा यदि गॉसियन ऑटोक्रॉलेशन फ़ंक्शन के माध्यम से किया जाता है)।


2
जैसा कि मैं इसे समझता हूं, यह अच्छी तरह से काम करता है यदि सहसंयोजक मैट्रिक्स अच्छी तरह से अनुमानित है। क्या कोई इस पर टिप्पणी कर सकता है? धन्यवाद।
रैन

3
उपरोक्त उद्धरण एक खराब अनुमानित covariance मैट्रिक्स का जिक्र नहीं है (हालांकि यह भी समस्याग्रस्त होगा)। यह कह रहा है कि एक पूरी तरह से निर्दिष्ट सहसंयोजक मैट्रिक्स के लिए, आवश्यक फैक्टराइज़ेशन (और संबद्ध डेटा ट्रांसफ़ॉर्मेशन) को सटीक रूप से निष्पादित करना मुश्किल हो सकता है। यह संख्यात्मक बीमार कंडीशनिंग के कारण है , जिसका अर्थ है परिमित-सटीक राउंडऑफ़ त्रुटियां गणनाओं को प्रदूषित करती हैं।
GeoMatt22

2
यह अपर्याप्त उत्तर है। यह ज्यादातर नहीं तो संबंधित सामग्री की नकल की है। - - इस उत्तर का वास्तव में विस्तार होना चाहिए। यह एक स्टब है।
लेओ लेपोल्ड हर्ट्ज़ '

20

सबसे पहले, मुझे लगता है कि डी-सहसंबंधी और सफेद करना दो अलग-अलग प्रक्रियाएं हैं।

डेटा को डी-कॉलेरेट करने के लिए, हमें इसे बदलने की आवश्यकता है ताकि ट्रांसफ़ॉर्म किए गए डेटा में एक विकर्ण सहसंयोजक मैट्रिक्स हो। यह परिवर्तन आइगेनवैल्यू समस्या को हल करके पाया जा सकता है। हम eigenvectors और की सहप्रसरण मैट्रिक्स जुड़े eigenvalues लगता है को सुलझाने के द्वाराΣ=XX

ΣΦ=ΦΛ

जहां एक विकर्ण मैट्रिक्स इसके विकर्ण तत्वों के रूप में eigenvalues चल रहा है।Λ

मैट्रिक्स इस प्रकार एक्स के सहसंयोजक मैट्रिक्स को विकर्ण करता है । C के स्तंभ सहसंयोजक मैट्रिक्स के प्रतिजन हैं।ΦXΦ

हम विकर्ण कोविरियन के रूप में भी लिख सकते हैं:

(1)ΦΣΦ=Λ

इसलिए एक एकल वेक्टर को डी-सहसंबंधित करने के लिए , हम करते हैं:xi

(2)xi=Φxi

में विकर्ण तत्व (eigenvalues) समान या भिन्न हो सकते हैं। यदि हम उन सभी को समान बनाते हैं, तो इसे डेटा को व्हाइट करना कहा जाता है। चूंकि प्रत्येक eigenvalue अपने संबंधित eigenvector की लंबाई निर्धारित करता है, डेटा के श्वेत न होने पर सहसंयोजक एक दीर्घवृत्त के अनुरूप होगा, और जब डेटा सफ़ेद हो जाता है, तो एक क्षेत्र (सभी आयाम समान लंबाई, या समान) होता है। श्वेतकरण इस प्रकार किया जाता है:Λ

Λ1/2ΛΛ1/2=I

समान रूप से, में प्रतिस्थापित , हम लिखते हैं:(1)

Λ1/2ΦΣΦΛ1/2=I

इस प्रकार, लागू करने के लिए इस सफेद करने के लिए बदलने बस गुणा यह है कि हम इस पैमाने पहलू से, सफेद डेटा बिंदु प्राप्त एक्स मैं :xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

अब की सहप्रसरण , न केवल विकर्ण, लेकिन यह भी एक समान (सफेद) के बाद से की सहप्रसरण एक्स मैं , ( एक्स मैं एक्स मैं ' ) = मैंxixiE(xixi)=I

इसके बाद, मैं दो मामलों को देख सकता हूं जहां यह उपयोगी नहीं हो सकता है। पहला बल्कि तुच्छ है, ऐसा हो सकता है कि डेटा उदाहरणों को स्केल करना किसी तरह से महत्वपूर्ण है कि आप जिस समस्या को देख रहे हैं। बेशक आप इस के आसपास पाने के लिए सुविधाओं के एक अतिरिक्त सेट के रूप में eigenvalues ​​कर सकते हैं। दूसरा एक कम्प्यूटेशनल मुद्दा है: सबसे पहले आपको सहसंयोजक मैट्रिक्स गणना करनी होगी , जो मेमोरी में फिट होने के लिए बहुत बड़ी हो सकती है (यदि आपके पास हजारों विशेषताएं हैं) या गणना करने में बहुत लंबा समय लगता है; दूसरी बात यह है कि स्वदेशी अपघटन व्यवहार में O (n ^ 3) है, जो फिर से बड़ी संख्या में सुविधाओं के साथ बहुत भयानक है।Σ

और अंत में, एक आम "गेटचा" है जिससे लोगों को सावधान रहना चाहिए। एक सावधान रहना चाहिए कि आप प्रशिक्षण डेटा पर स्केलिंग कारकों की गणना करते हैं , और फिर आप परीक्षण डेटा पर समान स्केलिंग कारकों को लागू करने के लिए समीकरणों (2) और (3) का उपयोग करते हैं, अन्यथा आपको ओवरफिटिंग का खतरा है (आप उपयोग कर रहे होंगे) प्रशिक्षण प्रक्रिया में परीक्षण सेट से जानकारी)।

स्रोत: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf


2
स्पष्टीकरण के लिए धन्यवाद, आप सही हैं। मैं डी-कॉलेरेटिंग की बात कर रहा था। btw: अंत में आप लिखते हैं कि श्वेतकरण केवल प्रशिक्षण डेटा के लिए किया जाता है। जहाँ तक मुझे पता है, आप प्रशिक्षण डेटा से मैट्रिक्स की गणना करते हैं, लेकिन आप इसे प्रशिक्षण और परीक्षण डेटा दोनों पर करते हैं।
रैन

@ हाँ, यही मेरा मतलब है ... मैं उत्तर को अपडेट करूँगा
tdc

यह अच्छा होगा यदि आप अपने उत्तर में अनुभाग भी प्रस्तुत कर सकते हैं। एक परिचय, एक सारांश और गणित की चीजें हैं। - - मुझे लगता है कि आप अपने उत्तर में बहुत गहराई तक नहीं जाते हैं। - - आपका उत्तर ज्यादातर तुच्छ प्रस्तावों को शामिल करता है, लेकिन विषय में पर्याप्त गहराई तक नहीं जाता है। आपके पास व्याख्यान नोट्स से सिर्फ मूल कॉपी-पेस्ट की गई सामग्री है लेकिन विषय के लिए बहुत कम काम है।
लेओ लेपोल्ड हर्ट्ज़ '

इसलिए सरल शब्दों में, डी-सहसंबद्ध सुविधाओं को पाने के लिए pca करते हैं, और फिर नई सुविधा के लिए, श्वेत सुविधाओं को प्राप्त करने के लिए विचरण द्वारा विभाजित करते हैं।
एवोकैडो

1

से http://cs231n.github.io/neural-networks-2/

इस परिवर्तन की एक कमजोरी यह है कि यह डेटा में शोर को बहुत बढ़ा सकता है, क्योंकि यह इनपुट में समान आकार का होने के लिए सभी आयामों (छोटे संस्करण के अप्रासंगिक आयामों, जिनमें अधिकतर शोर हैं) शामिल हैं। इस अभ्यास में मजबूत चौरसाई द्वारा कम किया जा सकता है ...

दुर्भाग्य से मैं इस पर आगे टिप्पणी करने के लिए पर्याप्त शिक्षित नहीं हूं।


कृपया, बताएं कि शोर के कौन से रूप अतिरंजित हैं। आपका संदर्भ कठोर है। यह विषय के बारे में सिर्फ बुनियादी कंप्यूटर विज्ञान है अर्थात एक प्राचीन तंत्रिका नेटवर्क दृष्टिकोण के साथ सफेद शोर। - - काम अतिरंजित भी परिभाषित किया जाना चाहिए।
लेओ लेपोल्ड हर्ट्ज़ '

मुझे लगता है कि यह सिर्फ एक ही विचरण करने के लिए सभी सुविधाओं के स्केलिंग से संबंधित है, है ना? इसलिए यदि कोई ऐसी सुविधा थी जिसका प्रशिक्षण सेट में विचरण शोर था, तो हम इस सुविधा के समग्र विचरण की अपेक्षा दूसरे फीचर से बहुत कम कर सकते हैं; यह परिवर्तन दोनों "शोर" सुविधा को बना देगा और दूसरी विशेषता में एक ही भिन्नता है, और इसे "प्रवर्धित शोर" के रूप में देखा जा सकता है।
योसफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.