आयाम की कमी हमेशा जानकारी नहीं खोती है। कुछ मामलों में, किसी भी जानकारी को खारिज किए बिना निचले-आयामी स्थानों में डेटा का पुन: प्रतिनिधित्व करना संभव है।
मान लीजिए कि आपके पास कुछ डेटा है जहां प्रत्येक मापा मूल्य दो ऑर्डर किए गए कोवरिएट्स के साथ जुड़ा हुआ है। उदाहरण के लिए, मान लें कि आपने एक्स और वाई के घने ग्रिड पर कुछ एमिटर के सापेक्ष संकेत गुणवत्ता (रंग सफेद = अच्छा, काला = बुरा) द्वारा मापा जाता है । उस स्थिति में, आपका डेटा बाएं हाथ के प्लॉट जैसा कुछ लग सकता है [* 1]:क्यूएक्सy
यह कम से कम सतही रूप से डेटा का एक दो आयामी टुकड़ा है: । हालांकि, हम जानते हो सकता है एक प्रायोरी (अंतर्निहित भौतिक विज्ञान पर आधारित) या मानते हैं कि यह केवल मूल से दूरी पर निर्भर करता है: आर = √क्यू ( एक्स , वाई) । (कुछ खोजपूर्ण विश्लेषण भी आपको इस निष्कर्ष तक ले जा सकते हैं, अगर अंतर्निहित घटना भी अच्छी तरह से समझ में नहीं आई है)। हम फिरक्यू(एक्स,वाई) केबजायक्यू(आर) केरूप में हमारे डेटा को फिर से लिख सकते हैं, जो प्रभावी रूप से एकल आयाम तक आयाम को कम कर देगा। जाहिर है, यह केवल दोषरहित है यदि डेटा रेडियल रूप से सममित है, लेकिन यह कई भौतिक घटनाओं के लिए एक उचित धारणा है।एक्स2+ य2------√क्यू ( आर )क्यू ( एक्स , वाई)
यह परिवर्तन गैर-रैखिक है (इसमें एक वर्गमूल और दो वर्ग हैं!), इसलिए यह पीसीए द्वारा किए गए आयामी घटाव के प्रकार से कुछ अलग है, लेकिन मुझे लगता है कि यह एक अच्छा उदाहरण है कैसे आप कभी-कभी किसी भी जानकारी को खोने के बिना एक आयाम को दूर कर सकते हैं।क्यू ( एक्स , वाई) → क्यू ( आर )
एक अन्य उदाहरण के लिए, मान लीजिए कि आप कुछ डेटा पर एक विलक्षण मूल्य अपघटन करते हैं (SVD एक निकट चचेरा भाई है - और अक्सर अंतर्निहित हिम्मत - प्रमुख घटक विश्लेषण)। एसवीडी आपके डेटा मैट्रिक्स ले जाता है और इसे तीन मेट्रिसेस में फैक्टर करता है जैसे कि एम = यू एस वी टी । यू और वी के कॉलम क्रमशः बाएं और दाएं एकवचन वैक्टर हैं, जो एम के लिए ऑर्थोनॉमिक बेस का एक सेट बनाते हैं । के विकर्ण तत्वों एस (यानी, एस मैं , मैं ) विलक्षण मूल्यों, जो प्रभावी रूप से पर भार कर रहे हैं मैं वें आधार की इसी कॉलम द्वारा गठित सेट यू औरमम= यूएसवीटीमएसएसमैं , मैं)मैंयू ( S काशेष भागशून्य है)। अपने आप से, यह आपको कोई आयामी कमी नहीं देता है (वास्तव में,आपके द्वारा शुरू किएगए एकल एन एक्स एन मैट्रिक्स केबजायअब 3 एन एक्स एन मेट्रिसेस हैं)। हालांकि, कभी-कभी एस के कुछ विकर्ण तत्वशून्य होते हैं। इसका मतलब यह है कि यू और वी में संबंधित आधारोंको एम को फिर से संगठित करने की आवश्यकता नहीं है, और इसलिए उन्हें गिराया जा सकता है। उदाहरण के लिए, मान लीजिए क्यू ( x , y )वीएसएनएक्स एनएनएक्स एनएसयूवीमक्यू ( एक्स , वाई)मैट्रिक्स में 10,000 तत्व शामिल हैं (यानी, यह 100x100 है)। जब हम इस पर एक SVD का प्रदर्शन करते हैं, तो हम पाते हैं कि केवल एक जोड़ी वैक्टर वैक्टर में एक गैर-शून्य मान होता है [* 2], इसलिए हम दो 100 तत्व वैक्टर (200 गुणांक) के उत्पाद के रूप में मूल मैट्रिक्स का फिर से प्रतिनिधित्व कर सकते हैं, लेकिन आप वास्तव में थोड़ा बेहतर कर सकते हैं [* ३])।
कुछ अनुप्रयोगों के लिए, हम जानते हैं (या कम से कम मान लें) कि उपयोगी जानकारी मुख्य घटकों द्वारा उच्च विलक्षण मूल्यों (एसवीडी) या लोडिंग (पीसीए) के साथ कब्जा कर ली गई है। इन मामलों में, हम एकवचन वैक्टर / ठिकानों / प्रमुख घटकों को छोटे लोडिंग के साथ छोड़ सकते हैं, भले ही वे गैर-शून्य हों, इस सिद्धांत पर कि इनमें उपयोगी संकेत के बजाय कष्टप्रद शोर होता है। मैंने कभी-कभी देखा है कि लोग अपने आकार के आधार पर विशिष्ट घटकों को अस्वीकार करते हैं (उदाहरण के लिए, यह अतिरिक्त शोर के ज्ञात स्रोत जैसा दिखता है) लोडिंग की परवाह किए बिना। मुझे यकीन नहीं है कि आप इसे नुकसान की जानकारी मानेंगे या नहीं।
पीसीए की सूचना-प्रधानता इष्टतमता के बारे में कुछ साफ-सुथरे परिणाम हैं। यदि आपका सिग्नल गाऊसी है और एडिटिव गॉसियन शोर के साथ दूषित है, तो पीसीए सिग्नल और उसके डायनेमिकिटी-कम किए गए संस्करण के बीच पारस्परिक जानकारी को अधिकतम कर सकता है (यह मानते हुए कि शोर की पहचान एक सहसंयोजक संरचना है)।
फुटनोट:
- यह एक पनीर और पूरी तरह से गैर-भौतिक मॉडल है। माफ़ करना!
- फ्लोटिंग पॉइंट इंप्रेशन के कारण, इनमें से कुछ मूल्य इसके बजाय काफी-शून्य नहीं होंगे।
- यूएस