पीसीए की तुलना में स्पार्स पीसीए कितना बेहतर है?


24

मैंने कक्षा में कुछ समय पहले पीसीए के बारे में सीखा और इस आकर्षक अवधारणा के बारे में और अधिक खुदाई करके, मुझे पीसीए के बारे में पता चला।

मैं, पूछना चाहते है कि अगर मैं गलत नहीं कर रहा हूँ यह है कि क्या विरल पीसीए है: पीसीए में, अगर आपके पास बिंदुओं के साथ चर, आप में प्रत्येक डेटा बिंदु का प्रतिनिधित्व कर सकते पीसीए लागू करने से पहले आयामी अंतरिक्ष। पीसीए को लागू करने के बाद, आप फिर से उसी आयामी स्थान में इसका प्रतिनिधित्व कर सकते हैं, लेकिन, इस बार, पहले प्रमुख घटक में सबसे अधिक विचरण होगा, दूसरे में दूसरा सबसे अधिक विचरण दिशा और इसी तरह होगा। तो आप पिछले कुछ प्रमुख घटकों को समाप्त कर सकते हैं, क्योंकि वे डेटा के बहुत नुकसान का कारण नहीं होंगे, और आप डेटा को संकुचित कर सकते हैं। सही?पी पीnpp

स्पार्स पीसीए प्रमुख घटकों का चयन कर रहा है जैसे कि इन घटकों में उनके वेक्टर गुणांक में कम गैर-शून्य मान होते हैं।

डेटा को बेहतर तरीके से व्याख्या करने में आपकी मदद करने के लिए यह कैसे माना जाता है? क्या कोई उदाहरण दे सकता है?


नमस्कार @GrowinMan! क्या आपने इस प्रश्न का उत्तर देखा है? क्या आपको लगता है कि यह इसका जवाब देता है? यदि नहीं, तो किसी भी स्पष्टीकरण के लिए स्वतंत्र महसूस करें, या शायद इसे और अधिक सटीक बनाने के लिए अपने प्रश्न को संपादित करने पर विचार करें। यदि हाँ, तो पास में एक हरे रंग की टिक पर क्लिक करके इसे ऊपर उठाने और "स्वीकार" करने पर विचार करें। मैंने देखा कि आपके पास यहां क्रॉस वोट्स पर शून्य वोट और शून्य स्वीकृत धागे हैं।
अमीबा का कहना है कि मोनिका

@amoeba यह इंगित करने के लिए धन्यवाद। थोड़ी देर के लिए लॉग इन नहीं किया गया है और मैं मशीन लर्निंग के संपर्क से थोड़ा बाहर हूं। मैं आपके उत्तर को फिर से पढ़ना सुनिश्चित करूंगा, और सप्ताहांत तक यहां उत्तरों को चिह्नित
करूंगा

कोई बात नहीं। मैं गलती से इस पुराने धागे के पार आ गया हूं और आपको एक पंक्ति छोड़ने के बारे में सोचा।
अमीबा का कहना है कि

नमस्कार @GrowinMan! :-) इस पुराने धागे पर फिर से आया। यदि आपको अभी भी लगता है कि यह प्रश्न अनसुलझा है, तो कृपया स्पष्टीकरण देने के लिए स्वतंत्र महसूस करें। अन्यथा, पास में एक हरे रंग की टिक पर क्लिक करके उत्थान और "स्वीकार" में से एक पर विचार करें। मैंने देखा कि आपके पास यहां क्रॉस वोट्स पर शून्य वोट और शून्य स्वीकृत धागे हैं।
अमीबा का कहना है कि मोनिका

जवाबों:


29

मानक पीसीए की तुलना में विरल पीसीए की व्याख्या करना आसान है या नहीं, यह उस डेटासेट पर निर्भर करता है, जिसकी आप जांच कर रहे हैं। यहां बताया गया है कि मैं इसके बारे में कैसे सोचता हूं: कभी-कभी पीसीए अनुमानों (डेटा के कम आयामी प्रतिनिधित्व) में एक और अधिक दिलचस्पी होती है, और कभी-कभी - प्रमुख अक्षों में; यह केवल बाद के मामले में है कि विरल PCA की व्याख्या के लिए कोई लाभ हो सकता है। एक दो उदाहरण देता हूं।

मैं उदाहरण के लिए तंत्रिका डेटा (कई न्यूरॉन्स की एक साथ रिकॉर्डिंग) के साथ काम कर रहा हूं और तंत्रिका आबादी गतिविधि का कम-आयामी प्रतिनिधित्व प्राप्त करने के लिए पीसीए और / या संबंधित आयामीता कमी तकनीकों को लागू कर रहा हूं। मेरे पास 1000 न्यूरॉन्स हो सकते हैं (अर्थात मेरा डेटा 1000-आयामी स्थान में रहता है) और इसे तीन प्रमुख प्रमुख अक्षों पर प्रोजेक्ट करना चाहते हैं। ये कुल्हाड़ी क्या हैं, मेरे लिए पूरी तरह अप्रासंगिक हैं, और किसी भी तरह से इन कुल्हाड़ियों की "व्याख्या" करने का मेरा कोई इरादा नहीं है। मुझे क्या दिलचस्पी है, 3 डी प्रोजेक्शन है (जैसा कि गतिविधि समय पर निर्भर करती है, मुझे इस 3 डी स्पेस में एक प्रक्षेपवक्र मिलता है)। इसलिए मैं ठीक हूं यदि प्रत्येक अक्ष में सभी 1000 गैर-शून्य गुणांक हैं।

दूसरी ओर, कोई व्यक्ति अधिक "मूर्त" डेटा के साथ काम कर सकता है, जहां व्यक्तिगत आयामों का स्पष्ट अर्थ है (ऊपर व्यक्तिगत न्यूरॉन्स के विपरीत)। उदाहरण के लिए, विभिन्न कारों का एक डेटासेट, जहां आयाम वजन से कीमत तक कुछ भी होते हैं। इस मामले में वास्तव में अग्रणी प्रिंसिपल कुल्हाड़ियों में वास्तव में दिलचस्पी हो सकती है, क्योंकि कोई कुछ कहना चाहता है: देखिए, 1 प्रिंसिपल एक्सिस कार की "चालाकी" से मेल खाती है (मैं अब इसे पूरी तरह से बना रहा हूं)। यदि प्रक्षेपण विरल है, तो ऐसी व्याख्या आम तौर पर देना आसान होगा, क्योंकि कई चर में गुणांक होंगे और इसलिए इस विशेष अक्ष के लिए स्पष्ट रूप से अप्रासंगिक हैं। मानक पीसीए के मामले में, आमतौर पर सभी चर के लिए गैर-शून्य गुणांक प्राप्त होता है।0

आप Zou एट अल द्वारा 2006 स्पार्स पीसीए पेपर में बाद के मामले के कुछ उदाहरण और कुछ चर्चा पा सकते हैं । पूर्व और बाद के मामले के बीच का अंतर, हालांकि, मैंने कहीं भी स्पष्ट रूप से चर्चा नहीं की (भले ही यह शायद था)।


3
यह एक महान व्याख्या थी। आपके "मूर्त" डेटा का एक और उदाहरण कई सवालों के साथ एक सर्वेक्षण होगा और आप जानना चाहते हैं कि सर्वेक्षण में कौन से प्रश्न सबसे महत्वपूर्ण हैं और शायद उनमें से कुछ संयोजन वास्तव में एक विषय के बारे में पूछ रहे हैं।
बोडोनोविच

1

तो आप पिछले कुछ प्रमुख घटकों को समाप्त कर सकते हैं, क्योंकि वे डेटा के बहुत नुकसान का कारण नहीं होंगे, और आप डेटा को संकुचित कर सकते हैं। सही?

हाँ तुम सही हो। और अगर वेरिएबल , तो आपके पास प्रिंसिपल कंपोनेंट , और हर वेरिएबल की हर PC में एक जानकारी (एक योगदान) है ।वी 1 , वी 2 , , वी एन एन पी सी 1 , पी सी 2 , , पी सी एन वी मैं पी सी मैंNV1,V2,,VNNPC1,PC2,,PCNViPCi

PCA में कुछ चर जानकारी के बिना जो गुणांक शून्य वाले चर हैं।वी जे , वी एल , PCiVj,Vl,

फिर, यदि एक विमान , उम्मीद ( ) से कम चर हैं , तो इस विमान में उनके बीच रैखिक संबंधों को साफ करना आसान है। एन(PCi,PCj)N


किस तरह!? मैं यह नहीं देखता कि इस मामले में व्याख्या करना कितना आसान होगा, जब प्रधान घटक विरल नहीं होते हैं।
ग्रोइनमैन मैन

2
जिस तरह से मैं इस बारे में सोचता हूं वह यह है कि हम अक्सर परिणामों को अधिक व्याख्या करने के लिए पीसी से पहले चर क्लस्टरिंग करते हैं। स्पार्स पीसी एक चरण में चर क्लस्टरिंग और पीसी को जोड़ती है, विश्लेषक की ओर से कम निर्णय लेने की आवश्यकता होती है।
फ्रैंक हरेल

1

पीसीए में विरलता के फायदों को समझने के लिए, आपको यह सुनिश्चित करने की ज़रूरत है कि आपको "लोडिंग" और "वैरिएबल" के बीच का अंतर पता है (मेरे लिए ये नाम कुछ मनमाने हैं, लेकिन यह महत्वपूर्ण नहीं है)।

मान लें कि आपके पास एक nxp डेटा मैट्रिक्स X है , जहां n नमूनों की संख्या है। X = USV ' का SVD , आपको तीन मैट्रिसेस देता है। पहले दो Z = US का संयोजन आपको प्रिंसिपल कंपोनेंट्स का मैट्रिक्स देता है। चलो का कहना है कि अपने कम रैंक है कश्मीर , तो जेड है NXKZ अनिवार्य रूप से आयाम में कमी के बाद आपका डेटा मैट्रिक्स है। ऐतिहासिक रूप से,

आपके प्रमुख घटकों (उर्फ जेड = यूएस ) की प्रविष्टियों को चर कहा जाता है।

दूसरी ओर, V (जो कि pxk है ) में प्रिंसिपल लोडिंग वैक्टर होते हैं और इसकी प्रविष्टियों को प्रिंसिपल लोडिंग कहा जाता है। पीसीए के गुणों को देखते हुए, यह दिखाना आसान है कि Z = XV । इस का मतलब है कि:

प्रमुख घटक आपके डेटा मैट्रिक्स एक्स के रैखिक संयोजन में गुणांक के रूप में प्रमुख लोडिंग का उपयोग करके प्राप्त किए जाते हैं ।

अब जबकि ये परिभाषाएँ समाप्त हो चुकी हैं, हम विरलता देखेंगे। अधिकांश कागजात (या कम से कम सबसे अधिक जो मैंने सामना किया है), प्रिंसिपल लोडिंग (उर्फ वी ) पर स्पार्सिटी लागू करते हैं । विरलता का लाभ यह है कि

एक विरल वी हमें बताएगा कि कौन से चर (मूल पी -डायनामिक फीचर स्पेस से) रखने योग्य हैं। इसे व्याख्या कहते हैं।

Z की प्रविष्टियों पर स्पार्सिटी लागू करने के लिए व्याख्याएं भी हैं , जिन्हें मैंने लोगों को "स्पार्स चर पीसीए" कहा है, लेकिन यह बहुत कम लोकप्रिय है और ईमानदार होने के लिए मैंने इसके बारे में ज्यादा नहीं सोचा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.