क्या ICA को पहले PCA चलाने की आवश्यकता है?


9

मैंने एक एप्लिकेशन-आधारित पेपर की समीक्षा करते हुए कहा कि ICA (फास्टिका पैकेज का उपयोग करके) लागू करने से पहले पीसीए को लागू करना। मेरा सवाल यह है कि क्या ICA (फास्टिका) को पहले पीसीए चलाने की आवश्यकता है?

इस पत्र में उल्लेख किया गया है कि

... यह भी तर्क दिया जाता है कि पूर्व-लागू PCA ICA प्रदर्शन को बढ़ाता है (1) श्वेत करने से पहले छोटे अनुगामी eigenvalues ​​को छोड़ना और (2) जोड़ी-वार निर्भरता को कम करके कम्प्यूटेशनल जटिलता को कम करना। पीसीए इनपुट डेटा को सजाता है; शेष उच्च-क्रम निर्भरता ICA द्वारा अलग की जाती है।

इसके अलावा अन्य कागजात आईसीए से पहले पीसीए आवेदन कर रहे हैं, जैसे, यह एक

क्या ICA से पहले PCA चलाने के लिए कोई और पेशेवरों और विपक्ष हैं? कृपया संदर्भ के साथ सिद्धांत प्रदान करें।


यह प्रकाशित कार्य पीसीए-आधारित आयामी आईसीए में कमी के प्रतिकूल प्रभाव पाता है।
बोनोबो

जवाबों:


9

फास्टिका दृष्टिकोण को पूर्व-श्वेतकरण चरण की आवश्यकता होती है: डेटा को पहले पीसीए का उपयोग करके रूपांतरित किया जाता है, जो एक विकर्ण सहसंयोजक मैट्रिक्स की ओर जाता है, और फिर प्रत्येक आयाम को सामान्यीकृत किया जाता है ताकि सहसंयोजक मैट्रिक्स पहचान मैट्रिक्स (श्वेतकरण) के बराबर हो।

डेटा के अनंत परिवर्तन हैं जो पहचान कोवरियन मैट्रिक्स के परिणामस्वरूप होते हैं, और यदि आपके स्रोत गौसियन थे, तो आप वहां रुक जाएंगे (गौसियन मल्टीवेरिएट वितरण के लिए, माध्य और कोवरियन पर्याप्त आँकड़े हैं), गैर-गौसियन स्रोतों की उपस्थिति में आप कुछ को कम कर सकते हैं सफेद किए गए डेटा पर निर्भरता का मापन, इसलिए आप उन सफेद किए गए डेटा के रोटेशन की तलाश करते हैं जो स्वतंत्रता को अधिकतम करते हैं। फास्टिका सूचना सिद्धांत उपायों और एक निश्चित-बिंदु पुनरावृत्ति योजना का उपयोग करके इसे प्राप्त करता है।

मैं Hyvärinen के काम की सिफारिश करूँगा ताकि समस्या की गहरी समझ मिल सके:

  • ए। हाइवारेन। स्वतंत्र घटक विश्लेषण के लिए फास्ट और मजबूत फिक्स्ड-पॉइंट एल्गोरिदम। IEEE लेन-देन तंत्रिका नेटवर्क 10 (3) पर: 626-634, 1999।
  • ए। हाइविनिन, जे। करहुनेन, ई। ओजा, स्वतंत्र घटक विश्लेषण, विली एंड संस। 2001

कृपया ध्यान दें कि पीसीए करना और आयाम में कमी करना वास्तव में एक ही बात नहीं है: जब आपके पास संकेतों की तुलना में अधिक अवलोकन (प्रति संकेत) होता है, तो आप समझाए गए विचरण के 100% को बनाए रखने वाले पीसीए का प्रदर्शन कर सकते हैं, और फिर श्वेत और निश्चित बिंदु पुनरावृत्ति के साथ जारी रख सकते हैं। स्वतंत्र घटकों का अनुमान प्राप्त करना। आपको आयाम में कमी करनी चाहिए या नहीं यह अत्यधिक संदर्भ पर निर्भर है और यह आपकी मॉडलिंग मान्यताओं और डेटा वितरण पर आधारित है।


2
यह एक अच्छा उत्तर है, लेकिन जहां तक ​​मुझे पता है कि आपके अंतिम बिंदु को और अधिक मजबूत बनाया जा सकता है: यह लगभग हमेशा एक अच्छा विचार है कि गतिशीलता को कम करने के लिए (डेटा को सफेद करने के अलावा) पीसीए कदम का उपयोग करें। वास्तव में, यदि आयाम बहुत अधिक है, तो आईसीए आसानी से अर्थहीन घटकों को ओवरफिट और उत्पादन कर सकता है। पीसीए के साथ पूर्व-प्रसंस्करण अक्सर इस समस्या को हल करता है (जैसा कि ओपी में बोली में तर्क दिया गया है)।
अमीबा

4

पीसीए को अपने डेटा पर लागू करने से मूल समन्वय अक्षों को घुमाने का एकमात्र प्रभाव होता है। यह एक रेखीय परिवर्तन है, उदाहरण के लिए फूरियर रूपांतरण। इसलिए जैसे कि यह वास्तव में आपके डेटा के लिए कुछ भी नहीं कर सकता है।

हालांकि, नए पीसीए अंतरिक्ष में प्रतिनिधित्व किए गए डेटा में कुछ दिलचस्प गुण हैं। पीसीए के साथ समन्वय रोटेशन के बाद, आप स्थापित मापदंडों के आधार पर कुछ आयामों को त्याग सकते हैं जैसे कि नए अक्षों द्वारा समझाया गया कुल विचरण का प्रतिशत। आपके संकेत के आधार पर, आप इस विधि द्वारा काफी मात्रा में आयामी कमी प्राप्त कर सकते हैं और यह निश्चित रूप से निम्नलिखित आईसीए के प्रदर्शन को बढ़ाएगा। पीसीए घटकों में से किसी को भी खारिज किए बिना एक आईसीए करने से निम्नलिखित आईसीए के परिणाम पर कोई प्रभाव नहीं पड़ेगा।

इसके अलावा, कोई भी आसानी से समन्वित अक्षों की ऑर्थोगोनलिटी के कारण पीसीए अंतरिक्ष में डेटा को सफेद कर सकता है। श्वेतकरण में सभी आयामों में भिन्नता को बराबर करने का प्रभाव है। मैं तर्क दूंगा कि आईसीए को ठीक से काम करने के लिए यह आवश्यक है। अन्यथा केवल पीसीए घटक सबसे बड़े संस्करण के साथ आईसीए परिणामों पर हावी होंगे।

मैं वास्तव में पीसीए आधारित प्रीप्रोसेसिंग के लिए आईसीए से पहले कोई कमियां नहीं देखता हूं।

जियानकार्लो पहले ही आईसीए के लिए सबसे अच्छा संदर्भ का हवाला देता है ...


आपका पूरा उत्तर इस आधार पर है कि पीसीए को लागू करना केवल समन्वय अक्ष को घुमाना है, लेकिन वास्तव में "पीसीए लागू करना" से लोगों का मतलब आमतौर पर आयामी कमी (यानी केवल पीसी का एक सबसेट रखने और बाकी को छोड़ने) है।
अमीबा

पीसीए आपको यह पता लगाने में मदद करता है कि आप कौन से आयामों को छोड़ देंगे, यदि आप करेंगे। मैं यह नहीं देखता कि यह मेरा जवाब कैसे ठीक करता है।
बोनोबो

इस बीच यह काम प्रकाशित हुआ है, वे बाद के आईसीए की गुणवत्ता पर पीसीए आधारित आयामी कमी के प्रतिकूल प्रभाव दिखाने का दावा करते हैं।
बोनोबो

लिंक के लिए धन्यवाद। मैंने अमूर्त पढ़ा और ईमानदार होने के लिए मुझे संदेह है। लेकिन मैं आईसीए का विशेषज्ञ नहीं हूं और शायद इस पेपर का विस्तार से अध्ययन नहीं करूंगा।
अमीबा

2

फास्टिका एल्गोरिथ्म की व्युत्पत्ति के लिए केवल एक कदम के लिए श्वेतकरण की आवश्यकता होती है। सबसे पहले, आप कदम की दिशा (एक ढाल वंश की तरह) उठाते हैं और इसके लिए सफेद किए गए डेटा की आवश्यकता नहीं होती है। फिर, हमें स्टेप साइज चुनना होगा, जो हेसियन के विलोम पर निर्भर करता है। यदि डेटा को सफेद किया जाता है तो यह हेसियन विकर्ण और उल्टा है।

तो क्या यह आवश्यक है? यदि आपने अभी स्टेप साइज़ को स्थिर (इसलिए वाइटनिंग की आवश्यकता नहीं है) निर्धारित किया है तो आपके पास मानक ढाल वंश होगा। एक निश्चित छोटे कदम के आकार के साथ ढाल मूल रूप से अभिसरण होगा, लेकिन मूल विधि की तुलना में संभवतः धीमा। दूसरी ओर, यदि आपके पास एक बड़ा डेटा मैट्रिक्स है, तो व्हाइटनिंग काफी महंगा हो सकता है। आप बिना सफेदी लिए हुए धीमे कंवर्सेशन से भी बेहतर हो सकते हैं।

किसी भी साहित्य में इस बात का उल्लेख न देखकर मुझे आश्चर्य हुआ। एक पेपर समस्या पर चर्चा करता है: जिमिन ये और टिंग हुआंग द्वारा प्रीविटेनिंग के बिना ब्लाइंड स्रोत पृथक्करण के लिए नए फास्ट-आईसीए एल्गोरिदम

वे गोरे होने के लिए कुछ सस्ता विकल्प सुझाते हैं। काश, वे एक आधारभूत के रूप में सफेद किए बिना सिर्फ आईसीए चलाने की स्पष्ट तुलना को शामिल करते, लेकिन उन्होंने ऐसा नहीं किया। एक और डेटा बिंदु के रूप में मैंने खिलौने की समस्याओं पर श्वेत किए बिना फास्टिका चलाने की कोशिश की है और यह ठीक काम किया है।

अपडेट: व्हाइटनिंग को संबोधित करने वाला एक और अच्छा संदर्भ यहां है: मजबूत स्वतंत्र घटक विश्लेषण, जरो और कॉमोन । वे एल्गोरिदम प्रदान करते हैं जिन्हें व्हाइटनिंग की आवश्यकता नहीं होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.