PCA आउटलेर्स के प्रति संवेदनशील क्यों है?


26

इस एसई पर कई पोस्ट हैं जो प्रमुख घटक विश्लेषण (पीसीए) के लिए मजबूत दृष्टिकोणों पर चर्चा करते हैं, लेकिन मैं इस बात का एक भी अच्छा विवरण नहीं पा सकता हूं कि पीसीए पहली जगह में आउटलेर्स के लिए संवेदनशील क्यों है।


5
क्योंकि आउटलेर्स के लिए L2 मानदंड का योगदान बहुत अधिक है। फिर जब L2 मानदंड (जो कि पीसीए करने की कोशिश करता है) को कम करके, उन बिंदुओं को मध्य इच्छा के करीब बिंदुओं की तुलना में फिट करने के लिए कठिन खींच लेंगे।
गणितज्ञ

जवाबों:


35

कारणों में से एक यह है कि पीसीए को डेटा के निम्न-श्रेणी के अपघटन के रूप में माना जा सकता है जो अपघटन के अवशिष्ट के मानदंडों के योग को कम करता है । Ie यदि आपका डेटा ( आयामों का वैक्टर ) है, और PCA आधार है ( आयामों के vectors ), तो अपघटन सख्ती से यहां A पीसीए अपघटन के गुणांक का मैट्रिक्स है और \ lVert \ cdot \ rVert_F मैट्रिक्स का फ्रोबेनियस मानदंड हैL2YmnXkn

YXAF2=j=1mYjXAj.2
AF

क्योंकि PCA L2 मानदंड (यानी द्विघात मानदंड) को कम करता है, इसमें समान मुद्दे हैं, जो कम से कम वर्ग हैं या आउटलेयर के प्रति संवेदनशील होकर एक गाऊसी फिटिंग करते हैं। बाहरी लोगों के विचलन के कारण, वे कुल आदर्श पर हावी होंगे और इसलिए पीसीए घटकों को चलाएंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.