आउटर डिटेक्शन के लिए रोबस्ट पीसीए बनाम मजबूत महालनोबिस दूरी


17

मजबूत पीसीए (के रूप में द्वारा विकसित Candes एट अल 2009 या बेहतर अभी तक Netrepalli एट अल 2014 ) है मल्टीवेरिएट बाहरी पता लगाने के लिए एक लोकप्रिय तरीका है, लेकिन महालनोबिस दूरी भी एक दिया बाहरी पता लगाने के लिए इस्तेमाल किया जा सकता सहप्रसरण मैट्रिक्स के मजबूत, नियमित अनुमान । मैं दूसरे पर एक विधि का उपयोग करने के (डिस) लाभों के बारे में उत्सुक हूं।

मेरा अंतर्ज्ञान मुझे बताता है कि दोनों के बीच सबसे बड़ा अंतर निम्नलिखित है: जब डेटा सेट "छोटा" (एक सांख्यिकीय अर्थ में) होता है, तो मजबूत पीसीए एक निम्न-श्रेणी सहसंयोजक देगा जबकि मजबूत सहसंयोजक मैट्रिक्स आकलन इसके बजाय एक पूर्ण देगा। लेडोइट-वुल्फ नियमितीकरण के कारण रैंक कोवरियन। यह बदले में बाहरी पहचान को कैसे प्रभावित करता है?


दिलचस्प सवाल है, लेकिन मैं यह नहीं देख सकता कि एक विशिष्ट उपयोग के मामले के बिना उत्तर को कैसे प्रेरित किया जा सकता है। क्या आपके पास "मोटे तौर पर भ्रष्ट टिप्पणियों" है ? क्या आपके पास आम तौर पर शोर डेटा है? आरपीसीए कार्यान्वयन की एक संख्या अनिवार्य रूप से मजबूत सहसंयोजक आकलन तकनीक है (जोलिफ़ के प्राइ। कॉम्प्लेक्स विश्लेषण, एड। 2 च। 10) जहां पीसी कोविर्स के नियमित अनुमान से अनुमानित हैं। इस प्रकार, आपके द्वारा उल्लिखित दो दृष्टिकोणों के अंतर स्पष्ट-कट से दूर हैं। सामान्य तौर पर, किसी विशेष एप्लिकेशन के संदर्भ में स्वचालित आउटलाइर डिटेक्शन सफल होता है।
us --r11852

1
"शोर डेटा" समस्या बाहरी पता लगाने नहीं है। मुझे लगता है कि एक उपयोग के मामले के बिना इन दोनों तरीकों के बीच एक सामान्य तुलना की अनुमति देने के लिए बाह्य दोष का पता लगाने की समस्या अपने आप में पर्याप्त प्रतिबंधात्मक है। यह कार्यप्रणाली के बारे में एक प्रश्न है।
मुस्तफा एस आइसा

शायद मैंने बहुत कम जगह में बहुत अधिक कहने की कोशिश की, इसके लिए क्षमा करें। मैं जिस चीज पर ध्यान आकर्षित करना चाहता हूं वह यह है कि आपके द्वारा बताए गए दो दृष्टिकोण अलग-अलग नहीं हैं। आपको एक प्रक्षेपण खोज दृष्टिकोण (जिसे आप आरपीसीए कहते हैं) और एक मजबूत सहसंयोजक अनुमान दृष्टिकोण (जिसे आप महालनोबिस दूरी कहते हैं) के बीच तुलना पर अधिक ध्यान केंद्रित करने पर विचार करना चाहिए। अपने आप में रोबस्ट कोवरियस का अनुमान RPCA कार्यान्वयन के लिए एक पूरी तरह से मान्य पद्धति है (जैसे। google "PCA M-Estimation")। भारित पीसीए दृष्टिकोणों की उपस्थिति का भी उल्लेख न करें जो कि आप किसी तरह आरपीसीए के संदर्भ में उल्लेख नहीं करते हैं।
us --r11852 का कहना है कि

माफी की कोई आवश्यकता नहीं है :) दो तरीके बहुत अलग हैं, खासकर छोटे डेटासेट पर। मेरे प्रश्न के अंत में उनके द्वारा बताए गए तरीकों में से एक है। जबकि (मजबूत) पीसीए को एक प्रक्षेपण समस्या के रूप में देखा जा सकता है, इसे एक सहसंयोजक आकलन समस्या के रूप में भी समझा जा सकता है, इसलिए आवेदन और प्रदर्शन की तुलना में पैरामीटर अनुमान विधि में अंतर कम है।
मुस्तफा एस आइसा

@ मुस्तफासीसा / अच्छा सवाल! मुझे लगता है कि इसका उत्तर पद्धतिगत आधार पर दिया जा सकता है: वास्तव में यह मेरे पीट पीव्स में से एक है। मैं एक अस्थायी उत्तर देने का प्रयास करूँगा। इस बीच में; मुझे लगता है कि इसे और अधिक सामान्य शब्दों में देखने का एक उपयोगी तरीका है, नीडिंत लेकिन असमान समूह के साथ मॉडल का उपयोग करने के परिणामों को देखने के लिए। जैसा कि मैं यहां कुछ अलग संदर्भ में करने की कोशिश करता हूं ।
user603

जवाबों:


7

यह पत्र इस क्षेत्र में कुछ विधियों की तुलना करता है। वे रोबस्ट पीसीए दृष्टिकोण का उल्लेख करते हैं जिसे आप "पीसीपी" (प्रमुख घटक खोज) और एम-एसेटर के रूप में मजबूत सहसंयोजक आकलन के लिए आपके द्वारा जुड़े तरीकों के परिवार से जोड़ते हैं।

उनका तर्क है कि

पीसीपी को भ्रष्ट डेटा पॉइंट (यानी, आउटलेयर) के बजाय डेटा के समान रूप से दूषित निर्देशांक के लिए डिज़ाइन किया गया है, इसलिए, इस तरह के डेटा के लिए पीसीपी के साथ तुलना कुछ हद तक अनुचित है

और दिखाते हैं कि PCP (उर्फ मजबूत PCA) कुछ मामलों में बाहरी पहचान के लिए विफल हो सकता है।

वे तीन प्रकार के "उप-शत्रु पुनर्प्राप्ति के दुश्मनों" के बारे में बात करते हैं, अर्थात विभिन्न प्रकार के आउटलेर, और किस प्रकार के तरीके हर एक के साथ काम करने के लिए अच्छा कर सकते हैं। यहां चर्चा किए गए "दुश्मनों" के तीन प्रकारों के साथ अपने स्वयं के बाहरी लोगों की तुलना करने से आपको एक दृष्टिकोण चुनने में मदद मिल सकती है।


इस डेविड के लिए धन्यवाद, मैं कागज पर एक नज़र डालूंगा। हालांकि, मजबूत पीसीए का एक संस्करण है जो निर्देशांक (जैसे कि कैंडिस मामले में) पर एक दंड के बजाय डेटम (डेटा मैट्रिक्स की पंक्तियों) पर एक घूर्णी-रूप से अशुभ जुर्माना लगाता है। विचार?
मुस्तफा एस आइसा

मुझे यकीन नहीं है कि मैं आपके सवाल को समझ सकता हूँ। क्या आप मुझसे अपने प्रश्न में चर्चा किए गए दो दृष्टिकोणों की तुलना एक अलग पीसीए दृष्टिकोण के साथ कर रहे हैं?
डेविड जे। हैरिस

11

यदि आपका जवाब है, "नहीं" तो यह पूरी तरह से ठीक है मैं सोच रहा हूँ।
मुस्तफा एस आइसा

ओह मैं समझा। क्या वह महालनोबिस की दूरी का एक विशेष मामला होगा?
डेविड जे। हैरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.