सारांश: समस्या को नियमित करने और ओवर-फिटिंग से बचने के लिए एलडीए से पहले पीसीए का प्रदर्शन किया जा सकता है।
झील प्राधिकरण अनुमानों के eigendecomposition के माध्यम से गणना याद रखें कि , जहां और within- और के बीच स्तरीय सहप्रसरण मैट्रिक्स कर रहे हैं। यदि से कम डेटा बिंदु हैं (जहाँ आपके स्थान की , अर्थात सुविधाओं / चर की संख्या), तो एकवचन होगा और इसलिए इसका उल्टा नहीं किया जा सकता है। इस मामले में सीधे एलडीए प्रदर्शन करने का कोई तरीका नहीं है, लेकिन अगर कोई पहले पीसीए लागू करता है, तो यह काम करेगा। @ एरन ने यह टिप्पणी टिप्पणियों में उनके उत्तर के लिए की, और मैं इससे सहमत हूं (लेकिन सामान्य रूप से उनके जवाब से असहमत हूं, जैसा कि आप अब देखेंगे)।Σ−1WΣBΣWΣBNNΣW
हालाँकि, यह समस्या का केवल एक हिस्सा है। बड़ी तस्वीर यह है कि एलडीए बहुत आसानी से डेटा को ओवरफिट कर देता है। ध्यान दें कि एलडीए अभिकलन में वर्ग-सहसंयोजक मैट्रिक्स उल्टा हो जाता है; उच्च-आयामी मेट्रिसेस लिए वास्तव में संवेदनशील ऑपरेशन है जो केवल विश्वसनीय तरीके से किया जा सकता है यदि का अनुमान वास्तव में अच्छा है। लेकिन उच्च आयाम , का सटीक अनुमान प्राप्त करना वास्तव में मुश्किल है , और व्यवहार में अक्सर यह अनुमान लगाने के लिए एन डेटा बिंदुओं की तुलना में बहुत अधिक होना चाहिए कि अनुमान अच्छा है। अन्यथा Σ डब्ल्यूΣWN≫1ΣWNΣW लगभग एकवचन होगा (अर्थात कुछ प्रतिजन बहुत कम होंगे), और यह परीक्षण डेटा पर मौका प्रदर्शन के साथ प्रशिक्षण डेटा पर ओवर-फिटिंग, अर्थात निकट-उत्तम श्रेणी पृथक्करण का कारण होगा।
इस समस्या से निपटने के लिए, किसी को समस्या को नियमित करने की आवश्यकता है। इसका एक तरीका यह है कि पहले आयामीता को कम करने के लिए पीसीए का उपयोग किया जाए। वहाँ अन्य, यकीनन बेहतर होते हैं, जैसे नियमित झील प्राधिकरण (आरएलडीए) विधि है जो बस का उपयोग करता है छोटे से λ के बजाय Σ डब्ल्यू (यह कहा जाता है संकोचन आकलनकर्ता ), लेकिन पहले पीसीए कर धारणात्मक है सरल दृष्टिकोण और अक्सर ठीक काम करता है।(1−λ)ΣW+λIλΣW
चित्रण
यहां ओवर-फिटिंग समस्या का एक चित्रण है। मैंने 10-, 50-, 100-, और 150-आयामी स्थानों में मानक गाऊसी वितरण (मतलब शून्य, इकाई विचरण) से 3 वर्गों में प्रति वर्ग 60 नमूने उत्पन्न किए और 2D पर डेटा को प्रोजेक्ट करने के लिए LDA को लागू किया:
ध्यान दें कि कैसे आयाम बढ़ता है, कक्षाएं बेहतर और बेहतर रूप से अलग हो जाती हैं, जबकि वास्तव में वर्गों के बीच कोई अंतर नहीं है ।
हम देख सकते हैं कि अगर हम कक्षाओं को थोड़ा अलग कर दें तो पीसीए ओवरफिटिंग को रोकने में कैसे मदद करता है। मैंने पहली कक्षा के पहले समन्वय में 2, दूसरी कक्षा के पहले समन्वय के लिए 2 और तीसरी कक्षा के पहले समन्वय में 3 जोड़ दिए। अब वे थोड़ा अलग हो गए हैं, ऊपरी बाएँ उप-भाग देखें:
ओवरफिटिंग (शीर्ष पंक्ति) अभी भी स्पष्ट है। लेकिन अगर मैं पीसीए के साथ डेटा को प्री-प्रोसेस करता हूं, तो हमेशा 10 आयाम (नीचे पंक्ति) रखते हुए, ओवरफिटिंग गायब हो जाती है जबकि कक्षाएं लगभग-अलग-अलग अलग रहती हैं।
पुनश्च। गलतफहमी को रोकने के लिए: मैं यह दावा नहीं कर रहा हूं कि पीसीए + एलडीए एक अच्छा नियमितीकरण रणनीति है (इसके विपरीत, मैं आरएलडीए का उपयोग करने की सलाह दूंगा), मैं बस यह प्रदर्शित कर रहा हूं कि यह एक संभावित रणनीति है।
अद्यतन करें। बहुत पहले इसी तरह के विषय पर निम्नलिखित सूत्र में चर्चा की गई है, जिसमें @cbeleites द्वारा दिए गए रोचक और व्यापक उत्तर दिए गए हैं:
इस प्रश्न को भी कुछ अच्छे उत्तरों के साथ देखें:
best practice
। पीसीए और एलडीए, आयामी कमी तकनीकों के रूप में, बहुत अलग हैं। कभी-कभी लोग पीसीए को एलडीए से पहले करते हैं, लेकिन इसके भेदभावपूर्ण आयामों को दूर करने के लिए (छोड़े गए पीसी के साथ) फेंकने के अपने जोखिम हैं। आपके द्वारा पूछे गए सवाल वास्तव में इस साइट पर कई बार किसी न किसी रूप में पूछे गए हैं। कृपया "पीसीए एलडीए" खोजें, यह पढ़ने के लिए कि लोगों ने इसे क्या कहा।