सवाल:
क्या इनपुट डेटा विशेषताओं के संबंध में कोई सामान्य दिशानिर्देश हैं, जिनका उपयोग पीसीए बनाम एलएसए / एलएसआई लागू करने के बीच निर्णय लेने के लिए किया जा सकता है?
पीसीए बनाम एलएसए / एलएसआई का संक्षिप्त सारांश:
सिद्धांत घटक विश्लेषण (पीसीए) और अव्यक्त अर्थ विश्लेषण (एलएसए) या अव्यक्त अर्थ सूचकांक (एलएसआई) इस अर्थ में समान हैं कि सभी एक मैट्रिक्स के लिए विलक्षण मूल्य अपघटन (एसवीडी) के आवेदन पर मौलिक रूप से निर्भर करते हैं।
एलएसए और एलएसआई हैं, जहां तक मैं बता सकता हूं, वही बात। एलएसए पीसीए से अलग-अलग नहीं है, लेकिन एसवीडी को लागू करने से पहले मैट्रिक्स प्रविष्टियों को पूर्व-संसाधित करने के तरीके से अलग है।
एलएसए में प्रीप्रोसेसिंग चरण में आमतौर पर एक गिनती मैट्रिक्स को सामान्य करना शामिल होता है जहां कॉलम 'दस्तावेज़' के अनुरूप होते हैं और पंक्तियाँ किसी प्रकार के शब्द से मेल खाती हैं। प्रविष्टियों को किसी तरह के (सामान्यीकृत) शब्द-घटना-के-दस्तावेज़ की गिनती के रूप में माना जा सकता है।
पीसीए में प्रीप्रोसेसिंग चरण में मूल मैट्रिक्स से कोवरियन मैट्रिक्स की गणना करना शामिल है। एलएसए के मामले की तुलना में मूल मैट्रिक्स प्रकृति में वैचारिक रूप से अधिक 'सामान्य' है। जहां पीसीए का संबंध है, कॉलम आमतौर पर जेनेरिक सैंपल वैक्टर को संदर्भित करने के लिए कहा जाता है और पंक्तियों को व्यक्तिगत चर के संदर्भ में कहा जाता है जिन्हें मापा जा रहा है। सहसंयोजक मैट्रिक्स परिभाषा वर्ग और सममिति द्वारा होता है और वास्तव में यह एसवीडी लागू करने के लिए आवश्यक नहीं है, क्योंकि कोवरियन मैट्रिक्स को विकर्णीकरण के माध्यम से विघटित किया जा सकता है। विशेष रूप से, पीसीए मैट्रिक्स लगभग निश्चित रूप से एलएसए / एलएसआई संस्करण की तुलना में घनी होगी - शून्य प्रविष्टियां केवल वहीं होंगी जहां चर के बीच सहसंयोजक शून्य है, यही वह जगह है जहां चर स्वतंत्र हैं।
अंत में एक और वर्णनात्मक बिंदु जो दोनों को अलग करने के लिए काफी बार बनाया जाता है
एलएसए फ्रोबेनियस मानदंड में सबसे अच्छा रैखिक उप-स्थान की तलाश करता है, जबकि पीसीए का लक्ष्य सबसे अच्छा चक्कर रैखिक उप-क्षेत्र है।
किसी भी स्थिति में, इन तकनीकों के अंतर और समानता को आंतरिक रूप से पूरे फ़ोरम में विभिन्न मंचों पर गर्म बहस की गई है, और स्पष्ट रूप से कुछ मुख्य अंतर हैं, और स्पष्ट रूप से ये दोनों तकनीक अलग-अलग परिणाम उत्पन्न करेंगे।
इस प्रकार मैं अपना प्रश्न दोहराता हूं: क्या इनपुट डेटा विशेषताओं के संबंध में कोई सामान्य दिशानिर्देश हैं, जिनका उपयोग पीसीए बनाम एलएसए / एलएसआई लागू करने के बीच निर्णय लेने के लिए किया जा सकता है? अगर मेरे पास टर्म-डॉक्यूमेंट मैट्रिक्स जैसा कुछ है तो एलएसए / एलएसआई हमेशा सबसे अच्छा विकल्प होगा? एलएसए / एलएसआई के लिए टर्म / डॉक मैट्रिक्स तैयार करके और फिर एसवीडी को सीधे लागू करने के बजाय परिणाम के लिए पीसीए लागू करके कुछ मामलों में बेहतर परिणाम प्राप्त करने की उम्मीद कर सकते हैं?