पीसीए बनाम एलएसए / एलएसआई का चयन कब करें


9

सवाल:

क्या इनपुट डेटा विशेषताओं के संबंध में कोई सामान्य दिशानिर्देश हैं, जिनका उपयोग पीसीए बनाम एलएसए / एलएसआई लागू करने के बीच निर्णय लेने के लिए किया जा सकता है?

पीसीए बनाम एलएसए / एलएसआई का संक्षिप्त सारांश:

सिद्धांत घटक विश्लेषण (पीसीए) और अव्यक्त अर्थ विश्लेषण (एलएसए) या अव्यक्त अर्थ सूचकांक (एलएसआई) इस अर्थ में समान हैं कि सभी एक मैट्रिक्स के लिए विलक्षण मूल्य अपघटन (एसवीडी) के आवेदन पर मौलिक रूप से निर्भर करते हैं।

एलएसए और एलएसआई हैं, जहां तक ​​मैं बता सकता हूं, वही बात। एलएसए पीसीए से अलग-अलग नहीं है, लेकिन एसवीडी को लागू करने से पहले मैट्रिक्स प्रविष्टियों को पूर्व-संसाधित करने के तरीके से अलग है।

एलएसए में प्रीप्रोसेसिंग चरण में आमतौर पर एक गिनती मैट्रिक्स को सामान्य करना शामिल होता है जहां कॉलम 'दस्तावेज़' के अनुरूप होते हैं और पंक्तियाँ किसी प्रकार के शब्द से मेल खाती हैं। प्रविष्टियों को किसी तरह के (सामान्यीकृत) शब्द-घटना-के-दस्तावेज़ की गिनती के रूप में माना जा सकता है।

पीसीए में प्रीप्रोसेसिंग चरण में मूल मैट्रिक्स से कोवरियन मैट्रिक्स की गणना करना शामिल है। एलएसए के मामले की तुलना में मूल मैट्रिक्स प्रकृति में वैचारिक रूप से अधिक 'सामान्य' है। जहां पीसीए का संबंध है, कॉलम आमतौर पर जेनेरिक सैंपल वैक्टर को संदर्भित करने के लिए कहा जाता है और पंक्तियों को व्यक्तिगत चर के संदर्भ में कहा जाता है जिन्हें मापा जा रहा है। सहसंयोजक मैट्रिक्स परिभाषा वर्ग और सममिति द्वारा होता है और वास्तव में यह एसवीडी लागू करने के लिए आवश्यक नहीं है, क्योंकि कोवरियन मैट्रिक्स को विकर्णीकरण के माध्यम से विघटित किया जा सकता है। विशेष रूप से, पीसीए मैट्रिक्स लगभग निश्चित रूप से एलएसए / एलएसआई संस्करण की तुलना में घनी होगी - शून्य प्रविष्टियां केवल वहीं होंगी जहां चर के बीच सहसंयोजक शून्य है, यही वह जगह है जहां चर स्वतंत्र हैं।

अंत में एक और वर्णनात्मक बिंदु जो दोनों को अलग करने के लिए काफी बार बनाया जाता है

एलएसए फ्रोबेनियस मानदंड में सबसे अच्छा रैखिक उप-स्थान की तलाश करता है, जबकि पीसीए का लक्ष्य सबसे अच्छा चक्कर रैखिक उप-क्षेत्र है।

किसी भी स्थिति में, इन तकनीकों के अंतर और समानता को आंतरिक रूप से पूरे फ़ोरम में विभिन्न मंचों पर गर्म बहस की गई है, और स्पष्ट रूप से कुछ मुख्य अंतर हैं, और स्पष्ट रूप से ये दोनों तकनीक अलग-अलग परिणाम उत्पन्न करेंगे।

इस प्रकार मैं अपना प्रश्न दोहराता हूं: क्या इनपुट डेटा विशेषताओं के संबंध में कोई सामान्य दिशानिर्देश हैं, जिनका उपयोग पीसीए बनाम एलएसए / एलएसआई लागू करने के बीच निर्णय लेने के लिए किया जा सकता है? अगर मेरे पास टर्म-डॉक्यूमेंट मैट्रिक्स जैसा कुछ है तो एलएसए / एलएसआई हमेशा सबसे अच्छा विकल्प होगा? एलएसए / एलएसआई के लिए टर्म / डॉक मैट्रिक्स तैयार करके और फिर एसवीडी को सीधे लागू करने के बजाय परिणाम के लिए पीसीए लागू करके कुछ मामलों में बेहतर परिणाम प्राप्त करने की उम्मीद कर सकते हैं?


1
एलएसए / एलएसआई का आपका वर्णन मुझे पत्राचार विश्लेषण (सीए) से मिलता जुलता है और मुझे संदेह है कि पाठ खनन का संक्षिप्त रूप एलएसए आंकड़ों में सीए के लिए है। सीए और पीसीए वास्तव में बहुत निकट से संबंधित हैं।
ttnphns 10

अरे बस यह जानना चाहता था कि क्या आपको कभी इसका जवाब मिला, मेरा भी यही सवाल है।
पुष्पद्रे

तुम क्या करने की कोशिश कर रहे हो? यह कुछ विचार दे सकता है जिसके बारे में अधिक लागू हो सकता है। क्या आप दस्तावेज़ और शब्द दोनों के संदर्भ में पाठ पैटर्न और अर्थ संबंधी सहसंबंध या कम आयामी अव्यक्त स्थान खोजने में रुचि रखते हैं?
ui_90jax

जवाबों:


2

एक अंतर जो मैंने नोट किया था कि पीसीए आपको केवल टर्म-टर्म या डॉक्यूमेंट-डॉक्यूमेंट की समानता दे सकता है (इस पर निर्भर करता है कि आपने कोर मैट्रिक्स को कैसे गुणा किया है) AA या AA) लेकिन एसवीडी / एलएसए दोनों को वितरित कर सकता है क्योंकि आपके पास दोनों के ईजेनवेक्टर हैं AA तथा AA। वास्तव में मुझे SVD पर कभी भी PCA का उपयोग करने का कोई कारण नहीं दिखता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.