एलएसए बनाम पीसीए (दस्तावेज़ क्लस्टरिंग)


25

मैं दस्तावेज़ क्लस्टरिंग में उपयोग की जाने वाली विभिन्न तकनीकों की जांच कर रहा हूं और मैं पीसीए (प्रमुख घटक विश्लेषण) और एलएसए (अव्यक्त अर्थ विश्लेषण) से संबंधित कुछ संदेह दूर करना चाहूंगा।

पहली बात - उनके बीच क्या अंतर हैं? मुझे पता है कि पीसीए में, एसवीडी अपघटन टर्म-कोवरियन मैट्रिक्स पर लागू होता है, जबकि एलएसए में यह टर्म-डॉक्यूमेंट मैट्रिक्स होता है। क्या कुछ और है?

दूसरा - दस्तावेज़ क्लस्टरिंग प्रक्रिया में उनकी भूमिका क्या है? अब तक मैंने जो कुछ भी पढ़ा है, मैं यह मानता हूं कि उनका उद्देश्य आयाम की कमी, शोर में कमी और शब्दों के बीच के संबंधों को प्रतिनिधित्व में शामिल करना है। पीसीए या एलएसए को निष्पादित करने के बाद, पारंपरिक साधन जैसे कि-मीन्स या एग्लोमेरेटिव तरीके कम अवधि वाले स्थान और विशिष्ट समानता उपायों पर लागू होते हैं, जैसे कोसाइन दूरी का उपयोग किया जाता है। कृपया मुझे सुधारें अगर मैं गलत हूं।

तीसरा - अगर पीसीए / एलएसए लागू करने से पहले टीएफ / आईडीएफ शब्द वैक्टर को सामान्य किया जाता है या नहीं, इससे कोई फर्क नहीं पड़ता? और क्या उसके बाद उन्हें फिर से सामान्यीकृत किया जाना चाहिए?

चौथा - मान लीजिए कि मैंने एलएसए / पीसीए द्वारा घटाए गए पद के स्थान पर कुछ क्लस्टरिंग की है। अब, मुझे परिणाम समूहों में लेबल कैसे निर्दिष्ट करना चाहिए? चूंकि आयाम वास्तविक शब्दों के अनुरूप नहीं हैं, इसलिए यह एक कठिन मुद्दा है। एकमात्र विचार जो मेरे दिमाग में आता है, वह मूल शब्द वैक्टर का उपयोग करके प्रत्येक क्लस्टर के लिए सेंट्रोइड्स की गणना कर रहा है और शीर्ष भार के साथ शब्दों का चयन कर रहा है, लेकिन यह बहुत कुशल नहीं लगता है। क्या इस समस्या के कुछ विशिष्ट समाधान हैं? मुझे कुछ भी नहीं मिल रहा था।

मैं इन मुद्दों को स्पष्ट करने के लिए बहुत आभारी रहूंगा।


एलएसए या एलएसआई: एक ही या अलग? यदि आपका मतलब है LSI = अव्यक्त अर्थ इंडेक्सिंग कृपया सही और मानकीकृत करें।
निक कॉक्स

3
क्या LSI और LSA दो अलग चीजें हैं? मुझे लगा कि वे बराबर हैं।
user1315305

1
मुझे पता नहीं है; मुद्दा यह है (कृपया) एक शब्द के लिए एक शब्द का उपयोग करें और दो नहीं; अन्यथा आपके प्रश्न को समझना और भी कठिन है।
निक कॉक्स

ठीक है, मैंने इसे ठीक कर दिया। इसे इंगित करने के लिए धन्यवाद :)
user1315305

3
विकिपीडिया यह धारणा देता है कि LSA = LSI। लेकिन LSI पत्राचार विश्लेषण (CA) है। सीए एक सांख्यिकीय विश्लेषण शब्द है, जैसे पीसीए, जबकि एलएसआई / एलएसए पाठ खनन शब्द है। तो, पीसीए और सीए की तुलना करने वाले लेखों की खोज करें।
ttnphns

जवाबों:


8
  1. पीसीए और एलएसए दोनों विश्लेषण हैं जो एसवीडी का उपयोग करते हैं। पीसीए विश्लेषण का एक सामान्य वर्ग है और सिद्धांत रूप में विभिन्न तरीकों से प्रगणित पाठ कॉर्पोरा पर लागू किया जा सकता है। इसके विपरीत एलएसए पाठ का विश्लेषण करने और कम करने का एक बहुत स्पष्ट रूप से निर्दिष्ट साधन है। दोनों इस विचार का लाभ उठा रहे हैं कि अर्थ को संदर्भ से निकाला जा सकता है। एलएसए में संदर्भ एक टर्म-दस्तावेज़ मैट्रिक्स के माध्यम से संख्याओं में प्रदान किया जाता है। पीसीए में आपके द्वारा प्रस्तावित संदर्भ कोविरियस मैट्रिक्स (एक पीढ़ी का विवरण जो संभवतः आपके पीसीए और एलएसए के बीच के संबंध के बारे में बहुत कुछ बता सकता है) प्रदान करने के माध्यम से संख्याओं में प्रदान किया जाता है। आप अधिक जानकारी के लिए यहां देखना चाहते हैं ।
  2. आप मूल रूप से यहां ट्रैक पर हैं। उनके द्वारा उपयोग किए जाने वाले सटीक कारण संदर्भ और डेटा के साथ खेलने वाले व्यक्ति के उद्देश्य पर निर्भर करेंगे।
  3. उत्तर संभवतः आपके द्वारा उपयोग की जाने वाली प्रक्रिया के कार्यान्वयन पर निर्भर करेगा।
  4. ध्यान से और महान कला के साथ। अधिकांश इन अर्थ मॉडल के आयामों को निर्विवाद मानते हैं। ध्यान दें कि आप लगभग निश्चित रूप से उम्मीद करते हैं कि एक से अधिक अंतर्निहित डिमेन्शन हो सकता है। जब कारक विश्लेषण में एक से अधिक आयाम होते हैं, तो हम इंटरप्रेबल कारकों को प्राप्त करने के लिए कारक समाधान को घुमाते हैं। हालाँकि, किसी कारण से यह आमतौर पर इन मॉडलों के लिए नहीं किया जाता है। आपका दृष्टिकोण आपकी कला को शुरू करने के लिए एक राजसी तरीके की तरह लगता है ... हालांकि मैं निश्चित रूप से आयामों के बीच स्केलिंग से कम होता हूं, यह क्लस्टर विश्लेषण समाधान पर भरोसा करने के लिए पर्याप्त है। यदि आप अर्थ के साथ खेलना चाहते हैं, तो आप एक सरल दृष्टिकोण पर भी विचार कर सकते हैं जिसमें वैक्टर का विशिष्ट शब्दों के साथ सीधा संबंध है, जैसे कि AL

6

LSI की गणना टर्म-डॉक्यूमेंट मैट्रिक्स पर की जाती है, जबकि PCA की गणना सहसंयोजक मैट्रिक्स पर की जाती है, जिसका अर्थ है LSI डेटा सेट का वर्णन करने के लिए सबसे अच्छा रैखिक उप-स्थान खोजने की कोशिश करता है, जबकि PCA सबसे अच्छा समानांतर रेखीय उप-क्षेत्र को खोजने का प्रयास करता है।


4
निक, क्या आप सर्वश्रेष्ठ रैखिक उप-स्थान और सर्वोत्तम समानांतर रैखिक उप-स्थान के बीच अंतर के बारे में अधिक जानकारी प्रदान कर सकते हैं? क्या यह ऑर्थोगोनलिटी से संबंधित है? क्या मुझे एक नया प्रश्न पूछना चाहिए?
russellpierce

1
किस अर्थ में सर्वश्रेष्ठ? पुनर्निर्माण त्रुटि के फ्रोबिनियस मान को न्यूनतम करना? उस मामले में, यकीन है कि मुझे पीसीए की तरह लगता है।
एंड्रयू एम।

2

बस कुछ विस्तार russellpierce के जवाब के लिए।

1) अनिवार्य रूप से एलएसए को पीसीए को टेक्स्ट डेटा पर लागू किया जाता है। पीसीए के लिए एसवीडी का उपयोग करते समय, यह कोविरेस मैट्रिक्स पर लागू नहीं होता है, लेकिन फीचर-नमूना मैट्रिक्स सीधे, जो एलएसए में केवल टर्म-डॉक्यूमेंट मैट्रिक्स है। अंतर है कि पीसीए को अक्सर डेटा के लिए फीचर-वार सामान्यीकरण की आवश्यकता होती है, जबकि एलएसए नहीं होता है।

एंड्रयू एनजी द्वारा एक अच्छा व्याख्यान है जो पीसीए और एलएसए के बीच कनेक्शन को दिखाता है।

2/3) चूंकि दस्तावेज़ डेटा विभिन्न लंबाई के हैं, आमतौर पर यह परिमाण को सामान्य करने में सहायक होता है। यहाँ नमूना-वार सामान्यीकरण का उपयोग सुविधा-वार सामान्यीकरण नहीं किया जाना चाहिए। व्यवहार में मैंने LSI से पहले और बाद में दोनों को सामान्य करने में सहायक पाया।

यदि क्लस्टरिंग एल्गोरिथ्म मीट्रिक मीट्रिक परिमाण पर निर्भर नहीं होता है (जैसे कोसाइन दूरी) तो अंतिम सामान्यीकरण चरण को छोड़ा जा सकता है।

4) ऐसा लगता है कि सामान्य रूप से समूहों से सार्थक लेबल प्राप्त करना एक कठिन समस्या है। कुछ लोग ऐसे शब्द / वाक्यांश निकालते हैं जो कॉर्पस और क्लस्टर के बीच वितरण में अंतर को अधिकतम करते हैं। दूसरा तरीका यह है कि पूर्वनिर्धारित लेबल के साथ अर्ध-पर्यवेक्षित क्लस्टरिंग का उपयोग किया जाए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.