मैं दस्तावेज़ क्लस्टरिंग में उपयोग की जाने वाली विभिन्न तकनीकों की जांच कर रहा हूं और मैं पीसीए (प्रमुख घटक विश्लेषण) और एलएसए (अव्यक्त अर्थ विश्लेषण) से संबंधित कुछ संदेह दूर करना चाहूंगा।
पहली बात - उनके बीच क्या अंतर हैं? मुझे पता है कि पीसीए में, एसवीडी अपघटन टर्म-कोवरियन मैट्रिक्स पर लागू होता है, जबकि एलएसए में यह टर्म-डॉक्यूमेंट मैट्रिक्स होता है। क्या कुछ और है?
दूसरा - दस्तावेज़ क्लस्टरिंग प्रक्रिया में उनकी भूमिका क्या है? अब तक मैंने जो कुछ भी पढ़ा है, मैं यह मानता हूं कि उनका उद्देश्य आयाम की कमी, शोर में कमी और शब्दों के बीच के संबंधों को प्रतिनिधित्व में शामिल करना है। पीसीए या एलएसए को निष्पादित करने के बाद, पारंपरिक साधन जैसे कि-मीन्स या एग्लोमेरेटिव तरीके कम अवधि वाले स्थान और विशिष्ट समानता उपायों पर लागू होते हैं, जैसे कोसाइन दूरी का उपयोग किया जाता है। कृपया मुझे सुधारें अगर मैं गलत हूं।
तीसरा - अगर पीसीए / एलएसए लागू करने से पहले टीएफ / आईडीएफ शब्द वैक्टर को सामान्य किया जाता है या नहीं, इससे कोई फर्क नहीं पड़ता? और क्या उसके बाद उन्हें फिर से सामान्यीकृत किया जाना चाहिए?
चौथा - मान लीजिए कि मैंने एलएसए / पीसीए द्वारा घटाए गए पद के स्थान पर कुछ क्लस्टरिंग की है। अब, मुझे परिणाम समूहों में लेबल कैसे निर्दिष्ट करना चाहिए? चूंकि आयाम वास्तविक शब्दों के अनुरूप नहीं हैं, इसलिए यह एक कठिन मुद्दा है। एकमात्र विचार जो मेरे दिमाग में आता है, वह मूल शब्द वैक्टर का उपयोग करके प्रत्येक क्लस्टर के लिए सेंट्रोइड्स की गणना कर रहा है और शीर्ष भार के साथ शब्दों का चयन कर रहा है, लेकिन यह बहुत कुशल नहीं लगता है। क्या इस समस्या के कुछ विशिष्ट समाधान हैं? मुझे कुछ भी नहीं मिल रहा था।
मैं इन मुद्दों को स्पष्ट करने के लिए बहुत आभारी रहूंगा।