मैं दस्तावेज़-स्तरीय क्लस्टरिंग करने की कोशिश कर रहा हूं। मैंने टर्म-डॉक्यूमेंट फ़्रीक्वेंसी मैट्रिक्स का निर्माण किया है और मैं k- साधनों का उपयोग करके इन उच्च आयामी वैक्टरों को क्लस्टर करने का प्रयास कर रहा हूं। सीधे क्लस्ट करने के बजाय, मैंने जो भी किया, वह पहले यू, एस, वीटी मैट्रिक को प्राप्त करने के लिए एलएसए (लेटेंट सेमेटिक एनालिसिस) विलक्षण वेक्टर अपघटन को लागू करने के लिए था, स्क्रिप प्लॉट का उपयोग करते हुए एक उपयुक्त सीमा का चयन किया और कम मैट्रिसेस (विशेष रूप से वीटी) पर क्लैरिंग लागू किया। यह मुझे एक अवधारणा-दस्तावेज़ जानकारी देता है) जो मुझे अच्छे परिणाम दे रहा था।
मैं कुछ लोगों को SVD (एकवचन वेक्टर अपघटन) का कहना है कि सुना है है क्लस्टरिंग (कोज्या समानता उपाय आदि का उपयोग करके) और यकीन नहीं अगर मैं SVD के उत्पादन पर k-साधन लागू कर सकता था। मुझे लगा कि यह तार्किक रूप से सही है क्योंकि एसवीडी एक आयामी कमी तकनीक है, मुझे नए वैक्टर का एक गुच्छा देता है। दूसरी ओर, k- साधन, क्लस्टर की संख्या को इनपुट के रूप में लेगा और इन वैक्टर को क्लस्टर की निर्दिष्ट संख्या में विभाजित करेगा। क्या यह प्रक्रिया त्रुटिपूर्ण है या क्या ऐसे तरीके हैं जिनसे इसमें सुधार किया जा सकता है? कोई सुझाव?