यह मेरे दिमाग में कम से कम कुछ घंटों के लिए रहा है। मैं k- साधन एल्गोरिथ्म (एक कोसिनिटी मेट्रिक के साथ ) से आउटपुट के लिए एक इष्टतम कश्मीर खोजने की कोशिश कर रहा था, इसलिए मैंने क्लस्टर की संख्या के एक फ़ंक्शन के रूप में विरूपण की साजिश रचने का अंत किया। मेरा डेटासेट 600-आयामी स्थान में 800 दस्तावेजों का संग्रह है।
मुझे जो समझ में आया है, इस वक्र पर घुटने के बिंदु या कोहनी बिंदु को खोजने से मुझे कम से कम लगभग समूहों की संख्या बताई जानी चाहिए जिन्हें मुझे अपना डेटा डालने की आवश्यकता है। मैंने नीचे ग्राफ रखा। जिस बिंदु पर लाल ऊर्ध्वाधर रेखा खींची गई थी वह अधिकतम दूसरे व्युत्पन्न परीक्षण का उपयोग करके प्राप्त की गई थी । यह सब करने के बाद, मैं कुछ ज्यादा ही सरल हो गया था: यह ग्राफ़ मुझे डेटासेट के बारे में क्या बताता है?
क्या यह मुझे बताता है कि यह क्लस्टरिंग के लायक नहीं है और यह कि मेरे दस्तावेजों में संरचना की कमी है या मुझे बहुत उच्च k सेट करने की आवश्यकता है? एक अजीब बात यह है कि कम के साथ भी, मैं समान दस्तावेजों को एक साथ गुच्छे में देख रहा हूं, इसलिए मुझे यकीन नहीं है कि मुझे यह वक्र क्यों मिल रहा है। कोई विचार?
terms x document
एकवचन वेक्टर प्रदर्शन करने के बाद प्राप्त किया गया था अपघटन। अगर मुझसे गलती हुई है तो कृपया मुझे सुधारें।