यह मेरे दिमाग में कम से कम कुछ घंटों के लिए रहा है। मैं k- साधन एल्गोरिथ्म (एक कोसिनिटी मेट्रिक के साथ ) से आउटपुट के लिए एक इष्टतम कश्मीर खोजने की कोशिश कर रहा था, इसलिए मैंने क्लस्टर की संख्या के एक फ़ंक्शन के रूप में विरूपण की साजिश रचने का अंत किया। मेरा डेटासेट 600-आयामी स्थान में 800 दस्तावेजों का संग्रह है।
मुझे जो समझ में आया है, इस वक्र पर घुटने के बिंदु या कोहनी बिंदु को खोजने से मुझे कम से कम लगभग समूहों की संख्या बताई जानी चाहिए जिन्हें मुझे अपना डेटा डालने की आवश्यकता है। मैंने नीचे ग्राफ रखा। जिस बिंदु पर लाल ऊर्ध्वाधर रेखा खींची गई थी वह अधिकतम दूसरे व्युत्पन्न परीक्षण का उपयोग करके प्राप्त की गई थी । यह सब करने के बाद, मैं कुछ ज्यादा ही सरल हो गया था: यह ग्राफ़ मुझे डेटासेट के बारे में क्या बताता है?
क्या यह मुझे बताता है कि यह क्लस्टरिंग के लायक नहीं है और यह कि मेरे दस्तावेजों में संरचना की कमी है या मुझे बहुत उच्च k सेट करने की आवश्यकता है? एक अजीब बात यह है कि कम के साथ भी, मैं समान दस्तावेजों को एक साथ गुच्छे में देख रहा हूं, इसलिए मुझे यकीन नहीं है कि मुझे यह वक्र क्यों मिल रहा है। कोई विचार?

terms x documentएकवचन वेक्टर प्रदर्शन करने के बाद प्राप्त किया गया था अपघटन। अगर मुझसे गलती हुई है तो कृपया मुझे सुधारें।