KNN के लिए इष्टतम K चुनना


15

मैंने KNN के लिए इष्टतम K का चयन करने के लिए 5-गुना CV का प्रदर्शन किया। और ऐसा लगता है कि बड़ा के हो जाता है, छोटी त्रुटि ...

यहाँ छवि विवरण दर्ज करें

क्षमा करें, मेरे पास एक किंवदंती नहीं थी, लेकिन अलग-अलग रंग अलग-अलग परीक्षणों का प्रतिनिधित्व करते हैं। कुल 5 हैं और ऐसा लगता है कि उनके बीच बहुत भिन्नता है। K हमेशा बड़ा होने पर त्रुटि कम होती है। तो मैं सबसे अच्छा कश्मीर कैसे चुन सकता हूं? क्या K = 3 यहां एक अच्छा विकल्प होगा क्योंकि K = 3 के बाद ग्राफ का स्तर बंद हो जाएगा?


एक बार जब आप उन्हें पा लेते हैं तो आप समूहों के साथ क्या करने जा रहे हैं? अंततः यह वह है जो आप अपने क्लस्टरिंग एल्गोरिथ्म द्वारा उत्पादित क्लस्टर के साथ करने जा रहे हैं, जो यह निर्धारित करने में मदद करेगा कि क्या एक छोटी सी त्रुटि प्राप्त करने के लिए अधिक क्लस्टर का उपयोग करना लायक है।
ब्रायन बोरचर्स

मैं उच्च भविष्य कहनेवाला शक्ति चाहता हूं। इस मामले में ... क्या मुझे K = 20 के साथ जाना चाहिए? चूंकि इसमें सबसे कम त्रुटि है। हालाँकि, मैंने वास्तव में K को 100 तक की त्रुटि दी थी। और 100 में सभी की सबसे कम त्रुटि है ... इसलिए मुझे संदेह है कि वृद्धि के साथ त्रुटि घट जाएगी। लेकिन मुझे नहीं पता कि एक अच्छा कट ऑफ पॉइंट क्या है।
एड्रियन

जवाबों:


12

एक छोटे से, अगर उनकी सीवी त्रुटियों में अंतर नगण्य है।

यदि सीवी त्रुटि फिर से उठना शुरू नहीं होती है, तो इसका मतलब है कि शायद विशेषताएँ जानकारीपूर्ण नहीं हैं (कम से कम उस दूरी की मीट्रिक के लिए) और निरंतर आउटपुट देना सबसे अच्छा है जो यह कर सकता है।



0

क्या गुच्छों की संख्या के पीछे कोई भौतिक या प्राकृतिक अर्थ है? अगर मैं गलत नहीं हूं, तो यह केवल स्वाभाविक है कि जैसे ही K बढ़ता है, त्रुटि कम हो जाती है - ओवरफिटिंग की तरह। इष्टतम K के लिए मछली पकड़ने के बजाय, संभवतः डोमेन ज्ञान या कुछ अंतर्ज्ञान के आधार पर K चुनना बेहतर है?


मुझे लगता है कि यह उत्तर k-nn वर्गीकरण या प्रतिगमन के बजाय k- साधन क्लस्टरिंग के लिए अधिक उपयुक्त होगा।
डिक्रान मार्सुपियल

यदि k बहुत बड़ा है, तो आप इसे अंडर-फिटिंग कर रहे हैं तो त्रुटि फिर से बढ़ जाएगी।
जेम्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.