DBSCAN के लिए eps और minPts चुनने की दिनचर्या


14

DBSCAN कुछ साहित्य के अनुसार सबसे अधिक क्लस्टरिंग एल्गोरिथ्म का हवाला देता है और यह घनत्व के आधार पर मनमाने आकार के क्लस्टर पा सकता है। इसमें दो पैरामीटर eps (पड़ोस त्रिज्या के रूप में) और minPts (मूल बिंदु के रूप में एक बिंदु पर विचार करने के लिए न्यूनतम पड़ोसी के रूप में) हैं, जो मेरा मानना ​​है कि यह उन पर अत्यधिक निर्भर करता है।

क्या इन मापदंडों को चुनने के लिए कोई नियमित या आमतौर पर उपयोग की जाने वाली विधि है?


जवाबों:


11

बहुत सारे प्रकाशन हैं जो इन मापदंडों को चुनने के लिए तरीकों का प्रस्ताव करते हैं।

सबसे उल्लेखनीय प्रकाशिकी है, एक DBSCAN भिन्नता जो एप्सिलॉन पैरामीटर के साथ दूर होती है; यह एक पदानुक्रमित परिणाम उत्पन्न करता है जिसे मोटे तौर पर "हर संभव एप्सिलॉन के साथ डीबीएससीएएन" के रूप में देखा जा सकता है।

टकसालों के लिए, मैं सुझाव देता हूं कि आप किसी स्वचालित विधि पर निर्भर रहें, बल्कि अपने डोमेन ज्ञान पर

एक अच्छे क्लस्टरिंग एल्गोरिदम में पैरामीटर होते हैं, जो आपको इसे अपनी आवश्यकताओं के अनुसार अनुकूलित करने की अनुमति देते हैं।

एक पैरामीटर जिसे आपने अनदेखा किया वह दूरी फ़ंक्शन है। DBSCAN के लिए पहली बात यह है कि आप अपने आवेदन के लिए एक अच्छी दूरी तय करें । हर आवेदन के लिए यूक्लिडियन दूरी सबसे अच्छा होने पर भरोसा मत करो!


यद्यपि उपयोगकर्ता डिस्टेंस फंक्शन चुन सकता है, मुझे संदेह है कि यह एक पैरामीटर है।
मेहरबान

1
निश्चित रूप से यह है। यह किसी भी अन्य कर्नेलित विधि के लिए कर्नेल फ़ंक्शन जितना ही एक पैरामीटर है (आप वास्तव में इस तरह से DBSCAN को कर्नेल में बदल सकते हैं), और मेरे अनुभव में कैनबरा या क्लार्क जैसी अन्य दूरियां काफी बेहतर परिणाम ला सकती हैं ।
QUIT -

मैं क्लस्टरिंग पर डिस्टेंस फंक्शन के प्रभाव को कम नहीं करता, लेकिन मुझे लगता है कि यह किसी भी तरह सामान्य है, डबस्कैन या हर दूसरे क्लस्टरिंग एल्गोरिदम के लिए विशिष्ट नहीं है; जबकि eps और minPts स्पष्ट रूप से dbscan पैरामीटर हैं।
मेहरबान

1
गैर-दूरी आधारित एल्गोरिदम भी बहुत सारे हैं। और जब आप kनिकटतम पड़ोसी वर्गीकरण के लिए टकसालों को उसी तरह मानते हैं , तो आप टकसालों के पैरामीटर के लिए भी ऐसा ही कह सकते हैं। मुझे लगता है कि मुख्य अंतर यह है कि दूरी के लिए, "अक्सर" समझदार डिफ़ॉल्ट है: यूक्लिडियन दूरी; जबकि minPts के लिए मान डेटा विशिष्ट होगा।
QUIT -

1
प्रकाशिकी स्वयं आपको विभाजन नहीं देगी, बल्कि एक क्लस्टर ऑर्डर देगी। विभाजन प्राप्त करने के लिए, प्रकाशिकी पेपर में वर्णित xi निष्कर्षण का उपयोग करें। मतभेदों को समझने के लिए प्रत्येक वेरिएंट पेपर देखें।
है क्विट - Anony-Mousse
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.