K- साधन: व्यावहारिक स्थितियों में कितने पुनरावृत्तियों?


10

मेरे पास डेटा माइनिंग या बड़े डेटा में उद्योग का अनुभव नहीं है इसलिए आपको कुछ अनुभव साझा करने के लिए सुनना अच्छा लगेगा।

क्या वास्तव में बड़े डेटासेट पर लोग k- साधन, PAM, CLARA आदि चलाते हैं? या वे सिर्फ बेतरतीब ढंग से इसका एक नमूना निकालते हैं? यदि वे सिर्फ डाटासेट का एक नमूना लेते हैं, तो क्या परिणाम विश्वसनीय होगा यदि डेटासेट सामान्य रूप से वितरित नहीं किया गया है?

इन एल्गोरिदम को चलाते समय व्यावहारिक स्थितियों में, क्या हम बता सकते हैं कि अभिसरण होने तक सामान्य रूप से कितने पुनरावृत्तियाँ होती हैं? या पुनरावृत्तियों की संख्या हमेशा डेटा आकार के साथ बढ़ती है?

मैं यह पूछ रहा हूं क्योंकि मैं अभिसरण से पहले पुनरावृत्त एल्गोरिदम को समाप्त करने के लिए एक दृष्टिकोण विकसित करने के बारे में सोच रहा हूं, और फिर भी परिणाम अभी भी स्वीकार्य हैं। मुझे लगता है कि यह कोशिश कर रहा है कि अगर पुनरावृत्तियों की संख्या 1,000 से अधिक हो, तो हम कुछ कम्प्यूटेशनल लागत और समय बचा सकते हैं। तुम क्या सोचते हो?


number of iterations always grow with the data sizeजरुरी नहीं।
tnnphns

K- साधनों में पुनरावृत्तियों को रोकने के लिए विभिन्न मापदंड मौजूद हैं। दिलचस्प है, बस पुनरावृत्तियों की संख्या को एक निश्चित मूल्य (जैसे, 10 या 20) निर्धारित करने के लिए उचित तरीकों में से है। K- साधन एक तेज़ विधि के लिए समर्पित है, इसलिए यदि आप चाहते हैं कि एक अभिसरण मानदंड को हर पुनरावृत्ति के बाद जांचा जाए कि गणना करने के लिए मानदंड आसान / तेज़ होना चाहिए।
ttnphns

1
क्या निष्पादित किए जाने वाले पुनरावृत्तियों की अधिकतम संख्या निर्धारित करने के लिए कोई "वैज्ञानिक" तरीका है?
फू

आपकी अंतिम टिप्पणी एक अच्छा प्रश्न है। ईमानदारी से, मुझे नहीं पता। शायद दूसरे लोग इसका जवाब दें।
tnnphns

जवाबों:


6
  1. K- साधन सस्ता है। आप इसे कई पुनरावृत्तियों के लिए खर्च कर सकते हैं ।

  2. खराब एल्गोरिदम (मानक एक) और अच्छे एल्गोरिदम हैं। अच्छे एल्गोरिदम के लिए, बाद में पुनरावृत्तियों की लागत अक्सर पहले पुनरावृत्ति के 1% से बहुत कम होती है।

  3. वास्तव में धीमी गति से कार्यान्वयन हैं। उनका उपयोग न करें।

  4. "बड़ा" डेटा पर K- साधन मौजूद नहीं है। क्योंकि यह केवल कम आयामी वेक्टर डेटा पर काम करता है। आप ऐसे डेटा वाले आधुनिक सर्वर की मेमोरी को पार नहीं करेंगे। हां, बड़ा डेटा मौजूद है - लेकिन आप ट्विटर डेटा के एक महीने कहने पर k- साधनों का उपयोग नहीं कर सकते, क्योंकि यह आपको कुछ भी उपयोगी नहीं देगा।

एक अच्छा कार्यान्वयन के साथ, एक आधुनिक सर्वर पर, सबसे बड़ा डेटासेट आप पा सकते हैं जहां के-साधन अभी भी एक उपयोगी परिणाम देता है, अभिसरण तक गणना करने के लिए संभवतः 1 मिनट से भी कम समय की आवश्यकता होती है। तो क्यों एक यात्रा की सीमा के बारे में सोच परेशान?


1
इस बात से सहमत। इस पत्र में ( स्केलेबल के-मीन्स द्वारा रैंक की गई पुनर्प्राप्ति के आधार पर ), लेखकों ने कहा कि के-साधन सभी व्यावहारिक स्थितियों में 20-50 पुनरावृत्तियों के बाद अभिसरण करते हैं, यहां तक ​​कि उच्च आयामी डेटासेट पर भी, जैसा कि उन्होंने परीक्षण किया था। तो के-साधनों के अलावा, क्या आप किसी ऐसे एल्गोरिथ्म को जानते हैं जो अभिसरण तक भारी संख्या में पुनरावृत्तियों को लेता है?
foo

शायद एक एसवीएम प्रशिक्षण? मेरा मानना ​​है कि यह पुनरावृत्त है, सबसे अच्छा (और सबसे छोटा, खोजने की कोशिश कर रहा है क्योंकि भविष्यवाणी इस पर निर्भर करती है!) समर्थन वैक्टर का सेट।
QUIT - Anony-Mousse

उच्च आयाम डेटासेट पर k- साधनों को चलाने का स्पष्ट समाधान पहले PCA या अन्य आयामी कमी विधि को चलाने के लिए है, फिर k-
mean
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.