मेरे पास डेटा माइनिंग या बड़े डेटा में उद्योग का अनुभव नहीं है इसलिए आपको कुछ अनुभव साझा करने के लिए सुनना अच्छा लगेगा।
क्या वास्तव में बड़े डेटासेट पर लोग k- साधन, PAM, CLARA आदि चलाते हैं? या वे सिर्फ बेतरतीब ढंग से इसका एक नमूना निकालते हैं? यदि वे सिर्फ डाटासेट का एक नमूना लेते हैं, तो क्या परिणाम विश्वसनीय होगा यदि डेटासेट सामान्य रूप से वितरित नहीं किया गया है?
इन एल्गोरिदम को चलाते समय व्यावहारिक स्थितियों में, क्या हम बता सकते हैं कि अभिसरण होने तक सामान्य रूप से कितने पुनरावृत्तियाँ होती हैं? या पुनरावृत्तियों की संख्या हमेशा डेटा आकार के साथ बढ़ती है?
मैं यह पूछ रहा हूं क्योंकि मैं अभिसरण से पहले पुनरावृत्त एल्गोरिदम को समाप्त करने के लिए एक दृष्टिकोण विकसित करने के बारे में सोच रहा हूं, और फिर भी परिणाम अभी भी स्वीकार्य हैं। मुझे लगता है कि यह कोशिश कर रहा है कि अगर पुनरावृत्तियों की संख्या 1,000 से अधिक हो, तो हम कुछ कम्प्यूटेशनल लागत और समय बचा सकते हैं। तुम क्या सोचते हो?
number of iterations always grow with the data size
जरुरी नहीं।