यह सवाल एक निश्चित जवाब पाने के लिए अच्छी तरह से खुला हो सकता है, लेकिन उम्मीद नहीं है।
मशीन लर्निंग एल्गोरिदम, जैसे एसवीएम, जीबीएम, रैंडम फॉरेस्ट आदि, आम तौर पर कुछ मुफ्त पैरामीटर होते हैं, जो अंगूठे के मार्गदर्शन के कुछ नियम से परे, प्रत्येक डेटा सेट पर ट्यून करने की आवश्यकता होती है। यह आम तौर पर कुछ प्रकार के री-सैंपलिंग तकनीक (बूटस्ट्रैप, सीवी आदि) के साथ किया जाता है ताकि सर्वोत्तम सामान्यीकरण त्रुटि देने वाले मापदंडों के सेट को फिट किया जा सके।
मेरा सवाल यह है कि क्या आप यहां बहुत दूर जा सकते हैं? लोग ग्रिड खोजों को आगे करने के बारे में बात करते हैं, लेकिन क्यों नहीं इसे केवल एक अनुकूलन समस्या के रूप में माना जाता है और मापदंडों के सर्वोत्तम संभव सेट तक ड्रिल करता है? मैंने इस प्रश्न में इसके कुछ यांत्रिकी के बारे में पूछा , लेकिन इस पर अधिक ध्यान नहीं दिया गया। शायद सवाल बुरी तरह से पूछा गया था, लेकिन शायद सवाल ही एक बुरे दृष्टिकोण का प्रतिनिधित्व करता है जो लोग आमतौर पर नहीं करते हैं?
मुझे क्या परेशान करता है नियमितीकरण की कमी। मैं पुनः नमूना करके यह पता लगा सकता हूं कि इस डेटा सेट के लिए GBM में पेड़ों की सबसे अच्छी संख्या 647 है, जिसमें 4 की सहभागिता गहराई है, लेकिन मैं यह कैसे सुनिश्चित कर सकता हूं कि यह नए डेटा का सच होगा (नई आबादी को मानते हुए प्रशिक्षण सेट के समान है)? 'हटना' (या यदि आप करेंगे, तो कोई जानकारीपूर्ण पूर्व सूचना नहीं) के लिए उचित मूल्य के साथ पुन: नमूने सबसे अच्छा लगता है जैसे हम कर सकते हैं। मुझे अभी इस बारे में कोई बात नहीं सुनाई देती है, इसलिए मुझे आश्चर्य होता है कि क्या कोई ऐसी चीज़ है जो मुझे याद आ रही है।
स्पष्ट रूप से एक बड़ी कम्प्यूटेशनल लागत है जो एक मॉडल से बाहर हर आखिरी बिट की भविष्यवाणी करने के लिए कई पुनरावृत्तियों को करने से जुड़ी है, इसलिए स्पष्ट रूप से यह कुछ ऐसा है जिसे आप अनुकूलन और हर बार करने के लिए समय / ग्रन्ट मिला है प्रदर्शन में सुधार मूल्यवान है।