कौन सा पहला: एल्गोरिदम बेंचमार्किंग, फीचर चयन, पैरामीटर ट्यूनिंग?


11

जब एक वर्गीकरण करने की कोशिश कर रहा है, मेरा दृष्टिकोण वर्तमान में है

  1. पहले विभिन्न एल्गोरिदम आज़माएं और उन्हें बेंचमार्क करें
  2. ऊपर से सर्वश्रेष्ठ एल्गोरिथ्म पर सुविधा चयन करें
  3. चयनित सुविधाओं और एल्गोरिथ्म का उपयोग करते हुए मापदंडों को ट्यून करें

हालाँकि, मैं अक्सर खुद को नहीं समझा सकता कि एक बेहतर एल्गोरिथम हो सकता है, फिर एक चयनित, अगर अन्य एल्गोरिदम को सर्वश्रेष्ठ पैरामीटर / सबसे उपयुक्त सुविधाओं के साथ अनुकूलित किया गया हो। एक ही समय में, सभी एल्गोरिदम * मापदंडों * सुविधाओं की खोज करना बहुत समय लेने वाली है।

सही दृष्टिकोण / अनुक्रम पर कोई सुझाव?

जवाबों:


8

मुझे लगता है कि आप फीचर इंजीनियरिंग के रूप में फीचर चयन का मतलब है । मैं आमतौर पर जिस प्रक्रिया का पालन करता हूं और मैं देखता हूं कि कुछ लोग करते हैं

  1. फ़ीचर इंजीनियरिंग
  2. कुछ एल्गोरिदम आज़माएं, आमतौर पर अत्यधिक प्रदर्शन करने वाले जैसे कि रैंडम फ़ॉरस्ट, ग्रेडिएंट बूस्टेड ट्रीज़, न्यूट्रल नेटवर्क या एसवीएम जैसे फीचर्स।

    2.1 मापदंडों की एक छोटी श्रृंखला पर ग्रिड खोज जैसे साधारण पैरामीटर ट्यूनिंग करें

यदि चरण 2 का परिणाम संतोषजनक नहीं है, तो अधिक सुविधाएँ उत्पन्न करने के लिए चरण 1 पर वापस जाएँ, या निरर्थक सुविधाओं को हटा दें और सबसे अच्छे लोगों को रखें, लोग आमतौर पर इस सुविधा का चयन करते हैं । यदि नई सुविधाओं के लिए विचारों से बाहर चल रहा है, तो अधिक एल्गोरिदम का प्रयास करें।

यदि परिणाम ठीक है या आप जो चाहते हैं उसके करीब है, तो चरण 3 पर जाएं

  1. व्यापक पैरामीटर ट्यूनिंग

ऐसा करने का कारण यह है कि वर्गीकरण सभी में विशेषता इंजीनियरिंग के बारे में है , और जब तक आप कुछ अविश्वसनीय शक्तिशाली क्लासिफायरर को नहीं जानते हैं, जैसे कि किसी विशेष समस्या के लिए अनुकूलित गहन शिक्षण, जैसे कि कंप्यूटर विजन। अच्छी सुविधाएँ उत्पन्न करना प्रमुख है। एक क्लासिफायर चुनना महत्वपूर्ण है लेकिन महत्वपूर्ण नहीं है। उपरोक्त सभी क्लासिफ़ायरर्स प्रदर्शन के मामले में काफी तुलनीय हैं, और अधिकांश समय, सर्वश्रेष्ठ क्लासिफायरफायर उनमें से एक होता है।

पैरामीटर ट्यूनिंग कुछ मामलों में, प्रदर्शन को काफी बढ़ा सकती है। लेकिन अच्छी सुविधाओं के बिना, ट्यूनिंग ज्यादा मदद नहीं करता है। ध्यान रखें, आपके पास पैरामीटर ट्यूनिंग के लिए हमेशा समय होता है। इसके अलावा, बड़े पैमाने पर ट्यूनिंग पैरामीटर का कोई मतलब नहीं है फिर आप एक नई सुविधा की खोज करते हैं और पूरी चीज़ को फिर से करते हैं।


2

अरे मैंने सिर्फ आपका सवाल देखा। पहले फीचर सेलेक्शन करना और फिर क्रॉस-वेलिडेशन का इस्तेमाल करके मॉडल को ट्यून करना पूरी तरह से गलत है। सांख्यिकीय शिक्षण और इस ब्लॉग पोस्ट के तत्वों में यह स्पष्ट रूप से उल्लेख किया गया है कि: CV विधि केवल तभी निष्पक्ष होती है जब आपका सभी मॉडल भवन CV लूप के अंदर किया जाता है। तो पैरामीटर ट्यूनिंग के लिए CV लूप के अंदर फीचर का चयन करें। आर में एमएलआर पैकेज में फिल्टर रैपर का उपयोग करके इसे आसानी से किया जा सकता है।


1

मैंने पहले ही यहाँ एक समान प्रश्न का उत्तर दिया है । प्रक्रिया होगी:

  • परिवर्तन और न्यूनीकरण: परिवर्तन, माध्य और माध्य स्केलिंग, आदि जैसी प्रक्रियाओं को शामिल करता है।
  • फ़ीचर चयन: यह कई तरीकों से किया जा सकता है जैसे कि थ्रेसहोल्ड चयन, सबसेट चयन, आदि।
  • डिजाइनिंग प्रेडिक्टिव मॉडल: आपके पास मौजूद फीचर्स के आधार पर ट्रेनिंग डेटा पर प्रेडिक्टिव मॉडल डिजाइन करें।
  • क्रॉस सत्यापन और पैरामीटर ट्यूनिंग:
  • अंतिम भविष्यवाणी, मान्यता

मॉडल चयन से पहले हमेशा इंजीनियरिंग की कोशिश करें और करें। फिर, सबसे अच्छी सुविधाओं के अनुसार मॉडल का चयन करें (या वे सुविधाएँ जो समस्या / आश्रित चर को बेहतर ढंग से प्रभावित करती हैं।)


0

यदि आप सीखने के लिए समय व्यतीत करने के लिए तैयार हैं तो एक नया उपकरण कैसे काम करता है आप ऑटोसक्लेर को आजमा सकते हैं। यह वह सब करता है जो आपके लिए एमएल पाइपलाइन बनाने के लिए आवश्यक है। प्रीप्रोसेसिंग, चयन, मॉडल पहनावा निर्माण और क्रॉस सत्यापन के माध्यम से ट्यूनिंग की सुविधा। आपके पास डेटा की मात्रा के आधार पर यह एक अच्छी भविष्यवाणी का तेज़ तरीका हो सकता है या नहीं भी हो सकता है। लेकिन यह निश्चित रूप से एक आशाजनक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.