कलाकारों की टुकड़ी को लागू करने के तरीके सीखने के लिए संसाधन


13

मैं सैद्धांतिक रूप से समझता हूं (जैसे वे कैसे काम करेंगे, लेकिन मुझे यकीन नहीं है कि वास्तव में एक पहनावा पद्धति (जैसे मतदान, भारित मिश्रण, आदि) का उपयोग करने के बारे में कैसे जाना जाए।

  • पहनावा तरीकों को लागू करने के लिए अच्छे संसाधन क्या हैं?
  • क्या पायथन में कार्यान्वयन के संबंध में कोई विशेष संसाधन हैं?

संपादित करें:

टिप्पणियों पर चर्चा के आधार पर कुछ स्पष्ट करने के लिए, मैं बेतरतीब एल्गोरिदम जैसे कि randomForest, आदि की तलाश नहीं कर रहा हूं। इसके बजाय, मैं सोच रहा हूं कि आप अलग-अलग एल्गोरिदम से विभिन्न वर्गीकरण कैसे जोड़ सकते हैं।

उदाहरण के लिए, मान लें कि कोई व्यक्ति किसी निश्चित अवलोकन के वर्ग की भविष्यवाणी करने के लिए लॉजिस्टिक रिग्रेशन, एसवीएम और कुछ अन्य तरीकों का उपयोग करता है। इन भविष्यवाणियों के आधार पर वर्ग के सर्वश्रेष्ठ अनुमान पर कब्जा करने के बारे में सबसे अच्छा तरीका क्या है?

जवाबों:


12

शुरू करने के लिए एक अच्छी जगह है पहनावा सीखने का अवलोकन प्राप्त करना । विशेष रूप से आप बूस्टिंग और बैगिंग को देखना चाहते हैं । एक और तरीका यह था कि नेटफ्लिक्स पुरस्कार में "द एन्सेम्बल" टीम द्वारा उपयोग किया जाता है, या तो "सम्मिश्रण" या फीचर स्टैकिंग कहा जाता है ।

फिर, बस कुछ पुस्तकालयों का पता लगाएं जो उन को लागू करते हैं और वहां से काम करते हैं। एक त्वरित गुगली ने स्किटिट और नारंगी को बदल दिया , जिसमें दोनों को बैगिंग और बूस्टिंग होना चाहिए (और वे दोनों पायथन हैं)।

यदि केवल कलाकारों की टुकड़ी का उपयोग करने से परे , आप थ्योरी के बारे में थोड़ा सीखना चाहते हैं, तो मुझे लगता है कि यह पेपर एक अच्छा जम्पिंग पॉइंट होगा (उन हिस्सों के लिए संदर्भों का अनुसरण करें जिनमें आप रुचि रखते हैं)।

चीयर्स।


(+1) woa, यहाँ महान संदर्भ: हे!
स्टेफेन

धन्यवाद। मैं उन कुछ विषयों में से कुछ के बारे में कुछ योगदान करने की कोशिश कर रहा हूं जिनके बारे में मुझे कुछ भी पता है।
स्टम्पी जो पीट

4

'डाटा माइनिंग में असेम्बल मेथड्स: कॉम्बिनेशन थ्रू इम्प्रूविंग थ्रू कमिंग प्रिडिक्शन', सेनी और एल्डर - प्रैक्टिकल एसेम्बल थ्योरी और इम्प्लीमेंटेशन पर बहुत बढ़िया रेफरेंस, लेकिन साथ में कोड R आधारित है।

'मशीन लर्निंग: एन अल्गोरिथमिक पर्सपेक्टिव,' एस। मार्सलैंड - उत्कृष्ट पायथन आधारित व्यावहारिक पाठ, लेकिन पहले संदर्भ के रूप में शुद्ध कलाकारों की टुकड़ी के लिए समर्पित नहीं है।


2

स्टम्पी जो पीट की प्रतिक्रिया एकदम सही थी, लेकिन चूंकि आपने पायथन कार्यान्वयन के बारे में उल्लेख किया था, इसलिए मैं यूनिवर्सिड फेडरल डी पेरनामबुको से ब्रू परियोजना का उल्लेख करना चाहता था ।

https://github.com/viisar/brew

from brew.base import Ensemble
from brew.base import EnsembleClassifier
from brew.combination import import Combiner

# create your Ensemble
clfs = your_list_of_classifiers # [clf1, clf2]
ens = Ensemble(classifiers = clfs)

# create your Combiner
# the rules can be 'majority_vote', 'max', 'min', 'mean' or 'median'
comb = Combiner(rule='majority_vote')

# now create your ensemble classifier
ensemble_clf = EnsembleClassifier(ensemble=ens, combiner=comb)
ensemble_clf.predict(X)

इस बिंदु पर, उनके पास पीढ़ी, संयोजन, छंटाई और गतिशील चयन है।

सीमाएं: केवल वर्गीकरण; वर्तमान सार्वजनिक संस्करण में कोई स्टैकिंग नहीं; ज्यादा दस्तावेज नहीं।


0

सैलफोर्ड सिस्टम्स के पास रैंडम फ़ॉरेस्ट्स नामक एक सॉफ्टवेयर पैकेज है जो इसे वर्गीकरण और प्रतिगमन पेड़ के लिए लागू करता है। मेरे पास कोई मुफ्त आर पैकेज नहीं है। मुझे लगता है कि उनके पास एक उपयोगकर्ता मैनुअल है जो उनके कार्यान्वयन की व्याख्या करेगा। सादृश्य द्वारा आप शायद यह पता लगा सकते हैं कि इसे अन्य कलाकारों की टुकड़ी के तरीकों के लिए कैसे किया जाए।


2
पेड़ों के टुकड़ो के लिए कई बेहतरीन R पैकेज हैं: जैसे randomForest (क्लासिक एल्गोरिथ्म), पार्टी :: cforest (यादृच्छिक जंगलों का उपयोग कर पेड़ों को काटते हुए), gbm (पेड़ों की ढाल बढ़ाने)। मैंने क्लासिफायर / रिग्रेशन एग्नॉस्टिक एनसेंबल को लागू करने के लिए ओपी को पढ़ा। सबसे सरल प्रक्रिया औसत भविष्यवाणियों का है।
B_Miner

@B_Miner यह जानना अच्छा है कि आर में कार्यान्वयन उपलब्ध हैं। शायद कोई मुझे समझा सकता है कि पायथन में एक विशिष्ट कार्यान्वयन वांछनीय है (कृपया आर के बारे में मेरी अज्ञानता का बहाना करें)। मैं ओपी को उन स्रोतों को जानना चाहता हूं जो वर्णन करते हैं कि कैसे कलाकारों की टुकड़ी को लागू करना है। सलफोर्ड पैकेज वह था जिसके बारे में मुझे पता था कि कुछ प्रलेखन हो सकता है।
माइकल आर। चेरनिक

जहां तक ​​मुझे पता है कि फ्रंड और शापायर पेपर बूस्टिंग का काम करता है, जहां तक ​​मुझे पता है कि ट्री क्लासिफायर का उपयोग करके सबसे अच्छे परिणाम आए हैं।
माइकल आर। चेरिक जूल

मुझे व्यक्तिगत रूप से संभावनाओं के सरल औसत से वास्तव में अच्छे परिणाम मिलते हैं - लेकिन मेरा डोमेन क्लास लेबल चुनने की तुलना में संभावनाओं में अधिक रुचि रखता है।
B_Miner

@MichaelChernick यदि आप वास्तव में गहन भविष्य कहनेवाला काम कर रहे हैं (जैसे ... एक कागेल प्रतियोगिता), तो आप या तो बूस्टिंग या यादृच्छिक जंगलों को चुनने नहीं जा रहे हैं। आप अधिक से अधिक संभव मॉडल एकत्र करना चाहते हैं, जो आपकी सहायता करेगा (जो आमतौर पर एक से अधिक है)। तो, उस संदर्भ में, अन्य पहनावा विधियां महत्वपूर्ण होने जा रही हैं, भले ही यादृच्छिक जंगलों में किसी भी चीज़ की तुलना में वेसेमर हों।
स्टम्पी जो पीट

0

मुझे यह ट्यूटोरियल मिला जो बेहद मददगार था। यह सभी टुकड़ों का जवाब नहीं देता है लेकिन मुझे लगता है कि यह चर्चा के लिए एक शानदार शुरुआत है: http://vikparuchuri.com/blog/intro-to-ensemble-learning-in-r/


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.