कैसे कलाकारों की टुकड़ी उनके सभी घटकों को बेहतर बनाती है?


16

मैं पहनावा सीखने के बारे में थोड़ा उलझन में हूं। संक्षेप में, यह k मॉडल चलाता है और इन k मॉडल का औसत प्राप्त करता है। यह कैसे गारंटी दी जा सकती है कि k मॉडल का औसत किसी भी मॉडल से बेहतर होगा? मैं समझता हूं कि पूर्वाग्रह "फैला हुआ" या "औसत" है। हालाँकि, क्या होगा अगर पहनावा में दो मॉडल हैं (यानी k = 2) और इनमें से एक दूसरे से भी बदतर है - क्या पहनावा बेहतर मॉडल की तुलना में खराब नहीं होगा?



इस सूत्र ने मुझे रूचि दी है, लेकिन इससे अधिक प्रश्नों को उठाया है, जिन्होंने इसका उत्तर दिया है। क्या हम सभी थोड़ा और एल का उपयोग कर सकते हैं अधिक कठोरता से इन सभी शब्दों को परिभाषित कर रहे हैं जिनका हम उपयोग कर रहे हैं? LATEएक्स
टेलर

जवाबों:


23

इसकी गारंटी नहीं है। जैसा कि आप कहते हैं, पहनावा व्यक्तिगत मॉडल से भी बदतर हो सकता है। उदाहरण के लिए, सच्चे मॉडल और खराब मॉडल का औसत लेने से काफी खराब मॉडल मिलेगा।

यदि मॉडल एक दूसरे से स्वतंत्र (कुछ हद तक) हैं तो मॉडल का औसत केवल एक सुधार होने जा रहा है। उदाहरण के लिए, बैगिंग में, प्रत्येक मॉडल को डेटा के एक यादृच्छिक सबसेट से बनाया गया है, इसलिए कुछ स्वतंत्रता में बनाया गया है। या मॉडल को सुविधाओं के विभिन्न संयोजनों का उपयोग करके बनाया जा सकता है, और फिर औसत रूप से संयोजित किया जा सकता है।

इसके अलावा, औसत मॉडल केवल तभी अच्छा काम करता है जब व्यक्तिगत मॉडल में उच्च विचरण हो। इसीलिए बहुत बड़े पेड़ों का उपयोग करके एक यादृच्छिक जंगल बनाया जाता है। दूसरी ओर, रैखिक प्रतिगमन मॉडल का एक गुच्छा औसत अभी भी आपको एक रैखिक मॉडल देता है, जो आपके द्वारा शुरू किए गए मॉडल से बेहतर होने की संभावना नहीं है (इसे आज़माएं!)

अन्य पहनावा के तरीके, जैसे कि बूस्टिंग और सम्मिश्रण, व्यक्तिगत मॉडल से आउटपुट लेकर, प्रशिक्षण डेटा के साथ, बड़े मॉडल के इनपुट के रूप में काम करते हैं। इस मामले में, यह आश्चर्य की बात नहीं है कि वे अक्सर व्यक्तिगत मॉडलों की तुलना में बेहतर काम करते हैं, क्योंकि वे वास्तव में अधिक जटिल हैं, और वे अभी भी प्रशिक्षण डेटा का उपयोग करते हैं।


क्या आपका मतलब यह नहीं है कि RF बड़े वेरिएंट को प्राप्त करने के लिए बड़ी संख्या में पेड़ों का उपयोग करता है? मुझे उम्मीद है कि जैसे-जैसे पेड़ बड़े होंगे वे अधिकांश विशेषताओं का विस्तार करेंगे और मॉडलों के बीच विचरण में कमी आएगी।
इटाराम

नहीं, @Flounderer सही है। निर्णय पेड़ों को अस्थिर मॉडल कहा जाता है। यदि आप डेटा को थोड़ा बदलते हैं, तो आपको बहुत अलग पेड़ मिलते हैं। यादृच्छिक वन उन्हें स्थिर करने के साधन हैं। यदि आप डेटा के कुछ अलग नमूनों के साथ दो आरएफ को प्रशिक्षित करते हैं, तो वे समान मॉडल का उत्पादन करेंगे।
रिकार्डो क्रूज़

"रैखिक प्रतिगमन मॉडल का एक गुच्छा औसत अभी भी आपको एक रैखिक मॉडल देता है" <- यहां औसत से आपका क्या मतलब है? आप किस विचरण की बात कर रहे हैं?
टेलर

6

आपके उदाहरण में, दो मॉडलों का आपका पहनावा एक एकल मॉडल से भी बदतर हो सकता है। लेकिन आपका उदाहरण कृत्रिम है, हम आम तौर पर हमारे कलाकारों की टुकड़ी में दो से अधिक का निर्माण करते हैं।

कोई पूर्ण गारंटी नहीं है कि एक पहनावा मॉडल व्यक्तिगत मॉडल की तुलना में बेहतर प्रदर्शन करता है, लेकिन यदि आप उनमें से कई का निर्माण करते हैं, और आपका व्यक्तिगत क्लासिफायरबल कमजोर है । आपका समग्र प्रदर्शन एक व्यक्तिगत मॉडल से बेहतर होना चाहिए।

मशीन लर्निंग में, कई मॉडल का प्रशिक्षण आमतौर पर एकल मॉडल के प्रशिक्षण से बेहतर होता है। ऐसा इसलिए है क्योंकि आपके पास धुन करने के लिए अधिक पैरामीटर हैं।


2

मैं केवल इस संदर्भ में चर्चा की गई कुछ चीजों को फेंकना चाहता हूं, और यह आपको विचार के लिए भोजन देना चाहिए।

पहनावा इंसानों के साथ भी काम करता है!

यह देखा गया है कि औसत भविष्यवाणियां किसी भी व्यक्तिगत भविष्यवाणी की तुलना में बेहतर भविष्यवाणियां देती हैं। इसे भीड़ के ज्ञान के रूप में जाना जाता है

अब, आप यह तर्क दे सकते हैं कि ऐसा इसलिए है क्योंकि कुछ लोगों के पास अलग-अलग जानकारी है, इसलिए आप प्रभावी रूप से औसत जानकारी रखते हैं। लेकिन नहीं, यह एक जार में सेम की संख्या का अनुमान लगाने जैसे कार्यों के लिए भी सही है।

इस पर बहुत सारी किताबें और प्रयोग लिखे गए हैं, और घटना अभी भी शोधकर्ताओं को पहेली बना रही है।

यह कहा जा रहा है, जैसा कि @Founderer ने बताया, वास्तविक लाभ तथाकथित अस्थिर मॉडल जैसे निर्णय पेड़ से आते हैं, जहां प्रत्येक अवलोकन का आमतौर पर निर्णय सीमा पर प्रभाव पड़ता है। एसवीएम जैसे अधिक स्थिर वाले अधिक लाभ नहीं उठाते हैं क्योंकि रेज़मैपलिंग आमतौर पर समर्थन वैक्टर को अधिक प्रभावित नहीं करता है।


1
यही कारण है कि मैंने हमेशा उन लोगों को काम पर रखने की कोशिश की जो मेरे जैसे नहीं थे। लचीली और प्रभावी टीमों के निर्माण के लिए अच्छी सलाह।
मैथ्यू ड्र्यू

0

एकल मॉडल के लिए वास्तव में यह काफी संभव है कि वह पहनावा से बेहतर हो।

यहां तक ​​कि अगर आपके डेटा में कोई बिंदु नहीं हैं, जहां आपके कुछ मॉडल ओवरस्टीमेट कर रहे हैं और कुछ कम करके आंका जा रहा है (उस स्थिति में आप उम्मीद कर सकते हैं कि औसत त्रुटि को नकार दिया जाएगा), कुछ सबसे लोकप्रिय नुकसान कार्य (जैसे कि चुकता नुकसान) दंडित कर रहे हैं कुछ बड़े उदारवादी विचलन से अधिक एकल विचलन। यदि आपके औसत मॉडल कुछ अलग हैं, तो आप उम्मीद कर सकते हैं कि विचलन "कम" हो जाता है, क्योंकि औसत विचलन को मारता है। संभवत: यह उसी के साथ समझा जा सकता है


0

हां, यह मामला हो सकता है लेकिन अलग-अलग पहनावाओं से डेटा की विभिन्न विशेषताओं को कैप्चर करते समय फिटिंग से बचने के लिए सरल मॉडल को प्रशिक्षित करने के लिए विचार करना है। बेशक एक ही प्रशिक्षण डेटा के साथ प्रशिक्षित करते समय किसी एकल मॉडल को बेहतर बनाने के लिए एक पहनावा मॉडल की कोई गारंटी नहीं है। बाहरी मॉडल और संयोजन बूस्ट (जैसे AdaBoost) के संयोजन से आउटपरफॉर्मेंस प्राप्त किया जा सकता है। आप प्रत्येक डेटा बिंदु पर भार असाइन करके और उन्हें त्रुटि के अनुसार अपडेट करके प्रत्येक अगले एनस्टेम मॉडल को प्रशिक्षित करके। तो इसे एक समन्वित वंश एल्गोरिथ्म के रूप में सोचें, यह निरंतर औसत मॉडल जटिलता को बनाए रखते हुए प्रशिक्षण त्रुटि को प्रत्येक पुनरावृत्ति के साथ नीचे जाने की अनुमति देता है। कुल मिलाकर यह प्रदर्शन पर प्रभाव डालता है। वहां कई हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.