असेम्बल इतना प्रभावी क्यों हैं


14

ऐसा प्रतीत होता है कि स्वयंसिद्ध हो गया है कि शिक्षार्थियों का एक पहनावा सर्वोत्तम संभव मॉडल परिणामों की ओर ले जाता है - और यह दूर तक दुर्लभ होता जा रहा है, उदाहरण के लिए, एकल मॉडलों के लिए जैसे कागेल जैसी प्रतियोगिताओं को जीतना। क्या इस बात के लिए एक सैद्धांतिक व्याख्या है कि पहनावा इतना प्रभावी क्यों है?


1
मेरा अनुमान केंद्रीय सीमा प्रमेय होगा लेकिन मेरा कोई औचित्य नहीं है।

जवाबों:


13

एक विशिष्ट मॉडल के लिए आप इसे डेटा खिलाते हैं, सुविधाओं का चयन करते हैं, हाइपरपरमेटर्स वगैरह चुनें। वास्तविकता की तुलना में यह तीन प्रकार की गलतियाँ करता है:

  • पूर्वाग्रह (बहुत कम मॉडल जटिलता के कारण, आपके डेटा में एक नमूनाकरण पूर्वाग्रह)
  • भिन्न (आपके डेटा में शोर के कारण, आपके डेटा से अधिक)
  • वास्तविकता की यादृच्छिकता जिसका आप अनुमान लगाने की कोशिश कर रहे हैं (या अपने डेटासेट में भविष्य कहनेवाला सुविधाओं की कमी)

इन मॉडलों में से कई की औसत औसत है। नमूनाकरण पूर्वाग्रह के कारण पूर्वाग्रह स्पष्ट कारणों से तय नहीं किया जाएगा, यह कुछ मॉडल जटिलता पूर्वाग्रह को ठीक कर सकता है, हालांकि जो भिन्नताएं हैं, वे आपके विभिन्न मॉडलों पर बहुत भिन्न हैं। विशेष रूप से कम सहसंबद्ध मॉडल इस क्षेत्र में बहुत अलग गलतियाँ करते हैं, कुछ मॉडल आपके फ़ीचर स्पेस के कुछ हिस्सों में अच्छा प्रदर्शन करते हैं। इन मॉडलों को औसत से आप इस विचरण को काफी कम करते हैं। यही कारण है कि पहनावा चमकता है।


6

चयनित उत्तर शानदार है, लेकिन मैं दो बातें जोड़ना चाहूंगा:

  1. यह देखा गया है कि मानव भविष्यवाणियों का औसत किसी भी व्यक्तिगत भविष्यवाणी की तुलना में बेहतर पूर्वानुमान देता है। इसे भीड़ के ज्ञान के रूप में जाना जाता है । अब, आप यह तर्क दे सकते हैं कि ऐसा इसलिए है क्योंकि कुछ लोगों के पास अलग-अलग जानकारी है, इसलिए आप प्रभावी रूप से औसत जानकारी रखते हैं। लेकिन नहीं, यह एक जार में सेम की संख्या का अनुमान लगाने जैसे कार्यों के लिए भी सही है। मैं अनुमान लगाता हूं कि डेटा खनन मॉडल के बारे में ऊपर दिए गए कारणों में से कुछ के साथ यह करना है।
  2. तंत्रिका तकनीकों में ड्रॉपआउट पद्धति (जहां प्रशिक्षण के दौरान प्रत्येक पुनरावृत्ति में आप अपने तंत्रिका नेटवर्क का केवल एक हिस्सा इस्तेमाल करते हैं) जैसी कुछ तकनीकें तंत्रिका नेटवर्क के एक संयोजन के समान परिणाम देती हैं। औचित्य यह है कि आप प्रभावी रूप से नोड्स को अन्य भविष्यवाणियों के समान काम करने के लिए मजबूर कर रहे हैं, प्रभावी रूप से मेटा-एनसेंबल बना रहे हैं। मैं यह बात इस बात के लिए कह रहा हूं कि हम पारंपरिक मॉडलों में पहनावा के कुछ लाभों को पेश करने में सक्षम हो सकते हैं।

6

एन्सेम्बल सैद्धांतिक और व्यावहारिक कारणों से भविष्यवाणी पर जीतता है।

यदि हम पिछली घटनाओं के ज्ञान के आधार पर किसी अनुक्रम में अगली घटना की भविष्यवाणी करते हैं, तो इसका मतलब है कि हम पूर्वानुमान लगाने का एक मूल सिद्धांत है। सोलोमनॉफ़ भविष्यवाणी (सोलोमनॉफ़ 1964) कई इंद्रियों में उल्लेखनीय रूप से इष्टतम है, जिसमें यह "केवल पूर्ण न्यूनतम डेटा के साथ किसी भी कम्प्यूटेशनल अनुक्रम का सही अनुमान लगाना सीखेगा।" (हटर, लेग एंड विटैनी 2007) एक सोलोमनॉफ़ प्रेडिक्टर प्रोग्राम के कोलमोगोरोव जटिलता और प्रोग्राम द्वारा अब तक डेटा को असाइन किए जाने वाले प्रायिकता ("सभी सिद्धांत रखें") के अनुसार मौजूदा डेटा के साथ संगत सभी कार्यक्रमों को वेट करता है। ओखम ("सरल सिद्धांतों को प्राथमिकता दें") एक बायेसियन ढांचे में दर्शन।

सोलोमोनॉफ़ भविष्यवाणी की इष्टतमता गुण आपके द्वारा संदर्भित मजबूत खोज को समझाते हैं: औसत से अधिक मॉडल, स्रोत, या विशेषज्ञ भविष्यवाणियों में सुधार करते हैं, और औसत पूर्वानुमान भी सर्वश्रेष्ठ एकल भविष्यवक्ता से बेहतर प्रदर्शन करते हैं। व्यवहार में देखे गए विभिन्न पहनावे तरीकों को सोलोमनॉफ भविष्यवाणी के लिए गणना योग्य अनुमानों के रूप में देखा जा सकता है - और एमएमएल (वालेस 2005) जैसे कुछ स्पष्ट रूप से संबंधों का पता लगाते हैं, हालांकि अधिकांश ऐसा नहीं करते हैं।

वालेस (2005) नोट करता है कि एक सोलोमनॉफ़ भविष्यवक्ता पार्सिमोनियस नहीं है - यह मॉडल का एक अनंत पूल रखता है - लेकिन अधिकांश पूर्वानुमानात्मक शक्ति मॉडल के अपेक्षाकृत छोटे सेट के लिए अनिवार्य रूप से आती है। कुछ डोमेन में एकल सर्वश्रेष्ठ मॉडल (या लगभग अविभाज्य मॉडल का परिवार) भविष्य कहनेवाला शक्ति और बेहतर प्रदर्शन के सामान्य हिस्से के बड़े हिस्से के लिए जिम्मेदार हो सकता है, लेकिन छोटे सिद्धांत वाले जटिल डोमेन में सबसे अधिक संभावना है कि कोई भी एकल परिवार पश्चगामी संभावना के बहुमत को नहीं पकड़ता है, और इसलिए प्रशंसनीय उम्मीदवारों पर औसत भविष्यवाणियों में सुधार करना चाहिए। नेटफ्लिक्स पुरस्कार जीतने के लिए, बेल्कोर टीम ने 450 से अधिक मॉडलों (कोरन 2009) को मिश्रित किया।

मनुष्य आमतौर पर एक अच्छी व्याख्या चाहता है: "उच्च-सिद्धांत" जैसे कि भौतिकी में, ये अच्छी तरह से काम करते हैं। वास्तव में यदि वे अंतर्निहित कारण गतिशीलता को पकड़ते हैं, तो उन्हें लगभग अपराजेय होना चाहिए। लेकिन जहां उपलब्ध सिद्धांत घटना (जैसे, फिल्म की सिफारिश या भू-राजनीति) को बारीकी से फिट नहीं करते हैं, एकल मॉडल कमजोर पड़ जाएंगे: सभी अधूरे हैं, इसलिए किसी को भी हावी नहीं होना चाहिए। इस प्रकार ensembles (मशीन लर्निंग के लिए) और विजडम ऑफ द क्राउड्स (विशेषज्ञों के लिए), और IARPA ACE और विशेष रूप से गुड जजमेंट प्रोजेक्ट (टेटलॉक एंड गार्डिनर 2015) जैसे कार्यक्रमों की सफलता पर जोर दिया गया है।

संदर्भ

  • एम। हटर, एस। लेग, और पी। विटाणी, "एल्गोरिथम संभावना," स्कॉलरपीडिया, वॉल्यूम। 2, 2007, पी। 2572।
  • वाई। कोरेन, "द बेल्कोर सॉल्यूशन टू द नेटफ्लिक्स ग्रैंड प्राइज़," 2009।
  • सोलोमनॉफ, रे (मार्च 1964)। "इंडेक्टिव इन्वेंशन पार्ट I का एक औपचारिक सिद्धांत" (पीडीएफ)। सूचना और नियंत्रण 7 (1): 1-22। doi: 10.1016 / S0019-9958 (64) 90,223-2।
  • सोलोमोनॉफ़, रे (जून 1964)। "इंडेक्टिव इन्वेंशन पार्ट II का एक औपचारिक सिद्धांत" (पीडीएफ)। सूचना और नियंत्रण 7 (2): 224-254। doi: 10.1016 / S0019-9958 (64) 90,131-7।
  • पीई टेटलॉक, विशेषज्ञ राजनीतिक निर्णय: यह कितना अच्छा है? हम कैसे जान सकते हैं?, प्रिंसटन यूनिवर्सिटी प्रेस, 2005।
  • टेटलॉक, पीई और गार्डनर, डी। (2015)। सुपरफ़ॉस्टिंग: द आर्ट एंड साइंस ऑफ़ प्रेडिक्शन। न्यूयॉर्क: क्राउन।
  • सीएस वालेस, न्यूनतम संदेश लंबाई, सांख्यिकीय और प्रेरक आविष्कार, स्प्रिंगर-वर्लग, 2005।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.