भविष्यवाणी के लिए कई मॉडल का उपयोग कब करें?


13

यह एक सामान्य प्रश्न है:

मैंने आमतौर पर पाया है कि नमूना से बाहर समय श्रृंखला की भविष्यवाणी करने की कोशिश करते समय एक मॉडल के कई अलग-अलग मॉडल का उपयोग करना। क्या कोई अच्छा पेपर है जो प्रदर्शित करता है कि मॉडल का संयोजन एकल मॉडल को बेहतर बना देगा? क्या कई मॉडलों के संयोजन के आसपास कोई सर्वोत्तम प्रथा है?

कुछ संदर्भ:


मैंने कहा कि मुझे लगता है कि आपके उत्तर के नीचे आपकी टिप्पणी / प्रश्न के प्रकाश में एक बहुत अच्छा स्रोत है (दुर्भाग्य से एक पाठ्यपुस्तक) w / एनोटेशन। मैंने अपना मूल उत्तर संपादित किया, इसलिए यह अंत में दिखाई देता है।
doug

जवाबों:


8

कभी-कभी इस तरह के मॉडल को एक पहनावा कहा जाता है। उदाहरण के लिए यह पृष्ठ एक अच्छा अवलोकन देता है कि यह कैसे काम करता है। साथ ही वहाँ उल्लिखित संदर्भ बहुत उपयोगी हैं।


3
वास्तव में, सम्मिश्रण संभव पहनावा तकनीकों में से एक है। विशेष रूप से, दो ऐसे होते हैं जब आप एक ही प्रकार के क्लासिफायर, बूस्टिंग (जैसे एडबॉस्ट) और बैगिंग (रैंडम फ़ॉरेस्ट) को मिलाते हैं, और सम्मिश्रण करते हैं, जहाँ आप अलग-अलग क्लासिफायर का संयोजन करते हैं (शेन के बारे में क्या सवाल था)।

3
सम्मिश्रण के लिए, नेटफ्लिक्स प्रतियोगिता के इस पेपर को पढ़ने लायक है: Theensens.com/content/feature-weighted-linear-stacking
शेन

2
यह मज़ेदार है कि मौसम विज्ञानी "एनसेंबल" शब्द का भी उपयोग करते हैं, लेकिन संयोजन के लिए नहीं: वे इसका उपयोग संख्यात्मक मॉडल (प्रारंभिक परिदृश्य की तरह) के लिए करते हैं, जो संख्यात्मक मॉडल की प्रारंभिक स्थितियों के गड़बड़ी से प्राप्त होता है।
रॉबिन जिरार्ड

1
@mbq वास्तव में वे खुद को भविष्यवक्ता कहते हैं और वे आंकड़े का काफी उपयोग करते हैं ...
रॉबिन जिरार्ड

1
@robin मुझे पता है, यह सिर्फ इसलिए इसे "पहनावा" कहा जाता है एक सेट या ऐसा कुछ नहीं है।

10

नेटफ्लिक्स पुरस्कार प्रतियोगिता (2009) के अंतिम वर्ष ने मुझे कई शिक्षण एल्गोरिदम के संयोजन के खिलाफ सामान्य समुदाय-व्यापी अनुमान को तेजी से बदल दिया।

उदाहरण के लिए, मेरे औपचारिक प्रशिक्षण (विश्वविद्यालय के पाठ्यक्रम) और बाद में नौकरी-ओवरसाइट / मेंटरिंग ने हमें एल्गोरिथ्म संयोजन से बचने के लिए सिखाया जब तक कि हमारे पास ऐसा करने का स्पष्ट कारण नहीं था - और "मेरे वर्तमान एल्गोरिथ्म के संकल्प को बेहतर बनाने के लिए", wasn ' टी वास्तव में एक अच्छा कारण माना जाता है। (अन्य लोगों के पास एक अलग अनुभव हो सकता है - निश्चित रूप से मैं अपने स्वयं के अनुभव के आधार पर एक समुदाय-व्यापी दृष्टिकोण का उल्लेख कर रहा हूं, हालांकि खराब प्रदर्शन करने वाले एमएल एल्गोरिदम में मेरा अनुभव पर्याप्त है।)

फिर भी, कुछ "पैटर्न" थे, जिसमें एल्गोरिदम को एक तरह से या किसी अन्य को मिलाकर स्वीकार किया गया था, और वास्तव में प्रदर्शन में सुधार हुआ था। मेरे लिए, सबसे लगातार उदाहरण मशीन मोड में कॉन्फ़िगर किए गए कुछ एमएल एल्गोरिदम शामिल हैं (प्रत्येक डेटा बिंदु पर एक वर्ग लेबल असाइन करना) और जिसमें दो से अधिक कक्षाएं (आमतौर पर कई और अधिक) थीं। उदाहरण के लिए, चार कक्षाओं को हल करने के लिए एक पर्यवेक्षित-शिक्षण एल्गोरिथ्म का उपयोग करते हुए, और हम कक्षा III बनाम कक्षा IV को छोड़कर उत्कृष्ट अलगाव देखेंगे । इसलिए उन छह निर्णय सीमाओं में से, केवल एक आवश्यक सीमा से नीचे हल किया गया था। विशेष रूप से जब कक्षा III और IV ने एक साथ डेटा का एक छोटा सा प्रतिशत के लिए जिम्मेदार होता है, तो उन दो वर्गों के संकल्प पर अनुकूलित एक अतिरिक्त एल्गोरिथ्म को जोड़ा।, इस विश्लेषणात्मक समस्या के प्रकार का एक सामान्य समाधान था। (आमतौर पर वह 'ब्लाइंड स्पॉट' प्राथमिक एल्गोरिथ्म की एक अंतर्निहित सीमा थी - उदाहरण के लिए, यह एक रैखिक क्लासिफायरफ़ाइल था और III / IV निर्णय सीमा गैर-रैखिक थी।

दूसरे शब्दों में, जब हमारे पास एक विश्वसनीय एल्गोरिथ्म था जो प्रसंस्करण पर्यावरण (जो आमतौर पर डेटा स्ट्रीमिंग कर रहा था) के अनुकूल था और जिसने एक अंधे स्थान को छोड़कर कल्पना के भीतर प्रदर्शन किया, जिसके कारण यह दो (या अधिक) वर्गों को हल करने में विफल रहा जो इसके लिए जिम्मेदार थे। डेटा का एक छोटा सा अंश, फिर मुख्य एल्गोरिथ्म को व्यवस्थित रूप से गायब करने के लिए एक अन्य विशेष एल्गोरिथ्म को 'बोल्ट-ऑन' करना हमेशा बेहतर होता था।

अंत में, इस विषय पर, मैं अत्यधिक अध्याय 17 की सिफारिश करना चाहता हूं , मशीन लर्निंग के परिचय में कई शिक्षार्थियों का संयोजन , 2d, Ethem Alpaydin, MIT प्रेस, 2010 द्वारा। ध्यान दें कि यह कुछ महीने पहले प्रकाशित दूसरा संस्करण है ; पहला संस्करण 2004 में प्रकाशित हुआ था और मुझे संदेह है कि इसमें इस विषय का समान कवरेज है। (वास्तव में मैं पूरे पाठ की सलाह देता हूं, लेकिन यह विशेष रूप से अध्याय है क्योंकि यह शेन के प्रश्न से संबंधित है।)

25 पृष्ठों में, लेखक संभवत: प्रत्येक एमएल एल्गोरिथम-संयोजन योजना का सारांश देता है, जिसकी उपयोगिता अकादमिक साहित्य या अभ्यास में प्रदर्शित की गई है - जैसे, बैगिंग, बूस्टिंग, विशेषज्ञों का मिश्रण, स्टैक्ड सामान्यीकरण, कैस्केडिंग, वोटिंग, त्रुटि-सुधार, ।। ..


यह बहुत अच्छी जानकारी है। क्या आप किसी ऐसे पेपर के बारे में जानते हैं जो इसे कवर करता है?
शेन

(आपकी टिप्पणी के SA से एक सूचना नहीं मिली) ठीक है, मैं किसी भी कागजात की बात नहीं कर रहा था जब मैंने लिखा था कि, बल्कि अनौपचारिक रूप से अपने अनुभव के टुकड़ों को आपके प्रश्न के लिए प्रासंगिक हूं। मैं अपनी फाइलों को देखूंगा और देखूंगा कि मेरे पास क्या है जो हालांकि प्रासंगिक है।
dgg

4

कलाकारों की टुकड़ी के तरीकों पर पीटर की प्रतिक्रिया के बाद:



1

यहाँ बाएं क्षेत्र के उत्तर से थोड़ा बाहर है, जो आपके प्रश्न के "कई मॉडलों के संयोजन के आसपास की सर्वोत्तम प्रथाओं" को छूता है । यह मूल रूप से वास्तव में मेरा सम्मान थीसिस है, सिवाय इसके कि मैं जटिल, अत्यधिक गैर-रैखिक मॉडल के साथ काम कर रहा हूं जो अराजकता और शोर - जलवायु मॉडल का प्रदर्शन करते हैं। यह मोटे तौर पर कई क्षेत्रों में लागू होने की संभावना नहीं है, लेकिन पारिस्थितिकी या अर्थमिति में उपयोगी हो सकता है।

जलवायु मॉडलिंग समुदाय में काफी हद तक, मॉडल को मोटे तौर पर केवल एक अनवील औसत में एक साथ तोड़ा गया था (आमतौर पर पूर्वाग्रह सुधार के बाद भाग या सभी नमूना अवधि के लिए मॉडल का मतलब निकालना शामिल था)। यह मूल रूप से IPCC ने 4th असेसमेंट रिपोर्ट (4AR), और पिछली रिपोर्टों के लिए किया था।

यह पहनावा संयोजन के " सत्य प्लस त्रुटि " स्कूल का कमोबेश एक उदाहरण है , जहां यह स्पष्ट रूप से या स्पष्ट रूप से माना जाता है कि अवलोकन श्रृंखला (जैसे। वैश्विक तापमान, स्थानीय वर्षा, आदि) सच है, और यदि आप पर्याप्त नमूने लेते हैं। (जैसे। मॉडल रन), मॉडल रन में शोर रद्द हो जाएगा (देखें (1))।

हाल ही में, प्रदर्शन भार के आधार पर मॉडल के संयोजन के तरीकों का उपयोग किया गया है। क्योंकि जलवायु मॉडल इतने शोरगुल वाले होते हैं, और इनमें बहुत सारे चर और पैरामीटर होते हैं, प्रदर्शन का आकलन करने के एकमात्र तरीके (जो मुझे पता है) कोविरेंस लेने या मॉडल आउटपुट और देखे गए समय श्रृंखला के बीच एमएसई लेने से हैं। मॉडल को फिर उस माप के आधार पर माध्य भारित करके जोड़ा जा सकता है। इसमें (2) का एक अच्छा अवलोकन है।

सिमुलेशन के संयोजन की इस पद्धति के पीछे एक धारणा यह है कि मॉडल सभी यथोचित स्वतंत्र हैं - यदि कुछ अत्यधिक निर्भर थे, तो वे इस मतलब को पूर्वाग्रह करेंगे। यह अनुमान 4AR ( CMIP3) के लिए उपयोग किए जाने वाले डेटासेट के लिए उचित रूप से उचित था , क्योंकि यह डेटा सेट कई मॉडलिंग समूहों के कुछ मॉडल रन से बना था (दूसरी तरफ, कोड को मॉडलिंग समुदाय में साझा किया गया है, इसलिए अभी भी कुछ अन्योन्याश्रयता हो सकती है इस पर एक दिलचस्प नज़र के लिए, (3) देखें। अगली मूल्यांकन रिपोर्ट, सीएमआईपी 5 के लिए डेटासेट, यह कुछ हद तक भाग्यशाली विशेषता नहीं है - कुछ मॉडलिंग टीमों को कुछ रन जमा करने होंगे, जबकि कुछ सैकड़ों जमा करेंगे। अलग-अलग टीमों से आने वाले एनसेंबल को प्रारंभिक स्थिति याचिका के द्वारा, या मॉडल भौतिकी और पैरामीरिसन में बदलाव के द्वारा उत्पादित किया जा सकता है। इसके अलावा, इस सुपर पहनावा को किसी भी व्यवस्थित तरीके से नमूना नहीं लिया गया है - यह सिर्फ वह है जो कभी डेटा लाता है (कारण के भीतर) स्वीकार किया जाता है। इस क्षेत्र में एक " अवसर की टुकड़ी " के रूप में जाना जाता है । एक उचित मौका है कि इस तरह के पहनावे पर अनवीट किए गए माध्य का उपयोग करने से आपको अधिक रनों के साथ मॉडल की ओर कुछ प्रमुख पूर्वाग्रह उत्पन्न होने वाले हैं (हालांकि सैकड़ों रन होने के बावजूद, वास्तव में स्वतंत्र रनों की संख्या बहुत कम है)।

मेरे पर्यवेक्षक के पास प्रदर्शन और स्वतंत्रता भार से संबंधित मॉडल संयोजन की एक प्रक्रिया का वर्णन करते हुए इस समय समीक्षा में एक पेपर है । एक सम्मेलन कागज सार उपलब्ध है (4), मैं प्रकाशित होने पर कागज पर लिंक पोस्ट करूँगा (धीमी प्रक्रिया, अपनी सांस न पकड़ें)। मूल रूप से, यह पेपर एक ऐसी प्रक्रिया का वर्णन करता है जिसमें मॉडल त्रुटियों (मॉडल-अवलोकन) के सहसंयोजक को लेना और अन्य सभी मॉडलों के साथ उच्च मॉडल वाले मॉडल को भारित करना शामिल है, (यानी अत्यधिक निर्भर त्रुटियों वाले मॉडल)। मॉडल त्रुटि संस्करण की गणना भी की जाती है, और प्रदर्शन-भार घटक के रूप में उपयोग किया जाता है।

यह भी ध्यान देने योग्य है कि जलवायु मॉडलिंग स्पष्ट रूप से संख्यात्मक मॉडलिंग की योनि से सामान्य रूप से प्रभावित होता है। वहाँ एक "हंसी परीक्षण" नामक एक चीज है - यदि आप एक मॉडल रन के साथ समाप्त होते हैं, जिसका अर्थ है कि 2050 तक वैश्विक औसत तापमान + 20 डिग्री सेल्सियस होगा, तो आप इसे केवल बाहर फेंक देते हैं, क्योंकि यह स्पष्ट रूप से शारीरिक रूप से प्रासंगिक नहीं है। जाहिर है इस तरह का परीक्षण काफी व्यक्तिपरक है। मुझे अभी इसकी आवश्यकता नहीं है, लेकिन मैं निकट भविष्य में उम्मीद करता हूं।

इस समय मेरे क्षेत्र में राज्य मॉडल संयोजन की मेरी समझ है। जाहिर है मैं अभी भी सीख रहा हूं, इसलिए यदि मैं किसी विशेष चीज पर हिट करता हूं, तो मैं वापस आऊंगा और इस उत्तर को अपडेट करूंगा।

(१) तेबलदी, सी। और नुट्टी, आर।, २००.. संभाव्य जलवायु अनुमानों में बहु-मॉडल कलाकारों की टुकड़ी का उपयोग। रॉयल सोसाइटी ए के दार्शनिक लेन-देन: गणितीय, भौतिक और इंजीनियरिंग विज्ञान, 365 (1857), पीपी.2053–2075।

(२) नुट्टी, आर। एट अल।, २०१०. आईपीसीसी विशेषज्ञ मल्टी मॉडल क्लाइमेट प्रोजेक्शंस का आकलन और संयोजन करने पर बैठक।

(3) मेसन, डी। और नुट्टी, आर।, 2011. जलवायु मॉडल वंशावली। Geophys। रेस। लेट, 38 (8), पी। एल 08703।

(४) अब्रामोविट्ज़, जी। और बिशप, सी।, २०१०। पहनावा भविष्यवाणी में मॉडल निर्भरता के लिए परिभाषित और भार। AGU पतन बैठक सार में। पी। 07।


पहले पैराग्राफ का मतलब है "जटिल, अत्यधिक गैर-रेखीय मॉडल" सही है? मेरे कार्य क्षेत्र (गैर-जलवायु क्षेत्र) के लिए, मुझे अक्सर लगता है कि विभिन्न मॉडलों का उपयोग करने से आम तौर पर बहुत भिन्न भविष्यवाणियां नहीं होती हैं। हालाँकि, केवल गैर-तदर्थ तरीके से मॉडल के संयोजन के लिए कंप्यूटिंग को चालू करना और चलाना हमारे लिए एक बड़ा अवरोधक है। मैं अधिक सटीक भविष्यवाणियों की उम्मीद करूंगा, लेकिन मेरे पास मॉडलों को संयोजित करने और उन पूर्वानुमानों में त्रुटि का सटीक अनुमान लगाने का समय नहीं है।
probabilityislogic

धन्यवाद, निश्चित। मेरे पास एक्यूटिंग क्लस्टर तक पहुंच है, इसलिए कंप्यूटिंग पावर एक बहुत बड़ी समस्या नहीं है, लेकिन हाँ, यहां तक ​​कि एक मॉडल को मैं ठीक से सेट कर रहा हूं एक दर्द हो रहा है, और यह पहले से ही लिखा है। यही कारण है कि सीएमआईपी मौजूद है, इसलिए लोगों को हर बार उस परेशानी से गुजरना नहीं पड़ता है। रुचि हो सकती है पता है कि आप किस क्षेत्र में हैं, यदि आप समान सामान कर रहे हैं।
naught101
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.