"इन-सैंपल" और "आउट-ऑफ-सैंपल" पूर्वानुमानों में क्या अंतर है?


17

मुझे समझ नहीं आया कि वास्तव में "इन-सैंपल" और "आउट ऑफ सैंपल" की भविष्यवाणी में क्या अंतर है? अनुमान के अवधि के बाहर मूल्यों का पूर्वानुमान करने के लिए एक नमूना-नमूना पूर्वानुमान उपलब्ध आंकड़ों के सबसेट का उपयोग करता है । नमूना उपलब्ध पूर्वानुमान के बजाय सभी उपलब्ध डेटा का उपयोग करता है क्या ये सही हैं ?

बहुत विशेष रूप से निम्नलिखित परिभाषा सही है?

एक नमूना अनुमान के भीतर अनुमान अवधि के बाहर मूल्यों का पूर्वानुमान करने के लिए उपलब्ध डेटा के सबसेट का उपयोग करता है और उनकी तुलना संबंधित ज्ञात या वास्तविक परिणामों से करता है। यह ज्ञात मूल्यों का अनुमान लगाने के लिए मॉडल की क्षमता का आकलन करने के लिए किया जाता है। उदाहरण के लिए, 1980 से 2015 के नमूने के पूर्वानुमान में मॉडल का अनुमान लगाने के लिए 1980 से 2012 तक के डेटा का उपयोग किया जा सकता है। इस मॉडल का उपयोग करते हुए, भविष्यवक्ता 2013-2015 के मूल्यों की भविष्यवाणी करेगा और वास्तविक ज्ञात मूल्यों के पूर्वानुमानित मूल्यों की तुलना करेगा। नमूना पूर्वानुमान के बजाय मॉडल का अनुमान लगाने के लिए नमूना में सभी उपलब्ध डेटा का उपयोग करता है । पिछले उदाहरण के लिए, अनुमान 1980-2015 से अधिक लगाया जाएगा, और पूर्वानुमान 2016 में शुरू होगा।


क्या आप कुछ संदर्भ प्रदान कर सकते हैं? आपके अपने प्रश्न के उत्तर आपको ठीक लगते हैं, लेकिन शब्दावली विषय-विशेष की हो सकती है।
IWS

आपको वे परिभाषाएँ कहाँ से मिलीं?
गंग -

इन-सैंपल वह डेटा है जिसे आप मॉडल बनाने के समय जानते हैं और आप उस मॉडल को बनाने के लिए उपयोग करते हैं। आउट-ऑफ-सैंपल वह डेटा है जो अनदेखा था और आप केवल भविष्यवाणी / पूर्वानुमान का उत्पादन करते हैं। अधिकांश परिस्थियों के तहत मॉडल इन-सैंपल की तुलना में खराब आउट-ऑफ-नमूना का प्रदर्शन करेगा जहां सभी मापदंडों को कैलिब्रेट किया गया है।
रिक

@ मैं एडिशनल सवाल जोड़ गया :)
Engin YILMAZ

@ रीचर्ड कृपया नए नए प्रश्न पढ़ें ...
Engin YILMAZ

जवाबों:


32

"नमूना" द्वारा यह डेटा नमूना है जिसका उपयोग आप मॉडल को फिट करने के लिए कर रहे हैं।

पहला - आपके पास एक नमूना है
दूसरा - आप नमूने पर एक मॉडल फिट करते हैं
तीसरा - आप पूर्वानुमान के लिए मॉडल का उपयोग कर सकते हैं

यदि आप एक अवलोकन के लिए पूर्वानुमान लगा रहे हैं जो डेटा नमूने का हिस्सा था - यह इन-सैंपल पूर्वानुमान है।

यदि आप एक अवलोकन के लिए पूर्वानुमान लगा रहे हैं जो डेटा नमूने का हिस्सा नहीं था - यह नमूना से बाहर का पूर्वानुमान है।

इसलिए सवाल आपको खुद से पूछना है: क्या मॉडल फिटिंग के लिए विशेष अवलोकन का उपयोग किया गया था या नहीं? यदि इसका उपयोग मॉडल फिटिंग के लिए किया गया था, तो अवलोकन का पूर्वानुमान नमूना है। अन्यथा यह नमूना से बाहर है।

यदि आप मॉडल को फिट करने के लिए 1990-2013 के डेटा का उपयोग करते हैं और फिर आप 2011-2013 के लिए पूर्वानुमान लगाते हैं, तो यह नमूना पूर्वानुमान है। लेकिन यदि आप केवल मॉडल के फिटिंग के लिए 1990-2010 का उपयोग करते हैं और फिर आप 2011-2013 का अनुमान लगाते हैं, तो इसका आउट-ऑफ-सैंपल पूर्वानुमान।


हमारे पास 1990 से 2013 तक का नमूना है, फिर हम नमूने पर मॉडल फिट करते हैं, फिर हम 2011-2013 का अनुमान लगाते हैं, क्या यह नमूना है? या हमारे पास 1990 से 2013 तक का नमूना है, फिर हम नमूने पर 1990 से 2010 के मॉडल फिट करते हैं, हम 2011-2013 का अनुमान लगाते हैं, क्या यह नमूने से बाहर है?
एंगिन यिल्माज़

हां, यदि आप मॉडल को फिट करने के लिए 1990-2013 के डेटा का उपयोग करते हैं और फिर आप 2011-2013 के लिए पूर्वानुमान लगाते हैं, तो यह नमूना का पूर्वानुमान है। लेकिन यदि आप केवल मॉडल के फिटिंग के लिए 1990-2010 का उपयोग करते हैं और फिर आप 2011-2013 का अनुमान लगाते हैं, तो इसका आउट-ऑफ-सैंपल पूर्वानुमान।
राजा सोलोमन का घोड़ा

3

मान लीजिए कि आपके नमूने में, आपके पास 10 डेटा बिंदुओं का अनुक्रम है। इस डेटा को दो भागों में विभाजित किया जा सकता है - जैसे मॉडल मापदंडों का आकलन करने के लिए पहले 7 डेटा बिंदु और मॉडल प्रदर्शन का परीक्षण करने के लिए अगले 3 डेटा बिंदु। फिट किए गए मॉडल का उपयोग करते हुए, पहले 7 डेटा बिंदुओं के लिए किए गए पूर्वानुमानों को नमूना पूर्वानुमान कहा जाएगा और पिछले 3 डेटा बिंदुओं के लिए नमूने के पूर्वानुमान से बाहर बुलाया जाएगा। यह डेटा को प्रशिक्षण सेट और सत्यापन सेट में विभाजित करने के विचार के समान है।


1

इन-सैंपल फोरकास्ट औपचारिक रूप से देखे गए डेटा का उपयोग करके देखे गए डेटा का उपयोग करके विकसित किए गए मॉडल की भविष्य कहनेवाला क्षमताओं का औपचारिक रूप से मूल्यांकन करने की प्रक्रिया है। यह एक मशीन लर्निंग एल्गोरिदम में निर्धारित प्रशिक्षण के समान है और आउट-ऑफ-सैंपल परीक्षण सेट के समान है।


आप इन-सैंपल फोरकास्टिंग का संक्षिप्त विवरण देते हैं- क्या आप सैंपल आउट करने के लिए भी एक ही विकल्प दे सकते हैं (यानी एक छोटा स्पष्टीकरण न केवल टेस्ट सेट की तुलना में)?
रेनेबेट


-1

टाइम सीरीज़ फोरकास्टिंग में, 'इंसप्लांट' का मतलब ट्रेन डेटा 'आउटसम्पल' का मतलब टेस्ट डेटा होता है

टाइम सीरीज़ में, पहले हम 'इनसम्पल' (यानी ट्रेन) डेटा के लिए परिणाम का अनुमान लगा सकते हैं। बाद में हम 'बहिष्करण' (यानी परीक्षण) डेटा के परिणामों का पूर्वानुमान लगा सकते हैं।

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)

मुझे लगता है कि आपका उत्तर नीचे दिया जा रहा है, क्योंकि यह सवाल का जवाब नहीं देता है - विशेष रूप से "बहुत विशेष रूप से निम्नलिखित परिभाषा सही है?" शोभा नहीं है।
मार्टिन मोद्रक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.