Forecastability
आप सही हैं कि यह पूर्वानुमान का प्रश्न है। किया गया है forecastability पर कुछ लेख में IIF के व्यवसायी उन्मुख पत्रिका दूरदर्शिता । (पूरा खुलासा: मैं एक एसोसिएट एडिटर हूं।)
समस्या यह है कि "सरल" मामलों में आकलन करने के लिए पूर्वानुमानशीलता पहले से ही कठिन है।
कुछ उदाहरण
मान लीजिए कि आपके पास इस तरह की एक समय श्रृंखला है, लेकिन जर्मन मत बोलो:
आप अप्रैल में बड़ी चोटी का मॉडल कैसे बनाएंगे, और किसी भी पूर्वानुमान में आप इस जानकारी को कैसे शामिल करेंगे?
जब तक आप नहीं जानते थे कि यह समय श्रृंखला एक स्विस सुपरमार्केट श्रृंखला में अंडे की बिक्री है, जो पश्चिमी कैलेंडर ईस्टर से ठीक पहले बोलती है , तो आपको मौका नहीं मिलेगा। इसके अलावा, ईस्टर कैलेंडर के चारों ओर छह सप्ताह के रूप में चल रहा है, किसी भी पूर्वानुमान में ईस्टर की विशिष्ट तिथि शामिल नहीं है (यह कहते हुए, कि यह सिर्फ कुछ मौसमी शिखर था जो अगले साल एक विशिष्ट सप्ताह में पुनरावृत्ति करेगा) शायद बहुत दूर होगा।
इसी तरह, मान लें कि आपके पास नीली रेखा है और 2010-02-28 को "सामान्य" पैटर्न से अलग 2010-02-28 पर जो कुछ भी हुआ है उसे मॉडल करना चाहते हैं:
फिर, यह जानने के बिना कि क्या होता है जब कनाडाई से भरा पूरा शहर टीवी पर एक ओलंपिक आइस हॉकी फाइनल खेल देखता है, आपके पास यहां क्या हुआ, यह समझने का कोई मौका नहीं है, और जब आप इस तरह से कुछ दोहराएंगे, तो आप अनुमान लगाने में सक्षम नहीं होंगे।
अंत में, इसे देखें:
यह एक कैश एंड कैरी स्टोर पर दैनिक बिक्री का एक समय श्रृंखला है । (दाईं ओर, आपके पास एक साधारण तालिका है: 282 दिनों में शून्य बिक्री हुई, 42 दिनों में 1 की बिक्री देखी गई ... और एक दिन में 500 की बिक्री देखी गई।) मुझे नहीं पता कि यह क्या वस्तु है।
आज तक, मुझे नहीं पता कि 500 की बिक्री के साथ उस दिन क्या हुआ था। मेरा सबसे अच्छा अनुमान यह है कि कुछ ग्राहक ने जो भी उत्पाद था उसकी बड़ी मात्रा में प्री-ऑर्डर किया और उसे एकत्र किया। अब, यह जानने के बिना, इस विशेष दिन के लिए कोई भी पूर्वानुमान दूर होगा। इसके विपरीत, मान लें कि यह ईस्टर से ठीक पहले हुआ था, और हमारे पास एक गूंगा-स्मार्ट एल्गोरिथ्म है जो मानता है कि यह ईस्टर प्रभाव हो सकता है (शायद ये अंडे हैं?) और अगले ईस्टर के लिए खुशी से 500 इकाइयों का पूर्वानुमान लगाया। ओह माय, कि गलत हो सकता है ।
सारांश
सभी मामलों में, हम देखते हैं कि पूर्वानुमान क्षमता को केवल तभी अच्छी तरह समझा जा सकता है जब हमारे पास संभावित कारकों की पर्याप्त गहरी समझ होती है जो हमारे डेटा को प्रभावित करते हैं। समस्या यह है कि जब तक हम इन कारकों को नहीं जानते, हम नहीं जानते कि हम उन्हें नहीं जान सकते। डोनाल्ड रम्सफेल्ड के अनुसार :
[टी] यहाँ ज्ञात ज्ञात हैं; ऐसी चीजें हैं जो हम जानते हैं कि हम जानते हैं। हम यह भी जानते हैं कि ज्ञात अज्ञात हैं; यह कहना है कि हम जानते हैं कि कुछ चीजें हैं जो हम नहीं जानते हैं। लेकिन अज्ञात अज्ञात भी हैं - जिन्हें हम नहीं जानते कि हम नहीं जानते हैं।
यदि हॉकी के लिए ईस्टर या कनाडाई की भविष्यवाणी हमारे लिए अज्ञात है, तो हम फंस गए हैं - और हमारे पास आगे बढ़ने का कोई रास्ता नहीं है, क्योंकि हमें नहीं पता कि हमें कौन से प्रश्न पूछने की आवश्यकता है।
इन पर एक हैंडल प्राप्त करने का एकमात्र तरीका डोमेन ज्ञान इकट्ठा करना है।
निष्कर्ष
मैं इससे तीन निष्कर्ष निकालता हूं:
- आपको हमेशा अपने मॉडलिंग और भविष्यवाणी में डोमेन ज्ञान को शामिल करना होगा।
- डोमेन ज्ञान के साथ भी, आपको उपयोगकर्ता के लिए स्वीकार्य होने के लिए अपने पूर्वानुमान और भविष्यवाणियों के लिए पर्याप्त जानकारी प्राप्त करने की गारंटी नहीं है। कि ऊपर की ओर देखें।
- यदि "आपके परिणाम दयनीय हैं", तो आप जितना प्राप्त कर सकते हैं उससे अधिक की उम्मीद कर सकते हैं। यदि आप एक उचित सिक्का टॉस का अनुमान लगा रहे हैं, तो 50% से अधिक सटीकता प्राप्त करने का कोई तरीका नहीं है। बाहरी पूर्वानुमान सटीकता के बेंचमार्क पर भी भरोसा न करें।
तल - रेखा
यहां बताया गया है कि मैं मॉडल बनाने की सलाह कैसे दूंगा - और कब रोकना है:
- यदि आपके पास पहले से ही यह नहीं है, तो डोमेन ज्ञान के साथ किसी से बात करें।
- चरण 1 के आधार पर, संभावित इंटरैक्शन सहित, आपके द्वारा पूर्वानुमानित डेटा के मुख्य ड्राइवरों की पहचान करें।
- प्रति कदम के रूप में ताकत के घटते क्रम में ड्राइवरों सहित, पुनरावृत्त रूप से मॉडल बनाएं। क्रॉस-मान्यता या होल्डआउट नमूने का उपयोग करके मॉडल का आकलन करें।
- यदि आपकी भविष्यवाणी सटीकता में कोई वृद्धि नहीं हुई है, तो या तो चरण 1 पर वापस जाएं (उदाहरण के लिए, आप जो गलत व्याख्या नहीं कर सकते हैं, उसकी व्याख्या करके और डोमेन विशेषज्ञ के साथ इन पर चर्चा करके), या स्वीकार करें कि आप अपने अंत तक पहुँच चुके हैं मॉडल की क्षमताएं। समय-समय पर अपने विश्लेषण को पहले से मदद करता है।
ध्यान दें कि मैं मॉडल के विभिन्न वर्गों की कोशिश करने की वकालत नहीं कर रहा हूं यदि आपका मूल मॉडल पठार है। आमतौर पर, यदि आपने एक उचित मॉडल के साथ शुरुआत की है, तो कुछ अधिक परिष्कृत का उपयोग करने से एक मजबूत लाभ नहीं होगा और बस "टेस्ट सेट पर ओवरफिटिंग" हो सकता है। मैंने इसे अक्सर देखा है, और अन्य लोग सहमत हैं ।