MAPE की कमियां
MAPE, प्रतिशत के रूप में, केवल उन मूल्यों के लिए समझ में आता है जहां विभाजन और अनुपात समझ में आते हैं। उदाहरण के लिए, तापमान के प्रतिशत की गणना करने का कोई मतलब नहीं है, इसलिए आपको तापमान पूर्वानुमान की सटीकता की गणना करने के लिए मैप का उपयोग नहीं करना चाहिए।
यदि केवल एक वास्तविक शून्य शून्य, , तो आप MAPE की गणना में शून्य से विभाजित करते हैं, जो अपरिभाषित है।एटी= 0
यह पता चला है कि कुछ पूर्वानुमान सॉफ़्टवेयर फिर भी ऐसी श्रृंखला के लिए एमएपीई की रिपोर्ट करते हैं, केवल शून्य वास्तविक ( हूवर, 2006 ) के साथ अवधि को छोड़ कर । कहने की जरूरत नहीं है, यह एक अच्छा विचार नहीं है, क्योंकि इसका तात्पर्य यह है कि हम इस बात की बिल्कुल परवाह नहीं करते हैं कि हमने वास्तविक पूर्वानुमान शून्य होने पर क्या पूर्वानुमान लगाया है - लेकिन और एक का बहुत भिन्न हो सकता है । इसलिए जांच लें कि आपका सॉफ्टवेयर क्या करता है।Ft=100Ft=1000
यदि केवल कुछ शून्य होते हैं, तो आप एक भारित एमएपीई ( कोलासा और शुट्ज़, 2007 ) का उपयोग कर सकते हैं , जिसमें अभी भी अपनी समस्याएं नहीं हैं। यह सममित MAPE ( गुडविन एंड लॉटन, 1999 ) पर भी लागू होता है ।
100% से अधिक एमएपीई हो सकता है। यदि आप सटीकता के साथ काम करना पसंद करते हैं, जिसे कुछ लोग 100% -MAPE के रूप में परिभाषित करते हैं, तो इससे नकारात्मक सटीकता हो सकती है, जिसे लोगों को एक कठिन समय समझ हो सकती है। ( नहीं, शून्य पर सटीकता से छंटनी एक अच्छा विचार नहीं है। )
यदि हमारे पास कड़ाई से सकारात्मक डेटा है जिसे हम पूर्वानुमान करना चाहते हैं (और ऊपर, एमएपीई का कोई मतलब नहीं है), तो हम कभी भी शून्य से नीचे का अनुमान नहीं लगाएंगे। MAPE दुर्भाग्य से अंडरफ़ॉर्क्स की तुलना में अलग तरह से ओवरफ़ॉर्क्स का इलाज करता है: एक अंडरफ़ॉस्केट कभी भी 100% से अधिक योगदान नहीं देगा (उदाहरण के लिए, अगर और ), लेकिन ओवरफ़्लो का योगदान अनबाउंड है (उदाहरण के लिए, यदि और )। इसका मतलब यह है कि निष्पक्ष पूर्वानुमानों की तुलना में एमएपीई पक्षपाती के लिए कम हो सकता है। इसे कम करने से पूर्वानुमान कम पूर्वाग्रहित हो सकते हैं।Ft=0At=1Ft=5At=1
विशेष रूप से अंतिम बुलेट बिंदु एक छोटे से अधिक विचार की योग्यता है। इसके लिए हमें एक कदम वापस लेने की जरूरत है।
शुरू करने के लिए, ध्यान दें कि हम भविष्य के परिणाम को पूरी तरह से नहीं जानते हैं, न ही हम कभी भी। इसलिए भविष्य के परिणाम एक संभावना वितरण का अनुसरण करते हैं। हमारे तथाकथित बिंदु पूर्वानुमान क्या हम भविष्य के वितरण (यानी, के बारे में पता संक्षेप में प्रस्तुत करने का हमारा प्रयास है भविष्य कहनेवाला वितरण समय) एक भी संख्या का उपयोग कर। एमएपीई तब समय पर भविष्य के वितरण के ऐसे एकल-संख्या-सारांश के पूरे अनुक्रम का एक गुणवत्ता माप है ।Ft टी टी = 1 , … , एनtt=1,…,n
यहां समस्या यह है कि लोग शायद ही कभी स्पष्ट रूप से कहते हैं कि भविष्य के वितरण का एक अच्छा नंबर-सारांश क्या है।
जब आप उपभोक्ताओं से पूर्वानुमान करने के लिए बात करते हैं, तो वे आमतौर पर को "औसतन" सही होना । यही है, वे चाहते हैं कि अपेक्षा या भविष्य के वितरण का मतलब है, बजाय, यह कहते हैं कि इसका औसत है।FtFt
यहां समस्या यह है: एमएपीई को कम करना आमतौर पर हमें इस उम्मीद को आउटपुट करने के लिए प्रोत्साहित नहीं करेगा , लेकिन एक बिल्कुल अलग-नंबर-सारांश ( मैकेंजी, 2011 , कोलासा, 2020 )। यह दो अलग-अलग कारणों से होता है।
असममित भविष्य के वितरण। मान लीजिए कि हमारा वास्तविक भविष्य वितरण एक स्थिर तार्किक वितरण का अनुसरण करता है । निम्न चित्र एक नकली समय श्रृंखला, साथ ही साथ इसी घनत्व को दर्शाता है।(μ=1,σ2=1)
क्षैतिज रेखाएं इष्टतम बिंदु पूर्वानुमान देती हैं, जहां "त्रुटि" को विभिन्न त्रुटि उपायों के लिए अपेक्षित त्रुटि को कम करने के रूप में परिभाषित किया गया है।
हम देखते हैं कि भविष्य के वितरण की विषमता, इस तथ्य के साथ कि एमएपीई अंतर से अधिक दंडित करता है- और अंडरफोर्मेट करता है, का अर्थ है कि एमएपीई को कम करने से भारी पूर्वाग्रहपूर्ण पूर्वानुमान हो जाएगा। ( यहां गामा मामले में इष्टतम बिंदु पूर्वानुमान की गणना है। )
भिन्नता के उच्च गुणांक के साथ सममित वितरण। मान लीजिए कि प्रत्येक समय बिंदु पर एक मानक छह-पक्षीय मर को रोल करने से आता है । नीचे दी गई तस्वीर फिर से एक नकली नमूना पथ दिखाती है:Att
इस मामले में:
पर धराशायी लाइन अपेक्षित MSE को कम करता है। यह समय श्रृंखला की अपेक्षा है।Ft=3.5
कोई भी पूर्वानुमान (ग्राफ़ में नहीं दिखाया गया है) अपेक्षित MAE को कम कर देगा। इस अंतराल के सभी मूल्य समय श्रृंखला के मध्यिका हैं।3≤Ft≤4
पर डैश-डॉटेड रेखा अपेक्षित MAPE को कम करती है।Ft=2
हम फिर से देखते हैं कि MAPE को कम करने से पक्षपातपूर्ण पूर्वानुमान हो सकता है, क्योंकि अंतर दंड के कारण यह ओवर- और अंडरकास्ट पर लागू होता है। इस मामले में, समस्या एक असममित वितरण से नहीं आती है, बल्कि हमारी डेटा-जनरेटिंग प्रक्रिया की भिन्नता के उच्च गुणांक से होती है।
यह वास्तव में एक साधारण चित्रण है जिसका उपयोग आप लोगों को एमएपीई की कमियों के बारे में सिखाने के लिए कर सकते हैं - बस अपने उपस्थित लोगों को कुछ पासा सौंपें और उन्हें रोल करें। देखें Kolassa और मार्टिन (2011) अधिक जानकारी के लिए।
संबंधित CrossValidated प्रश्न
आर कोड
असामान्य उदाहरण:
mm <- 1
ss.sq <- 1
SAPMediumGray <- "#999999"; SAPGold <- "#F0AB00"
set.seed(2013)
actuals <- rlnorm(100,meanlog=mm,sdlog=sqrt(ss.sq))
opar <- par(mar=c(3,2,0,0)+.1)
plot(actuals,type="o",pch=21,cex=0.8,bg="black",xlab="",ylab="",xlim=c(0,150))
abline(v=101,col=SAPMediumGray)
xx <- seq(0,max(actuals),by=.1)
polygon(c(101+150*dlnorm(xx,meanlog=mm,sdlog=sqrt(ss.sq)),
rep(101,length(xx))),c(xx,rev(xx)),col="lightgray",border=NA)
(min.Ese <- exp(mm+ss.sq/2))
lines(c(101,150),rep(min.Ese,2),col=SAPGold,lwd=3,lty=2)
(min.Eae <- exp(mm))
lines(c(101,150),rep(min.Eae,2),col=SAPGold,lwd=3,lty=3)
(min.Eape <- exp(mm-ss.sq))
lines(c(101,150),rep(min.Eape,2),col=SAPGold,lwd=3,lty=4)
par(opar)
पासा रोलिंग उदाहरण:
SAPMediumGray <- "#999999"; SAPGold <- "#F0AB00"
set.seed(2013)
actuals <- sample(x=1:6,size=100,replace=TRUE)
opar <- par(mar=c(3,2,0,0)+.1)
plot(actuals,type="o",pch=21,cex=0.8,bg="black",xlab="",ylab="",xlim=c(0,150))
abline(v=101,col=SAPMediumGray)
min.Ese <- 3.5
lines(c(101,150),rep(min.Ese,2),col=SAPGold,lwd=3,lty=2)
min.Eape <- 2
lines(c(101,150),rep(min.Eape,2),col=SAPGold,lwd=3,lty=4)
par(opar)
संदर्भ
गेनिंग, टी। मेकिंग एंड इवैल्युएटिंग पॉइंट फोरकास्ट । जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन , 2011, 106, 746-762
गुडविन, पी। एंड लॉटन, आर । सममितीय MAPE की विषमता पर । फोरकास्टिंग के इंटरनेशनल जर्नल , 1999, 15, 405-408
हूवर, जे। फोरकास्टिंग फोरकास्ट सटीकता: आज के पूर्वानुमान इंजन और डिमांड-प्लानिंग सॉफ़्टवेयर में कमीशन । दूरदर्शिता: इंटरनेशनल जर्नल ऑफ़ एप्लाइड फोरकास्टिंग , 2006, 4, 32-35
कोलासा, एस। क्यों "सर्वश्रेष्ठ" बिंदु पूर्वानुमान त्रुटि या सटीकता माप पर निर्भर करता है (एम 4 पूर्वानुमान प्रतियोगिता पर आमंत्रित टिप्पणी)। पूर्वानुमान के अंतर्राष्ट्रीय जर्नल , 2020, 36 (1), 208-211
कोलासा, एस। एंड मार्टिन, आर। परसेंटेज एरर्स कैन रुइन योर डे (और रोलिंग द डाइस शो हाउ) । दूरदर्शिता: इंटरनेशनल जर्नल ऑफ़ एप्लाइड फोरकास्टिंग, 2011, 23, 21-29
कोलासा, एस। और शूत्ज़, एमएपी से अधिक एमएडी / मीन अनुपात के लाभ । दूरदर्शिता: इंटरनेशनल जर्नल ऑफ़ एप्लाइड फोरकास्टिंग , 2007, 6, 40-43
मैकेंजी, जे । अर्थिक पूर्वानुमान में पूर्ण प्रतिशत त्रुटि और पूर्वाग्रह । अर्थशास्त्र पत्र , 2011, 113, 259-262