पिछली खरीद से दिए गए डेटा के उपभोग्य उपभोग की भविष्यवाणी करने के लिए किस एल्गोरिदम का उपयोग किया जा सकता है?


10

माना जाता है कि एक साधारण लेकिन दिलचस्प समस्या के बारे में, मैं कुछ कोड लिखने के लिए उपभोग्य पूर्वानुमान लगा सकता हूं, जिनकी मुझे निकट भविष्य में अपनी पिछली खरीद का पूरा इतिहास देना होगा। मुझे यकीन है कि इस तरह की समस्या में कुछ अधिक सामान्य और अच्छी तरह से अध्ययन की गई परिभाषा है (किसी ने सुझाव दिया है कि यह ईआरपी सिस्टम और इस तरह की कुछ अवधारणाओं से संबंधित है)।

मेरे पास जो डेटा है वह पिछली खरीद का पूरा इतिहास है। मान लीजिए कि मैं कागज की आपूर्ति देख रहा हूं, मेरा डेटा (दिनांक, पत्रक) जैसा दिखता है:

2007-05-10   500
2007-11-11  1000
2007-12-18  1000
2008-03-25   500
2008-05-28  2000
2008-10-31  1500
2009-03-20  1500
2009-06-30  1000
2009-09-29   500
2009-12-16  1500
2010-05-31   500
2010-06-30   500
2010-09-30  1500
2011-05-31  1000

यह नियमित अंतराल पर 'नमूना' नहीं है, इसलिए मुझे लगता है कि यह समय श्रृंखला डेटा के रूप में योग्य नहीं है ।

मेरे पास हर बार वास्तविक स्टॉक स्तरों पर कोई डेटा नहीं है। मैं इस सरल और सीमित डेटा का उपयोग यह अनुमान लगाने के लिए करना चाहता हूं कि 3,6,12 महीनों में मुझे कितने पेपर की आवश्यकता होगी (उदाहरण के लिए)।

अब तक मुझे पता चल गया था कि मैं जो देख रहा हूं उसे एक्सट्रैपलेशन कहा जाता है और बहुत अधिक नहीं :)

ऐसी स्थिति में क्या एल्गोरिदम का उपयोग किया जा सकता है?

और क्या एल्गोरिथ्म, यदि पिछले एक से अलग, वर्तमान आपूर्ति स्तर देने वाले कुछ और डेटा बिंदुओं का लाभ उठा सकता है (उदाहरण के लिए, अगर मुझे पता है कि तारीख पर XI के पास कागज की Y शीट बची थी)?

यदि आप इसके लिए बेहतर शब्दावली जानते हैं, तो कृपया प्रश्न, शीर्षक और टैग को संपादित करने के लिए स्वतंत्र महसूस करें।

संपादित करें: इसके लायक क्या है, मैं इसे अजगर में कोड करने की कोशिश करूंगा। मुझे पता है कि बहुत सारी लाइब्रेरी हैं जो कमोबेश किसी भी एल्गोरिदम को लागू करती हैं। इस सवाल में मैं उन अवधारणाओं और तकनीकों का पता लगाना चाहूंगा, जिनका उपयोग किया जा सकता है, वास्तविक कार्यान्वयन के साथ पाठक को एक अभ्यास के रूप में छोड़ दिया जाना चाहिए।


1
प्रिय सांख्यिकीविदों, मैं आपको बताना चाहता हूं कि इस प्रश्न को नहीं छोड़ा गया है। जैसे ही मुझे समय और प्रेरणा मिलेगी (पढ़ें: बॉस मुझे ऐसा करने के लिए कहता है) और इस अनमोल उत्तरों की जांच करेगा और अंततः स्वीकार किए गए (जो मेरे लिए "वास्तव में लागू होगा") का अर्थ होगा, मैं इस विशिष्ट समस्या पर वापस लौटूंगा।
ल्यूक404404

जवाबों:


12

सवाल खपत की दर बनाम समय की चिंता करता है। यह समय के खिलाफ दर के प्रतिगमन के लिए कहता है (समय के खिलाफ कुल खरीद का प्रतिगमन नहीं )। भविष्य की खरीद के लिए भविष्यवाणी की सीमा का निर्माण करके एक्सट्रैपलेशन पूरा किया जाता है ।

कई मॉडल संभव हैं। पेपरलेस ऑफिस के लिए कदम को देखते हुए (जो लगभग 25 वर्षों से जारी है :-), हम एक घातीय (कमी) मॉडल को अपना सकते हैं। परिणाम को उपभोग के निम्नलिखित स्कैप्लेटोट द्वारा चित्रित किया गया है, जिस पर घातीय वक्र (उपभोग के लघुगणक के लिए साधारण न्यूनतम वर्गों के माध्यम से फिट) और इसकी 95% भविष्यवाणी सीमाएं खींची गई हैं। एक्सट्रपलेशन किए गए मानों को लाइन के पास और 95% आत्मविश्वास के साथ भविष्यवाणी सीमा के बीच झूठ बोलने की उम्मीद होगी।

आकृति

ऊर्ध्वाधर अक्ष एक रेखीय पैमाने पर प्रति दिन पृष्ठ दिखाता है। गहरे नीले रंग की ठोस रेखा फिट है: यह वास्तव में घातीय है, लेकिन रैखिक होने के करीब उल्लेखनीय रूप से आता है। घातीय फिट का प्रभाव भविष्यवाणी बैंड में दिखाई देता है, जो इस रैखिक पैमाने पर विषम रूप से फिट के चारों ओर रखा जाता है; लॉग स्केल पर, वे सममित होंगे।

एक अधिक सटीक मॉडल इस तथ्य के लिए जिम्मेदार होगा कि खपत की जानकारी कम समय (या जब कुल खरीद छोटी होती है) से अधिक अनिश्चित होती है, जिसे भारित वर्गों का उपयोग करके फिट किया जा सकता है। इन आंकड़ों में परिवर्तनशीलता और सभी खरीद के आकार की लगभग समानता को देखते हुए, यह अतिरिक्त प्रयास के लायक नहीं है।

यह दृष्टिकोण मध्यवर्ती इन्वेंट्री डेटा को समायोजित करता है , जिसका उपयोग मध्यवर्ती समय में खपत दरों को प्रक्षेपित करने के लिए किया जा सकता है। ऐसे मामले में, क्योंकि खपत की मध्यवर्ती मात्रा काफी भिन्न हो सकती है, भारित वर्गों का कम से कम दृष्टिकोण उचित होगा।

क्या वजन का उपयोग करने के लिए? हम कागज की खपत पर विचार कर सकते हैं, जो जरूरी कागज के अभिन्न मात्रा में जमा होता है, एक गिनती के रूप में जो दिन-प्रतिदिन स्वतंत्र रूप से बदलती है। इसलिए छोटी अवधि में, गणना का विचलन अवधि की लंबाई के लिए आनुपातिक होगा। प्रति दिन गणना का विचलन तब अवधि की लंबाई के व्युत्क्रमानुपाती होगा । नतीजतन , वजन सूची के बीच बीता अवधि के लिए सीधे आनुपातिक आनुपातिक होना चाहिए । इस प्रकार, उदाहरण के लिए, 2007-05-10 और 2007-11-11 के बीच 1000 चादरों की खपत (लगभग 180 दिन) 2007-11-11 और 2007-12 के बीच 1000 चादर की खपत का लगभग पांच गुना होगा। 18, केवल 37 दिनों की अवधि।

भविष्यवाणी के अंतराल में समान भार को समायोजित किया जा सकता है। इसके परिणामस्वरूप, एक महीने के दौरान खपत की भविष्यवाणियों के लिए अपेक्षाकृत व्यापक अंतराल होगा, तीन महीनों में खपत की भविष्यवाणी की तुलना में।

कृपया ध्यान दें कि ये सुझाव सरल मॉडल और सरल भविष्यवाणियों पर केंद्रित हैं, जो इच्छित एप्लिकेशन के लिए उपयुक्त हैं और डेटा में स्पष्ट बड़ी परिवर्तनशीलता है। यदि अनुमानों में शामिल हैं, कहते हैं, एक बड़े देश के लिए रक्षा खर्च, हम कई और व्याख्यात्मक चर को समायोजित करना चाहते हैं, लौकिक सहसंबंध के लिए खाते और मॉडल में बहुत अधिक विस्तृत जानकारी प्रदान करेंगे।


डेटा को नियमित अंतराल पर नमूना लिया गया था, क्या दरों के विपरीत गणना का उपयोग करना उचित होगा?
13

1
@ मैनी जी हाँ, लेकिन केवल इसलिए कि गणना सीधे दरों के समानुपाती होगी, न कि इसलिए कि स्वयं काउंट का उपयोग करना उचित होगा। यहां दरों का उपयोग करने की आवश्यकता स्पष्ट है जब हम विचार करते हैं कि भविष्य के मूल्य का अनुमान लगाने का वास्तव में क्या मतलब है: आपको अनुमानित खपत के समय अंतराल को निर्दिष्ट करना होगा। एक मात्रा प्राप्त करने के लिए एक बार एक राशि की भविष्यवाणी कर रहा है, जिसका अर्थ है कि राशि प्रति इकाई समय एक मात्रा होनी चाहिए: एक खपत दर
whuber

@whuber मुझे माफ करना, लेकिन मैं स्पष्ट रूप से समझ नहीं पा रहा हूं कि आपके उत्तर में कौन से मॉडल वर्णित हैं और किन बिंदुओं में एक समाप्त होता है और दूसरा शुरू होता है। मेरे पास एक समान समस्या है और आपके उत्तर के कुछ हिस्सों को लगता है कि मुझे वास्तव में क्या चाहिए, लेकिन मुझे इस मामले पर कुछ और अध्ययन करना है और यदि आप अलग-अलग मॉडल या एक निश्चित के बारे में बात कर रहे हैं तो मैं आपके उत्तर को पढ़कर नहीं बता सकता हूं धीरे-धीरे सुधार हुआ है। क्या उस वज़न वाले मॉडल का कोई औपचारिक नाम है जिसका आप वर्णन कर रहे हैं? क्या आपका पहला मॉडल (घातीय कमी) वजन शामिल है? अग्रिम में धन्यवाद।
अगिस

@rensokuken मैं एक मॉडल और एक भिन्नता का वर्णन करता हूं जो डेटा को मापता है। इस उत्तर के उत्तरार्ध से पता चलता है कि वज़न कैसे निर्धारित किया जाए। मुझे "भारित कम से कम वर्गों" से परे किसी भी औपचारिक नाम की जानकारी नहीं है।
whuber

@ जब भी मैं देखता हूं। शुरुआत में आप का वर्णन कर रहे हैं इस और फिर जब आप वजन जोड़ने आप का वर्णन कर रहे हैं इस , है ना? इसके अलावा, क्या आपके पास विशेष समाधान से संबंधित और पूर्वानुमान में शुरुआत के लिए देखने के लिए कोई संसाधन हैं? स्पष्टीकरण के लिए धन्यवाद।
Agis

5

यह निश्चित रूप से मशीन सीखने की समस्या है (मैंने आपकी पोस्ट में टैग अपडेट किए हैं)। सबसे शायद, यह रैखिक प्रतिगमन है । संक्षेप में, रैखिक प्रतिगमन 1 आश्रित और 1 या अधिक स्वतंत्र चर के बीच संबंध को पुनर्प्राप्त करने का प्रयास करता है। आश्रित चर यहाँ उपभोग्य उपयोग है । स्वतंत्र चर के लिए मैं खरीद के बीच समय अंतराल का सुझाव देता हूं। आप अधिक स्वतंत्र चर भी जोड़ सकते हैं, उदाहरण के लिए, प्रत्येक पल में उपभोग्य सामग्रियों का उपयोग करने वालों की संख्या, या कुछ और जो खरीदारी की मात्रा को प्रभावित कर सकते हैं। आप यहां पायथन में कार्यान्वयन के साथ रैखिक प्रतिगमन का अच्छा विवरण पा सकते हैं ।

सिद्धांत रूप में, यह भी संभव है कि न केवल खरीदारी के बीच समय अंतराल, बल्कि समय में पल भी खुद को राशियों पर प्रभावित करते हैं। उदाहरण के लिए, जनवरी में किसी कारण के लिए लोग अप्रैल में, की तुलना में अधिक कागज चाहते हो सकते हैं। इस मामले में आप स्वयं को रैखिक प्रतिगमन की प्रकृति के कारण स्वतंत्र चर के रूप में महीने की संख्या का उपयोग नहीं कर सकते हैं (महीने की संख्या सिर्फ एक लेबल है, लेकिन राशि के रूप में उपयोग किया जाएगा)। तो आपके पास इससे पार पाने के 2 तरीके हैं।

सबसे पहले, आप प्रत्येक महीने के लिए 12 अतिरिक्त चर जोड़ सकते हैं , और प्रत्येक चर को 1 पर सेट कर सकते हैं यदि यह खरीद के महीने का प्रतिनिधित्व करता है और यदि आप ऐसा नहीं करते हैं तो 0 पर। फिर उसी रैखिक प्रतिगमन का उपयोग करें।

दूसरा, आप अधिक परिष्कृत एल्गोरिदम का उपयोग कर सकते हैं, जैसे कि एम 5 ' , जो रैखिक प्रतिगमन और निर्णय पेड़ों का मिश्रण है (आप डेटा माइनिंग में इस एल्गोरिथ्म का विस्तृत विवरण पा सकते हैं : प्रैक्टिकल मशीन लर्निंग टूल और तकनीक )।


यह इस बात पर निर्भर करता है कि आपके पास उपयोगकर्ता के बारे में कितना डेटा है। यदि पर्याप्त है (कहते हैं,> 1 वर्ष में 100 लेनदेन), तो आप इस विशिष्ट उपयोगकर्ता के लिए एक मॉडल को प्रशिक्षित कर सकते हैं। अन्यथा, सभी उपयोगकर्ताओं पर सामान्य मॉडल आपको बेहतर परिणाम दे सकता है। आप दोनों दृष्टिकोणों के प्रदर्शन को मापने के लिए क्रॉस-वैलिडेशन का उपयोग कर सकते हैं।
ffriend

5

यह नियमित अंतराल पर 'नमूना' नहीं है, इसलिए मुझे लगता है कि यह समय श्रृंखला डेटा के रूप में योग्य नहीं है।

खरीद के पूर्वानुमान के बारे में यहां एक विचार है: डेटा को आंतरायिक मांग श्रृंखला के रूप में देखें । यही है, आपके पास एक समय श्रृंखला है जिसे नियमित अंतराल पर नमूना लिया जाता है, लेकिन सकारात्मक मूल्य स्पष्ट रूप से अनियमित रूप से फैलाए जाते हैं। रोब हंडमैन के पास रुक-रुक कर मांग श्रृंखला के पूर्वानुमान के लिए क्रोस्टन की विधि का उपयोग करने पर एक अच्छा पेपर है । जबकि मैं पायथन में बहुत अधिक कार्यक्रम करता हूं, तो आप क्रॉस्टन की विधि का उपयोग करके बहुत सारे अन्वेषण समय को बचाएंगे, साथ ही अन्य समय श्रृंखला के पूर्वानुमान के तरीके, रोब के उत्कृष्ट आर पैकेज पूर्वानुमान में आसानी से उपलब्ध होंगे ।


1
+1 नया विचार प्रस्तुत करने के लिए। हालांकि, शेनस्टोन और हयंडमैन पेपर की शुरूआत और निष्कर्ष का आकलन करते हुए, क्रोस्टन की विधि आम तौर पर बहुत अच्छी नहीं है: कागज एक लोकप्रिय प्रक्रिया को सीमित करने और समझने की कोशिश करने पर ध्यान केंद्रित करता है जो सीमित हो जाता है; सबसे अच्छा लेखक कह सकता है कि इसके बावजूद, "पूर्वानुमान ... अभी भी उपयोगी हो सकते हैं।" इसके अलावा, ऐसा लगता है कि यह मॉडल ओपी द्वारा अनुरोध के अनुसार "वर्तमान आपूर्ति स्तर" पर अतिरिक्त डेटा को समायोजित नहीं कर सका।
whuber

3

मुझे पूरा यकीन है कि आप अपने डेटा बिंदुओं के लिए एक लाइन फिट करने के लिए कुछ प्रतिगमन विश्लेषण करने की कोशिश कर रहे हैं । आपकी सहायता करने के लिए बहुत सारे उपकरण हैं - MS Excel सबसे अधिक उपयोग योग्य है। यदि आप अपने स्वयं के समाधान को रोल करना चाहते हैं, तो अपने आंकड़ों पर ब्रश करने के लिए सबसे अच्छा है ( यहां और यहां , शायद)। एक बार जब आप अपने डेटा के लिए एक पंक्ति फिट करते हैं, तो आप भविष्य में एक्सट्रपलेशन कर सकते हैं।

EDIT: यहाँ नीचे दिए गए टिप्पणियों में उल्लिखित एक्सेल उदाहरण का एक स्क्रीनशॉट है। बोल्ड की गई तारीखें भविष्य की यादृच्छिक तिथियां हैं जो मैंने खुद में टाइप की थीं। कॉलम बी में बोल्ड वैल्यू एक्सोलॉन्स्ड रिग्रेशन के एक्सेल के स्वाद द्वारा गणना किए गए एक्सट्रपलेशन वाले मान हैं। यहां छवि विवरण दर्ज करें

EDIT2: ठीक है, तो इस सवाल का जवाब देने के लिए, "मैं किन तकनीकों का उपयोग कर सकता हूं?"

  • घातीय प्रतिगमन (ऊपर उल्लिखित)
  • होल्ट की विधि
  • सर्दी का तरीका
  • ARIMA

कृपया प्रत्येक पर थोड़ा परिचय के लिए इस पृष्ठ को देखें: http://www.decisioncraft.com/dmdirect/forecastingtechnique.htm


इससे मुझे खुद से पूछना पड़ा: मेरे डेटा पॉइंट क्या हैं ? एकल खरीद नहीं - यह ध्यान में नहीं रखना चाहिए कि उनके बीच कितना समय गुजरता है और इस प्रकार किसी दिए गए संसाधन की कुल खपत। शायद मुझे उन्हें नियमित अंतराल पर कुछ औसत प्राप्त करने के लिए प्रक्षेपित करना चाहिए (उदाहरण के लिए, प्रति सप्ताह मात्रा) और फिर भविष्य के डेटा को एक्सट्रपलेट करने के लिए एक समय श्रृंखला डेटा इनपुट के रूप में उपयोग करें?

किसी भूखंड पर अपने 'x' मानों में अंतर के रूप में समय के अंतर के बारे में सोचें। अधिकांश प्रकार के प्रतिगमन विश्लेषण विभिन्न मतभेदों को ध्यान में रखेंगे। एक्सेल में GROWTH फ़ंक्शन का उपयोग करके अपना नमूना डेटा आज़माएं, जो घातीय प्रतिगमन का उपयोग करता है। यदि आप तिथियां बदलते हैं, तो आपके अनुमानित मूल्य तदनुसार बदल जाएंगे।

3

टिप्पणी के रूप में शुरू किया, बहुत लंबा हो गया ...

यह नियमित अंतराल पर 'नमूना' नहीं है, इसलिए मुझे लगता है कि यह समय श्रृंखला डेटा के रूप में योग्य नहीं है

यह एक गलत निष्कर्ष है - यह निश्चित रूप से समय श्रृंखला है। एक समय श्रृंखला अनियमित रूप से सैंपल की जा सकती है, यह बस सामान्य दृष्टिकोण से अलग होने की आवश्यकता होती है जब यह होता है।

यह समस्या बांध के स्तर जैसी स्टोकेस्टिक समस्याओं से संबंधित प्रतीत होती है (पानी आमतौर पर समय के साथ काफी स्थिर दर पर उपयोग किया जाता है, कभी-कभी अधिक या कम तेजी से बढ़ रहा है, जबकि अन्य समय में यह काफी स्थिर है), जबकि बांध का स्तर केवल बढ़ जाता है तेजी से (अनिवार्य रूप से कूदता है), जैसा कि वर्षा होती है। कागज का उपयोग और पुनःपूर्ति पैटर्न कुछ हद तक समान हो सकता है (हालांकि ऑर्डर की गई राशि वर्षा की मात्रा की तुलना में बहुत अधिक स्थिर और बहुत अधिक गोल संख्या में हो सकती है, और जब भी स्तर कम हो जाता है)।

यह बीमा कंपनी की पूंजी (लेकिन उलट तरह) से भी संबंधित है - एक तरफ प्रारंभिक पूंजी, प्रीमियम से पैसा (शुद्ध परिचालन लागत) और निवेश काफी तेजी से (कभी-कभी कम या ज्यादा) आता है, जबकि बीमा पॉलिसी का भुगतान अपेक्षाकृत बड़े पैमाने पर किया जाता है। बराबर है।

उन दोनों चीजों को मॉडल किया गया है, और इस समस्या के लिए थोड़ा अंतर्दृष्टि प्रदान कर सकता है।


-1

आपको WEKA पर एक नजर डालनी चाहिए। यह एक उपकरण और जावा एपीआई है जिसमें मशीन लर्निंग एल्गोरिदम का एक सूट है। विशेष रूप से आपको वर्गीकरण एल्गोरिदम की तलाश करनी चाहिए।

सौभाग्य


एक वर्गीकरण एल्गोरिदम मुझे एक मात्रात्मक भविष्यवाणी कैसे देगा?

@ ल्यूक404: वीका में 3 प्रकार के एल्गोरिदम (वर्गीकरण, क्लस्टरिंग और एसोसिएशन खनन) हैं, और उन्होंने वर्गीकरण अनुभाग में प्रतिगमन लगाने का फैसला किया। लेकिन सामान्य तौर पर आप सही हैं, वर्गीकरण और मात्रात्मक भविष्यवाणी थोड़ी अलग चीजें हैं।
दोस्ती

-1

मैं एक मॉडल को संचयी खपत के लिए एक मॉडल फिट करने के लिए रैखिक कम से कम वर्गों का उपयोग करेगा (अर्थात आज तक पृष्ठों के कुल भाग)। एक प्रारंभिक धारणा पहले डिग्री बहुपद का उपयोग करना होगा। हालाँकि अवशेषों से संकेत मिलता है कि पहली डिग्री उदाहरण में डेटा को कम कर रही है, इसलिए अगला तार्किक कदम इसे दूसरी डिग्री (यानी द्विघात) के बराबर बढ़ाने के लिए होगा। यह अवशिष्ट में वक्रता को हटाता है, और चुकता शब्द के लिए थोड़ा नकारात्मक गुणांक का अर्थ है कि समय के साथ खपत की दर कम हो रही है, जो कि सहज ज्ञान युक्त लगता है कि ज्यादातर लोग समय के साथ कम कागज का उपयोग करते हैं। इस डेटा के लिए मुझे नहीं लगता कि आपको दूसरी डिग्री से परे जाने की ज़रूरत है, क्योंकि आप ओवरफिट करना शुरू कर सकते हैं और इसके परिणामस्वरूप होने वाले एक्सट्रपलेशन से कोई मतलब नहीं हो सकता है।

आप नीचे दिए गए भूखंडों में फिट्स (एक्सट्रपलेशन सहित) और अवशिष्ट देख सकते हैं।

फिट अवशिष्ट

यदि आप कर सकते हैं, तो प्रेडिक्शन एरर का बेहतर अनुमान पाने के लिए बूटस्ट्रैपिंग करना अच्छा हो सकता है ।


क्योंकि संचयी खपत में अवशेषों को दृढ़ता से सहसंबद्ध किया जाएगा , यह विधि सांख्यिकीय रूप से उचित नहीं है। इस बुनियादी समस्या पर केवल एक द्विघात फिट का उपयोग करना; यह इसका इलाज नहीं कर सकता।
whuber

-2

मुझे लगता है कि आप ऑपरेशन अनुसंधान का उपयोग करके अपना डेटा प्राप्त कर सकते हैं ।

आप कुछ समीकरणों को खोजने की कोशिश क्यों नहीं करते हैं, जो समय-समय पर उपयोग किए जाने वाले पेपर की मात्रा, पेपर के उपयोगकर्ताओं आदि के रूप में लेते हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.