बाएं-सेंसर डेटा पर मानक मशीन लर्निंग टूल का उपयोग करना


11

मैं एक पूर्वानुमान एप्लिकेशन विकसित कर रहा हूं जिसका उद्देश्य वितरकों के अपने ग्राहक नेटवर्क से अपने उत्पादों की मांग का पूर्वानुमान करने के लिए एक आयातक की अनुमति देना है। बिक्री के आंकड़े मांग के लिए एक बहुत अच्छा प्रॉक्सी हैं, इसलिए जब तक मांग को भरने के लिए पर्याप्त सूची है। जब इन्वेंट्री शून्य से नीचे खींची जाती है, हालांकि (जिस स्थिति को हम अपने ग्राहक से बचने में मदद करने के लिए देख रहे हैं), हम इतना नहीं जानते कि हम लक्ष्य से चूक गए। ग्राहक ने कितनी बिक्री की होगी, क्या उनके पास पर्याप्त आपूर्ति थी? मानक प्रतिगमन-आधारित एमएल दृष्टिकोण जो बिक्री को एक साधारण लक्ष्य चर के रूप में उपयोग करते हैं, समय, मेरे वर्णनात्मक चर और मांग के बीच संबंधों के असंगत अनुमानों का उत्पादन करेंगे।

समस्या से संपर्क करने के लिए टोबिट मॉडलिंग सबसे स्पष्ट तरीका है: http://en.wikipedia.org/wiki/Tobit_model । मैं यादृच्छिक जंगलों, जीबीएमएस, एसवीएम, और तंत्रिका नेटवर्क के एमएल अनुकूलन के बारे में सोच रहा हूं जो डेटा के बाएं हाथ की सेंसर संरचना के लिए भी जिम्मेदार हैं।

संक्षेप में, मैं अपने आश्रित और स्वतंत्र चर के बीच संबंधों के लगातार अनुमान प्राप्त करने के लिए मशीन सीखने के उपकरण को बाएं-सेंसर किए गए प्रतिगमन डेटा पर कैसे लागू करूं? पहली प्राथमिकता आर में उपलब्ध समाधानों के लिए होगी, उसके बाद पायथन द्वारा।

चीयर्स,

हारून


3
एक उत्तर लिखित स्कोर-सीखना देखना पसंद करेंगे।
टोबिप

R में आप cran.r-project.org/web/packages/censReg/censReg.pdf का उपयोग कर सकते हैं । मैं पायथन में स्किटिट-लर्निंग के बारे में दूसरा @tobip
एड्रियन

जवाबों:


1

संक्षेप में, मैं अपने आश्रित और स्वतंत्र चर के बीच संबंधों के लगातार अनुमान प्राप्त करने के लिए मशीन सीखने के उपकरण को बाएं-सेंसर किए गए प्रतिगमन डेटा पर कैसे लागू करूं?

यदि आप एक संभावना लिख ​​सकते हैं और साइन को माइनस में फ्लिप कर सकते हैं, तो आपके पास अपना स्वयं का एक नुकसान फ़ंक्शन है जो कई महत्वपूर्ण शिक्षण मॉडल के लिए उपयोग किया जा सकता है। ढाल को बढ़ावा देने में यह आमतौर पर मॉडल को बढ़ावा देने के रूप में संदर्भित किया जाता है । उदाहरण देखें, एल्गोरिथ्म को बढ़ावा देना: नियमितीकरण, भविष्यवाणी और मॉडल फिटिंग

टोबिट मॉडल के साथ एक उदाहरण के रूप में ग्रैडिएंट ट्री बूस्टेड टोबीट मॉडल्स को डिफॉल्ट प्रीडिक्शन पेपर के लिए देखें। विधि कागज में उल्लिखित scikit-learn शाखा के साथ उपलब्ध होनी चाहिए।

इसी विचार का उपयोग दाएं सेंसर किए गए डेटा के लिए किया जाता है, उदाहरण के लिए, gbmऔर mboostआर सेंसर में सही सेंसर डेटा के लिए।

उपरोक्त विचार अन्य तरीकों (जैसे, तंत्रिका नेटवर्क) के साथ लागू किया जा सकता है। हालांकि, यह विशेष रूप से ग्रेडिएंट बूस्टिंग के साथ आसान है क्योंकि आपको केवल हानि फ़ंक्शन (नकारात्मक लॉग संभावना) के ढाल की गणना करने में सक्षम होने की आवश्यकता है। फिर आप नुकसान के साथ नकारात्मक ढाल को फिट करने के लिए जो भी विधि पसंद करते हैं, उसे लागू कर सकते हैं ।L2

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.