कॉल का सबसे अच्छा समय भविष्यवाणी करें

मेरे पास कैलिफ़ोर्निया के विभिन्न शहरों में ग्राहकों का एक सेट सहित एक डेटासेट है, प्रत्येक ग्राहक के लिए कॉल करने का समय, और कॉल की स्थिति (यदि ग्राहक कॉल का जवाब देता है और ग्राहक जवाब नहीं देता है तो गलत है)।

मुझे भविष्य के ग्राहकों के लिए कॉल करने का एक उपयुक्त समय खोजना होगा ताकि कॉल का उत्तर देने की संभावना अधिक हो। तो, इस समस्या के लिए सबसे अच्छी रणनीति क्या है? क्या मुझे इसे एक वर्गीकरण समस्या के रूप में मानना चाहिए जो घंटे (0,1,2, ... 23) वर्ग हैं? या क्या मुझे इसे एक प्रतिगमन कार्य के रूप में माना जाना चाहिए जो कि समय एक सतत चर है? मैं यह कैसे सुनिश्चित कर सकता हूं कि कॉल का जवाब देने की संभावना अधिक होगी?

किसी भी सहायता की सराहना की जाएगी। यह भी बहुत अच्छा होगा यदि आप मुझे इसी तरह की समस्याओं के लिए संदर्भित करें।

नीचे डेटा का एक स्नैपशॉट है।

— हामिद महदावियन
स्रोत

सीन ओवेन, टास्क कैसे हुआ? मैं अब इसी तरह के मुद्दे को हल करने की कोशिश कर रहा हूं और आपके अनुभव को सुनना पसंद करूंगा - वेब पर इस विषय में ज्यादा संसाधन नहीं। अग्रिम में धन्यवाद!

— डोमिनिका

जवाबों:

आप वास्तव में समस्याओं का सामना कर सकते हैं यदि आप इसे एक उपयुक्त परिवर्तन के बिना प्रतिगमन समस्या के रूप में मॉडल करते हैं। उदाहरण के लिए, हम जानते हैं कि ज्यादातर कॉल का उत्तर दिन के समय और रात के समय और सुबह के समय कम होता है। एक रेखीय प्रतिगमन में कठिनाई होगी क्योंकि संबंध संभावना वक्र है, रैखिक नहीं। इसी कारण से, इसे लॉजिस्टिक प्रतिगमन के साथ एक वर्गीकरण कार्य के रूप में व्यवहार करना भी समस्याग्रस्त होगा।

जैसा कि अन्य उत्तरदाताओं द्वारा सुझाया गया है, समय-समय पर आपके डेटा को पुनः प्राप्त करने में मदद करेगा, और मैं आपको सुझाव दूंगा कि आप पहले एक निर्णय वृक्ष या यादृच्छिक वन जैसा कुछ प्रयास करें।

यह सब कहा, यह सरल वर्णनात्मक आंकड़ों के लिए एक मामला हो सकता है। यदि आप दिन के समय (शहर या किसी अन्य जनसांख्यिकीय द्वारा विभाजित) के अनुपात में उत्तर कॉल की साजिश करते हैं, तो क्या एक स्पष्ट सर्वोत्तम समय है? यदि हां, तो किसी मॉडल के साथ चीजों को जटिल क्यों करें?

— Heitz
स्रोत

आप निम्नलिखित की कोशिश कर सकते हैं:

दिन को विभिन्न भागों में विभाजित करें - सुबह-सुबह, दोपहर, दोपहर, शाम, देर शाम, रात, आदि।
दिन के प्रत्येक भाग में समय सीमाएँ निर्दिष्ट करें, जैसे दोपहर 12 बजे से 1 बजे तक।
3 नए लेबल बनाएं - "ग्राहक को कॉल करने के लिए दिन का हिस्सा", प्रत्येक सकारात्मक मामले के लिए (कॉल की स्थिति = सत्य) इसे संबंधित लेबल (सुबह / दोपहर / शाम) असाइन करें। ये लेबल एक-हॉट एन्कोडेड फॉर्मेट में होंगे, जैसे तरजीही_मॉर्निंग = 0/1, प्रेफ़र_नून, प्रेफ़र_इंग, आदि।
3 मॉडल बनाएं यह अनुमान लगाने के लिए कि क्या लीड सफल होने के लिए सुबह / दोपहर / या शाम का समय पसंद करती है।

इसके अतिरिक्त, मैं सलाह देता हूं कि तालिका (शहर, आदि) में सूचीबद्ध सुविधाओं के बाद से कब्जे, लिंग इत्यादि जैसी अतिरिक्त सुविधाएँ जोड़ने के लिए बहुत अस्पष्ट हैं और ग्राहकों के बीच अंतर करने के लिए अधिक जानकारी नहीं देते हैं।

टिप्पणियों में सुझाव के अनुसार संपादित करें:

मॉडल का उपयोग करते समय, प्रत्येक लीड को प्रीफरेंस_मॉर्निंग = हां / नहीं, प्रीफरेंस_नून = हां / नहीं और प्रीफरेंस_ईवनिंग = हां / नहीं के रूप में वर्गीकृत किया जाएगा। दिन के समय के आधार पर, उदाहरण के लिए सुबह में, कॉल सेंटर एजेंट (या सॉफ़्टवेयर) उठा सकता है और सुबह वरीयता सेट में वर्गीकृत कॉल जाता है। जब इसका दोपहर, कॉल सॉफ़्टवेयर पिक करता है तो दोपहर की पसंदीदा सूची बनती है, और इसी तरह।

— संदीप एस संधू
स्रोत

@ sandeep-s-sandhu यह समस्या को डेटा विज्ञान वर्गीकरण समस्या में परिवर्तित करने का एक सरल तरीका है। लेकिन ऐसा लगता है कि इस दृष्टिकोण के कुछ नुकसान हो सकते हैं: 1. लेबल जानकारी में केवल सकारात्मक मामला शामिल है, नकारात्मक मामले की जानकारी खोना 2. एक ग्राहक के पास केवल एक लेबल हो सकता है। व्यवहार में, एक ग्राहक के पास एक से अधिक लेबल हो सकते हैं (अर्थात, मुझे लोग देर शाम या रात को फोन करना पसंद करते हैं।)। तुम क्या सोचते हो?

— nkhuyu

@nkhuyu, 1) लेबल में नकारात्मक केस भी शामिल है। मुझे लगता है कि आप प्रत्येक सकारात्मक मामले (कॉल की स्थिति = सच) के लिए "ग्राहक को कॉल करने के लिए दिन का एक हिस्सा -" एक नया लेबल - "एक नया लेबल बनाएं" बयान गलत समझा। यह चरण एक अतिरिक्त लेबल बनाने का इरादा रखता है, चाहे कॉल सफल रहा हो या नहीं, का मूल लेबल। 2) हां, आप सही हैं, इसको दर्शाने के लिए उत्तर को संपादित करें।

— संदीप एस। संधू

@ sandeep-s-sabdhu प्रतिक्रिया के लिए धन्यवाद। हां, मैंने इसे गलत समझा। ठीक। फिर आपके पास दो लेबल होंगे (कॉल की स्थिति, आपका नया लेबल)। फिर आप इस समस्या को कैसे हल कर सकते हैं? यह एक नियमित वर्गीकरण समस्या नहीं है।

— nkhuyu

@nkhuyu, इस पर ध्यान देने के लिए धन्यवाद, मैंने अब चरण # 4 में इसे संपादित और स्पष्ट कर दिया है। तीन मॉडल में से प्रत्येक लीड का एक सेट देगा जो दिन के उस विशेष समय के लिए कॉल को ले जाएगा, कॉल सेंटर इसका उपयोग अपनी कॉल को प्राथमिकता देने के लिए करता है।

— संदीप एस। संधू

चरण 1 के बाद चरण 3 है और मैंने उन्हें प्रशिक्षण के लिए उपयुक्त लेबल बनाने का सुझाव दिया है। मुख्य प्रश्न था - "मुझे कॉलिंग का उपयुक्त समय ढूंढना है ..."। इसके ओपी तक यह तय करने के लिए कि क्या ये सुबह / दोपहर / शाम या अधिक दानेदार होना चाहिए जैसे कि घंटे।

— संदीप एस। संधू

मैं एक लॉजिस्टिक रिग्रेशन का उपयोग करूंगा - आपको सैंपल की जरूरत पड़ने वाली है, जहां उन्होंने पिकअप नहीं किया है। तब मैं घंटे को मौसमी डमी रेजिस्टर (डमी चर के रूप में 23 घंटे और अवरोधन के लिए एक प्रवाह) के रूप में मानूंगा।

यदि आप इसे एक मौसमी डमी रेजिस्टर के रूप में नहीं मानते हैं, तो आपको किसी प्रकार का परिवर्तन करना होगा, क्योंकि संबंध रैखिक नहीं होने वाला है।

किसी ने पहले से दोपहर के मध्य आदि को एक श्रेणीगत चर के रूप में प्रतिस्थापित करने का सुझाव दिया। यह एक बुरा विचार है क्योंकि आपके पास विस्तार है और आप वहां विस्तार खो रहे हैं। इस संबंध को रैखिक बनाने के लिए इष्टतम बाइनिंग का उपयोग करने के लिए एक समान प्रभाव होगा, लेकिन मुझे अभी भी नहीं लगता कि यह काम करेगा। मौसमी डमी रजिस्टरों की कोशिश करें।

— माइकल कॉर्ली MBA LSSBB
स्रोत