मैं एक संदर्भ-दस्यु समस्या को हल करने के लिए वॉवेल वैबबिट का उपयोग कर रहा हूं । मैं उपयोगकर्ताओं को विज्ञापन दिखा रहा हूं, और मेरे पास उस संदर्भ के बारे में थोड़ी जानकारी है जिसमें विज्ञापन दिखाया गया है (जैसे कि उपयोगकर्ता कौन है, वे किस साइट पर हैं, आदि)। जॉन लैंगफोर्ड द्वारा वर्णित के रूप में यह एक उत्कृष्ट क्लासिक संदर्भ दस्यु समस्या लगती है ।
मेरी स्थिति में, 2 मुख्य प्रतिक्रियाएं हैं जो एक उपयोगकर्ता को किसी विज्ञापन पर हो सकती हैं: क्लिक करना (संभवतः कई बार) या क्लिक न करना। मेरे पास लगभग 1,000 विज्ञापन हैं जिन्हें मैं चुन सकता हूं। Vowpal Wabbit को action:cost:probability
प्रत्येक संदर्भ के लिए लक्ष्य चर की आवश्यकता होती है । मेरे मामले में, action
और probability
यह पता लगाना आसान है: action
क्या वह विज्ञापन है जिसे मैंने प्रदर्शित करने के लिए चुना है, और विज्ञापन दिखाने probability
के लिए उस विज्ञापन को चुनने के लिए मेरी वर्तमान नीति को चुनने की संभावना है।
हालाँकि, मुझे लागतों के भुगतान के लिए अपने भुगतान (क्लिक) को मैप करने के अच्छे तरीके के साथ आने में परेशानी हो रही है। क्लिक स्पष्ट रूप से अच्छे हैं, और एक ही विज्ञापन पर एक से अधिक क्लिक भी एक ही विज्ञापन पर एक क्लिक से बेहतर हैं। हालांकि, किसी विज्ञापन पर क्लिक न करना तटस्थ है: यह वास्तव में मुझे क्लिक के लिए छूटे हुए अवसर के अलावा कुछ भी खर्च नहीं होता है (मैं एक अजीब विज्ञापन में काम कर रहा हूं)।
मेरे पास कुछ विचार हैं:
- लागत = -1 * संकेत (क्लिक) + 0 * (क्लिक नहीं किया गया)
- लागत = -1 * क्लिक + 0 * (क्लिक नहीं किया गया)
- लागत = -1 * संकेत (क्लिक) + 0.01 * (क्लिक नहीं किया गया)
- लागत = -1 * क्लिक + 0.01 * (क्लिक नहीं किया गया)
(0, 1, 5, 0)
इन 4 कार्यों में से लागत की एक कार्रवाई वेक्टर के मामले में होगी:
(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)
स्पष्ट रूप से यह दर्शाने के कई अन्य तरीके हैं clicks=good
और no clicks=bad.
सामान्य तौर पर, मुझे वॉवेल वॉबिट में प्रासंगिक बैंडिट समस्याओं के लिए मॉडलिंग लागत कैसे होनी चाहिए? क्या नकारात्मक लागतों के रूप में लाभों का प्रतिनिधित्व करना ठीक है, या क्या मुझे सब कुछ फिर से करना चाहिए जैसे कि सभी लागत सकारात्मक हैं? क्या शून्य लागत वाले अपेक्षाकृत तटस्थ कार्यों के लिए यह ठीक है, या क्या मुझे मॉडल को सकारात्मक कार्यों की ओर धकेलने के लिए एक छोटी सकारात्मक लागत देनी चाहिए?