प्रासंगिक डाकुओं के लिए लागत कार्य


14

मैं एक संदर्भ-दस्यु समस्या को हल करने के लिए वॉवेल वैबबिट का उपयोग कर रहा हूं । मैं उपयोगकर्ताओं को विज्ञापन दिखा रहा हूं, और मेरे पास उस संदर्भ के बारे में थोड़ी जानकारी है जिसमें विज्ञापन दिखाया गया है (जैसे कि उपयोगकर्ता कौन है, वे किस साइट पर हैं, आदि)। जॉन लैंगफोर्ड द्वारा वर्णित के रूप में यह एक उत्कृष्ट क्लासिक संदर्भ दस्यु समस्या लगती है ।

मेरी स्थिति में, 2 मुख्य प्रतिक्रियाएं हैं जो एक उपयोगकर्ता को किसी विज्ञापन पर हो सकती हैं: क्लिक करना (संभवतः कई बार) या क्लिक न करना। मेरे पास लगभग 1,000 विज्ञापन हैं जिन्हें मैं चुन सकता हूं। Vowpal Wabbit को action:cost:probabilityप्रत्येक संदर्भ के लिए लक्ष्य चर की आवश्यकता होती है । मेरे मामले में, actionऔर probabilityयह पता लगाना आसान है: actionक्या वह विज्ञापन है जिसे मैंने प्रदर्शित करने के लिए चुना है, और विज्ञापन दिखाने probabilityके लिए उस विज्ञापन को चुनने के लिए मेरी वर्तमान नीति को चुनने की संभावना है।

हालाँकि, मुझे लागतों के भुगतान के लिए अपने भुगतान (क्लिक) को मैप करने के अच्छे तरीके के साथ आने में परेशानी हो रही है। क्लिक स्पष्ट रूप से अच्छे हैं, और एक ही विज्ञापन पर एक से अधिक क्लिक भी एक ही विज्ञापन पर एक क्लिक से बेहतर हैं। हालांकि, किसी विज्ञापन पर क्लिक न करना तटस्थ है: यह वास्तव में मुझे क्लिक के लिए छूटे हुए अवसर के अलावा कुछ भी खर्च नहीं होता है (मैं एक अजीब विज्ञापन में काम कर रहा हूं)।

मेरे पास कुछ विचार हैं:

  1. लागत = -1 * संकेत (क्लिक) + 0 * (क्लिक नहीं किया गया)
  2. लागत = -1 * क्लिक + 0 * (क्लिक नहीं किया गया)
  3. लागत = -1 * संकेत (क्लिक) + 0.01 * (क्लिक नहीं किया गया)
  4. लागत = -1 * क्लिक + 0.01 * (क्लिक नहीं किया गया)

(0, 1, 5, 0)इन 4 कार्यों में से लागत की एक कार्रवाई वेक्टर के मामले में होगी:

  1. (0, -1, -1, 0)
  2. (0, -1, -5, 0)
  3. (0.01, -1, -1, 0.01)
  4. (0.01, -1, -5, 0.01)

स्पष्ट रूप से यह दर्शाने के कई अन्य तरीके हैं clicks=goodऔर no clicks=bad.सामान्य तौर पर, मुझे वॉवेल वॉबिट में प्रासंगिक बैंडिट समस्याओं के लिए मॉडलिंग लागत कैसे होनी चाहिए? क्या नकारात्मक लागतों के रूप में लाभों का प्रतिनिधित्व करना ठीक है, या क्या मुझे सब कुछ फिर से करना चाहिए जैसे कि सभी लागत सकारात्मक हैं? क्या शून्य लागत वाले अपेक्षाकृत तटस्थ कार्यों के लिए यह ठीक है, या क्या मुझे मॉडल को सकारात्मक कार्यों की ओर धकेलने के लिए एक छोटी सकारात्मक लागत देनी चाहिए?


1
मुझे भ्रम है कि "2 संभावित क्रियाएं हैं: एक उपयोगकर्ता विज्ञापन पर क्लिक कर सकता है या एक उपयोगकर्ता विज्ञापन पर क्लिक नहीं कर सकता है।" यदि आप यह तय करने की कोशिश कर रहे हैं कि विज्ञापन किस विज्ञापन को दिखाना है, तो क्या विज्ञापन नहीं होने चाहिए?
alto

1
@alto: मुझे लगता है कि "2 संभावित प्रतिक्रियाएं हैं जिन्हें हम एक उपयोगकर्ता के लिए रिकॉर्ड कर सकते हैं" पढ़ना चाहिए। क्या यह ज़्यादा सही लगता है?
Zach

मुझे यकीन नहीं है कि यह वास्तव में एक प्रासंगिक दस्यु समस्या है क्योंकि मुझे यकीन नहीं है कि आपका लक्ष्य यहां क्या है। प्रासंगिक दस्यु समस्या का समाधान "एक ऐसी नीति को अनुकूलित करने की कोशिश करता है जो अवलोकन किए गए संदर्भों के लिए न्यूनतम लागत के साथ कार्रवाई का चयन करता है।" क्या आप यह पता लगाने की कोशिश कर रहे हैं कि कितने विज्ञापन चलाने हैं? उपभोक्ता व्यवहार को मॉडल करने की कोशिश कर रहा है? कुछ और?
छायाकार

1
@ssdecontrol मैं यह जानने की कोशिश कर रहा हूं कि कौन सा विज्ञापन किस संदर्भ में दिखाया गया है। यह प्रासंगिक डाकुओं के लिए आमतौर पर इस्तेमाल की जाने वाली समस्या है, लेकिन मुझे वास्तव में vowpal-wabbit के प्रासंगिक बैंड बैंड सॉल्वर के बुरे परिणाम मिल रहे हैं। मैं सोच रहा था कि शायद वहाँ एक अलग तरीका है कि मैं "लागत" एक क्लिक पर निर्दिष्ट करूं या किसी विज्ञापन पर क्लिक न करूं।
Zach

1
@ मैं वास्तव में इसे कभी नहीं समझ पाया, और इसके बजाय वीडब्ल्यू से एक नियमित मल्टीस्केल मॉडल के साथ चला गया।
Zach

जवाबों:


1

प्रारंभिक के लिए, शायद यहां से परामर्श करना चाहिए मार्गदर्शन के : https://arxiv.org/pdf/1802.04064.pdf

यह एक अनुभवजन्य मूल्यांकन है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.