प्रासंगिक डाकुओं के लिए लागत कार्य

मैं एक संदर्भ-दस्यु समस्या को हल करने के लिए वॉवेल वैबबिट का उपयोग कर रहा हूं । मैं उपयोगकर्ताओं को विज्ञापन दिखा रहा हूं, और मेरे पास उस संदर्भ के बारे में थोड़ी जानकारी है जिसमें विज्ञापन दिखाया गया है (जैसे कि उपयोगकर्ता कौन है, वे किस साइट पर हैं, आदि)। जॉन लैंगफोर्ड द्वारा वर्णित के रूप में यह एक उत्कृष्ट क्लासिक संदर्भ दस्यु समस्या लगती है ।

मेरी स्थिति में, 2 मुख्य प्रतिक्रियाएं हैं जो एक उपयोगकर्ता को किसी विज्ञापन पर हो सकती हैं: क्लिक करना (संभवतः कई बार) या क्लिक न करना। मेरे पास लगभग 1,000 विज्ञापन हैं जिन्हें मैं चुन सकता हूं। Vowpal Wabbit को action:cost:probabilityप्रत्येक संदर्भ के लिए लक्ष्य चर की आवश्यकता होती है । मेरे मामले में, actionऔर probabilityयह पता लगाना आसान है: actionक्या वह विज्ञापन है जिसे मैंने प्रदर्शित करने के लिए चुना है, और विज्ञापन दिखाने probabilityके लिए उस विज्ञापन को चुनने के लिए मेरी वर्तमान नीति को चुनने की संभावना है।

हालाँकि, मुझे लागतों के भुगतान के लिए अपने भुगतान (क्लिक) को मैप करने के अच्छे तरीके के साथ आने में परेशानी हो रही है। क्लिक स्पष्ट रूप से अच्छे हैं, और एक ही विज्ञापन पर एक से अधिक क्लिक भी एक ही विज्ञापन पर एक क्लिक से बेहतर हैं। हालांकि, किसी विज्ञापन पर क्लिक न करना तटस्थ है: यह वास्तव में मुझे क्लिक के लिए छूटे हुए अवसर के अलावा कुछ भी खर्च नहीं होता है (मैं एक अजीब विज्ञापन में काम कर रहा हूं)।

मेरे पास कुछ विचार हैं:

लागत = -1 * संकेत (क्लिक) + 0 * (क्लिक नहीं किया गया)
लागत = -1 * क्लिक + 0 * (क्लिक नहीं किया गया)
लागत = -1 * संकेत (क्लिक) + 0.01 * (क्लिक नहीं किया गया)
लागत = -1 * क्लिक + 0.01 * (क्लिक नहीं किया गया)

(0, 1, 5, 0)इन 4 कार्यों में से लागत की एक कार्रवाई वेक्टर के मामले में होगी:

(0, -1, -1, 0)
(0, -1, -5, 0)
(0.01, -1, -1, 0.01)
(0.01, -1, -5, 0.01)

स्पष्ट रूप से यह दर्शाने के कई अन्य तरीके हैं clicks=goodऔर no clicks=bad.सामान्य तौर पर, मुझे वॉवेल वॉबिट में प्रासंगिक बैंडिट समस्याओं के लिए मॉडलिंग लागत कैसे होनी चाहिए? क्या नकारात्मक लागतों के रूप में लाभों का प्रतिनिधित्व करना ठीक है, या क्या मुझे सब कुछ फिर से करना चाहिए जैसे कि सभी लागत सकारात्मक हैं? क्या शून्य लागत वाले अपेक्षाकृत तटस्थ कार्यों के लिए यह ठीक है, या क्या मुझे मॉडल को सकारात्मक कार्यों की ओर धकेलने के लिए एक छोटी सकारात्मक लागत देनी चाहिए?

— ज़ैक
स्रोत

मुझे भ्रम है कि "2 संभावित क्रियाएं हैं: एक उपयोगकर्ता विज्ञापन पर क्लिक कर सकता है या एक उपयोगकर्ता विज्ञापन पर क्लिक नहीं कर सकता है।" यदि आप यह तय करने की कोशिश कर रहे हैं कि विज्ञापन किस विज्ञापन को दिखाना है, तो क्या विज्ञापन नहीं होने चाहिए?

— alto

@alto: मुझे लगता है कि "2 संभावित प्रतिक्रियाएं हैं जिन्हें हम एक उपयोगकर्ता के लिए रिकॉर्ड कर सकते हैं" पढ़ना चाहिए। क्या यह ज़्यादा सही लगता है?

— Zach

मुझे यकीन नहीं है कि यह वास्तव में एक प्रासंगिक दस्यु समस्या है क्योंकि मुझे यकीन नहीं है कि आपका लक्ष्य यहां क्या है। प्रासंगिक दस्यु समस्या का समाधान "एक ऐसी नीति को अनुकूलित करने की कोशिश करता है जो अवलोकन किए गए संदर्भों के लिए न्यूनतम लागत के साथ कार्रवाई का चयन करता है।" क्या आप यह पता लगाने की कोशिश कर रहे हैं कि कितने विज्ञापन चलाने हैं? उपभोक्ता व्यवहार को मॉडल करने की कोशिश कर रहा है? कुछ और?

— छायाकार

@ssdecontrol मैं यह जानने की कोशिश कर रहा हूं कि कौन सा विज्ञापन किस संदर्भ में दिखाया गया है। यह प्रासंगिक डाकुओं के लिए आमतौर पर इस्तेमाल की जाने वाली समस्या है, लेकिन मुझे वास्तव में vowpal-wabbit के प्रासंगिक बैंड बैंड सॉल्वर के बुरे परिणाम मिल रहे हैं। मैं सोच रहा था कि शायद वहाँ एक अलग तरीका है कि मैं "लागत" एक क्लिक पर निर्दिष्ट करूं या किसी विज्ञापन पर क्लिक न करूं।

— Zach

@ मैं वास्तव में इसे कभी नहीं समझ पाया, और इसके बजाय वीडब्ल्यू से एक नियमित मल्टीस्केल मॉडल के साथ चला गया।

— Zach

प्रारंभिक के लिए, शायद यहां से परामर्श करना चाहिए मार्गदर्शन के : https://arxiv.org/pdf/1802.04064.pdf

यह एक अनुभवजन्य मूल्यांकन है।

— मैट
स्रोत