उपयोगकर्ता-उत्पाद सकारात्मक (क्लिक डेटा) उपलब्ध है। नकारात्मक (नो-क्लिक डेटा) कैसे उत्पन्न करें?

यह अनुशंसा करने में बहुत सामान्य है कि हमारे पास उपयोगकर्ता उत्पाद डेटा है, जैसे कि "क्लिक" के रूप में लेबल है। मॉडल को सीखने के लिए, मुझे क्लिक और नो-क्लिक डेटा की आवश्यकता है।

उत्पन्न करने के लिए सरलतम तरीका उपयोगकर्ता-उत्पादों के जोड़े को लेना है जो क्लिक डेटा में नहीं पाए जाते हैं। हालाँकि, यह भ्रामक हो सकता है। उदाहरण:

user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click)

मैं product1 को छोड़कर सभी उत्पादों के साथ user1 ले सकता हूं और उन्हें "no_click" और इतने पर लेबल कर सकता हूं। लेकिन यह सच नहीं हो सकता है। शायद user1 ने product2 पर क्लिक किया होगा यदि उसे product2 दिखाया गया था। लेकिन सिर्फ इसलिए कि उन्हें उत्पादों के अन्य सेट दिखाए गए थे - उनके पास उत्पाद 2 पर क्लिक / नो-क्लिक करने का निर्णय लेने का कोई अवसर नहीं था।

तो कैसे एकजुट डेटा समस्या को संबोधित करने के लिए?

machine-learning data-mining

— p.paliwal
स्रोत

मुझे लगता है कि आपने अपने सवाल का खुद ही जवाब दे दिया है। आपको एक इंप्रेशन, या शो की अवधारणा रिकॉर्ड करनी चाहिए। यदि आपने कोई उत्पाद दिखाया है और उनकी कोई क्लिक नहीं है, तो यह वही है जो आप खोज रहे हैं।

लेकिन वास्तव में यह दर्ज आंकड़ों में उपलब्ध नहीं है। जो मैंने उल्लेख किया था। डेटा में केवल वही होता है जो उपयोगकर्ता-उत्पाद जोड़ी में क्लिक लेबल होता है। क्या दिखाया गया था और क्या क्लिक किया गया था रिकॉर्ड नहीं किया गया है।

— पी.पालीवाल १ '

इसके अलावा, यहां तक कि अगर कहते हैं - user1 को दिखाया गया था prod1, prod2, prod3 (और उसने prod1 क्लिक किया) - तो prod2 और prod3 वाले user1 में कोई-क्लिक लेबल नहीं होगा। लेकिन बाकी उत्पादों के बारे में क्या (prod4, prod5, ...)। सिर्फ इसलिए कि वे नहीं दिखाए गए थे, उपयोगकर्ता के पास क्लिक / नो-क्लिक का निर्णय लेने का कोई अवसर नहीं था। यह नहीं कहता है कि क्या उपयोगकर्ता को दिखाए जाने वाले उत्पादों में कोई दिलचस्पी नहीं होगी - इसलिए अन्य सभी संयोजनों को लेबल करना क्योंकि कोई भी क्लिक वास्तविक में सच नहीं हो सकता है। यही मैंने प्रश्न में भी बताया है।

— पीपी.पालीवाल १ '

तो, दो समस्याएं हैं।

रिकॉर्डिंग इंप्रेशन (शो)
गैर-छापों से कैसे निपटें

(1) के लिए आपको यह जानकारी रिकॉर्ड करनी चाहिए। यदि यह वर्तमान में रिकॉर्ड नहीं किया जा रहा है, तो आपको इस जानकारी को रिकॉर्ड करना शुरू करना चाहिए। यह देखते हुए कि आपके पास यह जानकारी नहीं है कि आप क्या सिफारिशें देना चाहते हैं। सौभाग्य से, केवल क्लिक डेटा के साथ आप अभी भी एक उपयोगिता मैट्रिक्स बना सकते हैं, 9.1.1 देखें।

http://i.stanford.edu/~ullman/mmds/ch9.pdf

फिर आप उपयोगकर्ता- या आइटम-आधारित सहयोगी फ़िल्टरिंग का उपयोग कर सकते हैं जैसा कि कागज में वर्णित है। यह मूल रूप से उपयोगिता मैट्रिक्स को पॉप्युलेट करने और अयोग्य वस्तुओं के लिए "स्कोर" खोजने की कोशिश में एक अभ्यास है। आपकी सिफारिश उच्चतम स्कोर के साथ एक अस्पष्ट वस्तु होगी।

(2) के लिए आप अभी भी अशुद्ध वस्तुओं पर सिफारिशें करेंगे। इसलिए, यह अकेला मुद्दा नहीं है। हालाँकि आप अपने इंप्रेशन को ऑप्टिमाइज़ करना चाहेंगे। आपके पास भी पूर्ण ज्ञान नहीं हो सकता है जहाँ उपयोगकर्ता सभी संभावित विकल्प देख सकता है। आपको इंप्रेशन रिकॉर्ड करने और कई चीजों को समझने की आवश्यकता है।

किसी आइटम की दर दिखाएं
किसी आइटम का रेट क्लिक करें
कैसे नई वस्तुओं को शामिल करने के लिए
कैसे दिखाने के लिए जो आइटम का अनुकूलन करने के लिए

यह एक बहुत बड़ा विषय है और मूल रूप से यह ऑनलाइन विज्ञापन का समस्या क्षेत्र है। हालांकि, एक सिफारिश इंजन लंबी पूंछ में ब्याज की वस्तुओं को खोजने की कोशिश करता है, जो विज्ञापन अनुकूलन से थोड़ा अलग है। यह आपकी सिफारिश का मूल्यांकन करने के लिए एक फीडबैक लूप है। ए / बी परीक्षण आम हैं। आप अपनी वर्तमान प्रणाली और नई प्रणाली के बीच क्लिक दरों और अनुशंसा त्रुटियों का परीक्षण करना चाहेंगे।

यहां भी देखें

http://cs.brynmawr.edu/Courses/cs380/fall2006/Herlocker2004.pdf

http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf