सिफारिश में निहित डेटा से कैसे निपटना चाहिए


10

एक सिफारिश प्रणाली इस बात का एक लॉग रखती है कि किसी विशेष उपयोगकर्ता को क्या सिफारिशें दी गई हैं और क्या वह उपयोगकर्ता सिफारिश को स्वीकार करता है। यह पसंद है

user_id item_id result
1       4       1
1       7       -1
5       19      1
5       80      1

जहां 1 का अर्थ है कि उपयोगकर्ता ने सिफारिश को स्वीकार कर लिया है जबकि -1 का अर्थ है कि उपयोगकर्ता ने सिफारिश का जवाब नहीं दिया है।

प्रश्न: अगर मैं ऊपर वर्णित लॉग के आधार पर उपयोगकर्ताओं के एक समूह को सिफारिशें करने जा रहा हूं, और मैं एमएपी @ 3 स्कोर को अधिकतम करना चाहता हूं, तो मुझे अंतर्निहित डेटा (1 या -1) से कैसे निपटना चाहिए?

मेरा विचार 1 और -1 को रेटिंग के रूप में मानने का है, और कारककरण मशीनों-प्रकार के एल्गोरिदम का उपयोग करके रेटिंग का अनुमान लगाना है। लेकिन यह सही नहीं लगता है, निहित डेटा की विषमता को देखते हुए (-1 का मतलब यह नहीं है कि उपयोगकर्ता को सिफारिश पसंद नहीं है)।

संपादित करें 1 मैट्रिक्स फैक्ट्रीज़ेशन दृष्टिकोण के संदर्भ में इसके बारे में सोचते हैं। अगर हम रेटिंग के तौर पर -1 और 1 को मानते हैं, तो कुछ समस्या होगी। उदाहरण के लिए, उपयोगकर्ता 1 अव्यक्त कारक स्थान में मूवी A को पसंद करता है जो एक कारक (जैसे शानदार पृष्ठभूमि संगीत) में उच्च स्कोर करता है। सिस्टम फिल्म बी की सिफारिश करता है जो "शानदार पृष्ठभूमि संगीत" में भी उच्च स्कोर करता है, लेकिन किसी कारण से उपयोगकर्ता 1 अनुशंसा पर ध्यान देने के लिए बहुत व्यस्त है, और हमारे पास -1 रेटिंग फिल्म बी है। यदि हम सिर्फ 1 या -1 के समान व्यवहार करते हैं। , तब सिस्टम को उपयोगकर्ता के लिए शानदार बीजीएम के साथ फिल्म की सिफारिश करने के लिए हतोत्साहित किया जा सकता है जबकि उपयोगकर्ता 1 अभी भी शानदार बीजीएम के साथ फिल्म पसंद करता है। मुझे लगता है कि इस स्थिति से बचना है।


कोई समस्या नहीं है कि -1 नापसंद नहीं है। यह केवल एक अंतर है कि किसी ने आइटम को देखा। इस मायने में यह एक लापता मूल्य से अधिक जानकारी वहन करता है। यह वास्तव में आपकी सिफारिश की सटीकता को बढ़ा सकता है। अनुशंसा करने में आपकी दूरी मीट्रिक के आधार पर आप इसे -1 से मामूली मीट्रिक मान में बदलने पर विचार कर सकते हैं, इसलिए यह दूरी को अधिक प्रभावित नहीं करता है।
cwharland

1
निहित प्रतिक्रिया के लिए विहित कागज हू, कुरान और वोलिंस्की है । वहाँ अच्छा सुझाव के बहुत सारे, जिसमें आपके आत्मविश्वास का अनुमान लगाना शामिल है जिसमें -1 एक नापसंद या केवल एक "नहीं देखा।"
ट्रे

जवाबों:


6

आपके सिस्टम को केवल उन आइटमों पर प्रशिक्षित नहीं किया गया है जो सही अनुशंसित हैं? यदि हां, तो आपके पास यहां एक बड़ा फीडबैक लूप है। आप सभी क्लिक / विचारों से सीखना चाहते हैं, मुझे उम्मीद है।

आप सुझाव देते हैं कि किसी वस्तु को न देखना एक नकारात्मक संकेत है। मैं दृढ़ता से सुझाव देता हूं कि आप इस तरह से व्यवहार नहीं करते हैं। कुछ के साथ बातचीत नहीं करना लगभग हमेशा सबसे अच्छा माना जाता है बिना किसी जानकारी के। यदि आपके पास एक स्पष्ट संकेत है जो एक नापसंद का संकेत देता है, जैसे डाउन वोट (या, शायद 10 सेकंड का वीडियो देखा और रोका गया), तो शायद यह मान्य है।

मैं इस इनपुट को रेटिंग-जैसे डेटा के रूप में सीमित नहीं करूंगा। (हालांकि आपके मामले में, आप इसके साथ भाग सकते हैं।) इसके बजाय उन्हें वज़न के रूप में सोचें, जो एएलएस पर हू कोरेन वोलिंस्की पेपर में बिल्कुल इलाज है जो @Trey ने एक टिप्पणी में उल्लेख किया है। यह आपको सकारात्मक / नकारात्मक इंटरैक्शन की सापेक्ष ताकत रिकॉर्ड करने देता है।

अंत में मैं यह नोट करूंगा कि यह पेपर, जबकि आपके द्वारा खोजे जाने की संभावना है, यह नकारात्मक भार प्रदान नहीं करता है। इस तरह से विस्तार करना सरल है। यदि आपको वह मिल जाता है तो मैं आपको आसान विस्तार की ओर संकेत कर सकता हूं, जो स्पार्क और ऑरेक्स में पहले से मौजूद दो कार्यान्वयन में मौजूद है ।


2
मुझे लगता है कि कई बार देखा गया है, लेकिन कभी नहीं चुना गया है कि वस्तुओं के लिए मामूली नकारात्मक मूल्यों को लागू करना उचित है। ओपी यह संकेत नहीं देता है कि उनके पास उन डेटा तक पहुंच है जो इन नकारात्मक आवृत्तियों को योग्य बनाता है लेकिन मैं उस रणनीति को पूरी तरह से समाप्त नहीं करूंगा। नकारात्मक मूल्य का इष्टतम परिमाण डेटा से निर्धारित किया जा सकता है। मुझे इस परिदृश्य में ऐसा करने से छोटे लाभ हुए हैं। किसी भी मामले में ... क्या आप एक बार देखे गए आइटम के बीच अंतर करने के अन्य तरीकों का सुझाव देंगे और बनाम एन बार देखा नहीं गया है और कभी भी नकारात्मक अशुद्धता के अलावा नहीं चुना गया है?
cwharland 28’14
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.