संभावना है कि कोई छवि पसंद करेगा


11

मुझे निम्नलिखित समस्या आई है:
- हमारे पास N लोगों का सेट है
- हमारे पास K छवियों का सेट है
- प्रत्येक व्यक्ति कुछ संख्या में छवियों को रेट करता है। कोई व्यक्ति छवि पसंद कर सकता है या नहीं (ये केवल दो अधिभोग हैं)। - समस्या यह है कि संभावना की गणना कैसे की जाए कि कुछ व्यक्ति किसी विशेष छवि को पसंद करते हैं।

मैं अपने अंतर्ज्ञान को प्रस्तुत करने वाला उदाहरण दूंगा।
N = 4
K = 5
+ का अर्थ है कि वह व्यक्ति छवि पसंद करता है
- इसका अर्थ है कि वह व्यक्ति छवि पसंद नहीं करता है
0 का अर्थ है कि उस व्यक्ति से छवि के बारे में नहीं पूछा गया है, और उस मूल्य की भविष्यवाणी की जानी चाहिए

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

व्यक्ति 1 शायद छवि 3 को पसंद करेगा क्योंकि, व्यक्ति 2 की समान प्राथमिकताएं हैं और व्यक्ति 2 को छवि पसंद है 3.
व्यक्ति 4 शायद छवि 2 को पसंद नहीं करेगा क्योंकि कोई भी व्यक्ति इसे पसंद नहीं करता है और इसके अलावा व्यक्ति 4 को अधिकांश छवियां पसंद नहीं हैं।

क्या कोई अच्छी तरह से ज्ञात विधि है, जिसका उपयोग इस तरह की संभावना की गणना करने के लिए किया जा सकता है?


मेरे सीमित अनुभव को देखते हुए, मैं सटीक उत्तर नहीं दे सकता। हालांकि, मेरा मानना ​​है कि आप पैनल डेटा का उपयोग कर सकते हैं (क्योंकि आप अपने उदाहरण में व्यक्तियों के भीतर और व्यक्तियों के बीच भिन्नता पर विचार करते हैं) लोगिट के साथ दृष्टिकोण। हो सकता है कि अन्य लोग इस बारे में विस्तार से
बताएं

आपका छोटा उदाहरण बहुत उपयोगी है, लेकिन मुझे लगता है कि आपका वास्तविक डेटासेट बड़ा है। कितना बड़ा, यानी (लगभग) आपका असली N और k कितना बड़ा है ?
OneStop

एन और के विशाल हो सकता है, लेकिन कम्प्यूटेशनल शक्ति कोई समस्या नहीं है।
टोमक टार्किनास्की

जवाबों:



6

यह मशीन सीखने के लिए एक अच्छी समस्या की तरह दिखता है, इसलिए मैं इस तरीके के समूह पर ध्यान केंद्रित करूँगा।

सबसे पहले और सबसे स्पष्ट विचार kNN एल्गोरिथम है। वहां आप पहले दर्शकों के बीच समानता की गणना करते हैं और फिर समान उपयोगकर्ताओं द्वारा डाली गई इस तस्वीर पर औसत वोट के साथ लापता वोटों की भविष्यवाणी करते हैं। जानकारी के लिए देखें विकिपीडिया

एक अन्य विचार यह है कि इस डेटा पर अप्रकाशित रैंडम फ़ॉरेस्ट को विकसित करना है (किसी भी तरह, छवियों या लोगों में विशेषताओं के साथ, जो भी बेहतर है) और वन संरचना के आधार पर लापता डेटा को लागू करना; पूरे तरीके को लागू किया गया है और आर randomForestपैकेज में वर्णित है , rfImputeफ़ंक्शन की तलाश करें।

अंत में, आप समस्या को एक सादे वर्गीकरण कार्य में पुनर्गठित कर सकते हैं, कह सकते हैं कि मैट्रिक्स में प्रत्येक शून्य का एक ऑब्जेक्ट बनाएं और कुछ उचित विवरणों (औसत दर्शक वोट, औसत छवि वोट, एक वोट का वोट, सबसे दूसरा, सबसे) के बारे में सोचने की कोशिश करें। इसी तरह के दर्शक, छवि के साथ, संभवतः कुछ बाहरी डेटा (छवि की औसत ह्यू, मतदाता की आयु आदि)। और फिर इस डेटा (एसवीएम, आरएफ, एनबी, ...) पर विभिन्न वर्गीकरणों का प्रयास करें।

कुछ और जटिल संभावनाएँ भी हैं; अवलोकन के लिए आप नेटफ्लिक्स पुरस्कार चुनौती (जो एक समान समस्या थी) के समाधान की तलाश कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.