अधिक लोगों द्वारा रेट किए गए आइटमों के पक्ष में रेटिंग प्रणाली को वेट करें, कम लोगों द्वारा उच्च श्रेणी की वस्तुओं को अत्यधिक रेट किया गया?

मेरे साथ वहन करने के लिए अग्रिम धन्यवाद, मैं किसी भी प्रकार का सांख्यिकीविद् नहीं हूं और यह नहीं जानता कि मैं जो कल्पना कर रहा हूं उसका वर्णन कैसे करना है, इसलिए Google यहां मेरी मदद नहीं कर रहा है ...

मैं एक वेब एप्लिकेशन में एक रेटिंग प्रणाली शामिल कर रहा हूं, जिस पर मैं काम कर रहा हूं। प्रत्येक उपयोगकर्ता प्रत्येक आइटम को एक बार बिल्कुल रेट कर सकता है।

मैं 4 मानों के साथ एक पैमाने की कल्पना कर रहा था: "दृढ़ता से नापसंद", "नापसंद", "पसंद", और "दृढ़ता से पसंद", और मैंने क्रमशः -5, -2, +2 और +5 के इन मूल्यों को निर्दिष्ट करने की योजना बनाई थी। ।

अब, यदि प्रत्येक आइटम की रेटिंग की समान संख्या होने जा रही थी, तो मैं इस स्कोरिंग प्रणाली के साथ काफी सहज होऊंगा क्योंकि स्पष्ट रूप से सबसे अधिक पसंद और कम से कम पसंद की गई वस्तुओं को अलग करना होगा। हालाँकि, आइटमों की रेटिंग की संख्या समान नहीं होगी, और विभिन्न फ़ोटो पर वोटों की संख्या के बीच असमानता काफी नाटकीय हो सकती है।

उस मामले में, दो वस्तुओं पर संचयी स्कोर की तुलना करने का मतलब है कि बहुत अधिक औसत रेटिंग वाले एक पुराने आइटम में बहुत कम वोटों के साथ एक असाधारण नए आइटम की तुलना में बहुत अधिक स्कोर होने वाला है।

इसलिए, पहली स्पष्ट बात जो हमने औसत लेने के लिए सोची थी ... लेकिन अब अगर किसी आइटम की "+5" की केवल एक रेटिंग है, तो उस आइटम की तुलना में बेहतर औसत है जिसका स्कोर 99 "+5" रेटिंग है और 1 "+2" रेटिंग। सहज रूप से जो किसी आइटम की लोकप्रियता का सटीक प्रतिनिधित्व नहीं है।

मुझे लगता है कि यह समस्या आम है और आप लोगों को मुझे अधिक उदाहरणों के साथ इसे समझने की आवश्यकता नहीं है, इसलिए मैं इस बिंदु पर रुकूंगा और यदि आवश्यक हो तो टिप्पणियों में विस्तार से बताऊंगा।

मेरे प्रश्न हैं:

इस तरह की समस्या को क्या कहा जाता है, और क्या इसे हल करने के लिए इस्तेमाल की जाने वाली तकनीकों के लिए एक शब्द है? मैं यह जानना चाहूंगा ताकि मैं इस पर पढ़ सकूं।
यदि आप इस विषय पर किसी भी अनुकूल-अनुकूल संसाधनों के बारे में जानते हैं, तो मैं एक लिंक की बहुत सराहना करूँगा।
अंत में, मैं इस तरह के डेटा को प्रभावी ढंग से इकट्ठा करने और उसका विश्लेषण करने के बारे में किसी अन्य सुझाव की सराहना करूंगा।

scales rating

— एंड्रयू
स्रोत

जवाबों:

एक तरह से आप इसका मुकाबला कर सकते हैं, प्रत्येक श्रेणी में अनुपात का उपयोग करना है, जिससे आपको प्रत्येक श्रेणी के लिए नंबर लगाने की आवश्यकता नहीं है (आप इसे "दृढ़ता से पसंद" के रूप में 80% रेटेड के रूप में छोड़ सकते हैं)। हालांकि अनुपात कम संख्या में रेटिंग से ग्रस्त हैं । यह आपके उदाहरण में दिखाता है कि 1 +5 रेटिंग वाला फोटो 99 +5 और 1 +2 रेटिंग के साथ एक उच्च औसत स्कोर (और अनुपात) प्राप्त करेगा। यह मेरे अंतर्ज्ञान के साथ अच्छी तरह से फिट नहीं है (और मुझे अधिकांश लोगों पर संदेह है)।

इस छोटे से नमूने के आकार के मुद्दे के चारों ओर जाने का एक तरीका एक बायेसियन तकनीक का उपयोग करना है जिसे " उत्तराधिकार के लाप्लास नियम " के रूप में जाना जाता है (यह शब्द उपयोगी हो सकता है)। इसमें प्रायिकता की गणना करने से पहले प्रत्येक श्रेणी में 1 "अवलोकन" जोड़ना शामिल है। यदि आप संख्यात्मक मान के लिए औसत लेना चाहते हैं, तो मैं एक भारित औसत का सुझाव दूंगा जहां वजन उत्तराधिकार के नियम द्वारा गणना की जाने वाली संभावनाएं हैं।

गणितीय रूप के लिए, को "जोरदार नापसंद", "नापसंद", "पसंद" और "दृढ़ता से पसंद करें" जैसी प्रतिक्रियाओं की संख्या (दो उदाहरणों में, और )। आप तब संभावना की गणना करते हैं (या वजन) जैसे जोरदार तरीके से $n_{sd},n_{d},n_{l},n_{sl}$ $n_{sl}=1,n_{sd}=n_{d}=n{l}=0$ $n_{sl}=99,n_{l}=1,n_{sd}=n_{d}=0$

पी आर ("जोरदार लाइक") = \frac{n_{रों एल} + 1}{n_{रों घ} + n_{घ} + n_{एल} + n_{रों एल} + 4}

$Pr(\text{"Strongly Like"}) = \frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

आपके द्वारा दिए गए दो उदाहरणों के लिए, वे "दृढ़ता से जैसे" के रूप में और जो मुझे लगता है कि "अधिक समझदारी" से अधिक निकटता से सहमत है। अतिरिक्त स्थिरांक को हटाने से और जिससे प्रथम परिणाम यह प्रतीत होता है कि जितना होना चाहिए (कम से कम मुझे वैसे भी) होना चाहिए। $\frac{1+1}{1+0+0+0+4}=\frac{2}{5}$ $\frac{99+1}{99+1+0+0+4}=\frac{100}{104}$ $\frac{1}{1}$ $\frac{99}{100}$

संबंधित स्कोर केवल भारित औसत द्वारा दिए गए हैं, जिन्हें मैंने नीचे लिखा है:

एस सी ओ आर इ = \begin{matrix} 5 \frac{n_{रों एल} + 1}{n_{रों घ} + n_{घ} + n_{एल} + n_{रों एल} + 4} + 2 \frac{n_{एल} + 1}{n_{रों घ} + n_{घ} + n_{एल} + n_{रों एल} + 4} \\ - 2 \frac{n_{घ} + 1}{n_{रों घ} + n_{घ} + n_{एल} + n_{रों एल} + 4} - 5 \frac{n_{रों घ} + 1}{n_{रों घ} + n_{घ} + n_{एल} + n_{रों एल} + 4} \end{matrix}

$Score=\begin{array}{1 1} 5\frac{n_{sl}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}+2\frac{n_{l}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} \\ - 2\frac{n_{d}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4} -5\frac{n_{sd}+1}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}\end{array}$

या अधिक रसीले रूप में

एस सी ओ आर इ = \frac{5 n_{रों एल} + 2 n_{एल} - 2 n_{घ} - 5 n_{रों घ}}{n_{रों घ} + n_{घ} + n_{एल} + n_{रों एल} + 4}

$Score=\frac{5 n_{sl}+ 2 n_{l} - 2 n_{d} - 5 n_{sd}}{n_{sd}+n_{d}+n_{l}+n_{sl}+4}$

जो और के दो उदाहरणों में स्कोर देता है । मुझे लगता है कि यह दो मामलों के बीच एक उचित अंतर दिखाता है। $\frac{5}{5}=1$ $\frac{497}{104}\sim 4.8$

यह थोड़ा "मैथ्स" हो सकता है इसलिए मुझे बताएं कि क्या आपको अधिक स्पष्टीकरण की आवश्यकता है।

— probabilityislogic
स्रोत

मेरे लिए यह थोड़ा "मैथ्स" था, और शुरू में मुझे फॉर्मूला समझ में नहीं आया, लेकिन मैंने इसे तीन बार ध्यान से पढ़ा और इस पर क्लिक किया! यह वही है जो मैं देख रहा था, और आपका स्पष्टीकरण बहुत स्पष्ट था, यहां तक कि किसी के लिए भी जो गणितज्ञ या सांख्यिकीविद नहीं है। आपका बहुत बहुत धन्यवाद!

— एंड्रयू

बहुत अच्छा गैर-तकनीकी उत्तर, और एक दृष्टिकोण जो मैंने खुद नहीं सोचा होगा। मैं केवल यह जोड़ूंगा कि गैर-पूर्णांक संख्या सहित 1 के बजाय प्रत्येक श्रेणी में नकली 'टिप्पणियों' की किसी भी संख्या को जोड़ना संभव है। इससे आपको यह तय करने में सहूलियत मिलती है कि आप कुछ वोटों के साथ वस्तुओं के स्कोर को शून्य करने के लिए कितना 'हटना' चाहते हैं। और यदि आप इस विधि का तकनीकी-ध्वन्यात्मक विवरण चाहते हैं, तो आप कह सकते हैं कि आप बहु-स्तरीय वितरण से पहले एक सममित डिरिचलेट का उपयोग करके डेटा का बायेसियन विश्लेषण कर रहे हैं।

— OneStop

जबकि वे "नकली" टिप्पणियों की तरह लग सकते हैं, उनके पास एक अच्छी तरह से परिभाषित अर्थ है जब यह +1 है (जैसा कि +2 या उच्चतर के विपरीत है, जो वास्तव में "नकली" संख्याएं हैं, या पिछले डेटा संग्रह से संख्याएं हैं)। यह मूल रूप से ज्ञान की स्थिति का वर्णन करता है कि किसी भी डेटा को देखने से पहले प्रत्येक श्रेणी के लिए मतदान किया जाना संभव है । यह ठीक वही है जो पहले (N-1) सिंप्लेक्स पर फ्लैट करता है।

— probabilityislogic

भविष्य के लोगों के लिए एक और अवलोकन, जो इस पोस्ट को ढूंढते हैं: अपने मॉडल में इसे लागू करने में मैंने अंतिम स्कोर लिया और इसे 20 से गुणा किया, जो कि -100 से लेकर 100 तक सबसे खराब संभव स्कोर तक की रेंज देता है (हालांकि मैं तकनीकी रूप से मानता हूं वे सीमाएँ हैं जो आप कभी भी पहुँच नहीं सकते हैं, लेकिन आपको यह विचार मिलता है)। यह मेरे ऐप के उपयोगकर्ताओं के लिए आउटपुट को बहुत सहज बनाता है!

— एंड्रयू

@probabilityislogic: निश्चित रूप से Dirichlet के लिए किसी भी सख्ती से सकारात्मक मापदंडों से पहले यह वर्णन करें कि सभी संभावनाएं 0 और 1 के बीच कड़ाई से हैं? और यह तर्क उन्हें 2 / मी पर सेट करने का सुझाव देता है, जहाँ मी 1 के बजाय श्रेणियों की संख्या है: en.wikipedia.org/wiki/…

— onestop

मैं एक चित्रमय दृष्टिकोण ले जाऊँगा। एक्स-एक्सिस औसत रेटिंग हो सकती है और वाई रेटिंग की संख्या हो सकती है। मैं अनुभवी सितारों के साथ युवा फेनोम के योगदान की तुलना करने के लिए खेल आँकड़ों के साथ ऐसा करता था। पास का एक बिंदु ऊपरी दाएं कोने में आदर्श के करीब है। बेशक, "सर्वश्रेष्ठ" आइटम पर निर्णय लेना अभी भी एक व्यक्तिपरक निर्णय होगा, लेकिन यह कुछ संरचना प्रदान करेगा।

यदि आप किसी अन्य वैरिएबल के मुकाबले औसत रेटिंग को प्लॉट करना चाहते हैं, तो आप एक बबल प्लॉट में - जैसे कि एक्सएल या एसएएस में बबल साइज का उपयोग करके तीसरे वेरिएबल के रूप में रेटिंग की संख्या निर्धारित कर सकते हैं।

— rolando2
स्रोत