क्या अमेज़ॅन की "औसत रेटिंग" भ्रामक है?


49

अगर मैं सही तरीके से समझूं, तो 1-5 के पैमाने पर बुक रेटिंग्स लिकर्ट स्कोर हैं। यही है, मेरे लिए एक 3 जरूरी नहीं कि किसी और के लिए 3 हो। यह एक ऑर्डिनल स्केल IMO है। एक को वास्तव में औसतन तराजू नहीं चाहिए, लेकिन निश्चित रूप से मोड, मंझला और प्रतिशतक ले सकता है।

तो क्या यह ठीक है कि नियमों को मोड़ना क्योंकि आबादी का बड़ा हिस्सा उपरोक्त आंकड़ों की तुलना में इसका मतलब समझता है ? हालांकि अनुसंधान समुदाय जोरदार पैमाने पर आधारित डेटा का औसत लेने पर जोर देता है, क्या यह जनता के साथ ऐसा करना ठीक है (व्यावहारिक रूप से बोल रहा है)? क्या इस मामले में औसत लेना भी शुरू करने के लिए भ्रामक है?

ऐसा लगता है कि अमेज़ॅन जैसी कंपनी बुनियादी आंकड़ों पर टिकी होगी, लेकिन अगर नहीं तो मैं यहाँ क्या याद कर रहा हूँ? क्या हम यह दावा कर सकते हैं कि औसत दर्जे का मतलब लेने के औचित्य के लिए अध्यादेश के लिए एक सुविधाजनक सन्निकटन है? किस आधार पर?


3
यदि आपके लिए 3 किसी और के लिए 3 के समान नहीं है, तो आपके पास कोई पैमाना भी नहीं है: आपके पास अतुलनीय मापों का एक संग्रह है और वहाँ कुछ सार्थक है जो आप उन्हें संक्षेप में बता सकते हैं। एक स्केल ऑर्डिनल क्या है कि (ए) मूल्यों की तुलना की जा सकती है, इसलिए आपके 3 और मेरे 3 का मतलब एक ही है, लेकिन (बी) मूल्यों के संख्यात्मक अंतर उनके संकेतों के अलावा अर्थहीन हैं, इसलिए (कहिए) दो 3 का, एक 4 और 2, या 5 और 1 को किसी भी क्रम में रखा जा सकता है , हालांकि संख्यात्मक रूप से प्रत्येक जोड़ी की रेटिंग समान माध्य और माध्यिका होती है।
whuber

1
@whuber - लेकिन क्या यह सच नहीं है कि संख्या के बारे में 1-9 पैमाने पर 2 लोग एक ही राय साझा नहीं कर सकते हैं? मेरे लिए एक 6 वास्तव में किसी और के लिए 6 नहीं हो सकता है जब तक कि उनके पास जाने के लिए पूर्वनिर्धारित पैमाना न हो?
पीएचडी

1
मैंने हाल ही में अमेज़ॅन पर एक समीक्षा पढ़ी जिसमें कहा गया था "शानदार उत्पाद इसे गलत नहीं कर सकते। मैं कभी भी 5 स्टार नहीं दूंगा, इसलिए 4 से सम्मानित किया गया है।" अगर यह मतलब तिरछा नहीं करता है, तो मुझे नहीं पता कि वह करता है
मैट विल्को जूल

2
@Wilko आप मतभेदों के बारे में बात कर रहे हैं, पैमाने के अंतर के बारे में नहीं। यहां तक ​​कि जब एक पैमाने को बहुत सावधानी से कैलिब्रेट किया जाता है, जैसा कि (कहते हैं) जिम्नास्टिक या फिगर स्केटिंग के लिए स्कोरिंग या नदियों पर रैपिड्स की कठिनाई को रेटिंग के लिए अंतरराष्ट्रीय स्तर पर, और यहां तक ​​कि जब विशेषज्ञों को उस पैमाने का उपयोग करने के लिए प्रशिक्षित किया जाता है, तब भी भिन्नता होगी। यह आमतौर पर व्याख्यायित नहीं किया जाता है क्योंकि सबूत व्यक्तिपरक है: इसे न्यायाधीशों के बीच भिन्नता के रूप में व्याख्यायित किया जाता है।
whuber

1
क्षमा करें, यह वास्तव में एक उत्तर नहीं है, लेकिन दुर्भाग्य से मुझे "टिप्पणी" -फंक्शन नहीं मिला। हाल ही में, मैंने अपने मास्टर थीसिस को ग्राहक समीक्षा के प्रमुख तत्वों के बारे में लिखना शुरू किया है। निम्नलिखित परिस्थितियों को ध्यान में रखते हुए मैंने अमेज़न के 5-स्टार रेटिंग सिस्टम के महत्व पर भी संदेह करना शुरू कर दिया। - अविश्वासपूर्ण समीक्षाओं की संख्या - रेटिंग्स के प्रभाव पूर्वाग्रह और जे-
वक्र्स

जवाबों:


42

5 पॉइंट रेटिंग की केंद्रीय प्रवृत्ति को संक्षेप करने के लिए माध्य का उपयोग करने के लाभ

जैसा कि @gung ने उल्लेख किया है कि मुझे लगता है कि केंद्रीय प्रवृत्ति के सूचकांक के रूप में पांच-बिंदु आइटम का मतलब लेने के लिए अक्सर बहुत अच्छे कारण होते हैं। मैंने पहले ही इन कारणों की रूपरेखा तैयार कर ली है

विवरण बताने के लिए:

  1. माध्य की गणना करना आसान है
  2. माध्य सहज और अच्छी तरह से समझा जाता है
  3. मतलब सिंगल नंबर है
  4. अन्य सूचकांकों में अक्सर वस्तुओं के समान क्रम क्रम उत्पन्न होते हैं

क्यों अमेज़न के लिए माध्य अच्छा है

माध्य की रिपोर्टिंग करने में अमेज़न के लक्ष्यों के बारे में सोचें। वे करने के लिए लक्ष्य हो सकता है

  • एक आइटम के लिए एक सहज और समझने योग्य रेटिंग प्रदान करें
  • रेटिंग प्रणाली के उपयोगकर्ता की स्वीकृति सुनिश्चित करें
  • सुनिश्चित करें कि लोग समझते हैं कि रेटिंग का क्या मतलब है ताकि वे खरीद निर्णयों को सूचित करने के लिए उचित रूप से इसका उपयोग कर सकें

अमेज़ॅन किसी प्रकार के गोल मतलब, प्रत्येक रेटिंग विकल्प के लिए आवृत्ति मायने रखता है, और नमूना आकार (यानी, रेटिंग की संख्या) प्रदान करता है। यह जानकारी संभवतः अधिकांश लोगों के लिए सामान के संबंध में सामान्य भावना और ऐसी रेटिंग में विश्वास दोनों की सराहना करने के लिए पर्याप्त है (यानी, 20 रेटिंग के साथ एक 4.5, 2 रेटिंग के साथ 4.5 से अधिक सटीक होने की संभावना है; 10 5 के साथ एक आइटम -स्टार रेटिंग और कोई टिप्पणी के साथ 1-स्टार रेटिंग अभी भी एक अच्छी वस्तु हो सकती है)।

आप यहां तक ​​कि लोकतांत्रिक विकल्प के रूप में भी देख सकते थे। कई चुनावों के आधार पर तय किया जाता है कि किस उम्मीदवार को दो अंकों के पैमाने पर सबसे अधिक मतलब है। इसी तरह, यदि आप इस तर्क को लेते हैं कि प्रत्येक व्यक्ति जो एक समीक्षा प्रस्तुत करता है, उसे एक वोट मिलता है, तो आप इसका मतलब एक ऐसे रूप में देख सकते हैं जो प्रत्येक व्यक्ति के वोट को समान रूप से तौलता है।

क्या स्केल में अंतर वास्तव में एक समस्या है?

मनोवैज्ञानिक साहित्य में रेटिंग बायस की एक विस्तृत श्रृंखला है (एक समीक्षा के लिए, साल एट अल 1980 देखें), जैसे केंद्रीय प्रवृत्ति पूर्वाग्रह, उदारता पूर्वाग्रह, कठोरता पूर्वाग्रह। साथ ही, कुछ चूहे अधिक मनमानी करेंगे और कुछ अधिक विश्वसनीय होंगे। कुछ भी व्यवस्थित रूप से नकली सकारात्मक या नकली नकारात्मक समीक्षा दे सकते हैं। यह किसी आइटम के लिए सही माध्य रेटिंग की गणना करने की कोशिश करते समय त्रुटि के विभिन्न रूपों का निर्माण करेगा।

हालाँकि, यदि आप जनसंख्या का यादृच्छिक नमूना लेना चाहते हैं, तो ऐसे पूर्वाग्रह रद्द हो जाएंगे, और पर्याप्त मात्रा में नमूने के साथ, आपको अभी भी सही मतलब मिलेगा।

बेशक, आपको अमेज़ॅन पर एक यादृच्छिक नमूना नहीं मिलता है, और जोखिम यह है कि किसी आइटम के लिए आपको मिलने वाले चूहे का विशेष सेट व्यवस्थित रूप से अधिक उदार या सख्त और इतने पर पक्षपाती है। उस ने कहा, मुझे लगता है कि अमेज़ॅन के उपयोगकर्ता सराहना करेंगे कि उपयोगकर्ता प्रस्तुत रेटिंग अपूर्ण नमूने से आते हैं। मुझे यह भी लगता है कि यह काफी संभावना है कि एक उचित नमूना आकार के साथ कि कई मामलों में, प्रतिक्रिया पूर्वाग्रह के अधिकांश मतभेद गायब होने लगेंगे।

मतलब से परे संभव अग्रिम

रेटिंग की सटीकता में सुधार के संदर्भ में, मैं माध्य की सामान्य अवधारणा को चुनौती नहीं दूंगा, बल्कि मुझे लगता है कि किसी वस्तु के लिए वास्तविक जनसंख्या औसत रेटिंग का अनुमान लगाने के अन्य तरीके हैं (यानी, मतलब रेटिंग जो प्राप्त की जाएगी। एक बड़े प्रतिनिधि नमूने आइटम का मूल्यांकन करने के लिए कहा गया)।

  • उनके भरोसे के आधार पर वेट रैटर्स
  • एक बायेसियन रेटिंग प्रणाली का उपयोग करें जो सभी वस्तुओं और विशिष्ट आइटम से औसत रेटिंग के भारित योग के रूप में औसत रेटिंग का अनुमान लगाता है, और रेटिंग की संख्या बढ़ने पर विशिष्ट आइटम के लिए भार बढ़ाता है।
  • आइटमों में किसी भी सामान्य रेटिंग की प्रवृत्ति के आधार पर एक रैटर की जानकारी को समायोजित करें (उदाहरण के लिए, आमतौर पर 3s देने वाले किसी व्यक्ति से 5 का मूल्य, जो आमतौर पर 4s देता है) से अधिक होगा।

इस प्रकार, यदि रेटिंग में सटीकता अमेज़ॅन का प्राथमिक लक्ष्य था, तो मुझे लगता है कि इसे प्रति आइटम रेटिंग की संख्या बढ़ाने और उपरोक्त कुछ रणनीतियों को अपनाने का प्रयास करना चाहिए। "बेस्ट-ऑफ" रैंकिंग बनाते समय ऐसे दृष्टिकोण विशेष रूप से प्रासंगिक हो सकते हैं। हालांकि, पृष्ठ पर विनम्र रेटिंग के लिए, यह अच्छी तरह से हो सकता है कि नमूना का मतलब बेहतर सादगी और पारदर्शिता के लक्ष्यों को पूरा करता है।

संदर्भ

  • साल, एफई, डाउनी, आरजी और लाहे, एमए (1980)। रेटिंग्स को रेटिंग दें: रेटिंग डेटा की साइकोमेट्रिक गुणवत्ता का आकलन करना। मनोवैज्ञानिक बुलेटिन, 88, 413।

1
+1। मुझे लगता है कि यह बहुत अच्छे तरीके से आपके पिछले जवाब से आगे बढ़ता है। मैं विशेष रूप से खंड को फिर से पसंद करता हूं 'क्यों अमेज़ॅन के लिए माध्य अच्छा है', जो कि अधिक स्पष्ट रूप से गणना करता है कि मैं अपने आखिरी वाक्य में क्या पाने की कोशिश कर रहा था। 'पैमाने के विभिन्न उपयोग' भी काफी व्यावहारिक हैं; मैं उस साहित्य की समीक्षा का हवाला दूंगा, अगर आप किसी अच्छे को जानते हैं। मैं हालांकि, ध्यान दें कि आखिरी खंड कुछ हद तक तनाव w / 2nd है।
गंग - मोनिका

2
धन्यवाद। मैंने रेटिंग पूर्वाग्रह साहित्य का संदर्भ जोड़ा, और अंत में कुछ जोड़ा जो दो दृष्टिकोणों को समेटने की कोशिश करता है।
जेरोमे एंग्लीम

2
+1 @JeromyAnglim - समस्या के विभिन्न पहलुओं पर प्रकाश डालने वाला गहन परिप्रेक्ष्य। कुडोस!
पीएचडी

+1, बढ़िया जवाब। हालांकि मुझे एक वाक्य थोड़ा भ्रामक लगा। जब आपने कहा था "हालांकि, यदि आप जनसंख्या का यादृच्छिक नमूना लेना चाहते थे, तो इस तरह के पूर्वाग्रह रद्द हो जाएंगे, और पर्याप्त मात्रा में चूहे के नमूने के साथ, आपको अभी भी सही मतलब मिलेगा।" - मुझे नहीं लगता कि यह सभी पूर्वाग्रहों पर लागू होता है, भले ही आपके पास जनसंख्या का यादृच्छिक नमूना हो।
माइकल बिशप

1
@MichaelBishop धन्यवाद, मैं मानता हूँ कि मेरी भाषा वहाँ थोड़ी टेढ़ी थी। मुझे लगता है कि यह इस बात पर निर्भर करता है कि "सही मतलब" से क्या मतलब है। मैं देख सकता हूं कि अगर आपके पास आबादी में फेक है तो यह अन्यायपूर्ण आबादी को काल्पनिक "सच" से दूर कर सकता है। मैं अधिक सोच रहा था कि सभी वस्तुओं पर लागू होने वाले व्यक्तियों के किसी भी व्यवस्थित पूर्वाग्रह को रद्द कर दिया जाएगा ताकि परिणामी माध्य के आधार पर वस्तुओं के निष्पक्ष रैंक क्रम को सक्षम किया जा सके।
जेरोमे एंग्लीम

15

यहां कुछ तकनीकी होने के लिए, वे रेटिंग वास्तव में एक लिकर्ट स्केल नहीं हैं ; वे सिर्फ क्रमिक मूल्यांकन कर रहे हैं। अब, यह कहते हुए कि, आपकी बात अनिवार्य रूप से सही है। हालाँकि, मुझे लगता है कि बहुत अधिक इस मुद्दे से बना है। ध्यान देने वाली एक बात यह है कि आमतौर पर यह समझा जाता है कि कई क्रमिक वस्तुओं का औसत लगभग अंतराल हो सकता है, और इस प्रकार, जब कई रेटिंग होती हैं, तो इसका मतलब अधिक उचित प्रतिनिधित्व होता है। मुझे यह उत्तर @JeromyAnglim द्वारा उत्कृष्ट (वास्तव में, प्रश्न और सभी परिचर उत्तर पढ़ने लायक हैं) मिला है। अधिक सैद्धांतिक उपचार के लिए, यहां देखें। एक अलग नोट पर, मुझे अमेज़ॅन पसंद है, लेकिन मुझे उनसे सांख्यिकीय परिष्कार की उम्मीद करने का कोई कारण नहीं दिखता है, विशेष रूप से बुनियादी साइट डिजाइन के संदर्भ में - बिंदु उपभोक्ताओं द्वारा प्रयोज्य है, न कि सांख्यिकी प्रोफेसरों को प्रभावित करने के लिए।


2
अमेज़न ऑनलाइन विज्ञापन और वेबसाइट के उपयोग के लिए प्रयोगात्मक डिजाइन में (इंटरनेट) प्रौद्योगिकी उद्योग में नेताओं में से एक रहा है। आप यह सुनिश्चित कर सकते हैं कि वे वास्तव में अपने सांख्यिकीय दृष्टिकोण में काफी परिष्कृत हैं । :-) आपकी बात अच्छी है। इसे एक छोटे से कदम के रूप में लेने के लिए, क्या आप सोच सकते हैं कि अमेज़ॅन कुछ "अधिक परिष्कृत" कर रहे थे और किसी ने उन्हें एक साधारण औसत का उपयोग करके जाँच की, पाया कि कुछ वस्तुओं को उनके औसत से "उच्च" और दूसरों को "कम" रैंक दिया गया, एक को ऊपर उठाते हुए। उत्पादों के बारे में अपने "छिपे हुए पक्षपात" को समझाने की कोशिश करने के लिए अमेज़न को उपद्रव और छोड़ना?
कार्डिनल

1
अन्य सेवाएं, जैसे, नेटफ्लिक्स, केवल "सारांश" डेटा प्रदान करके इस समस्या से बचते हैं। :)
कार्डिनल

@ कार्डिनल, यह बहुत दिलचस्प है, मुझे नहीं पता था कि अमेज़ॅन के बारे में।
गुंग - फिर से बहाल करें मोनिका

15

इस पर सभी की अच्छी राय है। मुझे नहीं लगता कि मैं बहुत अधिक जोड़ सकता हूं। हालांकि, मैं पोस्ट करेंगे यह :


7
मुझे कॉमिक हाइलाइट्स से लगता है कि कुछ लोग किसी आइटम की गुणवत्ता के गरीब न्यायाधीश हैं, और ऐसे कई लोगों पर औसतन, आपको एक खराब औसत मिलता है। भीड़ के सामान्य ज्ञान में पता चलता है कि औसत काफी अच्छा प्रदर्शन करता है जहां कम से कम लोगों के उचित अनुपात में कुछ ज्ञान होता है। भरोसेमंदता से वेटिंग रेटिंग भी मुद्दों पर काबू पाने के लिए एक रणनीति हो सकती है।
जेरोमे एंग्लीम

1
दूसरा विकल्प नेटफ्लिक्स शैली की सिफारिशों का उपयोग कर रहा है, अन्य उपयोगकर्ताओं की रेटिंग के साथ आपकी रेटिंग की तुलना करके, और फिर आपके द्वारा समान विकल्पों वाले उपयोगकर्ताओं द्वारा दी गई रेटिंग का औसत।
राहुल

1
@ वराहुल यह एक अच्छी बात है। मेरे उत्तर में मैं कई बार यह मान लेता हूं कि रेटिंग्स काफी हद तक सही स्कोर + त्रुटि हैं, भले ही त्रुटि के लिए संरचना हो। लेकिन जब यह उन डोमेन की बात आती है जहां व्यक्तिगत प्राथमिकता गुणवत्ता की परिभाषा का हिस्सा है, तो यह हमेशा उतना अर्थ नहीं रखता है।
जेरोमी एंग्लीम

मुझे वह पसंद है, और यही कारण है कि (एक उपभोक्ता के रूप में) मैं समीक्षाओं को पढ़ने की कोशिश करता हूं और न केवल सितारों की संख्या को देखता हूं। लेकिन मुझे लगा कि यह विडंबना है कि इस मामले में माध्यिका, विधा और प्रतिशतता के अधिक "परिष्कृत" तरीके अर्थ की तुलना में अधिक खराब परिणाम देते हैं ;-)
डैरेन कुक

3

मेरे अनुभव में, रेटिंग-स्केल डेटा का मतलब अक्सर वास्तविक दुनिया मैट्रिक्स के स्तर के साथ सबसे अधिक निकटता से जुड़ा होता है जिसे हम रेटिंग स्केल के साथ जोड़ने का प्रयास करते हैं। हमने बहुत सारे रैखिक संबंध पाए हैं, और औसत इसलिए डेटा को संक्षेप में प्रस्तुत करने के बेहतर तरीकों में से एक है। जैसा कि कहा जा रहा है, जैसा कि जिरोमी ने बताया है, रेटिंग के पैमाने की केंद्रीय प्रवृत्ति का विश्लेषण करने के अधिकांश तरीके समान परिणाम (रैंक ऑर्डर, आदि) अधिकांश समय देंगे।

इसके अलावा, मुझे संदेह है कि अमेज़ॅन संभवतः वैज्ञानिक वैधता के साथ एक या दूसरे तरीके से संबंधित नहीं है। अमेज़ॅन का लक्ष्य, अंत में, लोगों को Amazon.com पर अधिक खरीदारी करने के लिए प्राप्त करना है, और जिस तरह से समीक्षाओं को प्राप्त करने में मदद मिलती है, वह संभवत: जो भी एक-नंबर सारांश का उपयोग किया जाता है, उसके साथ भिन्न नहीं होगा। अच्छे उत्पादों को पुरस्कृत किया जाएगा, वास्तव में खराब उत्पादों को दंडित किया जाएगा, और तंत्रिका खरीदारों को पेशेवरों और विपक्षों की अधिक विस्तार से समीक्षा करने का मौका मिलेगा।


2

सिस्टम को गेमिंग करने के कारण अमेज़न रेटिंग्स भ्रामक हैं। जब ग्राहकों को 5-स्टार समीक्षा के बदले में छूट और मुफ्त माल की पेशकश की जाती है, तो रेटिंग संख्या या साधन के "आँकड़े" लूट हो जाते हैं।


1
क्या आपके पास कोई डेटा है कि ऐसी चीजें कितनी बार होती हैं?
माइकल बिशप

1

तुमने एक अच्छी बात कही। क्रमिक संख्याओं का अर्थ लेना कुछ भ्रामक है। कई रैंकिंग का कोई भी सारांश इस तथ्य से पीड़ित होगा कि मेरा व्यक्तिपरक 3 वास्तव में आपके 4 के बराबर हो सकता है। इसलिए अलग-अलग व्यक्तिगत स्कोर का संयोजन संभवतः सबसे बड़ी समस्या है। औसतन 3 और 4 के औसत को 3.5 के रूप में व्याख्या करना लगभग अशुद्ध नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.