रैंक सूचियों की तुलना

मान लीजिए कि दो समूहों, जिनमें और शामिल हैं, प्रत्येक श्रेणी में 25 वस्तुओं का एक सेट है जो कम से कम महत्वपूर्ण है। इन रैंकिंग की तुलना करने के सबसे अच्छे तरीके क्या हैं? $n_1$ $n_2$

स्पष्ट रूप से, 25 मान-व्हिटनी यू परीक्षण करना संभव है, लेकिन इससे 25 परीक्षण के परिणाम की व्याख्या होगी, जो बहुत अधिक हो सकती है (और, सख्त उपयोग में, कई तुलनाओं के सवाल उठाती है)। यह मेरे लिए भी पूरी तरह से स्पष्ट नहीं है कि रैंक इस परीक्षण की सभी मान्यताओं को पूरा करती है।

मुझे रेटिंग बनाम रैंकिंग पर साहित्य के बिंदुओं में भी दिलचस्पी होगी।

कुछ संदर्भ: ये 25 आइटम सभी शिक्षा से संबंधित हैं और दो समूह विभिन्न प्रकार के शिक्षक हैं। दोनों समूह छोटे हैं।

@Ttnphns के जवाब में EDIT:

मेरा मतलब समूह 1 से समूह 2 में वस्तुओं की कुल रैंक की तुलना करने के लिए नहीं था - जो कि एक स्थिर होगा, जैसा कि @ttnphns बताते हैं। लेकिन समूह 1 और समूह 2 में रैंकिंग अलग-अलग होगी; वह है, समूह 1 आइटम 2 को समूह 2 की तुलना में अधिक रैंक कर सकता है।

मैं उनकी तुलना कर सकता था, आइटम द्वारा आइटम, प्रत्येक आइटम का माध्य या औसत दर्जे का होना और 25 परीक्षण करना, लेकिन मुझे आश्चर्य हुआ कि क्या ऐसा करने के लिए कुछ बेहतर तरीका था।

ranking group-differences

— पीटर Flom - को पुनः स्थापित मोनिका
स्रोत

यदि प्रत्येक व्यक्ति 25 चर में योग की तुलना में 25 वस्तुओं को क्रमबद्ध करता है, तो एक स्थिर (325) है। यह देखते हुए कि आपके कहने का क्या मतलब है the best ways to compare these rankings- 2 समूहों को किस प्रकार के अंतर से आप जानना चाहेंगे?

— ttnphns

हो सकता है कि प्रत्येक समूह के लिए Kemeny's Median की गणना करें? मैंने इसे स्वयं नहीं किया है और यह नहीं जानता कि 2 परिणाम सांख्यिकीय रूप से तुलना किए जा सकते हैं (यानी जनसंख्या का अनुमान)।

— ttnphns

एक अन्य विकल्प को दोहराया जा सकता है क्रमिक प्रतिगमन (जहां इंटरैक्शन समूह कारक और आरएम कारक आपके अंतर होंगे); यह बहुराष्ट्रीय वितरण और लॉगिट लिंक के साथ जीईई मॉडल के माध्यम से किया जा सकता है। लेकिन, फिर से, क्योंकि 25 वस्तुओं का योग एक स्थिर है, मैं अब यह नहीं कह सकता कि क्या यह गणितीय रूप से वैध है।

— ttnphns

मेरे पास पुस्तक नहीं है, लेकिन डी हैंड द्वारा "मापन सिद्धांत और अभ्यास" कुछ मुद्दों पर चर्चा करता है जो इस तरह से ध्वनि करते हैं। क्या विशेष रूप से आप रैंकिंग में "अंतर" के बारे में जानना चाहते हैं। उदाहरण के लिए, क्या आप पहले प्रत्येक समूह के लिए एक समग्र रैंकिंग नहीं बना सकते हैं, और फिर रैंक सहसंबंध ले सकते हैं?

— Corone

@PeterFlom आप अंत में रैंक तुलना के लिए एक समाधान मिल गया है? यदि हाँ, तो क्या आप इसे पोस्ट करना चाहेंगे? :)

— मार्क हेकमैन

जवाबों:

सारांश

मैं विवरण अनुभाग में अपने विचार साझा करता हूं । मुझे लगता है कि वे पहचानने में उपयोगी हैं कि हम वास्तव में क्या हासिल करना चाहते हैं।

मुझे लगता है कि यहां मुख्य समस्या यह है कि आपने परिभाषित नहीं किया है कि रैंक समानता का क्या मतलब है। इसलिए, कोई नहीं जानता कि रैंकों के बीच अंतर को मापने का कौन सा तरीका बेहतर है।

प्रभावी रूप से, यह हमें अनुमानों के आधार पर अस्पष्ट तरीके से चुनने के लिए छोड़ देता है।

मैं वास्तव में सुझाव देता हूं कि पहले गणितीय अनुकूलन उद्देश्य को परिभाषित करें। तभी हम निश्चित होंगे कि क्या हम वास्तव में जानते हैं कि हम क्या चाहते हैं।

जब तक हम ऐसा नहीं करते, तब तक वास्तव में यह नहीं पता कि हम क्या चाहते हैं। हम हो सकता है लगभग जानते हैं कि हम क्या चाहते हैं, लेकिन लगभग जानने जानते हुए भी । $\ne$

विवरण में मेरा पाठ अनिवार्य रूप से रैंक समानता की गणितीय परिभाषा तक पहुंचने की दिशा में एक कदम है । एक बार जब हम इसे कील करते हैं, तो हम इस तरह की समानता को मापने का सबसे अच्छा तरीका चुनने के लिए आत्मविश्वास से आगे बढ़ सकते हैं।

विवरण

युर टिप्पणियों में से एक पर आधारित:

" उद्देश्य यह देखना है कि क्या दो समूहों की रैंकिंग अलग है ", पीटर फ्लोम।

उद्देश्य की कड़ाई से व्याख्या करते हुए इसका उत्तर देना :

रैंकों, किसी भी आइटम है, तो अलग हैं , वहां मौजूद ऐसा है कि , जहां आइटम के के पद है समूह द्वारा और है एक ही आइटम की रैंक लेकिन समूह द्वारा । $i \in \{1,2,\ldots,25\}$ $i$ $a_i \ne b_i$ $a_i$ $i$ $a$ $b_i$ $b$
और, रैंक अलग नहीं हैं।

लेकिन मुझे नहीं लगता कि आप वास्तव में उस सख्त व्याख्या को चाहते हैं । इसलिए, मुझे लगता है कि आपके कहने का वास्तव में क्या मतलब है:

कैसे अलग-अलग समूहों के रैंक कर रहे हैं और ? $a$ $b$

यहां एक समाधान केवल न्यूनतम संपादित दूरी को मापने के लिए है । Ie ऐसे कितने न्यूनतम संपादन हैं जो समूह की रैंक सूची पर किए जाने की आवश्यकता जैसे कि यह समूह समान हो । $a$ $b$

एक एडिट को दो वस्तुओं की अदला-बदली के रूप में परिभाषित किया जा सकता है, और कितने hops की आवश्यकता के आधार पर लागत अंक निर्धारित करता है। इसलिए यदि आइटम को आइटम साथ स्वैप करना होगा ( और के समूहों के बीच समान रैंक प्राप्त करने के लिए ), तो इस संपादन की लागत । $n$ $1$ $3$ $a$ $b$ $3$

लेकिन क्या यह तरीका उपयुक्त है? इसका उत्तर देने के लिए, आइए इसे थोड़ा और गहराई से देखें:

यह सामान्यीकृत नहीं है। अगर हम कहते हैं कि समूहों के रैंक के बीच की दूरी है , जबकि समूह के रैंक के बीच की दूरी है है, यह जरूरी नहीं है कि और अधिक से अधिक एक दूसरे के समान हैं कर रहे हैं एक दूसरे के लिए (इसका मतलब यह भी हो सकता है कि वस्तुओं के एक बहुत बड़े सेट को रैंकिंग कर रहे थे)। $a,b$ $3$ $c,d$ $123$ $a,b$ $c,d$ $c,d$
यह मानता है कि प्रत्येक संपादन की लागत हॉप्स की संख्या के संबंध में रैखिक है । क्या यह हमारे एप्लिकेशन डोमेन के लिए सही है? क्या ऐसा हो सकता है कि एक तार्किक संबंध अधिक उपयुक्त हो? या एक घातीय ?
यह मानता है कि सभी आइटम समान रूप से महत्वपूर्ण हैं। रैंकिंग आइटम (माना) में जैसे असहमति रैंकिंग आइटम (माना) में असहमति के समान व्यवहार किया जाता है । क्या यह आपके डोमेन में सही है? उदाहरण के लिए, यदि हम पुस्तकों की रैंकिंग कर रहे हैं, तो TAOCP जैसी प्रसिद्ध पुस्तक की रैंकिंग पर असहमत हैं, TAOUP जैसी भयानक पुस्तक की रैंकिंग पर असहमति के लिए भी उतना ही महत्वपूर्ण है ? $1$ $5$

एक बार जब हम उपरोक्त बिंदुओं को संबोधित करते हैं, और दो रैंकों के बीच समानता के एक उपयुक्त माप तक पहुंचते हैं, तो हमें और अधिक दिलचस्प प्रश्न पूछने की आवश्यकता होगी, जैसे:

इस तरह के मतभेदों, या अधिक चरम मतभेद अवलोकन की संभावना, क्या है अगर समूहों के बीच अंतर और केवल यादृच्छिक मौका के कारण था? $a$ $b$

— गुफाओं का आदमी
स्रोत

यह 'विल्कोसन साइन-रैंक टेस्ट' ( विकिपीडिया लिंक ) जैसा लगता है । यह मानते हुए कि आपके रैंकों का मान एक ही सेट (यानी [1, 25]) से है, तो यह एक युग्मित-अंतर परीक्षण है (शून्य-परिकल्पना के साथ ये जोड़े बेतरतीब ढंग से उठाए गए थे)। NB यह एक असमानता स्कोर है!

उस विकी पेज में दोनों Rऔर Pythonकार्यान्वयन जुड़े हुए हैं।

— danodonovan
स्रोत

दिलचस्प। मैं एक जोड़ी अंतर Wilcoxon के बारे में नहीं सुना था।

— पीटर Flom - को पुनः स्थापित मोनिका

चेतावनी: यह एक महान प्रश्न है और मुझे इसका उत्तर नहीं पता है, इसलिए यह वास्तव में "क्या होगा अगर मैं" होता तो मैं क्या करता:

इस समस्या में बहुत सारी स्वतंत्रताएं हैं और बहुत सारी तुलनाएं कर सकते हैं, लेकिन सीमित आंकड़ों के साथ यह वास्तव में कुशलता से डेटा एकत्र करने की बात है। यदि आप नहीं जानते कि किस परीक्षण को चलाना है, तो आप क्रमपरिवर्तन का उपयोग करके हमेशा "आविष्कार" कर सकते हैं:

पहले हम दो कार्यों को परिभाषित करते हैं:

वोटिंग फ़ंक्शन : रैंकिंग कैसे स्कोर करें ताकि हम एक ही समूह की सभी रैंकिंग को मिला सकें। उदाहरण के लिए, आप शीर्ष क्रम वाले आइटम पर 1 अंक और अन्य सभी को 0 आवंटित कर सकते हैं। हालाँकि आप बहुत सारी जानकारी खो रहे होंगे, इसलिए शायद इसका उपयोग करना बेहतर होगा जैसे: शीर्ष क्रम वाले आइटम को 1 अंक, दूसरे स्थान पर 2 अंक, आदि मिलते हैं।
तुलनात्मक कार्य : दो समूहों के बीच दो समग्र स्कोर की तुलना कैसे करें। चूंकि दोनों एक वेक्टर होंगे, इसलिए अंतर का उपयुक्त मानदंड काम करेगा।

अब निम्नलिखित करें:

पहले दो समूहों में प्रत्येक आइटम के लिए मतदान समारोह का उपयोग करके औसत स्कोर की गणना करके एक परीक्षण सांख्यिकीय की गणना करें, इससे आकार 25 के दो वैक्टर को जन्म देना चाहिए।
फिर तुलनात्मक फ़ंक्शन का उपयोग करके दो परिणामों की तुलना करें, यह आपकी परीक्षा सांख्यिकीय होगी।

समस्या यह है कि हम परीक्षण के वितरण को शून्य के तहत नहीं जानते हैं कि दोनों समूह समान हैं। लेकिन अगर वे समान हैं, तो हम समूहों के बीच यादृच्छिक रूप से फेरबदल कर सकते हैं।

इस प्रकार, हम दो समूहों के डेटा को मिला सकते हैं, उन्हें फेरबदल कर सकते हैं या पहले (मूल समूह A में टिप्पणियों की संख्या) समूह A के लिए टिप्पणियों और समूह B के लिए बाकी। अब इस नमूने के लिए परीक्षण आँकड़ा की गणना करें। दो चरणों से पहले। $n_1$

लगभग 1000 बार प्रक्रिया को दोहराएं, और अब अनुभवजन्य अशक्त वितरण के रूप में क्रमचय परीक्षण के आँकड़ों का उपयोग करें। यह आपको एक पी-मूल्य की गणना करने की अनुमति देगा, और एक अच्छा हिस्टोग्राम बनाने के लिए मत भूलना और अपने टेस्ट स्टेटिस्टिक के लिए एक रेखा खींचना चाहिए जैसे:

अब निश्चित रूप से यह सही मतदान और तुलनात्मक कार्यों को चुनने के बारे में है ताकि अच्छी शक्ति प्राप्त की जा सके। यह वास्तव में आपके लक्ष्य और अंतर्ज्ञान पर निर्भर करता है, लेकिन मुझे लगता है कि मतदान कार्य के लिए मेरा दूसरा सुझाव और मानदंड शुरू करने के लिए अच्छी जगहें हैं। ध्यान दें कि ये विकल्प और बड़ा अंतर कर सकते हैं। उपरोक्त प्लॉट मानदंड का उपयोग कर रहा था और यह मानदंड के साथ समान डेटा है: $l_1$ $l_1$ $l_2$

लेकिन सेटिंग के आधार पर, मुझे उम्मीद है कि बहुत अधिक आंतरिक यादृच्छिकता हो सकती है और कैच-ऑल मेथड वर्क करने के लिए आपको काफी बड़े सैंपल साइज की आवश्यकता होगी। यदि आपके पास उन विशिष्ट चीजों के बारे में पूर्व ज्ञान है, जो आपको लगता है कि दो समूहों (विशिष्ट वस्तुओं) के बीच भिन्न हो सकते हैं, तो अपने दो कार्यों को पूरा करने के लिए इसका उपयोग करें। (निश्चित रूप से, सामान्य रूप से ऐसा करने से पहले आप परीक्षण चलाते हैं और कुछ महत्वपूर्ण आवेदन प्राप्त होने तक चेरी-डिज़ाइन नहीं बनाते हैं )

यदि आप मेरी (गन्दा) कोड में रुचि रखते हैं तो PS मुझे एक संदेश शूट करें। यहां जोड़ना थोड़ा लंबा है, लेकिन मुझे इसे अपलोड करने में खुशी होगी।

— स्वेन
स्रोत

मुझे सचमुच यह विचार पसंद है।

— पीटर Flom - को पुनः स्थापित मोनिका