दो रैंकिंग एल्गोरिदम की तुलना कैसे करें?


12

मैं दो रैंकिंग एल्गोरिदम की तुलना करना चाहता हूं। इन एल्गोरिदम में, ग्राहक अपनी खोज में कुछ शर्तों को निर्दिष्ट करता है। क्लाइंट की आवश्यकताओं के अनुसार, इन एल्गोरिथ्म को डेटा बेस में प्रत्येक आइटम के लिए एक अंक प्रदान करना चाहिए और उच्चतम स्कोर के साथ आइटम पुनर्प्राप्त करना चाहिए।

मैंने इस साइट में अपने प्रश्न से संबंधित विभिन्न विषयों को पढ़ा है और नेट की खोज की है। मेरी खोजों के अनुसार, सबसे महत्वपूर्ण लेख जो रैंकिंग एल्गोरिदम की तुलना करने के लिए कुछ मैट्रिक्स के बारे में बताता है, वह यह था: ब्रायन मैकफी और गर्ट आरजी लंकरीकेट, मेट्रिक लर्निंग टू रैंक, आईसीएमएल 2010 ( https://bmcfee.github.io/papers/mlr) .pdf ) पर क्लिक करें। मुझे लगता है कि prec @ k, MAP, MRR, और NDCG, उपयोग करने के लिए अच्छे मैट्रिक्स हैं, लेकिन मुझे एक समस्या है:

मेरा एल्गोरिथ्म परिणामों को क्रमबद्ध करता है, इसलिए मेरी परिणाम सूची में पहला आइटम उच्चतम स्कोर के साथ सबसे अच्छा है, दूसरे परिणाम में दूसरा शीर्ष स्कोर है, और इसी तरह। मैं अपने खोज एल्गोरिथ्म को उदाहरण के लिए 5 सर्वश्रेष्ठ परिणामों को सीमित करता हूं। परिणाम सबसे शीर्ष 5 आइटम हैं। तो, सटीकता होगी 1. जब मैं सबसे अच्छा परिणाम खोजने के लिए अपनी खोज को सीमित करता हूं, तो यह सबसे अच्छा लगता है। फिर से, सटीकता 1. होगी। लेकिन समस्या यह है कि, यह उन लोगों के लिए अस्वीकार्य है जो इस परिणाम को देखते हैं।

मैं क्या कर सकता हूँ? मैं इन एल्गोरिदम की तुलना कैसे कर सकता हूं और दिखा सकता हूं कि एक दूसरे से बेहतर है?

जवाबों:


6

रियायती संचयी लाभ (DCG) किसी भी खोज इंजन द्वारा रैंकिंग के मूल्यांकन के लिए उपयोग किए जाने वाले सबसे लोकप्रिय मीट्रिक में से एक है। यह रैंकिंग गुणवत्ता का एक पैमाना है। सूचना पुनर्प्राप्ति में, इसका उपयोग अक्सर वेब खोज इंजन की प्रभावशीलता को मापने के लिए किया जाता है।

यह निम्नलिखित मान्यताओं पर आधारित है:

  1. यदि खोज परिणाम में पहले से दिखाई दे रहे हैं तो अत्यधिक प्रासंगिक दस्तावेज़ अधिक उपयोगी हैं।
  2. अत्यधिक प्रासंगिक दस्तावेज़, आंशिक रूप से प्रासंगिक दस्तावेजों की तुलना में अधिक उपयोगी होते हैं जो गैर-प्रासंगिक दस्तावेजों से बेहतर होते हैं।

DCG के लिए सूत्र निम्नानुसार है:

(1)डीसीजीपी=Σमैं=1पीआरएलमैंएलजी2(मैं+1)=आरएल1+Σमैं=2पीआरएलमैंएलजी2(मैं+1)

कहाँ पे:

  • मैं खोज परिणाम में एक दस्तावेज़ की लौटी स्थिति है।
  • आरएलमैं
  • पी पर योग (परिणामों की संख्या लौटी), इसलिए संचित संचयी लाभ लौटे परिणाम का प्रदर्शन मेट्रिक्स देता है।

DCG CG (संचयी लाभ) से लिया गया है , जो इसके द्वारा दिया गया है:

(2)सीजीपी=Σमैं=1पीआरएलमैं

सीजीपी

(3)डीसीजीपी=Σमैं=1पी2आरएलमैं-1एलजी2(मैं+1)

पीडीसीजीपी

इस समस्या को दूर करने के लिए, सामान्यीकृत DCG (nDCG) प्रस्तावित है। इसके द्वारा दिया गया है,

nडीसीजीपी=डीसीजीपीमैंडीसीजीपी

मैंडीसीजीपीडीसीजीपी

मैंडीसीजीपी=Σमैं=1|आरएल|2आरएलमैं-1एलजी2(मैं+1)

कहां - REL | स्थिति पी द्वारा प्रासंगिकता द्वारा प्रासंगिक दस्तावेजों के क्रम की सूची है।

एक आदर्श रैंकिंग एल्गोरिथ्म के लिए,

डीसीजीपी=मैंडीसीजीपी

चूंकि nDCG का मान सीमा [0,1] के भीतर बढ़ाया जाता है, इन मैट्रिक्स का उपयोग करके क्रॉस-क्वेरी तुलना संभव है।

कमियां: 1. nDCG परिणाम में खराब दस्तावेजों की पुनर्प्राप्ति को दंडित नहीं करता है। दस्तावेजों के लिए जिम्मेदार प्रासंगिकता के मूल्यों को समायोजित करके यह तय करने योग्य है। 2. nDCG लापता दस्तावेजों को दंडित नहीं करता है। यह पुनर्प्राप्ति आकार को ठीक करने और लापता दस्तावेजों के लिए न्यूनतम स्कोर का उपयोग करके तय किया जा सकता है।

NDCG के उदाहरण गणना देखने के लिए इसे देखें ।

संदर्भ


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.