क्या खोज इंजन पूर्वाग्रह का पता लगाने का एक तरीका है?


9

खोज इंजनों पर सूचना द्वारपाल के रूप में तेजी से भरोसा किया जा रहा है, फिर भी खोज इंजन द्वारा रैंक के परिणामों के लिए उपयोग किए जाने वाले मानदंड उपयोगकर्ताओं के लिए अपारदर्शी है। उपयोगकर्ता यह सुनिश्चित कर सकते हैं कि खोज परिणाम गुणवत्ता की कीमत पर कुछ ब्याज हासिल करने के लिए उनके परिणामों को किसी तरह से पक्षपातपूर्ण या छेड़छाड़ नहीं किया जाए?

सरकारें नियमित रूप से मांग करती हैं कि खोज प्रदाता राजनीतिक रूप से अवांछनीय समझी जाने वाली वेबसाइटों की रैंकिंग को हटा दें या कम करें। व्यवसाय अपने राजस्व को बढ़ाने के लिए दूसरों पर कुछ परिणाम बढ़ाने के लिए प्रदाताओं को भुगतान कर सकते हैं। इससे पहले कि वे उपयोगकर्ताओं को वापस प्रेषित करें, फायरवॉल परिणाम के साथ मध्यस्थता कर सकता है।

यहां तक ​​कि रैंकिंग एल्गोरिदम के लिए सहज रूप से बदलाव जो सतह पर नहीं हो सकता है पक्षपाती प्रतीत होता है, वास्तव में कुछ सामान्य विशेषता (वास्तविक गुणवत्ता से असंबंधित) साझा करने वाली वेबसाइटों को नुकसान पहुंचाने के लिए डिज़ाइन किया जा सकता है।

क्या खोज इंजन पूर्वाग्रह का पता लगाना संभव है, समय-समय पर परिणामों की निगरानी करना और मूल्यांकन करना कि क्या कुछ "छिपा हुआ चर" (शायद एक राजनीतिक संबद्धता) वेबसाइट रैंकिंग में बदलाव का एक ड्राइविंग कारक है?

एक डरपोक प्रदाता धीरे-धीरे समय के साथ लक्षित वेबसाइटों (और शायद यादृच्छिक वेबसाइटों के साथ-साथ उपयोगकर्ताओं को विचलित करने) की रैंकिंग कम कर सकता है। एक खोज के बिना एक प्रदाता कितना पूर्वाग्रह कर सकता है, इस पर क्या सीमाएं हैं? या फिर भारित रैंकिंग मानदंड का चयन करके हमेशा इस तरह के हस्तक्षेप को छिपाना संभव है जो संयोग से इच्छित परिणाम ("डेटा स्नूपिंग" के माध्यम से) पैदा करता है।

यदि रैंकिंग मानदंड को सार्वजनिक किया जाता है तो क्या इसका कोई परिवर्तन होता है? क्या हमें खोज इंजनों का उपयोग करने वाले मापदंडों को खोलने की आवश्यकता है?

यह मुझे उस परिणाम की याद दिलाता है, जो यह पता लगाता है कि सीडीओ जैसे जटिल वित्तीय उपकरण को विक्रेता द्वारा छेड़छाड़ किया गया है या नहीं, यह सघन-उपसमूह समस्या को हल करने के बराबर है:

http://www.cs.princeton.edu/~rongge/derivative.pdf

धन्यवाद!


4
यह एक अच्छा सवाल है, लेकिन मैं केवल एक cstheory संबंधित प्रश्न पूछना सुनिश्चित करके इसे संशोधित करूंगा। सबसे स्पष्ट यह है कि यह एक संदर्भ अनुरोध करें और पूछें "क्या किसी ने पहले से ही इस पर ध्यान दिया है?"। अगर आपको यकीन है कि किसी के पास नहीं है, तो "औपचारिक रूप से यह कैसे मॉडल किया जा सकता है?" एक अच्छा सवाल हो सकता है। यदि आप बहुत सारे प्रश्न इधर-उधर रखते हैं, उनमें से कुछ संभावित रूप से गैर-संस्थागत हैं, तो इसे "वास्तविक प्रश्न नहीं" के रूप में बंद किया जा सकता है।
आर्टेम काज़नाचेव

ध्यान दें कि एक रैंकिंग योजना को सार्वजनिक करने से इसे स्पैमर्स द्वारा हमला करने के लिए खोला जाता है। एक दिलचस्प संस्करण होगा: "क्या कोई 'सार्वजनिक-कुंजी' रैंकिंग के बराबर है"
सुरेश वेंकट

@SureshVenkat "एक रैंकिंग योजना को सार्वजनिक करने के लिए इसे हमला करने के लिए खोल देता है" जैसा कि आप सुझाव दे रहे हैं कि <s> सुरक्षा </ s> अस्पष्टता के माध्यम से निष्पक्षता;)।
आर्टेम काज़नाचेव

नहीं, लेकिन इसीलिए मैंने रैंकिंग योजनाओं के सार्वजनिक-कुंजी संस्करणों के बारे में पूछा।
सुरेश वेंकट

चूंकि खोज प्रक्रिया में भाग लेने वाले दलों में से अधिकांश दुर्भावनापूर्ण उपयोगकर्ता हैं, इसलिए एक सामान्य समाधान यह है कि इस प्रक्रिया को स्वार्थी उपयोगकर्ताओं के साथ एक खेल के रूप में मॉडल किया जाए। अगर सही तरीके से मॉडलिंग की जाए तो हम पता लगा सकते हैं कि सर्च इंजन के लिए ऐसा करना फायदेमंद है या नहीं। फिर हम इस तरह की छेड़छाड़ को रोकने के लिए एक तंत्र डिजाइन कर सकते हैं।
हीलियम

जवाबों:


3

यह स्पष्ट रूप से एक बहुत ही समाप्त हो गया सवाल है, लेकिन इसलिए विषय पर बने रहने के लिए, यहां "निष्पक्षता" के विचार के लिए एक सीएस सिद्धांत दृष्टिकोण है और इसे कैसे लागू किया जाए।

जागरूकता के माध्यम से "निष्पक्षता" Dwork, हार्ड्ट, पित्ती, रीडिंग, Zemel http://arxiv.org/abs/1104.3913

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.