StackExchange प्रश्नों के लिए "दिलचस्पता" फ़ंक्शन


20

मैं StackExchange साइटों के लिए डेटा-माइनिंग पैकेज को एक साथ रखने की कोशिश कर रहा हूं और विशेष रूप से, मैं "सबसे दिलचस्प" प्रश्नों को निर्धारित करने की कोशिश में फंस गया हूं। मैं प्रश्न स्कोर का उपयोग करना चाहूंगा, लेकिन विचारों की संख्या के कारण पूर्वाग्रह को हटा सकता हूं, लेकिन मुझे नहीं पता कि इस कठोरता से कैसे संपर्क करें।

आदर्श दुनिया में, मैं v की गणना करके प्रश्नों को हल कर सकता था , जहाँvकुल मत है औरnविचारों की संख्या है। आखिरकार, यह उन लोगों के प्रतिशत को मापेगा जो प्रश्न को बढ़ाते हैं, उन लोगों के प्रतिशत को घटाते हैं जो प्रश्न को कम करते हैं।vnvn

दुर्भाग्य से, मतदान पैटर्न बहुत अधिक जटिल है। वोट एक निश्चित स्तर पर "पठार" करते हैं और इस पर बेतहाशा लोकप्रिय सवालों को कम करके आंका जाता है। व्यवहार में, 1 दृश्य और 1 अपवोट के साथ एक प्रश्न निश्चित रूप से स्कोर करेगा और 10,000 विचारों के साथ किसी भी अन्य प्रश्न की तुलना में उच्चतर क्रमबद्ध होगा, लेकिन 10,000 से कम वोट।

मैं वर्तमान में v का उपयोग कर रहा हूंएक अनुभवजन्य सूत्र के रूप में n + 1 लॉग करें , लेकिन मैं सटीक होना चाहूंगा। मैं गणितीय कठोरता के साथ इस समस्या का सामना कैसे कर सकता हूं?vlogn+1

कुछ टिप्पणियों को संबोधित करने के लिए, मैं बेहतर तरीके से समस्या को हल करने का प्रयास करूंगा:

चलो मैं के साथ एक सवाल है का कहना है कि वोट कुल और एन 0 बार देखा गया। मैं अनुमान लगाने के लिए क्या वोट कुल सक्षम होने के लिए चाहते हैं v 1 जब विचारों तक पहुंचने की संभावना सबसे अधिक है n 1v0n0v1n1

इस तरह मैं केवल लिए नाममात्र मान चुन सकता था और अपेक्षित v 1 कुल के अनुसार सभी प्रश्न ऑर्डर कर सकता था ।n1v1


मैंने SO datadump पर दो प्रश्न बनाए हैं, जिनके बारे में मैं बात कर रहा हूँ, बेहतर दिखाने के लिए:

स्कोर द्वारा औसत दृश्य

परिणाम:

स्कोर द्वारा देखे गए

दृश्य द्वारा औसत स्कोर (100-विचार बाल्टी)

परिणाम:

दृश्य द्वारा स्कोर


तुलना के दो सूत्र

परिणाम, निश्चित नहीं है कि क्या straighter बेहतर है: ( नीले रंग में,वीvnvlogn+1

सूत्र


यह निश्चित रूप से एक दिलचस्प सवाल है, लेकिन मुझे लगता है कि आप आँकड़े पर यह पूछने से बेहतर हो सकते हैं।

@ आप वास्तव में सही हो सकते हैं। मैं mods के लिए अगर वे सोचते हैं कि यह सबसे अच्छा है माइग्रेट करने के लिए झंडा हूँ।

1
विचार दिलचस्प-नेस में योगदान क्यों नहीं करेंगे? (लेकिन इससे भी बदतर, वे नकारात्मक रूप से योगदान क्यों करेंगे?) अधिक दिलचस्प चीजें अधिक बार देखी जाती हैं ... यहां मूलभूत समस्या यह है कि दिलचस्प भी क्या मतलब है? क्या इसका मतलब सामान्य ब्याज के प्रश्न या ऐसे प्रश्न हैं जो अधिक विशिष्ट उच्च स्तरीय दर्शकों के लिए रुचि के हैं? किसी को "गणितीय कठोरता" के साथ इस प्रश्न का उत्तर देने के लिए, इसे पहले कठोरता से पेश करने की आवश्यकता है।

विचारों को पूर्वाग्रह करता है क्योंकि एक प्रश्न, एक अच्छी साइट द्वारा लिंक हो सकता है, और बहुत सारे विचार प्राप्त कर सकता है - यदि आप शीर्ष रेटेड प्रश्नों को देखते हैं तो वे सभी उच्च विचार प्रश्न हैं; दिलचस्प बात से मेरा मतलब उन सवालों से है जिनका साइट के उपयोगकर्ताओं द्वारा अधिक मूल्य है। किसी भी मामले में, सवाल अभी भी खड़ा है: गुणवत्ता का सबसे अच्छा पूर्वानुमान प्राप्त करने के लिए विचारों और वोटों के संयोजन का सही तरीका क्या है?

2
गणित के लोगों ने अच्छे प्रश्न पूछे। इस प्रश्न का तर्क परिपत्र लगता है: यह हमें एसई प्रश्न की "गुणवत्ता" को मापने के लिए एक सूत्र के लिए पूछता है, लेकिन यह उपयोगकर्ताओं द्वारा कथित "मूल्य" जैसे गैर-परिचालन समानार्थी शब्द को छोड़कर सिवाय इसके कि "गुणवत्ता" का अर्थ क्या है? साइट का आप कुछ नहीं के लिए कुछ नहीं मिल सकता है!
whuber

जवाबों:


3

एक दिलचस्प सवाल को एक के रूप में परिभाषित किया जा सकता है जिसे विचारों की संख्या को देखते हुए तुलनात्मक रूप से कई वोट मिले हैं। इसके लिए, आप एक आधार रेखा वक्र बना सकते हैं जो विचारों को देखते हुए अपेक्षित संख्या को दर्शाता है। बेसलाइन की तुलना में बहुत अधिक वोट आकर्षित करने वाले कर्व्स को विशेष रूप से दिलचस्प माना जाता था।

बेसलाइन के निर्माण के लिए, आप प्रति 100-व्यू बिन के मध्यांक संख्या की गणना करना चाहते हैं। इसके अलावा, आप औसत पूर्ण विचलन (एमएडी) की गणना प्रति बिन मानक विचलन के लिए एक मजबूत उपाय के रूप में कर सकते हैं। फिर, "रोचकता" की गणना की जा सकती है

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views) 

1

यह मेरा सिद्धांत है। मुझे लगता है कि दो प्रकार के प्रश्न हैं: जो ज्यादातर एसई के भीतर रहते हैं (जिनमें आमतौर पर कम विचार होते हैं), और जिन्हें बाहरी लोगों द्वारा देखा जाता है क्योंकि यह कहीं और से जुड़ा हुआ था (आमतौर पर अधिक विचार हैं)।

ज्यादातर एसई के भीतर रहने वाले सवालों के लिए, वोट दिलचस्प सवालों का एक अच्छा उपाय हैं। यह वोटों की बात है।

जब कोई प्रश्न साइट के बाहर से जुड़ा होता है तो वोट उतना ही रुक जाता है। कुछ लिंक करने वाली साइटों में बहुत कम SE सदस्य हो सकते हैं, अन्य में अधिक हो सकते हैं। इन सवालों के लिए वोटों की संख्या का विचलन संभवत: अधिक है (जैसा कि आपके स्कोर बनाम दृश्य प्लॉट द्वारा दर्शाया गया है, जहां वक्र का दाहिना भाग खिलता है)। इन सवालों पर अधिक विचार होंगे, और विचार MAY दिलचस्प सवालों का एक बेहतर संकेतक होंगे। या सवाल है कि एक बड़ा समुदाय अधिक दिलचस्प खोजने के लिए हुआ। इस स्थिति में कई चर हैं, और मुझे लगता है कि इन मामलों को अलग करने के लिए अधिक जानकारी खोजने की कोशिश करना लायक होगा। क्या एसई रेफरल जानकारी का प्रचार करता है?


क्या एसई रेफरल जानकारी का प्रचार करता है? मैं सिर्फ अपविट्स, टिप्पणियों आदि के बजाय पदों के देखने के पैटर्न को जानना
चाहूंगा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.