StackExchange प्रश्नों के लिए "दिलचस्पता" फ़ंक्शन

मैं StackExchange साइटों के लिए डेटा-माइनिंग पैकेज को एक साथ रखने की कोशिश कर रहा हूं और विशेष रूप से, मैं "सबसे दिलचस्प" प्रश्नों को निर्धारित करने की कोशिश में फंस गया हूं। मैं प्रश्न स्कोर का उपयोग करना चाहूंगा, लेकिन विचारों की संख्या के कारण पूर्वाग्रह को हटा सकता हूं, लेकिन मुझे नहीं पता कि इस कठोरता से कैसे संपर्क करें।

आदर्श दुनिया में, मैं गणना करके प्रश्नों को हल कर सकता था , जहाँकुल मत है औरविचारों की संख्या है। आखिरकार, यह उन लोगों के प्रतिशत को मापेगा जो प्रश्न को बढ़ाते हैं, उन लोगों के प्रतिशत को घटाते हैं जो प्रश्न को कम करते हैं। $\frac{v}{n}$ $v$ $n$

दुर्भाग्य से, मतदान पैटर्न बहुत अधिक जटिल है। वोट एक निश्चित स्तर पर "पठार" करते हैं और इस पर बेतहाशा लोकप्रिय सवालों को कम करके आंका जाता है। व्यवहार में, 1 दृश्य और 1 अपवोट के साथ एक प्रश्न निश्चित रूप से स्कोर करेगा और 10,000 विचारों के साथ किसी भी अन्य प्रश्न की तुलना में उच्चतर क्रमबद्ध होगा, लेकिन 10,000 से कम वोट।

मैं वर्तमान में का उपयोग कर रहा हूंएक अनुभवजन्य सूत्र के रूप में , लेकिन मैं सटीक होना चाहूंगा। मैं गणितीय कठोरता के साथ इस समस्या का सामना कैसे कर सकता हूं? $\frac{v}{\log{n}+1}$

कुछ टिप्पणियों को संबोधित करने के लिए, मैं बेहतर तरीके से समस्या को हल करने का प्रयास करूंगा:

चलो मैं के साथ एक सवाल है का कहना है कि वोट कुल और बार देखा गया। मैं अनुमान लगाने के लिए क्या वोट कुल सक्षम होने के लिए चाहते हैं जब विचारों तक पहुंचने की संभावना सबसे अधिक है । $v_0$ $n_0$ $v_1$ $n_1$

इस तरह मैं केवल लिए नाममात्र मान चुन सकता था और अपेक्षित कुल के अनुसार सभी प्रश्न ऑर्डर कर सकता था । $n_1$ $v_1$

मैंने SO datadump पर दो प्रश्न बनाए हैं, जिनके बारे में मैं बात कर रहा हूँ, बेहतर दिखाने के लिए:

स्कोर द्वारा औसत दृश्य

परिणाम:

स्कोर द्वारा देखे गए

दृश्य द्वारा औसत स्कोर (100-विचार बाल्टी)

परिणाम:

दृश्य द्वारा स्कोर

तुलना के दो सूत्र

परिणाम, निश्चित नहीं है कि क्या straighter बेहतर है: ( नीले रंग में, $\frac{v}{n}$ $\frac{v}{log{n}+1}$

सूत्र

data-mining predictive-models

— Sklivvz
स्रोत

यह निश्चित रूप से एक दिलचस्प सवाल है, लेकिन मुझे लगता है कि आप आँकड़े पर यह पूछने से बेहतर हो सकते हैं।

@ आप वास्तव में सही हो सकते हैं। मैं mods के लिए अगर वे सोचते हैं कि यह सबसे अच्छा है माइग्रेट करने के लिए झंडा हूँ।

विचार दिलचस्प-नेस में योगदान क्यों नहीं करेंगे? (लेकिन इससे भी बदतर, वे नकारात्मक रूप से योगदान क्यों करेंगे?) अधिक दिलचस्प चीजें अधिक बार देखी जाती हैं ... यहां मूलभूत समस्या यह है कि दिलचस्प भी क्या मतलब है? क्या इसका मतलब सामान्य ब्याज के प्रश्न या ऐसे प्रश्न हैं जो अधिक विशिष्ट उच्च स्तरीय दर्शकों के लिए रुचि के हैं? किसी को "गणितीय कठोरता" के साथ इस प्रश्न का उत्तर देने के लिए, इसे पहले कठोरता से पेश करने की आवश्यकता है।

विचारों को पूर्वाग्रह करता है क्योंकि एक प्रश्न, एक अच्छी साइट द्वारा लिंक हो सकता है, और बहुत सारे विचार प्राप्त कर सकता है - यदि आप शीर्ष रेटेड प्रश्नों को देखते हैं तो वे सभी उच्च विचार प्रश्न हैं; दिलचस्प बात से मेरा मतलब उन सवालों से है जिनका साइट के उपयोगकर्ताओं द्वारा अधिक मूल्य है। किसी भी मामले में, सवाल अभी भी खड़ा है: गुणवत्ता का सबसे अच्छा पूर्वानुमान प्राप्त करने के लिए विचारों और वोटों के संयोजन का सही तरीका क्या है?

गणित के लोगों ने अच्छे प्रश्न पूछे। इस प्रश्न का तर्क परिपत्र लगता है: यह हमें एसई प्रश्न की "गुणवत्ता" को मापने के लिए एक सूत्र के लिए पूछता है, लेकिन यह उपयोगकर्ताओं द्वारा कथित "मूल्य" जैसे गैर-परिचालन समानार्थी शब्द को छोड़कर सिवाय इसके कि "गुणवत्ता" का अर्थ क्या है? साइट का आप कुछ नहीं के लिए कुछ नहीं मिल सकता है!

— whuber

जवाबों:

एक दिलचस्प सवाल को एक के रूप में परिभाषित किया जा सकता है जिसे विचारों की संख्या को देखते हुए तुलनात्मक रूप से कई वोट मिले हैं। इसके लिए, आप एक आधार रेखा वक्र बना सकते हैं जो विचारों को देखते हुए अपेक्षित संख्या को दर्शाता है। बेसलाइन की तुलना में बहुत अधिक वोट आकर्षित करने वाले कर्व्स को विशेष रूप से दिलचस्प माना जाता था।

बेसलाइन के निर्माण के लिए, आप प्रति 100-व्यू बिन के मध्यांक संख्या की गणना करना चाहते हैं। इसके अलावा, आप औसत पूर्ण विचलन (एमएडी) की गणना प्रति बिन मानक विचलन के लिए एक मजबूत उपाय के रूप में कर सकते हैं। फिर, "रोचकता" की गणना की जा सकती है

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— जोनास
स्रोत

यह मेरा सिद्धांत है। मुझे लगता है कि दो प्रकार के प्रश्न हैं: जो ज्यादातर एसई के भीतर रहते हैं (जिनमें आमतौर पर कम विचार होते हैं), और जिन्हें बाहरी लोगों द्वारा देखा जाता है क्योंकि यह कहीं और से जुड़ा हुआ था (आमतौर पर अधिक विचार हैं)।

ज्यादातर एसई के भीतर रहने वाले सवालों के लिए, वोट दिलचस्प सवालों का एक अच्छा उपाय हैं। यह वोटों की बात है।

जब कोई प्रश्न साइट के बाहर से जुड़ा होता है तो वोट उतना ही रुक जाता है। कुछ लिंक करने वाली साइटों में बहुत कम SE सदस्य हो सकते हैं, अन्य में अधिक हो सकते हैं। इन सवालों के लिए वोटों की संख्या का विचलन संभवत: अधिक है (जैसा कि आपके स्कोर बनाम दृश्य प्लॉट द्वारा दर्शाया गया है, जहां वक्र का दाहिना भाग खिलता है)। इन सवालों पर अधिक विचार होंगे, और विचार MAY दिलचस्प सवालों का एक बेहतर संकेतक होंगे। या सवाल है कि एक बड़ा समुदाय अधिक दिलचस्प खोजने के लिए हुआ। इस स्थिति में कई चर हैं, और मुझे लगता है कि इन मामलों को अलग करने के लिए अधिक जानकारी खोजने की कोशिश करना लायक होगा। क्या एसई रेफरल जानकारी का प्रचार करता है?

— rm999
स्रोत

क्या एसई रेफरल जानकारी का प्रचार करता है? मैं सिर्फ अपविट्स, टिप्पणियों आदि के बजाय पदों के देखने के पैटर्न को जानना

— चाहूंगा