मैं StackExchange साइटों के लिए डेटा-माइनिंग पैकेज को एक साथ रखने की कोशिश कर रहा हूं और विशेष रूप से, मैं "सबसे दिलचस्प" प्रश्नों को निर्धारित करने की कोशिश में फंस गया हूं। मैं प्रश्न स्कोर का उपयोग करना चाहूंगा, लेकिन विचारों की संख्या के कारण पूर्वाग्रह को हटा सकता हूं, लेकिन मुझे नहीं पता कि इस कठोरता से कैसे संपर्क करें।
आदर्श दुनिया में, मैं v की गणना करके प्रश्नों को हल कर सकता था , जहाँvकुल मत है औरnविचारों की संख्या है। आखिरकार, यह उन लोगों के प्रतिशत को मापेगा जो प्रश्न को बढ़ाते हैं, उन लोगों के प्रतिशत को घटाते हैं जो प्रश्न को कम करते हैं।
दुर्भाग्य से, मतदान पैटर्न बहुत अधिक जटिल है। वोट एक निश्चित स्तर पर "पठार" करते हैं और इस पर बेतहाशा लोकप्रिय सवालों को कम करके आंका जाता है। व्यवहार में, 1 दृश्य और 1 अपवोट के साथ एक प्रश्न निश्चित रूप से स्कोर करेगा और 10,000 विचारों के साथ किसी भी अन्य प्रश्न की तुलना में उच्चतर क्रमबद्ध होगा, लेकिन 10,000 से कम वोट।
मैं वर्तमान में v का उपयोग कर रहा हूंएक अनुभवजन्य सूत्र के रूप में n + 1 लॉग करें , लेकिन मैं सटीक होना चाहूंगा। मैं गणितीय कठोरता के साथ इस समस्या का सामना कैसे कर सकता हूं?
कुछ टिप्पणियों को संबोधित करने के लिए, मैं बेहतर तरीके से समस्या को हल करने का प्रयास करूंगा:
चलो मैं के साथ एक सवाल है का कहना है कि वोट कुल और एन 0 बार देखा गया। मैं अनुमान लगाने के लिए क्या वोट कुल सक्षम होने के लिए चाहते हैं v 1 जब विचारों तक पहुंचने की संभावना सबसे अधिक है n 1 ।
इस तरह मैं केवल लिए नाममात्र मान चुन सकता था और अपेक्षित v 1 कुल के अनुसार सभी प्रश्न ऑर्डर कर सकता था ।
मैंने SO datadump पर दो प्रश्न बनाए हैं, जिनके बारे में मैं बात कर रहा हूँ, बेहतर दिखाने के लिए:
परिणाम:
दृश्य द्वारा औसत स्कोर (100-विचार बाल्टी)
परिणाम:
परिणाम, निश्चित नहीं है कि क्या straighter बेहतर है: ( नीले रंग में,वी