क्या हमें "अफ़सोस" की समस्या है?


51

मुझे पता है, यह लग सकता है जैसे यह ऑफ-टॉपिक है, लेकिन मुझे सुनें।

स्टैक ओवरफ्लो में और यहां हमें पदों पर वोट मिलते हैं, यह सब एक सारणीबद्ध रूप में संग्रहीत होता है।

उदाहरण के लिए:

आईडी आईडी मतदाता आईडी वोट प्रकार डेटाइम
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... और इसी तरह। वोट टाइप 2 एक अपवोट है, वोट टाइप 3 डाउनवोट है। आप http://data.stackexchange.com पर इस डेटा के अनाम संस्करण को क्वेरी कर सकते हैं

एक धारणा है कि अगर कोई पद -1 या उससे कम के स्कोर तक पहुंचता है तो उसके उत्थान की संभावना अधिक होती है। यह केवल पुष्टि पूर्वाग्रह हो सकता है या यह वास्तव में निहित हो सकता है।

हम इस परिकल्पना की पुष्टि या खंडन करने के लिए इस डेटा का विश्लेषण कैसे करेंगे? हम इस पूर्वाग्रह के प्रभाव को कैसे मापेंगे?


1
क्या हम क्वेरी का एक उदाहरण प्राप्त कर सकते हैं? हर कोई SQL स्टेटमेंट लिखने में पारंगत नहीं है। नमूना डेटा होने से लोग इसके साथ खेलने का प्रयास करने के लिए प्रोत्साहित हो सकते हैं। प्रश्न के लिए +1।
mpiktas

@Jeff वोटों को अज्ञात किया जाता है। आप केवल डेटा डंप से आंशिक जानकारी प्राप्त कर सकते हैं, इसमें सभी बदलाव शामिल हैं, हालांकि यहां एक त्वरित नमूना data.stackexchange.com/stackoverflow/q/101738 पूर्ण अज्ञात डेटा सार्वजनिक डेटा डंप में उपलब्ध है
सैम केसर

सिर्फ उभार क्यों? प्रत्येक विशेष मूल्य के आसपास अप या डाउन वोटिंग की संभावना कैसे निश्चित रूप से दिलचस्प होगी?
बॉब दुरंत

@ याकूब, यकीन है कि वे सहमत होंगे
सैम केसर

1
मैंने अन्य प्रकार की साइटें देखी हैं, जिसमें वोटों को रोकना (यानी उन्हें प्रदर्शित करने से पहले शोर जोड़ना) और कभी-कभी पूरी तरह से ऊपर-नीचे और नीचे के वोटों को छिपाने के लिए भी होता है, ताकि विभिन्न प्रकार के बैंडवागिंग, दया वोट और अन्य 'सामाजिक' से बचा जा सके मतदान के तत्व।
ग्लेन_ बी

जवाबों:


32

आप एक मल्टीस्टैट मॉडल या मार्कोव श्रृंखला (आर में एमएसएम पैकेज इन को फिट करने का एक तरीका है) का उपयोग कर सकते हैं। आप तब यह देख सकते हैं कि -1 से 0 तक की संक्रमण संभावना 0 से 1, 1 से 2, आदि से अधिक है। आप यह भी देख सकते हैं कि दूसरों की तुलना में औसत समय -1 पर है या नहीं यह देखने के लिए कि क्या यह छोटा है ।


3
+1 महान संदर्भ। एमएसएम पैकेज के बारे में जर्नल ऑफ स्टैटिस्टिकल सॉफ्टवेयर में एक लेख है। मॉडल इस तरह के कार्य के लिए आदर्श रूप से फिट लगता है।
mpiktas 6

3
मार्कोव श्रृंखला मॉडल विचार एक अच्छा लगता है, लेकिन -1 का औसत समय पूरी कहानी नहीं देगा। यह संभव है (और प्रशंसनीय - बुरा सवाल सोचें) कि किसी को कहीं और से -1 पर भी कम होने की संभावना है।
बॉब दुरंत

मुझे लगता है कि जो कोई सबसे पहले करना चाहता है, वह है वोट-ट्रैजेक्ट्रीज़ - जो कि (लगभग) केवल अप / डाउनवोटेड (बहुत लोकप्रिय / बहुत खराब प्रश्न) मिलता है, और जो अधिक विवादास्पद हैं। फिर आप तीन वर्गों पर मार्कोव श्रृंखला कर सकते हैं।
जोनास

13

प्रयोग करें। हर दिन एक विशेष समय पर नए पदों के आधे हिस्से को बेतरतीब ढंग से डाउनवोट करें।


5
कूल, हमें "आलोचक" बैज में उल्लेखनीय वृद्धि और नए उपयोगकर्ताओं के लिए प्रेरणा में कमी का अवलोकन करना चाहिए :-) इस मामले में उच्च-दोहराव वाले उपयोगकर्ताओं के साथ शुरू करने के लिए बेहतर है, (प्रयोग को पूर्वाग्रह के जोखिम में!)
chl

14
वास्तव में हम इससे बेहतर कर सकते थे ... एबी परीक्षण का उपयोग करते हुए हम साइट पर -1 वोट के आधे प्रश्न को 0 और आधे के -1 के रूप में प्रदर्शित कर सकते थे ... और देखें कि क्या समूहों में से कोई एक होने की अधिक संभावना है upvoted! सरल।
सैम केसर

4
प्रयोग का विचार पदों की गुणवत्ता को नियंत्रित करता है, लेकिन (1) जिन्हें डाउनग्रेड किया जा रहा है उन्हें प्रयोग में भाग लेने के लिए पहले से सहमत होना चाहिए, और (2) थोड़े समय के बाद, डाउनग्रेड को हटा देना चाहिए।
zbicyclist

2
+1 (और सभी टिप्पणियों के लिए यहां भी): एक नियंत्रित प्रतिवर्ती प्रयोग, जो उन सभी उपयोगकर्ताओं के लिए पहले से संचारित है जो प्रभावित हो सकते हैं और उनकी स्वीकृति के साथ संचालित किए जाते हैं, यह जानकारी प्राप्त करने के सबसे मजबूत तरीकों में से एक है।
whuber

13

मेरे उत्तर का सारांश। मुझे मार्कोव श्रृंखला मॉडलिंग पसंद है लेकिन यह "टेम्पोरल" पहलू को याद करता है। दूसरे छोर पर, अस्थायी पहलू (जैसे औसत समय ) पर ध्यान केंद्रित करने से "संक्रमण" पहलू याद आता है। मैं निम्नलिखित सामान्य मॉडलिंग में जाऊंगा (जो उपयुक्त धारणा के साथ [मार्कोव प्रक्रिया] [1] कर सकता है)। इस समस्या के पीछे "सेंसर" का एक बहुत कुछ है (जो निश्चित रूप से सॉफ्टवेयर विश्वसनीयता की एक शास्त्रीय समस्या है?)। मेरे जवाब का अंतिम समीकरण वोट की तीव्रता ("+" के साथ और किसी दिए गए वोट की स्थिति के लिए "-" के साथ डाउट) की अधिकतम संभावना का अनुमान देता है। जैसा कि हम समीकरण से देख सकते हैं, यह मामले से एक मध्यवर्ती है जब आप केवल संक्रमण की संभावना और मामले का अनुमान लगाते हैं जब आप केवल किसी दिए गए राज्य में खर्च किए गए समय को मापते हैं। उममीद है कि इससे मदद मिलेगी।-1

सामान्य मॉडलिंग (प्रश्न और मान्यताओं को पुनर्स्थापित करने के लिए)। चलो और ( एस मैं ) मैं 1 होना यादृच्छिक परिवर्तनीय मॉडलिंग क्रमशः मतदान की तारीख और जुड़े वोट चिह्न (वोट दें लिए +1, -1 downvote के लिए)। मतदान प्रक्रिया बस है(वीडीमैं)मैं1(एसमैं)मैं1

जहां

Yटी=Yटी+-Yटी-

Yटी+=Σमैं=01वीडीमैंटी,एसमैं=1 तथा Yटी-=Σमैं=01वीडीमैंटी,एसमैं=-1

महत्वपूर्ण मात्रा यहाँ की intentity है -jump λ ε टी = लिम टी 0 1ε जहांεहो सकता है-या+और एफटीपीढ़ी मामले में एक अच्छा निस्पंदन है, अन्य जानकारी के बिना यह होगा: एफटी=σ(Y + टी ,वाई - टी ,वीडी1,...,वीडी वाई + टी

λटीε=लिमटी01टीपी(Yटी+टीε-Yटीε=1|एफटी)
ε-+एफटी
एफटी=σ(Yटी+,Yटी-,वीडी1,...,वीडीYटी++Yटी-,एस1,...,एसYटी++Yटी-)

लेकिन आपके प्रश्न की तर्ज पर, मुझे लगता है कि आप स्पष्ट रूप से मानते हैं कि

पी(Yटी+टीε-Yटीε=1|एफटी)=पी(Yटी+टीε-Yटीε=1|Yटी)
ε=+,-(μमैंε)मैंजेडλटीε=μYटीε

μ-1+-μ0+>0

Yटीजेडक्यू

मैं,जेजेडक्यूमैं,मैं+1=μमैं+क्यूमैं,मैं-1=μमैं-क्यूमैंमैं=1-(μमैं++μमैं-)क्यूमैंजे=0 अगर |मैं-जे|>1

(μमैं+)मैंμ+μ-

(टी1,η1),...,(टीपी,ηपी)टीजेजेटीपीमैंYटी=मैंηजे+1-10

आप अवलोकन के अंतिम राज्य के मामले में भूल जाते हैं, mentionned जोड़ों एक वितरण पर निर्भर करता है कि से आईआईडी हैं μमैं+μमैं-(मिनट(एक्सपी(μमैं+),एक्सपी(μमैं-)),η)η

Lemma If और Xएक्स+एक्सपी(μ+)एक्स-एक्सपी(μ-)टी=मिनट(एक्स+,एक्स-)एक्सपी(μ++μ-)पी(एक्स+1<एक्स-)=μ+μ++μ-

इसका मतलब यह है कि घनत्व (टी,ε)(टी,η)

(टी,ε)=जीμ++μ-(1(ε=+1)*μ++1(ε=-1)*μ-μ++μ-)
जी>0μ+μ-

(μ^+,μ^-)=आरजीमैंnln(μ-+μ+)((μ-+μ+)Σमैं=1पीटीमैं+पी)-पी-ln(μ-)-पी+ln(μ+)
पी-=|मैं:δमैं=-1|पी+=|मैं:δमैं=+1|

अधिक उन्नत दृष्टिकोणों के लिए टिप्पणियाँ

मैं1

संभव अन्य दृष्टिकोण में शामिल होने की संभावना हो सकती है

  • तीव्रता जो समय के साथ घटती जाती है
  • अंतिम मतदान के बाद से बिताए गए समय के साथ तीव्रता कम हो जाती है (मैं इसे पसंद करता हूं। इस मामले में मॉडलिंग का शास्त्रीय तरीका है कि घनत्व कैसे घटता है ...
  • μमैं+मैं
  • .... आप अन्य विचारों का प्रस्ताव कर सकते हैं!
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.