हाल ही में मैंने upvotes ( ब्लॉग-पोस्ट देखें ) पर प्रतिष्ठा के प्रभावों का कुछ विश्लेषण किया था , और बाद में संभवतः अधिक ज्ञानवर्धक (या अधिक उपयुक्त) विश्लेषण और ग्राफिक्स के बारे में मेरे कुछ प्रश्न थे।
तो कुछ सवाल (और विशेष रूप से किसी का जवाब देने और दूसरों की उपेक्षा करने के लिए स्वतंत्र महसूस करें):
अवतार में इसके वर्तमान में, मेरा मतलब यह नहीं था कि पोस्ट नंबर को केंद्र में रखा जाए। मुझे लगता है कि यह जो करता है वह स्कैल्पलॉट में एक नकारात्मक सहसंबंध का गलत रूप देता है, क्योंकि पोस्ट काउंट के निचले छोर की ओर अधिक पोस्ट हैं (आप यह देखते हैं कि जॉन स्कीट पैनल में, केवल नश्वर उपयोगकर्ताओं में ऐसा नहीं होता है पैनल)। क्या इसका मतलब यह नहीं है कि पोस्ट नंबर को केंद्र में न रखा जाए (क्योंकि मेरा मतलब है प्रति उपयोगकर्ता औसत स्कोर स्कोर)?
यह उन ग्राफ़ से स्पष्ट होना चाहिए कि स्कोर अत्यधिक सही तिरछा है (और इसका मतलब यह है कि सेंटिंग ने इसे बदल नहीं दिया है)। रिग्रेशन लाइन फिट करते समय, मैं रैखिक मॉडल और हुबेर-सफ़ेद सैंडविच त्रुटियों (
rlm
एमएएस आर पैकेज के माध्यम से ) का उपयोग करके एक मॉडल दोनों फिट करता हूं और यह ढलान के अनुमानों में कोई अंतर नहीं करता था। क्या मुझे मजबूत प्रतिगमन के बजाय डेटा में परिवर्तन पर विचार करना चाहिए था? ध्यान दें कि किसी भी परिवर्तन को 0 और नकारात्मक स्कोर की संभावना को ध्यान में रखना होगा। या मुझे ओएलएस के बजाय गणना डेटा के लिए कुछ अन्य प्रकार के मॉडल का उपयोग करना चाहिए था?मेरा मानना है कि अंतिम दो ग्राफिक्स, सामान्य रूप से, सुधार किए जा सकते हैं (और साथ ही बेहतर मॉडलिंग रणनीतियों से संबंधित है)। मेरे (अभिवादन) राय में, मुझे संदेह होगा कि यदि प्रतिष्ठा प्रभाव वास्तविक हैं, तो उन्हें एक पोस्टर इतिहास में काफी पहले ही एहसास हो जाएगा (मुझे लगता है कि अगर यह सच है, तो उन पर पुनर्विचार किया जा सकता है "आपने कुछ उत्कृष्ट उत्तर दिए हैं ताकि अब मैं आपके सभी को अपडाउन कर सकूं पद "कुल स्कोर द्वारा प्रतिष्ठा" के बजाय "प्रभाव)। ओवर-प्लॉटिंग को ध्यान में रखते हुए, मैं यह प्रदर्शित करने के लिए एक ग्राफिक कैसे बना सकता हूं कि क्या यह सच है? मैंने सोचा कि शायद इसे प्रदर्शित करने का एक अच्छा तरीका फॉर्म का एक मॉडल फिट होगा;
जहां एक है (जैसा कि वर्तमान स्कैल्पलॉट्स में है), X 1 है , और Z 1 ummy Z k डमी वैरिएबल हैं जो पोस्ट नंबरों की कुछ मनमानी रेंज का प्रतिनिधित्व करते हैं (उदाहरण के लिए Z 1 बराबर है यदि पोस्ट नंबर है , Z 2 बराबर है यदि पोस्ट नंबर आदि) है। β 0 और ε भव्य अवरोधन और त्रुटि अवधि क्रमशः रहे हैं। तब मैं सिर्फ अनुमान की जांच होगी γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
यह निर्धारित करने के लिए ढलान, यदि प्रतिष्ठा का इतिहास पोस्टर इतिहास में जल्दी दिखाई दिया (या चित्रमय रूप से उन्हें प्रदर्शित करें)। क्या यह एक उचित (और उचित) दृष्टिकोण है?
ऐसा लगता है कि कुछ प्रकार की गैर-पैरामीट्रिक स्मूथिंग लाइन को इन जैसे स्कैल्प्लॉट्स (जैसे लोज़ या स्प्लिन) के रूप में फिट करना लोकप्रिय है, लेकिन स्प्लिन के साथ मेरे प्रयोग ने कुछ भी ज्ञानवर्धक नहीं दिखाया (पोस्ट इतिहास में प्रारंभिक प्रभाव के बाद का कोई साक्ष्य मामूली और स्वभावपूर्ण था। स्प्लिन की संख्या जिसमें मैंने शामिल किया है)। चूंकि मेरे पास एक परिकल्पना है कि प्रभाव जल्दी होता है, क्या मेरा मॉडलिंग दृष्टिकोण स्प्लिन से अधिक उचित है?
यह भी ध्यान दें, हालांकि मैंने इस डेटा के बहुत सारे टुकड़े टुकड़े कर दिए हैं, फिर भी बहुत सारे अन्य समुदाय वहाँ से बाहर की जाँच करने के लिए (और कुछ सुपरसुसर और सर्वरफॉल्ट के समान आकर्षित करने के लिए बड़े नमूने हैं), इसलिए भविष्य में सुझाव देना बहुत उचित है विश्लेषण है कि मैं किसी भी रिश्ते की जांच करने के लिए एक होल्ड-आउट नमूना का उपयोग करता हूं।