हाल ही में मैंने upvotes ( ब्लॉग-पोस्ट देखें ) पर प्रतिष्ठा के प्रभावों का कुछ विश्लेषण किया था , और बाद में संभवतः अधिक ज्ञानवर्धक (या अधिक उपयुक्त) विश्लेषण और ग्राफिक्स के बारे में मेरे कुछ प्रश्न थे।
तो कुछ सवाल (और विशेष रूप से किसी का जवाब देने और दूसरों की उपेक्षा करने के लिए स्वतंत्र महसूस करें):
अवतार में इसके वर्तमान में, मेरा मतलब यह नहीं था कि पोस्ट नंबर को केंद्र में रखा जाए। मुझे लगता है कि यह जो करता है वह स्कैल्पलॉट में एक नकारात्मक सहसंबंध का गलत रूप देता है, क्योंकि पोस्ट काउंट के निचले छोर की ओर अधिक पोस्ट हैं (आप यह देखते हैं कि जॉन स्कीट पैनल में, केवल नश्वर उपयोगकर्ताओं में ऐसा नहीं होता है पैनल)। क्या इसका मतलब यह नहीं है कि पोस्ट नंबर को केंद्र में न रखा जाए (क्योंकि मेरा मतलब है प्रति उपयोगकर्ता औसत स्कोर स्कोर)?
यह उन ग्राफ़ से स्पष्ट होना चाहिए कि स्कोर अत्यधिक सही तिरछा है (और इसका मतलब यह है कि सेंटिंग ने इसे बदल नहीं दिया है)। रिग्रेशन लाइन फिट करते समय, मैं रैखिक मॉडल और हुबेर-सफ़ेद सैंडविच त्रुटियों (
rlmएमएएस आर पैकेज के माध्यम से ) का उपयोग करके एक मॉडल दोनों फिट करता हूं और यह ढलान के अनुमानों में कोई अंतर नहीं करता था। क्या मुझे मजबूत प्रतिगमन के बजाय डेटा में परिवर्तन पर विचार करना चाहिए था? ध्यान दें कि किसी भी परिवर्तन को 0 और नकारात्मक स्कोर की संभावना को ध्यान में रखना होगा। या मुझे ओएलएस के बजाय गणना डेटा के लिए कुछ अन्य प्रकार के मॉडल का उपयोग करना चाहिए था?मेरा मानना है कि अंतिम दो ग्राफिक्स, सामान्य रूप से, सुधार किए जा सकते हैं (और साथ ही बेहतर मॉडलिंग रणनीतियों से संबंधित है)। मेरे (अभिवादन) राय में, मुझे संदेह होगा कि यदि प्रतिष्ठा प्रभाव वास्तविक हैं, तो उन्हें एक पोस्टर इतिहास में काफी पहले ही एहसास हो जाएगा (मुझे लगता है कि अगर यह सच है, तो उन पर पुनर्विचार किया जा सकता है "आपने कुछ उत्कृष्ट उत्तर दिए हैं ताकि अब मैं आपके सभी को अपडाउन कर सकूं पद "कुल स्कोर द्वारा प्रतिष्ठा" के बजाय "प्रभाव)। ओवर-प्लॉटिंग को ध्यान में रखते हुए, मैं यह प्रदर्शित करने के लिए एक ग्राफिक कैसे बना सकता हूं कि क्या यह सच है? मैंने सोचा कि शायद इसे प्रदर्शित करने का एक अच्छा तरीका फॉर्म का एक मॉडल फिट होगा;
जहां एक है (जैसा कि वर्तमान स्कैल्पलॉट्स में है), X 1 है , और Z 1 ummy Z k डमी वैरिएबल हैं जो पोस्ट नंबरों की कुछ मनमानी रेंज का प्रतिनिधित्व करते हैं (उदाहरण के लिए Z 1 बराबर है यदि पोस्ट नंबर है , Z 2 बराबर है यदि पोस्ट नंबर आदि) है। β 0 और ε भव्य अवरोधन और त्रुटि अवधि क्रमशः रहे हैं। तब मैं सिर्फ अनुमान की जांच होगी γscore - (mean score per user)post number11 through 25126 through 50यह निर्धारित करने के लिए ढलान, यदि प्रतिष्ठा का इतिहास पोस्टर इतिहास में जल्दी दिखाई दिया (या चित्रमय रूप से उन्हें प्रदर्शित करें)। क्या यह एक उचित (और उचित) दृष्टिकोण है?
ऐसा लगता है कि कुछ प्रकार की गैर-पैरामीट्रिक स्मूथिंग लाइन को इन जैसे स्कैल्प्लॉट्स (जैसे लोज़ या स्प्लिन) के रूप में फिट करना लोकप्रिय है, लेकिन स्प्लिन के साथ मेरे प्रयोग ने कुछ भी ज्ञानवर्धक नहीं दिखाया (पोस्ट इतिहास में प्रारंभिक प्रभाव के बाद का कोई साक्ष्य मामूली और स्वभावपूर्ण था। स्प्लिन की संख्या जिसमें मैंने शामिल किया है)। चूंकि मेरे पास एक परिकल्पना है कि प्रभाव जल्दी होता है, क्या मेरा मॉडलिंग दृष्टिकोण स्प्लिन से अधिक उचित है?
यह भी ध्यान दें, हालांकि मैंने इस डेटा के बहुत सारे टुकड़े टुकड़े कर दिए हैं, फिर भी बहुत सारे अन्य समुदाय वहाँ से बाहर की जाँच करने के लिए (और कुछ सुपरसुसर और सर्वरफॉल्ट के समान आकर्षित करने के लिए बड़े नमूने हैं), इसलिए भविष्य में सुझाव देना बहुत उचित है विश्लेषण है कि मैं किसी भी रिश्ते की जांच करने के लिए एक होल्ड-आउट नमूना का उपयोग करता हूं।