मैं मतदान पर प्रतिष्ठा के प्रभावों के अपने विश्लेषण को कैसे सुधार सकता हूं?


15

हाल ही में मैंने upvotes ( ब्लॉग-पोस्ट देखें ) पर प्रतिष्ठा के प्रभावों का कुछ विश्लेषण किया था , और बाद में संभवतः अधिक ज्ञानवर्धक (या अधिक उपयुक्त) विश्लेषण और ग्राफिक्स के बारे में मेरे कुछ प्रश्न थे।

तो कुछ सवाल (और विशेष रूप से किसी का जवाब देने और दूसरों की उपेक्षा करने के लिए स्वतंत्र महसूस करें):

  1. अवतार में इसके वर्तमान में, मेरा मतलब यह नहीं था कि पोस्ट नंबर को केंद्र में रखा जाए। मुझे लगता है कि यह जो करता है वह स्कैल्पलॉट में एक नकारात्मक सहसंबंध का गलत रूप देता है, क्योंकि पोस्ट काउंट के निचले छोर की ओर अधिक पोस्ट हैं (आप यह देखते हैं कि जॉन स्कीट पैनल में, केवल नश्वर उपयोगकर्ताओं में ऐसा नहीं होता है पैनल)। क्या इसका मतलब यह नहीं है कि पोस्ट नंबर को केंद्र में न रखा जाए (क्योंकि मेरा मतलब है प्रति उपयोगकर्ता औसत स्कोर स्कोर)?

  2. यह उन ग्राफ़ से स्पष्ट होना चाहिए कि स्कोर अत्यधिक सही तिरछा है (और इसका मतलब यह है कि सेंटिंग ने इसे बदल नहीं दिया है)। रिग्रेशन लाइन फिट करते समय, मैं रैखिक मॉडल और हुबेर-सफ़ेद सैंडविच त्रुटियों ( rlmएमएएस आर पैकेज के माध्यम से ) का उपयोग करके एक मॉडल दोनों फिट करता हूं और यह ढलान के अनुमानों में कोई अंतर नहीं करता था। क्या मुझे मजबूत प्रतिगमन के बजाय डेटा में परिवर्तन पर विचार करना चाहिए था? ध्यान दें कि किसी भी परिवर्तन को 0 और नकारात्मक स्कोर की संभावना को ध्यान में रखना होगा। या मुझे ओएलएस के बजाय गणना डेटा के लिए कुछ अन्य प्रकार के मॉडल का उपयोग करना चाहिए था?

  3. मेरा मानना ​​है कि अंतिम दो ग्राफिक्स, सामान्य रूप से, सुधार किए जा सकते हैं (और साथ ही बेहतर मॉडलिंग रणनीतियों से संबंधित है)। मेरे (अभिवादन) राय में, मुझे संदेह होगा कि यदि प्रतिष्ठा प्रभाव वास्तविक हैं, तो उन्हें एक पोस्टर इतिहास में काफी पहले ही एहसास हो जाएगा (मुझे लगता है कि अगर यह सच है, तो उन पर पुनर्विचार किया जा सकता है "आपने कुछ उत्कृष्ट उत्तर दिए हैं ताकि अब मैं आपके सभी को अपडाउन कर सकूं पद "कुल स्कोर द्वारा प्रतिष्ठा" के बजाय "प्रभाव)। ओवर-प्लॉटिंग को ध्यान में रखते हुए, मैं यह प्रदर्शित करने के लिए एक ग्राफिक कैसे बना सकता हूं कि क्या यह सच है? मैंने सोचा कि शायद इसे प्रदर्शित करने का एक अच्छा तरीका फॉर्म का एक मॉडल फिट होगा;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

जहां एक है (जैसा कि वर्तमान स्कैल्पलॉट्स में है), X 1 है , और Z 1 ummy Z k डमी वैरिएबल हैं जो पोस्ट नंबरों की कुछ मनमानी रेंज का प्रतिनिधित्व करते हैं (उदाहरण के लिए Z 1 बराबर है यदि पोस्ट नंबर है , Z 2 बराबर है यदि पोस्ट नंबर आदि) है। β 0 और ε भव्य अवरोधन और त्रुटि अवधि क्रमशः रहे हैं। तब मैं सिर्फ अनुमान की जांच होगी γYscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγयह निर्धारित करने के लिए ढलान, यदि प्रतिष्ठा का इतिहास पोस्टर इतिहास में जल्दी दिखाई दिया (या चित्रमय रूप से उन्हें प्रदर्शित करें)। क्या यह एक उचित (और उचित) दृष्टिकोण है?

ऐसा लगता है कि कुछ प्रकार की गैर-पैरामीट्रिक स्मूथिंग लाइन को इन जैसे स्कैल्प्लॉट्स (जैसे लोज़ या स्प्लिन) के रूप में फिट करना लोकप्रिय है, लेकिन स्प्लिन के साथ मेरे प्रयोग ने कुछ भी ज्ञानवर्धक नहीं दिखाया (पोस्ट इतिहास में प्रारंभिक प्रभाव के बाद का कोई साक्ष्य मामूली और स्वभावपूर्ण था। स्प्लिन की संख्या जिसमें मैंने शामिल किया है)। चूंकि मेरे पास एक परिकल्पना है कि प्रभाव जल्दी होता है, क्या मेरा मॉडलिंग दृष्टिकोण स्प्लिन से अधिक उचित है?

यह भी ध्यान दें, हालांकि मैंने इस डेटा के बहुत सारे टुकड़े टुकड़े कर दिए हैं, फिर भी बहुत सारे अन्य समुदाय वहाँ से बाहर की जाँच करने के लिए (और कुछ सुपरसुसर और सर्वरफॉल्ट के समान आकर्षित करने के लिए बड़े नमूने हैं), इसलिए भविष्य में सुझाव देना बहुत उचित है विश्लेषण है कि मैं किसी भी रिश्ते की जांच करने के लिए एक होल्ड-आउट नमूना का उपयोग करता हूं।


मैंने वर्तमान में अपने पहले प्रश्न पर कुछ नोट्स बनाए हैं, और वे यहां पाए जा सकते हैं । मुझे इस समय यकीन नहीं है कि क्या मुझे इसे केवल अपने प्रश्न के उत्तर के रूप में पोस्ट करना चाहिए या एक अलग प्रश्न खोलना चाहिए (क्योंकि यह काफी हद तक डेटा विज़ुअलाइज़ेशन पर केंद्रित है)। लेकिन बेझिझक मुझे यहां या चैट रूम में Google दस्तावेज़ के बारे में एक टिप्पणी छोड़ दें ।
एंडी डब्ल्यू

जवाबों:


14

यह एक बहादुर कोशिश है, लेकिन इन आंकड़ों के साथ अकेले, "अपवित्रता पर प्रतिष्ठा के प्रभाव" के विषय में आपके शोध प्रश्न का उत्तर देना मुश्किल या असंभव होगा । समस्या अन्य घटनाओं के प्रभावों को अलग करने में निहित है, जिन्हें मैं संक्षिप्त संकेतों के साथ सूचीबद्ध करता हूं कि उन्हें कैसे संबोधित किया जा सकता है।

  • सीखने के प्रभाव । जैसे-जैसे प्रतिष्ठा बढ़ती जाती है, अनुभव बढ़ता जाता है; जैसा कि अनुभव बढ़ता है, हम एक व्यक्ति से बेहतर प्रश्न और उत्तर पोस्ट करने की उम्मीद करेंगे; जैसा कि उनकी गुणवत्ता में सुधार होता है, हम प्रति पोस्ट अधिक वोटों की उम्मीद करते हैं। व्यावहारिक रूप से, विश्लेषण में इसे संभालने का एक तरीका उन लोगों की पहचान करना होगा जो एक से अधिक एसई साइट पर सक्रिय हैं । किसी भी साइट पर उनकी प्रतिष्ठा उनके अनुभव की मात्रा से अधिक धीरे-धीरे बढ़ेगी, इस प्रकार प्रतिष्ठा और सीखने के प्रभावों को अलग करने के लिए एक संभाल प्रदान करेगी।

  • संदर्भ में अस्थायी परिवर्तन। ये असंख्य हैं, लेकिन स्पष्ट लोगों में शामिल होंगे

    • समय के साथ मतदाताओं की संख्या में परिवर्तन , एक समग्र ऊपर की ओर प्रवृत्ति, मौसमी रुझान (अक्सर शैक्षणिक चक्रों से जुड़े), और आउटलेर (बाहरी प्रचार से उत्पन्न होने वाले लिंक जैसे विशिष्ट थ्रेड्स) सहित। किसी भी व्यक्ति के लिए प्रतिष्ठा के रुझानों का मूल्यांकन करते समय किसी भी विश्लेषण को इस पर ध्यान देना होगा

    • समय के साथ एक समुदाय के तटों में परिवर्तन । समुदाय, और वे कैसे बातचीत करते हैं, विकसित होते हैं और विकसित होते हैं। समय के साथ वे कम या ज्यादा बार मतदान कर सकते हैं। किसी भी विश्लेषण को इस आशय का मूल्यांकन करना होगा और इसे कारक बनाना होगा

    • समय ही समय। जैसे-जैसे समय बीतता है, पहले की पोस्ट खोज के लिए उपलब्ध रहती हैं और वोटों को जारी रखने के लिए जारी रहती हैं। इस प्रकार, कैटरेटिस पेरिबस , पुराने पदों को नए लोगों की तुलना में अधिक वोट का उत्पादन करना चाहिए। (यह एक मजबूत प्रभाव है: मासिक प्रतिष्ठा लीग पर लगातार कुछ उच्च लोग पूरे साल इस साइट पर नहीं गए हैं!) यह मुखौटा या किसी भी वास्तविक सकारात्मक प्रतिष्ठा प्रभाव को उल्टा कर देगा। किसी भी विश्लेषण को उस समय की लंबाई में कारक की आवश्यकता होती है जो प्रत्येक पोस्ट साइट पर मौजूद है

  • विषय लोकप्रियता। कुछ टैग (जैसे, ) दूसरों की तुलना में कहीं अधिक लोकप्रिय हैं। इस प्रकार, किसी व्यक्ति के प्रश्नों के प्रकारों में परिवर्तन लौकिक परिवर्तनों जैसे कि एक प्रतिष्ठा प्रभाव के साथ भ्रमित हो सकते हैं। इसलिए, किसी भी विश्लेषण के सवालों के जवाब की प्रकृति में कारक होना चाहिए।

  • दृश्य [संपादित के रूप में जोड़े गए]। विभिन्न कारणों (फ़िल्टर, लिंक, आदि) के लिए लोगों की विभिन्न संख्याओं द्वारा प्रश्न देखे जाते हैं। यह संभव है कि उत्तरों द्वारा प्राप्त मतों की संख्या विचारों की संख्या से संबंधित होती है, हालांकि एक की संख्या में गिरावट की उम्मीद होगी क्योंकि विचारों की संख्या बढ़ जाती है। (यह सवाल कितने लोगों को है जो वास्तव में रुचि रखते हैं, वास्तव में इसे देखते हैं, न कि कच्ची संख्या। मेरा अपना - किस्सा - अनुभव यह है कि लगभग आधे उत्थान मुझे कई प्रश्नों पर प्राप्त होते हैं, जो पहले 5-15 के भीतर आते हैं। विचार, यद्यपि अंततः प्रश्नों को सैकड़ों बार देखा जाता है।) इसलिए, किसी भी विश्लेषण को विचारों की संख्या में कारक की आवश्यकता होती है, लेकिन शायद रैखिक तरीके से नहीं।

  • माप की कठिनाइयाँ। "प्रतिष्ठा" विभिन्न गतिविधियों के लिए प्राप्त वोटों का योग है: प्रारंभिक प्रतिष्ठा, उत्तर, प्रश्न, प्रश्न स्वीकृत करना, टैग विकी संपादन, डाउनवोटिंग और डाउनवॉट हो जाना (मूल्य के अवरोही क्रम में)। क्योंकि ये घटक अलग-अलग चीजों का आकलन करते हैं, और सभी समुदाय के मतदाताओं के नियंत्रण में नहीं हैं, उन्हें विश्लेषण के लिए अलग किया जाना चाहिए । एक "प्रतिष्ठा प्रभाव" संभवतः उत्तर पर और शायद, प्रश्नों पर उत्थान से जुड़ा है, लेकिन प्रतिष्ठा के अन्य स्रोतों को प्रभावित नहीं करना चाहिए। प्रारंभिक प्रतिष्ठा निश्चित रूप से घटाया जाना चाहिए (लेकिन शायद कुछ शुरुआती अनुभव के लिए प्रॉक्सी के रूप में इस्तेमाल किया जा सकता है)।

  • छिपे हुए कारक। कई अन्य भ्रमित कारक हो सकते हैं जिन्हें मापना असंभव है। उदाहरण के लिए, मंचों में भागीदारी में "बर्नआउट" के विभिन्न रूप हैं। शुरुआती कुछ हफ्तों, महीनों या वर्षों के उत्साह के बाद लोग क्या करते हैं? कुछ संभावनाओं में दुर्लभ, असामान्य या कठिन प्रश्नों पर ध्यान केंद्रित करना शामिल है; केवल अनुत्तरित प्रश्नों के उत्तर प्रदान करना; कम जवाब देने पर भी उच्च गुणवत्ता; आदि इनमें से कुछ प्रतिष्ठा प्रभाव का सामना कर सकते हैं, जबकि अन्य गलती से एक के साथ भ्रमित हो सकते हैं। ऐसे कारकों के लिए एक प्रॉक्सी एक व्यक्ति द्वारा भागीदारी की दरों में परिवर्तन हो सकता है : वे उस व्यक्ति के पदों की प्रकृति में परिवर्तन का संकेत दे सकते हैं।

  • उपसमुच्चय घटना। बहुत सक्रिय एसई पृष्ठों पर भी, आंकड़ों पर एक कड़ी नज़र, यह दर्शाती है कि अपेक्षाकृत कम संख्या में लोग अधिकांश उत्तर देने और मतदान करने के लिए करते हैं। दो या तीन लोगों के समान छोटा होने से प्रतिष्ठा की वृद्धि पर गहरा प्रभाव पड़ सकता है। साइट के बिल्ट-इन मॉनिटर (और इस साइट पर एक ऐसा समूह मौजूद है) द्वारा एक दो-व्यक्ति का पता लगाया जाएगा, लेकिन बड़े क्लोन शायद नहीं होंगे। (मैं औपचारिक मिलीभगत के बारे में बात नहीं कर रहा हूं: लोग इस तरह के क्लिक्स के सदस्य हो सकते हैं, इसके बारे में जानकारी के बिना भी।) हम इन अदृश्य, अनिर्धारित, अनौपचारिक क्लोन की गतिविधियों से एक स्पष्ट प्रतिष्ठा प्रभाव को कैसे अलग करेंगे? विस्तृत मतदान डेटा का उपयोग नैदानिक ​​रूप से किया जा सकता है, लेकिन मुझे विश्वास नहीं है कि हमारे पास इन डेटा तक पहुंच है।

  • सीमित डेटा। एक प्रतिष्ठा प्रभाव का पता लगाने के लिए, आपको दर्जनों से सैकड़ों पदों (कम से कम) वाले व्यक्तियों पर ध्यान देने की आवश्यकता होगी। यह वर्तमान आबादी को 50 से कम व्यक्तियों तक गिरा देता है। जब तक वे वास्तव में बहुत मजबूत नहीं होते हैं, तब तक बदलाव और भ्रमित होने की संभावना के साथ, यह महत्वपूर्ण प्रभावों को छेड़ने के लिए बहुत छोटा है। इलाज अन्य एसई साइटों से रिकॉर्ड के साथ डेटासेट को बढ़ाने के लिए है

इन सभी जटिलताओं को देखते हुए, यह स्पष्ट होना चाहिए कि ब्लॉग लेख में खोजकर्ता ग्राफिक्स को कुछ भी प्रकट करने की बहुत कम संभावना है जब तक कि यह स्पष्ट रूप से स्पष्ट न हो। हमारे ऊपर कुछ भी नहीं निकलता है: जैसी कि उम्मीद थी, डेटा गड़बड़ और जटिल हैं। यह भूखंडों में सुधार या प्रस्तुत किए गए विश्लेषण की अनुशंसा करने के लिए समय से पहले है: वृद्धिशील परिवर्तन और अतिरिक्त विश्लेषण तब तक मदद नहीं करेगा जब तक कि इन मूलभूत मुद्दों को संबोधित नहीं किया गया है


आपके उत्तर के लिए धन्यवाद। समालोचना की चौड़ाई को देखते हुए, मैं सभी सुझावों को टिप्पणियों में उचित रूप से संबोधित करने में सक्षम नहीं होऊंगा (मुझे किसी अन्य स्थान के बारे में सोचना होगा, शायद सिर्फ एक और Google दस्तावेज़ पोस्ट करें)। लेकिन मैं कहूंगा कि मुझे नहीं लगता कि इसका जवाब देना असंभव है (इस हद तक कि कोई भी इस तरह के अवलोकन डेटा के साथ कुछ भी जवाब दे सकता है)। कम से कम, संभावित भ्रम की सीमाओं को देखते हुए, कोई यह देख सकता है कि प्रतिष्ठा प्रभाव उपलब्ध साक्ष्यों के अनुरूप है या नहीं।
एंडी डब्ल्यू

@Andy मुझे लगता है कि यह तर्क गुमराह पर्याप्त और व्यापक है, इसलिए है कि भले ही यह लग रहा है एक प्रतिष्ठा प्रभाव की तरह नहीं है, यह एक विरूपण साक्ष्य हो सकता है: आप जब तक आप इन समस्याओं को संबोधित किया है किसी भी मान्य निष्कर्ष निकालना में सक्षम नहीं होगा। बेशक मैं गलत हो सकता हूं, लेकिन सबूत का बोझ आप पर है।
whuber

"अगर यह एक प्रतिष्ठा प्रभाव की तरह दिखता है" तो प्रमुख कथन है (जैसा कि मैं इसे देखता हूं)। आपके द्वारा प्रस्तुत किए गए अधिकांश भ्रम या तो अस्पष्ट रूप से एक पोस्टर प्रतिष्ठा / पोस्ट नंबर / इतिहास से संबंधित होंगे या सैद्धांतिक रूप से उनके इतिहास में बाद में उत्तर पर पोस्टर स्कोर बढ़ाने की उम्मीद होगी। यदि मुझे प्रतिष्ठा के प्रभावों का कोई सबूत नहीं मिलता है, तो इसकी अनुपस्थिति को समझाने के लिए कई संभावित संघर्षों का उपयोग नहीं किया जा सकता है।
एंडी डब्ल्यू

@Andy लेकिन कम से कम एक कर सकते हैं, और यह पर्याप्त है। इनमें छिपे हुए कारक, विषय लोकप्रियता और संदर्भ में अस्थायी परिवर्तन शामिल हैं। यदि आप विश्लेषण में इन सभी को स्पष्ट रूप से नहीं लेते हैं , तो आपके निष्कर्ष संदिग्ध होंगे। अभिलेखों पर एक नज़र से पता चलता है कि विषय की लोकप्रियता और अस्थायी परिवर्तन बहुत बड़े हैं; उनके संभावित प्रभाव दलदल को प्रभावित करते हैं जो कि हम परिमाण के एक क्रम तक प्रतिष्ठा प्रभाव की अपेक्षा कर सकते हैं।
whuber

2
@ कार्डिनल, यहां तक ​​कि एक औपचारिक परिभाषा के बिना, बहुत कम लोगों के लिए यह संभव होगा कि वे वोटिंग पैटर्न पर एक सराहनीय प्रभाव डालें (जो कि मुझे लगता है कि इस संदर्भ में व्हूबेर का जिक्र है)। जॉन स्कीट का औसत पद केवल 5 कुछ बढ़ा था। अगर एक अचानक एक व्यक्ति अपने सभी उत्तरों को उखाड़ने का फैसला करता है, तो इससे शुरू होने के लिए कम औसत स्कोर को देखते हुए काफी महत्वपूर्ण प्रभाव पड़ सकता है।
एंडी डब्ल्यू

5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2

बिंदु 1 पर: यदि आप निश्चित प्रभाव हाथ से कर रहे थे, तो आपको प्रतिक्रिया चर और व्याख्यात्मक चर दोनों को केंद्रित करना चाहिए। पैनल डेटा रिग्रेशन पैकेज ने आपके लिए ऐसा किया होगा, लेकिन चीजों को देखने का आधिकारिक अर्थमितीय तरीका "पूल किए गए" रिग्रेशन से "बीच" रिग्रेशन को घटाना है ( वोल्ड्रिज की काली किताब देखें ; मैंने दूसरे संस्करण की जाँच नहीं की है; लेकिन मैं आमतौर पर पहले संस्करण को अर्थमितीय पैनल डेटा के सर्वश्रेष्ठ पाठ्यपुस्तक-प्रकार के विवरण के रूप में देखता हूं)।

आपकी बात 2 पर: बेशक इकर / श्वेत मानक त्रुटियां आपके बिंदु अनुमानों को प्रभावित नहीं करेंगी; अगर उन्होंने किया, तो यह गलत कार्यान्वयन का संकेत होगा! समय-श्रृंखला के संदर्भ में, एक और भी उपयुक्त अनुमानक नेवी और वेस्ट (1987) के कारण है । परिवर्तनों की कोशिश करने से मदद मिल सकती है। मैं व्यक्तिगत रूप से बॉक्स-कॉक्स परिवर्तन का एक बड़ा प्रशंसक हूं, लेकिन विश्लेषण के संदर्भ में जो आप उपक्रम कर रहे हैं, यह सफाई से करना मुश्किल है। सबसे पहले, आपको आकार पैरामीटर के शीर्ष पर एक शिफ्ट पैरामीटर की आवश्यकता होगी, और इस तरह के मॉडल में पहचान करने के लिए शिफ्ट पैरामीटर बेहद मुश्किल हैं। दूसरा, आपको शायद अलग-अलग लोगों के लिए अलग-अलग शिफ्ट / आकार के मापदंडों की आवश्यकता होगी, और / या अलग-अलग पोस्ट, और / या ... (सभी नर्क को ढीला करना)। गणना डेटा एक विकल्प है, भी, लेकिन माध्य मॉडलिंग के संदर्भ में, एक पॉइसन रिग्रेशन लॉग परिवर्तन के रूप में अच्छा है, फिर भी यह विचरण = माध्य की एक अस्पष्ट धारणा को लागू करता है।

PS आप शायद इसे "अनुदैर्ध्य-डेटा" और "टाइम-सीरीज़" के साथ टैग कर सकते हैं।


प्रतिक्रिया के लिए धन्यवाद, और कुछ टिप्पणी / प्रश्न। मैं मानता हूं कि मुझे कम से कम इस डेटा में अधिक स्पष्ट समय श्रृंखला दृष्टिकोण का पता लगाना चाहिए था (मैंने यह देखने के लिए भी जांच नहीं की थी कि क्या अवशिष्टों में ऑटोक्रेलेशन का कोई सबूत है)। इस डेटा की टाइम सीरीज़ मॉडलिंग में कुछ और जटिलताएँ हैं (टी क्या है? और स्कोर स्वयं गतिशील है और प्रति पोस्ट नंबर तय नहीं है), साथ ही Z_t की भविष्यवाणी करने वाले प्रतिगमन की कोई आवश्यकता नहीं होगी, मुझे पूरी तरह से पता है कि Z_t क्या है का एक समारोह है!
एंडी डब्ल्यू

इसके अलावा, मैं अत्यधिक संदेह स्कोर गैर-स्थिर है, जो आपको लगता है कि यह क्या है?
एंडी डब्ल्यू

बहुत कम से कम, यह शायद विषमलैंगिक है: कुछ पोस्ट दिलचस्प हैं, बहुत सारे हिट और बहुत सारे अपवोट मिलते हैं, जबकि अन्य छोटे स्पष्टीकरण या आरटीएफएम हैं- "इस लिंक को पढ़ें" प्रकार के प्रश्न / उत्तर। वह खुद को तकनीकी रूप से गैर-स्थिर बना देगा। बेशक स्टेशनरी एक परीक्षण योग्य धारणा है, लेकिन इन जैसे पागल डेटा के साथ, आप शायद विश्लेषण विधियों में अत्यधिक रूढ़िवादी होने के एक बहुत ही सुरक्षित पक्ष पर होना चाहते हैं (या, जैसा कि मैंने उल्लेख किया है, यह जानने के लिए कि परिणाम हो सकते हैं अजीब)।
StasK

मैं आखिरी टिप्पणी से थोड़ा भ्रमित हूं। बहिर्जात के कारक जो किसी उत्तर के स्कोर को प्रभावित करते हैं, श्रृंखला को विषमलैंगिक बना देते हैं (मेरा मानना ​​है कि स्कोर का विचरण पोस्ट संख्या के साथ बड़ा / छोटा हो जाता है?), और यह सवाल किस प्रासंगिकता से जुड़ा है?
एंडी डब्ल्यू

एक समय श्रृंखला स्थिर होती है यदि सभी समय बिंदुओं पर सीमांत वितरण समान होते हैं। तो यहां तक ​​कि आपके पास एक ही मतलब हो सकता है, एक बदलते संस्करण श्रृंखला को गैर-स्थिर बना देगा। एक उदाहरण (G) ARCH मॉडल हैं जिसके लिए 2000 के दशक के प्रारंभ में एक नोबेल पुरस्कार दिया गया था। लेकिन इन आंकड़ों में, मैं इस बीच में कुछ बदलाव की उम्मीद करूंगा। यदि वेबसाइट के दर्शक बढ़ते हैं, तो किसी उत्तर की गुणवत्ता के लिए, आपको उस पर अधिक वोट देखने की संभावना होगी, जो संभवतः स्कोर के माध्य और विचरण दोनों को बढ़ाएगा।
StasK

3

भूखंडों में कई अन्य परिवर्तन:

  1. पिछली स्कोर बनाम पिछली प्रतिष्ठा के लिए क्वांटाइल बैंड। (प्लॉट्स 1 और 3)
  2. स्कीट बनाम अन्य के लिए घनत्व प्लॉट, डाक द्वारा स्तरीकृत # (प्लॉट 3)
  3. प्रतिस्पर्धी पदों के # द्वारा स्तरीकरण पर विचार करें
  4. समय के हिसाब से स्तरीकरण (एक बार प्रश्न पूछे जाने के बाद भी अंक प्राप्त कर सकते हैं)

इसे मॉडलिंग करना कठिन होगा। आप पॉसों के प्रतिगमन पर विचार कर सकते हैं। सच कहूँ तो, हालांकि, अच्छे भूखंडों को विकसित करना अंतर्दृष्टि और कौशल विकसित करने का एक बेहतर तरीका है। डेटा की बेहतर समझ होने के बाद मॉडलिंग शुरू करें।


(+1) पोस्ट को थोड़ी देर के लिए बैठने देने के बाद, मैंने महसूस किया कि अंकों के घनत्व की कल्पना करना खुद को अंकों की कल्पना करने की कोशिश करने की तुलना में एक बेहतर समाधान प्रतीत होता है (हालाँकि मुझे यकीन नहीं है कि आप "स्तरीकृत" से क्या मतलब है) पोस्ट #")। मुझे भी लगता है कि अनुमानित मात्राओं की साजिश करना एक अच्छे विचार की तरह लगता है, हालांकि साजिश 1 और 2 के लिए यह संभवतः बड़े पैमाने पर बादल में होगा। फिर से मुझे नहीं पता कि इस संदर्भ में "समय के अनुसार स्तरीकृत" का अर्थ या तो है, ब्लॉग पोस्ट पर ब्रैड लार्सन की टिप्पणी और इस संबंध में मेरी प्रतिक्रिया देखें।
एंडी डब्ल्यू

इसके अलावा, मुझे संदेह है कि प्रतिस्पर्धा वाले पोस्टों का अवलोकन किए गए रिश्तों से कोई लेना देना नहीं है। क्या आपको लगता है कि जिन लोगों की उच्च प्रतिष्ठा उनके इतिहास में पहले से अधिक प्रतिस्पर्धी जवाब के साथ धागे में पोस्ट की गई है? मॉडलिंग से बचने और भूखंडों पर ध्यान केंद्रित करने के सुझाव के साथ अन्य सहसंयोजकों के बारे में आपके सुझाव परस्पर विरोधी प्रतीत होते हैं।
एंडी डब्ल्यू

प्रतिस्पर्धी पदों के पीछे का विचार प्रकृति में खोजपूर्ण है। जवाब देने के लिए प्रेरणा का इससे कोई लेना-देना नहीं है। मॉडलिंग के बारे में, ऐसा नहीं है कि मैं प्रति सेकेड मॉडलिंग के खिलाफ हूं, लेकिन आप अभी तक ऐसा करने के लिए तैयार नहीं हैं, जब तक आपको डेटा की बेहतर समझ न हो। यदि आप डेटा को नहीं समझते हैं, तो आप मॉडल को नहीं समझेंगे।
अपराह्न

# पद से स्तरीकरण करके, मैं सुझाव दे रहा हूं कि आप पदों को बिन करें। यह अंतराल के पैमाने पर हो सकता है, जैसे 0-100 पद, 101-200, आदि या एक मात्रात्मक पैमाने पर: कुल पदों के नीचे 10% ile, 20% ile, इत्यादि के कारण उपयोगकर्ताओं को विभाजित करते हैं, क्योंकि स्कीट। इतने सारे पद हैं, उनकी तुलना अपने सहकर्मी समूह से करना सबसे अच्छा है, लेकिन उनकी तुलना उन लोगों के एक सहकर्मी समूह से करना कठिन है, जो ठीक उसी # पदों के साथ हैं - जो डेटा की मदद कर सकते हैं।
इटरेटर

Btw, स्तरीकरण के लिए, आप उपयोग कर सकते हैं coplot()
इटरेटर

1

वाह वहाँ। (और मेरा मतलब है कि एक अच्छे तरीके से ;-)) मॉडल के साथ आगे जाने से पहले, आपको यह पता करने की आवश्यकता है कि डेटा के साथ क्या हो रहा है।

मुझे इस प्लॉट के बीच में बहुत अजीबोगरीब वक्र के लिए स्पष्टीकरण नहीं दिखता है: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

इस तरह के वक्र को देखकर मुझे लगता है कि उन बिंदुओं के बारे में बहुत कुछ अजीब है - कि वे एक-दूसरे से स्वतंत्र नहीं हैं और इसके बजाय उसी स्रोत के कुछ अनुक्रमों को दर्शाते हैं।

(लघु नोट: उस साजिश का शीर्षक "सहसंबंध ..." भ्रामक है।)


5
कुल्हाड़ियों पर तराजू की अजीब पसंद के कारण वह वक्र अजीब दिखता है। यह उन उत्तरों को दर्शाता है जिन्होंने उपयोगकर्ता की प्रतिष्ठा के बहुमत का योगदान दिया है: एक-पोस्ट चमत्कार। यह घातीय है क्योंकि y अक्ष रैखिक है जबकि x अक्ष लघुगणकीय है। आपको वास्तव में लॉग रेपुटेशन से जुड़ी हर चीज को नजरअंदाज करना चाहिए2क्योंकि कई उपयोगकर्ताओं के लिए जहां उनकी प्रतिष्ठा शुरू होती है और आपको लॉग प्रतिष्ठा के लिए लगभग कुछ भी विचार करना चाहिए3सिर्फ शोर करने के लिए। इस प्रकार, इस ग्राफिक का 99% उस शोर को प्रदर्शित करने के लिए समर्पित है: वहाँ बहुत अधिक जानकारी नहीं है।
whuber

उस वक्र को प्रकृति द्वारा समझाया जा सकता है कि प्रतिष्ठा कैसे संबंधित है, और संभावना है कि जिन लोगों ने एक उत्तर पोस्ट किया है और उस एकमात्र उत्तर से सभी प्रतिष्ठा प्राप्त की है (मैं इस बात पर अधिक विस्तार से जा सकता हूं कि यदि आवश्यक हो तो मामला कैसे हो) । अगर मैंने वर्तमान प्रतिष्ठा को सबसे अधिक वर्तमान पद से हटा दिया, तो इस बात का ध्यान रखा जाता कि अधिकांश भाग के लिए भी (उन टिप्पणियों का बाद के विश्लेषण से कोई लेना-देना नहीं है)। क्या आप भ्रामक होने के संबंध में विस्तार से ध्यान रखते हैं?
एंडी डब्ल्यू

@ जब तक, मुझे नहीं लगता कि मैं 10 ^ 3 से नीचे कुछ भी कहूंगा कि सिर्फ शोर है। प्रतिष्ठा के अनुपस्थित होने पर निश्चित रूप से प्रतिष्ठा प्रभावों का एक सिद्धांत लागू होना चाहिए। मैं भूखंडों में किसी भी सुझाए गए सुधार का भी स्वागत करता हूं (किसी भी भूखंड में बहुत अधिक जानकारी नहीं है!)
एंडी डब्ल्यू

धन्यवाद। शीर्षक के लिए, सहसंबंध की कोई गणना नहीं है। यह महज मामूली स्कोर बनाम प्रतिष्ठा का बिखराव है। सिवाय, जैसा कि आप और @whuber ने उल्लेख किया है, यह वास्तव में सीमांत स्कोर नहीं है: यह डेल्टा होना चाहिए (या रेप (टी) - रेप (टी -1)) बनाम रेप (टी -1)।
आइटरेटर

1
@ सूचक, अंतिम कथन के लिए सही है (10 अंक प्रति अपवोट), लेकिन यह अभी भी प्रतीत होता है कि आप भ्रमित हो सकते हैं कि मैं दूसरे कथन के साथ क्या साजिश रच रहा हूं। Y अक्ष प्रतिष्ठा नहीं है, लेकिन सबसे हालिया पोस्ट के लिए upvotes की संख्या (यह आवश्यक नहीं है Rep(t) - Rep(t-1)क्योंकि उपयोगकर्ता अन्य स्थानों से प्रतिष्ठा प्राप्त कर सकते हैं), एक्स अक्ष वर्तमान प्रतिष्ठा है (उस पोस्ट से प्राप्त प्रतिष्ठा सहित)। एक्स अक्ष वह है जो मैंने सुझाया है उसे प्रतिस्थापित किया जाना चाहिए (प्रश्न के उत्तर से प्राप्त उत्तोलन को घटाते हुए मुझे Y अक्ष पर प्लॉट किया गया है)।
एंडी डब्ल्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.