क्या किसी वेबसाइट पर आने वाले विज़िटर किसी पावर लॉ का पालन करते हैं?


14

मान लीजिए कि मेरे पास एक आदेशित वेक्टर है जहां पहला तत्व किसी वेबसाइट की विज़िट की संख्या है जो किसी विशिष्ट अवधि में अद्वितीय IP द्वारा सबसे अधिक विज़िट के साथ होती है, दूसरा तत्व अद्वितीय IP द्वारा विज़िट की संख्या दूसरी के साथ है विज़िट की उच्चतम संख्या, और इसी तरह। मैं समझता हूं कि प्रति साइट विविधताएँ हो सकती हैं, लेकिन क्या इस वेक्टर के आकार के लिए एक सामान्य पैटर्न है? उदाहरण के लिए, क्या यह एक बिजली-कानून वितरण का पालन करता है?


6
आईपी ​​विशेष रूप से गतिशील पते और विभिन्न अन्य मुद्दों (जैसे कई कंप्यूटरों का उपयोग करने वाले लोग) के कारण लोगों से मेल नहीं खा रहे हैं। अगर मैं इस परिकल्पना का परीक्षण करना चाहता था, तो मैं शायद आईपी पते के बजाय आगंतुक आईडी का उपयोग करूंगा।
रिचमीमोर्रोसियो

जवाबों:


23

नहीं, एक वेबसाइट पर अद्वितीय आगंतुक एक शक्ति कानून का पालन नहीं करते हैं।

पिछले कुछ वर्षों में, शक्ति कानून के दावों (जैसे, क्लॉसेट, शालिज़ी और न्यूटन 2009) के परीक्षण में कठोरता बढ़ रही है। जाहिरा तौर पर, पिछले दावों का अक्सर अच्छी तरह से परीक्षण नहीं किया गया था और लॉग-लॉग पैमाने पर डेटा को प्लॉट करना और एक सीधी रेखा को प्रदर्शित करने के लिए "नेत्रगोलक परीक्षण" पर भरोसा करना आम था। अब जब औपचारिक परीक्षण अधिक सामान्य हैं, तो कई वितरण बिजली कानूनों का पालन नहीं करते हैं।

सर्वश्रेष्ठ दो संदर्भ जो मुझे पता है कि वेब पर उपयोगकर्ता की विज़िट अली और स्कायर (2007) और क्लॉज़, शालिज़ी और न्यूमैन (2009) हैं।

अली और स्कार (2007) ने याहू वेबसाइट पर उपयोगकर्ता क्लिकों के यादृच्छिक नमूने को देखा और निष्कर्ष निकाला:

प्रचलित ज्ञान यह है कि वेब क्लिक और पेजव्यू का वितरण एक स्केल-फ्री पावर लॉ वितरण का अनुसरण करता है। हालांकि, हमने पाया है कि डेटा का एक सांख्यिकीय रूप से बेहतर विवरण स्केल-सेंसिटिव जिपफ- मैंडेलब्रोट डिस्ट्रीब्यूशन है और इसके मिश्रण आगे फिट को बढ़ाता है। पिछले विश्लेषणों में तीन नुकसान हैं: उन्होंने उम्मीदवार वितरण के एक छोटे सेट का उपयोग किया है, आउट-ऑफ-डेट उपयोगकर्ता वेब व्यवहार (1998) और विश्लेषण योग्य सांख्यिकीय पद्धति का विश्लेषण किया है। यद्यपि हम यह नहीं बता सकते हैं कि एक बेहतर फिटिंग वितरण एक दिन में नहीं मिल सकता है, हम यह सुनिश्चित करने के लिए कह सकते हैं कि स्केल-सेंसिटिव Zipf-Mandelbrot वितरण स्केल-फ्री पॉवर-लॉ या ZIPf की तुलना में डेटा के लिए सांख्यिकीय रूप से अधिक मजबूत फिट प्रदान करता है। याहू डोमेन से कई तरह के वर्टिकल।

यहां एक महीने में अलग-अलग उपयोगकर्ता क्लिकों का एक हिस्टोग्राम और लॉग-लॉग प्लॉट पर उनके समान डेटा की तुलना में विभिन्न मॉडल हैं। डेटा स्पष्ट रूप से एक सीधे लॉग-लॉग लाइन पर नहीं है जो कि स्केल-फ्री बिजली वितरण से अपेक्षित है।

अली और स्कायर से आंकड़े 2 और 4

क्लॉज़ेट, शालिज़ी और न्यूमैन (2009) ने संभावना अनुपात अनुपात परीक्षणों का उपयोग करते हुए वैकल्पिक परिकल्पनाओं के साथ पावर लॉ स्पष्टीकरण की तुलना की और निष्कर्ष निकाला कि दोनों वेब हिट और लिंक "संभवतः एक पावर लॉ का पालन करने के लिए विचार नहीं किया जा सकता है।" पूर्व के लिए उनका डेटा एक ही दिन में अमेरिका ऑनलाइन इंटरनेट सेवा के ग्राहकों द्वारा वेब हिट था और बाद के लिए लगभग 200 मिलियन वेब पृष्ठों के 1997 के वेब क्रॉल में पाए गए वेब साइटों के लिंक थे। नीचे की छवियां संचयी वितरण फ़ंक्शन P (x) और उनकी अधिकतम संभावना शक्ति-कानून give ts देती हैं।

यहाँ छवि विवरण दर्ज करें

इन दोनों डेटा सेटों के लिए, क्लॉज़ेट, शालिज़ी और न्यूमैन ने पाया कि वितरण की चरम पूंछ को संशोधित करने के लिए घातीय कटो के साथ बिजली वितरण स्पष्ट रूप से शुद्ध बिजली कानून वितरण से बेहतर थे और लॉग-सामान्य वितरण भी अच्छे थे। (उन्होंने घातीय और विस्तारित घातीय परिकल्पनाओं को भी देखा।)

यदि आपके हाथ में डेटासेट है और आप केवल जिज्ञासु नहीं हैं, तो आपको इसे विभिन्न मॉडलों के साथ फिट करना चाहिए और उनकी तुलना (R: pchisq (2 * (logLik (model1) - logLik (model2)), d1 = 1, लोअर) से करनी चाहिए। tail = FALSE))। मैं मानता हूं कि मुझे कोई विचार नहीं है कि शून्य-समायोजित ZM मॉडल कैसे बनाया जाए। रॉन पियर्सन ने ZM वितरण के बारे में ब्लॉग किया है और जाहिरा तौर पर एक R पैकेज zipfR है। मुझे, मैं शायद एक नकारात्मक द्विपद मॉडल के साथ शुरू करूंगा, लेकिन मैं एक वास्तविक सांख्यिकीविद् नहीं हूं (और मैं उनकी राय पसंद करूंगा)।

(मैं ऊपर दूसरे टिप्पणीकार @richiemorrisroe को भी कहना चाहता हूं, जो डेटा को इंगित करते हैं, वे व्यक्तिगत मानव व्यवहार से असंबंधित कारकों से प्रभावित होते हैं, जैसे वेब और आईपी पते क्रॉल करने वाले कार्यक्रम जो कई लोगों के कंप्यूटर का प्रतिनिधित्व करते हैं।)

पत्रों का उल्लेख:


@MattBag, दिलचस्प लग रहा है, इस मामले पर यह कोशिश करेंगे। चूहे ।ackackexchange.com
q
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.