यह निर्धारित करना कि दैनिक विज़िट का उपयोग करके कोई वेबसाइट सक्रिय है या नहीं


15

प्रसंग:

मेरे पास वेबसाइटों का एक समूह है जहां मैं दैनिक आधार पर विज़िट की संख्या रिकॉर्ड करता हूं:

W0 = { 30, 34, 28, 30, 16, 13, 8, 4, 0, 5, 2, 2, 1, 2, .. } 
W1 = { 1, 3, 21, 12, 10, 20, 15, 43, 22, 25, .. }
W2 = { 0, 0, 4, 2, 2, 5, 3, 30, 50, 30, 30, 25, 40, .. } 
...
Wn 

सामान्य प्रश्न:

  • मैं यह कैसे निर्धारित करूं कि कौन सी साइटें सबसे अधिक सक्रिय हैं?

इससे मेरा मतलब है कि पिछले कुछ दिनों के दौरान यात्राओं में अधिक वृद्धि या अचानक वृद्धि प्राप्त करना। उदाहरण के प्रयोजनों के लिए, W0 से ऊपर के छोटे उदाहरण में शुरू में लोकप्रिय होगा, लेकिन परित्याग दिखाना शुरू कर रहा है, W1 एक स्थिर लोकप्रियता (कुछ अलग-थलग चोटी के साथ) दिखा रहा है, और एक शांत शुरुआत के बाद W3 एक महत्वपूर्ण वृद्धि है।

प्रारंभिक विचार:

मुझे यह सूत्र SO पर मिला जहां एक सरल सूत्र वर्णित है:

// pageviews for most recent day
y2 = pageviews[-1]
// pageviews for previous day
y1 = pageviews[-2]
// Simple baseline trend algorithm
slope = y2 - y1
trend = slope * log(1.0 +int(total_pageviews))
error = 1.0/sqrt(int(total_pageviews))
return trend, error

यह काफी अच्छा और आसान लग रहा है, लेकिन मुझे इससे समस्या है।

गणना ढलानों पर आधारित है। यह ठीक है और उन विशेषताओं में से एक है जिनमें मुझे दिलचस्पी है, लेकिन IMHO में गैर-मोनोटोनिक श्रृंखला के लिए समस्याएं हैं। कल्पना करें कि कुछ दिनों के दौरान हमारे पास लगातार दौरे आते हैं (इसलिए ढलान = 0), फिर उपरोक्त प्रवृत्ति शून्य होगी।

प्रशन:

  • मैं दोनों मामलों (मोनोटोनिक वृद्धि / कमी) और बड़ी संख्या में हिट कैसे संभाल सकता हूं?
  • क्या मुझे अलग-अलग फॉर्मूलों का इस्तेमाल करना चाहिए?

1
मुझे आश्चर्य है कि आपको अभी तक कोई जवाब नहीं मिला है (हालांकि यह स्पष्ट रूप से लोकप्रिय प्रश्न है)। चूँकि आपकी प्रत्येक चार गोलियां अपने आप में और इस सवाल के लायक हैं कि कैसे इस प्रश्न को उनमें से एक तक सीमित किया जाए और दूसरों को अलग-अलग प्रश्नों में पोस्ट किया जाए। वे सभी वास्तव में उत्कृष्ट प्रश्न हैं जो अलग-अलग दृष्टिकोण लेते हैं, और सभी चार अपने दम पर सार्थक हैं।
एंडी डब्ल्यू

हाय एंडी, आपके उत्तर के लिए बहुत बहुत धन्यवाद। मैं इसे पुनःप्रकाशित करने और एक बार में एक ही मुद्दे पर ध्यान केंद्रित करने की कोशिश करूँगा। मेरा प्रारंभिक विचार इसे जितना संभव हो उतना व्यापक बना रहा था (और बाद में उसी प्रश्न को दोहराने से बचें) लेकिन उत्तरों की कमी को देखते हुए, ऐसा लगता है कि किसी के उत्तर देना बहुत सामान्य है।
डैन

मैंने उन दो मुख्य मुद्दों को उजागर करने के लिए प्रश्न संपादित किए, जिनमें मैं ज्यादातर दिलचस्पी रखता हूं। मैंने उन्हें उसी रिश्ते में रखने के लिए चुना जो उनके तंग रिश्ते को देखते थे।
दान

1
मैं अभी भी यह समझने में विफल रहा हूं कि एक छोटी सी त्रुटि के साथ एक अनुमान होने के कारण एक दृष्टिकोण 'अनुपयोगी' हो जाता है।
onestop

टिप्पणी के लिए धन्यवाद। मैं यह नहीं कह रहा हूँ कि aproach (प्रवृत्ति गणना) अनुपयोगी है, लेकिन इसकी त्रुटि गणना एक संभावित समस्या हो सकती है। यह देखते हुए कि मुझे अब तक कोई जवाब नहीं मिला है, मैं उस आइटम को उस प्रश्न से हटा दूंगा जो यह उम्मीद करता है कि इसका उत्तर देना आसान हो जाए।
दान

जवाबों:


4

ऐसा लगता है कि आप "ऑनलाइन परिवर्तन खोज विधि" की तलाश कर रहे हैं। (यह गोगलिंग के लिए एक उपयोगी वाक्यांश है।) कुछ उपयोगी हाल ही में (और सुलभ) पेपर एडम्स और मैकके (एक बायेसियन दृष्टिकोण) और केओग एट अल हैं। आप सेवा में R के लिए निगरानी पैकेज को दबा सकते हैं । सांख्यिकीय प्रक्रिया नियंत्रण विधियों का उपयोग करके बड़ी संख्या में हिट पाई जा सकती हैं ।


2

इस तरह की समस्या के समाधान के लिए निश्चित रूप से अधिक और कम जटिल तरीके हैं। चीजों की आवाज़ से, आपने एक काफी सरल समाधान (एसओ पर पाया गया सूत्र) के साथ शुरुआत की। उस तरह की सरलता को ध्यान में रखते हुए, मैंने सोचा कि मैं आपके पोस्ट के (वर्तमान संस्करण) आपके द्वारा बनाए गए कुछ प्रमुख बिंदुओं पर फिर से विचार करूंगा।

अब तक, आपने कहा है कि आप "साइट गतिविधि" के अपने माप को कैप्चर करना चाहते हैं:

  • "पिछले कुछ दिनों" के दौरे / दिन में ढलान में बदलाव
  • "पिछले कुछ दिनों" के दौरे / दिन में परिवर्तन

जैसा कि @ जान-गल्कोव्स्की बताते हैं, आप भी इन आयामों के साथ एक-दूसरे के सापेक्ष साइटों की रैंक में रुचि रखते हैं (कम से कम tacitly) लगते हैं।

यदि यह विवरण सटीक है, तो मैं उन तीन उपायों (परिवर्तन, परिमाण, रैंक) को अलग-अलग घटकों के रूप में शामिल करने वाले सरलतम संभावित समाधान की खोज करना चाहूंगा। उदाहरण के लिए, आप हड़प सकते हैं:

  • ढलान भिन्नता को पकड़ने के लिए आपके एसओ समाधान के परिणाम (हालांकि मैं 3 या 4 दिनों के डेटा को शामिल करूंगा)
  • (y2)उस साइट के लिए औसत विज़िट / दिन द्वारा विभाजित प्रत्येक साइट के सबसे हाल के दौरे / दिन के मूल्य का परिमाण ( Y):

y2 / mean(Y)

क्रमशः W0, W1 और W2 के लिए, यह उपज 0.16, 1.45 और 2.35 है। (व्याख्या के लिए, इस बात पर विचार करें कि एक साइट जिसका हाल ही में प्रति-दिन का मूल्य इसके बराबर था, इसका मतलब है कि प्रति-दिन की विज़िट 1 का परिणाम उत्पन्न करेगी)। ध्यान दें कि आप इस उपाय को हाल के 2 (या अधिक) दिनों को पकड़ने के लिए समायोजित कर सकते हैं:

y2 + y1 / 2 * mean(Y)

वह पैदावार: आपके तीन नमूना साइटों के लिए 0.12, 1.33, 1.91।

यदि आप वास्तव में इस तरह के उपाय के लिए प्रत्येक साइट की यात्रा / दिन वितरण के माध्यम का उपयोग करते हैं, तो मैं इसके सापेक्ष अस्थिरता की भावना प्राप्त करने के लिए वितरण के मानक विचलन को भी देखूंगा। प्रत्येक साइट की यात्रा / दिन वितरण के लिए मानक विचलन है: 12.69, 12.12 और 17.62। y2/mean(Y)मानक विचलन के सापेक्ष माप के बारे में सोचना सहायक है क्योंकि यह आपको साइट डब्ल्यू 2 पर गतिविधि की हाल की परिमाण को परिप्रेक्ष्य में रखने की अनुमति देता है (बड़ा मानक विचलन = कम स्थिर / सुसंगत समग्र)।

अंत में, यदि आप रैंक में रुचि रखते हैं, तो आप इन तरीकों को उस दिशा में भी बढ़ा सकते हैं। उदाहरण के लिए, मैं अच्छी तरह से प्रति दिन प्रत्येक साइट के माध्य का दौरा (रैंक के पद के रूप में के रूप में दिन मूल्यों के अनुसार हाल ही में दौरा करने के मामले में एक साइट की रैंक जानते हुए भी कि लगता होगा mean (Y)प्रत्येक के लिए Wमें Wn) उपयोगी हो सकता है। फिर, आप अपनी आवश्यकताओं के अनुरूप दर्जी कर सकते हैं।

आप इन सभी गणनाओं के परिणामों को एक तालिका के रूप में प्रस्तुत कर सकते हैं, या उन्हें दैनिक आधार पर ट्रैक करने के लिए एक नियमित रूप से अद्यतन दृश्य बना सकते हैं।


1

सावधानी बरतें कि वेब साइटों पर उपयोगकर्ताओं की आगमन दर कम है, श्रृंखला अत्यधिक खराब हो रही है (एक पॉइसन दृष्टिकोण से), इसलिए आगमन को देखने के लिए नकारात्मक द्विपद वितरण और उनके फिटिंग पर विचार करें। साथ ही, आप प्रत्येक दिन साइटों के क्रम आँकड़ों की जाँच करना चाह सकते हैं बजाय उनकी संख्या के।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.