समय की घटनाओं के लंबे समय तक पूंछ वितरण


10

मान लीजिए कि आपके पास एक वेब सर्वर के लॉग हैं। इन लॉग में आपके पास इस तरह के ट्यूल हैं:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

ये टाइमस्टैम्प्स यूज़र्स के क्लिक का प्रतिनिधित्व करते हैं। अब, user1महीने के दौरान कई बार (सत्र) साइट पर जाएँगे, और आपके पास प्रत्येक सत्र के दौरान प्रत्येक उपयोगकर्ता से क्लिक के फटने होंगे (यह मानते हुए कि जब कोई उपयोगकर्ता आपकी साइट पर आएगा, तो वह कई पृष्ठों पर क्लिक करेगा)।

मान लें कि आप उन सत्रों में हुए क्लिकों के इन बंटवारे को उत्पन्न करना चाहते हैं जो उन्हें उत्पन्न करते हैं, लेकिन आपके पास जानकारी का कोई अतिरिक्त स्रोत नहीं है, केवल टाइमस्टैम्प की सूची है। यदि आप एक ही उपयोगकर्ता से दो परिणामी क्लिक के बीच अंतराल के वितरण की गणना करते हैं, तो आपको एक लंबी पूंछ वाला वितरण प्राप्त होगा। सहज रूप से, आप "कट पैरामीटर" की तलाश करेंगे, उदाहरण के लिए N सेकंड, जहां यदि timestamp_{i+1} - timestamp{i} > N, तो आपके timestamp_{i+1}नए सत्र की शुरुआत है।

समस्या यह है कि वास्तविकता में यह वितरण दो चर का मिश्रण है: X = "एक ही सत्र में दो परिणामी क्लिक के बीच का अंतराल" और Y = "पिछले सत्र के अंतिम क्लिक और नए के पहले के बीच का अंतराल"।

सवाल यह है कि इस एन का अनुमान कैसे लगाया जाए, जो केवल दो क्लिक के बंटवारे को देखते हुए, दो वितरण (ओवरलैप के साथ, संभवतः) को विभाजित करता है?


जब आप कहते हैं "बस क्लिक के फटने को देखकर" क्या आपका मतलब है कि आप N के अलावा किसी अन्य चीज़ की गणना करने में असमर्थ हैं?
jerad

मेरा मतलब है कि आपके पास टुपल्स (उपयोगकर्ता, टाइमस्टैम्प) के अलावा अन्य जानकारी के अतिरिक्त स्रोत नहीं हैं। थ्रेशोल्ड-आधारित विधि (डेल्टा> एन पर आधारित) केवल एक विधि का एक उदाहरण है। शायद कुछ और संभव है।
15

यह धागा आपके लिए हितकर हो सकता है: उपयुक्त-क्लस्टरिंग-तकनीक-फॉर-टेम्पोरल-डेटा
गंग -

जवाबों:


2

आपको वास्तव में कच्चे मूल्यों के बजाय अंतर-क्लिक अंतराल के लघुगणक की साजिश रचनी चाहिए; यह आपके वितरण को समतल कर देगा और आपके वितरण में कई मोड को प्रकट कर सकता है।

न्यूरोसाइंटिस्टों द्वारा न्यूरोनल स्पाइक्स के फटने की पहचान करने में एक समान समस्या को हल करने के लिए अधिक उन्नत दृष्टिकोण विकसित किए गए हैं। यह क्लासिक पेपर या Google विद्वान पर कई अन्य संबंधित कागजात ।


मैंने डिस्ट्रीब्यूशन का लोगो प्रिंट किया था। यह एक सपाट रेखा है। हालांकि यह कैसे मदद करता है? तुम क्या देखोगे? कागज के लिए संदर्भ महान है, धन्यवाद।
मार्कोरोसी

क्या बस के बारे में लॉग संभावना संभावना? यानी केवल आवृत्तियों का लॉग लें, अंतराल नहीं। क्या यह दो मोड को प्रकट करता है?
१४:१२
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.