मान लीजिए कि आपके पास एक वेब सर्वर के लॉग हैं। इन लॉग में आपके पास इस तरह के ट्यूल हैं:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
ये टाइमस्टैम्प्स यूज़र्स के क्लिक का प्रतिनिधित्व करते हैं। अब, user1
महीने के दौरान कई बार (सत्र) साइट पर जाएँगे, और आपके पास प्रत्येक सत्र के दौरान प्रत्येक उपयोगकर्ता से क्लिक के फटने होंगे (यह मानते हुए कि जब कोई उपयोगकर्ता आपकी साइट पर आएगा, तो वह कई पृष्ठों पर क्लिक करेगा)।
मान लें कि आप उन सत्रों में हुए क्लिकों के इन बंटवारे को उत्पन्न करना चाहते हैं जो उन्हें उत्पन्न करते हैं, लेकिन आपके पास जानकारी का कोई अतिरिक्त स्रोत नहीं है, केवल टाइमस्टैम्प की सूची है। यदि आप एक ही उपयोगकर्ता से दो परिणामी क्लिक के बीच अंतराल के वितरण की गणना करते हैं, तो आपको एक लंबी पूंछ वाला वितरण प्राप्त होगा। सहज रूप से, आप "कट पैरामीटर" की तलाश करेंगे, उदाहरण के लिए N सेकंड, जहां यदि timestamp_{i+1} - timestamp{i} > N
, तो आपके timestamp_{i+1}
नए सत्र की शुरुआत है।
समस्या यह है कि वास्तविकता में यह वितरण दो चर का मिश्रण है: X = "एक ही सत्र में दो परिणामी क्लिक के बीच का अंतराल" और Y = "पिछले सत्र के अंतिम क्लिक और नए के पहले के बीच का अंतराल"।
सवाल यह है कि इस एन का अनुमान कैसे लगाया जाए, जो केवल दो क्लिक के बंटवारे को देखते हुए, दो वितरण (ओवरलैप के साथ, संभवतः) को विभाजित करता है?