मैं एक समय श्रृंखला वर्गीकरण समस्या पर काम कर रहा हूं जहां सेल फोन खाते के पहले 21 दिनों के लिए इनपुट समय श्रृंखला आवाज उपयोग डेटा (सेकंड में) है। संबंधित लक्ष्य चर 35-45 दिन की सीमा में उस खाते को रद्द किया गया है या नहीं। तो यह एक द्विआधारी वर्गीकरण समस्या है।
मुझे उन सभी तरीकों से बहुत खराब परिणाम मिल रहे हैं जो मैंने अब तक (अलग-अलग डिग्री के लिए) आजमाए हैं। पहले मैंने के-एनएन वर्गीकरण (विभिन्न संशोधनों के साथ) की कोशिश की और बहुत बुरे परिणाम प्राप्त किए। इससे मुझे टाइम सीरीज़ से फीचर्स निकालने होते हैं - यानी माध्य, अधिकतम, न्यूनतम, कुल शून्य दिन, कुल अनुगामी शून्य दिन, फ़र्स्ट हाफ़ एवरेज और सेकेंड हाफ़ एवरेज का अंतर आदि और सबसे प्रेडिक्टिव फीचर्स टोटल लग रहे थे। शून्य दिन और कुल अनुगामी शून्य दिन (कई वर्गीकरण एल्गोरिदम का उपयोग करके)। इसने सर्वश्रेष्ठ प्रदर्शन किया लेकिन प्रदर्शन अभी भी बहुत अच्छा नहीं था।
मेरी अगली रणनीति मेरे प्रशिक्षण सेट में नकारात्मक उदाहरणों की निगरानी करना थी क्योंकि उनमें से बहुत कम थे। इसके परिणामस्वरूप अधिक सही रद्दीकरण भविष्यवाणी हुई लेकिन अधिक झूठी-सकारात्मकता की कीमत पर।
मैं यह सोचना शुरू कर रहा हूं कि शायद समय श्रृंखला उपयोग डेटा केवल बहुत भविष्य कहनेवाला नहीं है (हालांकि सामान्य ज्ञान कहता है कि यह होना चाहिए)। शायद कुछ अव्यक्त चर है जिस पर मैं विचार नहीं कर रहा हूं। डेटा को देखने से कुछ अजीब व्यवहार भी दिखता है। यानी कुछ उदाहरण बहुत कम या घटता हुआ उपयोग दिखाते हैं (या कभी-कभी कोई भी नहीं) और रद्द नहीं करते हैं, और कुछ उपयोग में रैंप दिखाते हैं जो रद्द करते हैं। शायद यह विरोधाभासी व्यवहार एक क्लासिफायर के लिए बहुत स्पष्ट निर्णय सीमा उत्पन्न नहीं करता है।
त्रुटि के लिए एक अन्य संभावित स्रोत तथ्य यह है कि कई प्रशिक्षण उदाहरण बहुत विरल हैं (यानी 0 उपयोग के साथ कई दिन)। एक विचार जो मैंने अभी तक कोशिश नहीं किया है, वह है समय श्रृंखला को खंडों में विभाजित करना और इस तरह से कुछ विशेषताएं उत्पन्न करना, लेकिन मुझे उच्च उम्मीदें नहीं हैं।