मैं अक्सर एक मॉडल (वर्गीकरण या प्रतिगमन) का निर्माण कर रहा हूं, जहां मेरे पास कुछ भविष्यवक्ता चर हैं जो अनुक्रम हैं और मैं उन्हें मॉडल में भविष्यवक्ताओं के रूप में शामिल करने के लिए सर्वोत्तम तरीके से संक्षेप में प्रस्तुत करने के लिए तकनीक की सिफारिशों को खोजने की कोशिश कर रहा हूं।
एक ठोस उदाहरण के रूप में, यह कहें कि एक मॉडल यह अनुमान लगाने के लिए बनाया जा रहा है कि क्या ग्राहक अगले 90 दिनों में कंपनी छोड़ देगा (कभी भी टी और टी +90 के बीच - इस प्रकार एक द्विआधारी परिणाम)। उपलब्ध भविष्यवाणियों में से एक है ग्राहकों का वित्तीय अवधियों का स्तर t_0 से t-1 तक। हो सकता है कि यह पहले 12 महीनों (यानी 12 माप) के लिए मासिक टिप्पणियों का प्रतिनिधित्व करता है।
मैं इस श्रृंखला से सुविधाओं के निर्माण के तरीकों की तलाश कर रहा हूं। मैं प्रत्येक ग्राहक श्रृंखला के विवरणों का उपयोग करता हूं, जैसे कि उच्च, निम्न, एसटीडी देव।, प्रवृत्ति प्राप्त करने के लिए एक ओएलएस प्रतिगमन फिट करें। सुविधाओं की गणना करने के उनके अन्य तरीके हैं? परिवर्तन या अस्थिरता के अन्य उपाय?
जोड़ें:
जैसा कि नीचे एक प्रतिक्रिया में उल्लेख किया गया है, मैंने भी विचार किया (लेकिन यहां जोड़ना भूल गया) डायनामिक टाइम वारपिंग (डीटीडब्ल्यू) का उपयोग करके और फिर परिणामी दूरी मैट्रिक्स पर पदानुक्रमिक क्लस्टरिंग - कुछ संख्या में क्लस्टर बनाना और फिर एक विशेषता के रूप में क्लस्टर सदस्यता का उपयोग करना। स्कोरिंग टेस्ट डेटा को संभवतः एक प्रक्रिया का पालन करना होगा, जहां DTW नए मामलों और क्लस्टर सेंट्रोइड्स पर किया गया था - नए डेटा श्रृंखला का मिलान उनके निकटतम सेंट्रोइड्स के लिए ...