फ़ीचर एक्सट्रैक्शन तकनीक - डेटा के अनुक्रम को सारांशित करना


11

मैं अक्सर एक मॉडल (वर्गीकरण या प्रतिगमन) का निर्माण कर रहा हूं, जहां मेरे पास कुछ भविष्यवक्ता चर हैं जो अनुक्रम हैं और मैं उन्हें मॉडल में भविष्यवक्ताओं के रूप में शामिल करने के लिए सर्वोत्तम तरीके से संक्षेप में प्रस्तुत करने के लिए तकनीक की सिफारिशों को खोजने की कोशिश कर रहा हूं।

एक ठोस उदाहरण के रूप में, यह कहें कि एक मॉडल यह अनुमान लगाने के लिए बनाया जा रहा है कि क्या ग्राहक अगले 90 दिनों में कंपनी छोड़ देगा (कभी भी टी और टी +90 के बीच - इस प्रकार एक द्विआधारी परिणाम)। उपलब्ध भविष्यवाणियों में से एक है ग्राहकों का वित्तीय अवधियों का स्तर t_0 से t-1 तक। हो सकता है कि यह पहले 12 महीनों (यानी 12 माप) के लिए मासिक टिप्पणियों का प्रतिनिधित्व करता है।

मैं इस श्रृंखला से सुविधाओं के निर्माण के तरीकों की तलाश कर रहा हूं। मैं प्रत्येक ग्राहक श्रृंखला के विवरणों का उपयोग करता हूं, जैसे कि उच्च, निम्न, एसटीडी देव।, प्रवृत्ति प्राप्त करने के लिए एक ओएलएस प्रतिगमन फिट करें। सुविधाओं की गणना करने के उनके अन्य तरीके हैं? परिवर्तन या अस्थिरता के अन्य उपाय?

जोड़ें:

जैसा कि नीचे एक प्रतिक्रिया में उल्लेख किया गया है, मैंने भी विचार किया (लेकिन यहां जोड़ना भूल गया) डायनामिक टाइम वारपिंग (डीटीडब्ल्यू) का उपयोग करके और फिर परिणामी दूरी मैट्रिक्स पर पदानुक्रमिक क्लस्टरिंग - कुछ संख्या में क्लस्टर बनाना और फिर एक विशेषता के रूप में क्लस्टर सदस्यता का उपयोग करना। स्कोरिंग टेस्ट डेटा को संभवतः एक प्रक्रिया का पालन करना होगा, जहां DTW नए मामलों और क्लस्टर सेंट्रोइड्स पर किया गया था - नए डेटा श्रृंखला का मिलान उनके निकटतम सेंट्रोइड्स के लिए ...

जवाबों:


7

सुविधा इंजीनियरिंग / निष्कर्षण पर केस अध्ययन एकत्र किए गए एक बॉक्स को देखने के लिए प्यार करेगा

कृपया सलाह दें अगर यह मदद करता है

  1. समय सीरीज़ डेटा का विचलन http://arxiv.org/ftp/q-bio/papers/0505/050508.pdf

  2. ज्ञान डिस्कवरी के लिए समय श्रृंखला के अनुकूलन का अनुकूलन https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. SAX का अनुभव करना: समय श्रृंखला का एक उपन्यास प्रतीकात्मक प्रतिनिधित्व http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. बड़े डेटा श्रृंखला के इंटरएक्टिव अन्वेषण के लिए अनुक्रमण http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. टाइम-सीरीज़ डेटा में स्ट्रक्चरल पैटर्न रिकग्निशन के लिए सामान्यीकृत फ़ीचर एक्सट्रैक्शन http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion-7838bcd87bb6616e9fd3ffd92d4676a7082da3434343434

  6. कम्प्यूटिंग और विज़ुअलाइज़िंग डायनामिक टाइम वारिंग अलाइनमेंट्स इन आर: द डटवे पैकेज https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

यहां आप जो करने की कोशिश कर रहे हैं, वह आपकी विशेषताओं की गतिशीलता को कम करता है। आप कई विकल्प प्राप्त करने के लिए आयामीता में कमी की खोज कर सकते हैं, लेकिन एक बहुत लोकप्रिय तकनीक प्रमुख घटक विश्लेषण (पीसीए) है। प्रिंसिपल घटक आपके द्वारा उल्लिखित विकल्पों की तरह व्याख्या करने योग्य नहीं हैं, लेकिन वे सभी सूचनाओं को संक्षेप में प्रस्तुत करने का अच्छा काम करते हैं।


इस जवाब के साथ मेरी चिंता यह है कि पीसीए श्रृंखला टी और टी + 1 के बीच स्पष्ट निर्भरता को नहीं पहचानता है।
B_Miner

यदि टी और टी + 1 निर्भरता एक प्रवृत्ति या मौसमी है - इसे निकालने पर विचार करें और स्वतंत्र चर के साथ आराम से निपटें।
डिएगो

2

फ़ीचर निष्कर्षण हमेशा एक चुनौती है और साहित्य में कम संबोधित विषय है, क्योंकि यह व्यापक रूप से आवेदन पर निर्भर है।

कुछ विचार जो आप आज़मा सकते हैं:

  • कच्चा डेटा, दिन-प्रतिदिन मापा जाता है। विभिन्न लंबाई की समयरेखा को तुलनीय बनाने के लिए कुछ निहितार्थ और अतिरिक्त प्रीप्रोसेसिंग (सामान्यीकरण) के साथ यह स्पष्ट है।
  • उच्च क्षण: तिरछापन, कुर्तोसिस, आदि
  • व्युत्पन्न (ओं): विकास की गति
  • समय की अवधि इतनी बड़ी नहीं है, लेकिन शायद यह कुछ समय श्रृंखला विश्लेषण की कोशिश करने के लायक है, उदाहरण के लिए ऑटोक्रेलेशन।
  • कुछ कस्टमाइज्ड फीचर्स जैसे सप्ताह में टाइमलाइन को तोड़ना और प्रत्येक सप्ताह में आपके द्वारा पहले से मापी गई मात्राओं को अलग-अलग मापना। तब एक गैर-रेखीय क्लासिफायरियर समय में विकास की अंतर्दृष्टि प्राप्त करने के लिए पिछले सप्ताह की विशेषताओं के साथ उदाहरण के लिए पहले सप्ताह की विशेषताओं को संयोजित करने में सक्षम होगा।

अच्छा सुझाव! क्या आप डेरिवेटिव के उपयोग को अधिक मांस दे सकते हैं?
B_Miner

मैं आपके पहले कथन से पूरी तरह सहमत हूं। मैं एक बॉक्स को देखना पसंद करूंगा जिसमें फीचर इंजीनियरिंग / निष्कर्षण पर केस अध्ययन एकत्र किया गया था। कहावत यह है कि भविष्यवाणी के मॉडल के प्रदर्शन में नवीनतम सबसे बड़ी एल्गोरिथ्म की तुलना में फीचर निर्माण बहुत महत्वपूर्ण है।
B_Miner

2

पहली नज़र में, आपको अपनी समय श्रृंखला (x - 12) - x से सुविधाओं को निकालने की आवश्यकता है। सारांश मेट्रिक्स की गणना करने के लिए एक संभावित दृष्टिकोण है: औसत, फैलाव, आदि। लेकिन ऐसा करने से, आप सभी समय-श्रृंखला से संबंधित जानकारी को ढीला कर देंगे। लेकिन कर्व शेप से निकाला गया डेटा काफी उपयोगी हो सकता है। मैं आपको इस लेख के माध्यम से देखने की सलाह देता हूं , जहां लेखक समय श्रृंखला क्लस्टरिंग के लिए एल्गोरिथ्म का प्रस्ताव करते हैं। आशा है, यह उपयोगी होगा। इसके अतिरिक्त ऐसी क्लस्टरिंग से आप अपनी फीचर सूची में सारांश आँकड़े जोड़ सकते हैं।


लिंक के लिए धन्यवाद। मैंने DTW और hierachical clustering का उपयोग करने पर भी विचार किया था। मैंने DWT के लिए R पैकेज के साथ प्रयोग किया है। jstatsoft.org/v31/i07/paper
B_Miner

1
मैंने विशेष रूप से एन क्लस्टर बनाने और एक विशेषता के रूप में क्लस्टरिंग सदस्यता का उपयोग करने पर विचार किया।
B_Miner
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.