गैर अस्तित्व (गायब नहीं) डेटा को कैसे संभालना है?


11

मुझे वास्तव में किसी भी अच्छे पाठ या उदाहरण नहीं मिले हैं कि किसी भी प्रकार के क्लासिफायरियर के इनपुट के लिए 'गैर-मौजूद' डेटा को कैसे संभालना है। मैंने लापता डेटा पर बहुत कुछ पढ़ा है, लेकिन उन डेटा के बारे में क्या किया जा सकता है जो मल्टीवेरेट इनपुट के संबंध में नहीं हो सकते हैं या मौजूद नहीं हैं। मैं समझता हूं कि यह एक बहुत ही जटिल प्रश्न है और इस्तेमाल की जाने वाली प्रशिक्षण विधियों के आधार पर अलग-अलग होगा ...

उदाहरण के लिए, यदि अच्छा सटीक डेटा के साथ कई धावकों के लिए बिलीम की भविष्यवाणी करने की कोशिश की जा रही है। कई इनपुट के बीच, कई के बीच संभावित चर हैं:

  1. इनपुट परिवर्तनीय - पहली बार धावक (Y / N)
  2. इनपुट परिवर्तनीय - पिछला विज्ञापन (0 - 500 सेकंड)
  3. इनपुट चर - आयु
  4. इनपुट चर - ऊंचाई। । । कई और इनपुट चर आदि

और आउटपुट प्रीडिक्टर - पूर्वनिर्धारित डिफाइम (0 - 500 सेकंड)

'2.Prepret FPime' के लिए 'लापता चर' की गणना कई तरीकों से की जा सकती है लेकिन '1। फर्स्ट टाइम रनर 'हमेशा एन के बराबर होगा। लेकिन पहली बार रनर के लिए 'एनओएन एक्सिस्टेंट डेटा' के लिए (जहां '1. फर्स्ट टाइम रनर' = वाई) 2 के लिए मुझे क्या मूल्य / उपचार देना चाहिए। पिछला विज्ञापन '?

उदाहरण के लिए '2 असाइन करना। पिछला विज्ञापन '-99 या 0 के रूप में वितरण को नाटकीय रूप से तिरछा कर सकता है और ऐसा लग सकता है कि नए धावक ने अच्छा प्रदर्शन किया है।

मेरी वर्तमान प्रशिक्षण विधियां लॉजिस्टिक रिग्रेशन, एसवीएम, एनएन और निर्णय पेड़ों का उपयोग कर रही हैं


मुझे यह जोड़ना चाहिए कि मैं अंतर्निहित अनिश्चितता के कारण प्रशिक्षण और भविष्यवाणी डेटा से नए धावकों को छोड़ रहा हूं, लेकिन 'इग्नोर' की तुलना में किसी भी बेहतर तरीके की सराहना
करूँगा

जवाबों:


6

गैर-मौजूद पहले फ़र्स्ट रनर पिछले लैप समय के लिए विशेष मान असाइन करने के बजाय, फ़र्स्ट टाइम रनर डमी के व्युत्क्रम के साथ पिछले लैप समय के लिए इंटरैक्शन टर्म का उपयोग करें:

Yi=β0+β1FTRi+β2(NFTRi)×PLTi+...

यहाँ

  • Yi आपका इनपुट चर है,
  • ... आपके अन्य चर हैं,
  • FTRiपहली बार धावक के लिए डमी है,
  • PLTi पिछली लैप टाइम और है
  • एफ टी आर मैं = 0NFTRi नॉन फर्स्ट टाइम रनर 1 के लिए डमी है, जब और 0 अन्यथा।FTRi=0

तब पहली बार धावकों के लिए मॉडल होगा:

Yi=(β0+β1)+...

और गैर पहली बार धावकों के लिए:

Yi=β0+β2PLTi+...

8

जब तक आपके पास मॉडल में (1) और (2) दोनों हों, तब तक अधिकतम संभावना द्वारा फिट किए गए लॉजिस्टिक रिग्रेशन के लिए, कोई फर्क नहीं पड़ता कि आप "2" के लिए नया रनर देते हैं या नहीं (1) के लिए अनुमान। तदनुसार समायोजित करेगा।

उदाहरण के लिए, "एक नया धावक है" के लिए संकेतक चर है, और चर "सेकंड में पूर्ववर्ती समय" है। फिर रैखिक भविष्यवक्ता है:X1X2

η=α+β1X1+β2X2+

यदि लिए डिफ़ॉल्ट शून्य है, तो नए धावक के लिए रैखिक भविष्यवक्ता है:X2

η=α+β1+

मौजूदा धावक के लिए, यह होगा:

η=α+β2X2+

अब मान लीजिए कि आप लिए 0 से -99 के लिए डिफ़ॉल्ट बदलते हैं । फिर एक नए धावक के लिए रैखिक भविष्यवक्ता अब है:X2

η=α+β199β2+

लेकिन मौजूदा धावक के लिए, यह वही रहेगा। तो आपके द्वारा किए गए सभी मॉडल को फिर से व्यवस्थित कर रहे हैं, जैसे कि , और चूंकि अधिकतम संभावना है अपरिवर्तनीय अपरिवर्तनवादी, अनुमान तदनुसार समायोजित करेगा।β199β2=β1

बेशक, यदि आप अधिकतम संभावना का उपयोग नहीं कर रहे हैं (यानी आप मापदंडों पर किसी प्रकार के दंड या पूर्व का उपयोग कर रहे हैं), तो आप अलग-अलग मान प्राप्त करने जा रहे हैं जब तक कि आप तदनुसार दंड / समायोजन को समायोजित नहीं करते। और यदि मॉडल गैर-रैखिक है (उदाहरण के लिए SVM, NN और निर्णय पेड़), तो यह तर्क बिल्कुल काम नहीं करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.