अनियंत्रित श्रेणीबद्ध भविष्यवक्ता चर के स्तरों की संख्या कम करना


11

मैं एक क्लासिफायरियर को प्रशिक्षित करना चाहता हूं, एसवीएम या यादृच्छिक वन, या किसी अन्य क्लासिफायरियर को कहना चाहता हूं। डेटासेट में एक विशेषता 1000 स्तरों वाला एक श्रेणीगत चर है। इस चर में स्तरों की संख्या को कम करने का सबसे अच्छा तरीका क्या है। R combine.levels()में Hmisc पैकेज में एक फंक्शन होता है, जो कई स्तरों को जोड़ता है, लेकिन मैं अन्य सुझावों की तलाश कर रहा था।


क्या श्रेणीगत चर अनियंत्रित है? आपके पास लगभग कितने मामले हैं? श्रेणीबद्ध चर में आवृत्ति वितरण क्या है?
जेरोमे एंग्लीम

स्तरों का आदेश नहीं दिया जाता है। मेरी लगभग 10,000 टिप्पणियां हैं। आवृत्ति वितरण निम्नानुसार है: स्तर ए लगभग 11% टिप्पणियों में दिखाई देता है। स्तर B 8% में दिखाई देता है। 5% में सी स्तर दिखाई देता है। इनमें से लगभग 15 का स्तर डेटासेट में मौजूद टिप्पणियों का 50% है।
साबुनीमे

जवाबों:


9

कैसे सबसे अच्छा यह अलग-अलग हो जा रहा है ऐसा करने के लिए काफी है, तो यह कहने के लिए क्या एक कार्य-स्वतंत्र तरह से सबसे अच्छा हो जाएगा असंभव है, काम आप प्रदर्शन कर रहे हैं पर निर्भर करता है।

यदि आपके स्तर सामान्य हैं, तो दो आसान चीजें हैं:

  1. उन्हें बिन। जैसे, 0 = (0 250), 1 = (251 500), इत्यादि, आप सीमाओं का चयन करना चाह सकते हैं ताकि प्रत्येक बिन में समान आइटम न हों।
  2. आप स्तरों का लॉग ट्रांसफ़ॉर्म भी ले सकते हैं। यह सीमा को नीचे कर देगा।

यदि स्तर सामान्य नहीं हैं, तो आप अपने डेटासेट में अन्य विशेषताओं / चर के आधार पर स्तरों को क्लस्टर कर सकते हैं और पिछले स्तरों के लिए क्लस्टर आईडी को स्थानापन्न कर सकते हैं। ऐसा करने के कई तरीके हैं क्योंकि क्लस्टरिंग एल्गोरिदम हैं, इसलिए फ़ील्ड व्यापक रूप से खुली है। जैसा कि मैंने पढ़ा, यह वही combine.levels()कर रहा है। आप इसी तरह का उपयोग kmeans()कर सकते हैं या prcomp()। (आप बाद में नए डेटापैट के लिए क्लस्टर का अनुमान लगाने के लिए एक क्लासिफायरियर कर सकते हैं।)


3
मैं एक यादृच्छिक प्रभाव के रूप में स्पष्ट चर का इलाज करने के अलावा इस को संभालने के लिए एक बहुत अच्छा तरीका नहीं जानता। आप चर पर एक द्विघात (रिज) दंड प्रक्रिया का उपयोग करके इसका अनुकरण कर सकते हैं। मेरा रिग्रेशन मॉडलिंग स्ट्रेटजी बुक और कोर्स नोट्स इस में जाता है।
फ्रैंक हरेल

1
@FrankHarrell दो दृष्टिकोण दिमाग में आते हैं: बहुपठित चर अव्यक्त वर्ग विश्लेषण एक होगा (cran.r-project.org/web/packages/poLCA/poLCA.pdf), पत्राचार दूसरा (जैसे, statmethods.net/advstats/ca। एचटीएमएल)।
माइक हंटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.