श्रेणीबद्ध और निरंतर डेटा के साथ मशीन सीखना


9

यह सवाल यहाँ या शायद एसओ पर जा सकता है ...

मान लीजिए कि आपके प्रशिक्षण डेटासेट में इस सेटअप जैसे स्पष्ट और निरंतर डेटा दोनों हैं:

 Animal, breed,  sex, age, weight, blood_pressure, annual_cost
 cat,    calico, M,   10,  15    ,   100         , 100 
 cat,    tabby,  F,   5,   10    ,   80          , 200
 dog,    beagle, M,   3,   30    ,   90          , 200
 dog,    lab,    F,   8,   75    ,   80          , 100

और भविष्यवाणी की जाने वाली निर्भर चर वार्षिक पशु लागत है। मैं इस तरह के डेटासेट से निपटने के लिए उपलब्ध विशिष्ट तकनीकों के बारे में थोड़ा भ्रमित हूं। आमतौर पर डेटासेट्स से निपटने के लिए कौन से तरीके इस्तेमाल किए जाते हैं जो निरंतर और श्रेणीबद्ध डेटा दोनों का मिश्रण हैं?

जवाबों:


8

श्रेणीगत विशेषताओं के प्रत्येक वर्ग (नस्ल, लिंग ...) के लिए, आप उस वर्ग में संभावित मानों की संख्या के बराबर अपने फीचर वेक्टर में कई घटक जोड़ सकते हैं। फिर, यदि किसी डेटा बिंदु में ith मान है, तो आप उन घटकों में से एक को 1 पर सेट करते हैं, और बाकी उस विशेषता के लिए 0 पर।

आपके उदाहरण में, लिंग के लिए, आप अपनी सुविधा वेक्टर में दो नए घटक जोड़ेंगे। यदि पशु नर है, तो आप पहले एक को 1 और दूसरे को 0 पर सेट करेंगे, और इसके विपरीत अगर पशु मादा है। जानवर के लिए, यदि आपकी संभावनाएं बिल्ली, कुत्ते और मछली थीं, तो आप तीन घटकों के साथ ऐसा ही करेंगे।

ये निरंतर विशेषताओं के साथ कंधे से कंधा मिलाकर रहेंगे। आप "संकेतक मान" (आप जिस विशेषता का उपयोग "चालू" करते समय करते हैं) के परिमाण को समायोजित करना चाह सकते हैं ताकि यह आपके द्वारा उपयोग किए जा रहे निरंतर मूल्यों के परिमाण के बराबर हो।

यदि आपने अपनी समस्या के बारे में जाने का यह तरीका चुना है, तो अगला कदम एक सहायक वेक्टर मशीन के रूप में चुनना और एल्गोरिदम करना होगा और इसे आपकी सुविधा वेक्टर को फीड करना होगा। बेशक, कुछ दृष्टिकोणों जैसे निर्णय पेड़ों को मेरे द्वारा शुरू किए गए कदम की आवश्यकता नहीं होगी।


1
बढ़िया, बढ़िया टिप्स! परीक्षण डेटा में संभावित स्थिति के बारे में क्या है जहां नस्ल प्रशिक्षण डेटा में कभी नहीं आया? उदाहरण के लिए, यदि परीक्षण डेटा में पुडल था लेकिन प्रशिक्षण डेटा नहीं था? नस्ल वेक्टर के सभी घटकों के लिए बस शून्य होने का सबसे अच्छा तरीका होगा?
रेप्टिलिकस

2
वास्तव में, विपरीत दृष्टिकोण (डेटा विवेकाधिकार के रूप में जाना जाता है) आमतौर पर पदानुक्रमित तरीकों (जैसे निर्णय वृक्ष एल्गोरिदम) के लिए सबसे अच्छा विकल्प है। डेटा विवेक भी एक डेटा प्री-प्रोसेसिंग तकनीक है (जैसा कि अन्य उत्तर में बताया गया है)।
rvcoutinho

2

आपको डेटा पूर्व-प्रसंस्करण पर एक नज़र रखना चाहिए । यह किसी भी मशीन सीखने की तकनीक से पहले है। यहां एक अच्छा परिचय (Google पर पाया गया) है।

तकनीकों के संबंध में, बहुत सारे अलग-अलग दृष्टिकोण हैं । आप संभवतः अपने डेटा को पूर्व-प्रसंस्करण के बाद उनमें से अधिकांश का उपयोग कर सकते हैं। आपको उन्हें आज़माना चाहिए और अपनी आवश्यकताओं को पूरा करने के लिए सबसे उपयुक्त होना चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.