मैं सदिश वर्गीकरण के लिए libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) टूल का उपयोग कर रहा हूं । हालाँकि, मैं इनपुट डेटा के प्रारूप के बारे में उलझन में हूँ।
README से:
डेटा फ़ाइल के प्रशिक्षण और परीक्षण का प्रारूप है:
<label> <index1>:<value1> <index2>:<value2> ... . . .
प्रत्येक पंक्ति में एक उदाहरण होता है और एक '\ n' वर्ण द्वारा समाप्त होता है। वर्गीकरण के लिए,
<label>
एक पूर्णांक है जो वर्ग लेबल को दर्शाता है (बहु-वर्ग समर्थित है)। प्रतिगमन के लिए,<label>
लक्ष्य मूल्य है जो कि कोई भी वास्तविक संख्या हो सकती है। एक वर्ग एसवीएम के लिए, इसका उपयोग नहीं किया जाता है इसलिए यह किसी भी संख्या में हो सकता है। जोड़ी<index>:<value>
एक विशेषता (विशेषता) मान देती है:<index>
एक पूर्णांक है जो 1 से शुरू होता है और<value>
एक वास्तविक संख्या है। एकमात्र अपवाद पूर्वनिर्मित कर्नेल है, जहां<index>
0 से शुरू होता है; प्रीकम्प्यूटेड कर्नेल का अनुभाग देखें। संकेत ASCENDING क्रम में होने चाहिए। परीक्षण फ़ाइल में लेबल केवल सटीकता या त्रुटियों की गणना करने के लिए उपयोग किया जाता है। यदि वे अज्ञात हैं, तो किसी भी संख्या के साथ पहला कॉलम भरें।
मेरे पास निम्नलिखित प्रश्न हैं:
- का उपयोग क्या है
<index>
? इससे कौन सा उद्देश्य पूरा होगा? - क्या अलग-अलग डेटा इंस्टेंस के समान इंडेक्स मानों के बीच एक पत्राचार है?
- अगर मैं किसी इंडेक्स को बीच में छोड़ता / छोड़ता हूं तो क्या होगा?
मैं पूछता हूं क्योंकि datafile * heart_scale * जो libsvm के लिए पैकेज में शामिल है, पंक्ति 12 पर, सूचकांक 2 से शुरू होता है। क्या <value>
सूचकांक 1 के लिए अज्ञात / लापता के रूप में लिया गया है? नोट: पैकेज के साथ दिए गए उपकरण / checkdata.py टूल कहता है कि * heart_scale * फ़ाइल सही है।