एक चर संख्या के साथ डेटासेट से निपटना


14

एक चर संख्या के साथ डेटा को वर्गीकृत करने के लिए कुछ दृष्टिकोण क्या हैं?

एक उदाहरण के रूप में, एक समस्या पर विचार करें जहां प्रत्येक डेटा बिंदु x और y बिंदुओं का एक वेक्टर है, और हमारे पास प्रत्येक उदाहरण के लिए समान अंक नहीं हैं। क्या हम x और y के प्रत्येक जोड़े को एक विशेषता के रूप में मान सकते हैं? या क्या हमें किसी तरह से अंकों को संक्षेप में प्रस्तुत करना चाहिए ताकि प्रत्येक डेटा बिंदु में निश्चित संख्या में विशेषताएं हों?


7
क्या किसी बिंदु की मौजूदगी या अनुपस्थिति डेटा को वर्गीकृत करने में मदद करती है?
jonsca

जवाबों:


5

आप इन बिंदुओं को लापता मान सकते हैं --- अर्थात। आइए मान लें कि वेक्टर में अधिकतम 20 (x, y) जोड़े हैं और विशेष बिंदु पर 5 (x, y) जोड़े हैं, इस मामले में बाकी जोड़े को लापता मानते हैं, और फिर लापता मापदंडों के लिए स्टैंडएट प्रक्रियाएं लागू करते हैं:

ये मानक प्रक्रियाएं हो सकती हैं:

  • एक मॉडल का उपयोग करें जो प्राकृतिक तरीके से लापता मापदंडों को संभालता है, उदाहरण के लिए निर्णय वृक्ष मॉडल को उस के साथ सामना करने में सक्षम होना चाहिए।
  • उपयुक्त स्तंभ के लिए माध्य मान से अनुपलब्ध बदलें।
  • लापता मूल्यों को 'भविष्यवाणी' करने के लिए कुछ आसान मॉडल का उपयोग करें।

लेकिन @ जोंस्का बिंदुओं के रूप में --- यदि दिए गए बिंदु की अनुपस्थिति की उपस्थिति डेटा को वर्गीकृत करने में मदद करती है, तो आपको उदाहरण के लिए युगल मॉडल का निर्माण करना चाहिए, उनमें से प्रत्येक मॉडल अंक की विशेष संख्या के साथ उदाहरण देता है।


10

मैं आपके प्रश्न को कैसे समझ सकता हूं, डेटा में अंक विनिमेय हैं और किसी भी क्रम के साथ नहीं आते हैं, यानी आपके पास प्रत्येक उदाहरण के लिए बिंदुओं का एक सेट है। यह सेटिंग उस "jb" सेटिंग से अलग है। का वर्णन किया।

मैं इस समस्या के लिए आमतौर पर इस्तेमाल किए जाने वाले दो तरीकों के बारे में जानता हूं, जो वास्तव में आपके विचारों पर आधारित हैं। एक अच्छी आधार रेखा शायद एक उदाहरण के भीतर सभी बिंदुओं को औसत करने के लिए होगी, लेकिन यह आमतौर पर अच्छी तरह से काम नहीं करती है।

  • एक ही विशेषता के लिए कई बिंदुओं को एकत्र करने के लिए, शब्दों का बैग (या सुविधा का बैग) अभ्यावेदन का सामान्य रूप से उपयोग किया जाता है, उदाहरण के लिए कंप्यूटर दृष्टि में। विचार आपके प्रशिक्षण सेट (उदाहरण के-साधन के लिए) का उपयोग करते हुए सभी बिंदुओं को क्लस्टर करने के लिए है और फिर इसके क्लस्टर द्वारा प्रत्येक बिंदु का वर्णन करें। प्रत्येक उदाहरण के लिए आप तब हिस्टोग्राम प्राप्त करते हैं जिस पर क्लस्टर कितनी बार होते हैं।

  • सभी बिंदुओं के जोड़े का उपयोग करने के लिए, आप सेट गुठली का उपयोग कर सकते हैं। यह एसवीएम का उपयोग करने के साथ सबसे अच्छा काम कर सकता है, लेकिन संभवत: किसी भी सीखने के एल्गोरिथ्म के साथ काम करेगा जो कि कर्नेल के लिए हो सकता है या इनपुट के लिए अनुकूलता फ़ंक्शन का उपयोग कर सकता है। सेट कर्नेल मूल रूप से आपकी सेटिंग में, दो सेट सुविधाओं की समानता की गणना करने का एक तरीका है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.