कैसे पता करें कि डेटा रैखिक रूप से अलग है या नहीं?


21

डेटा में कई विशेषताएं हैं (जैसे 100) और उदाहरणों की संख्या 100,000 की तरह है। डेटा विरल है। मैं लॉजिस्टिक रिग्रेशन या svm का उपयोग करके डेटा को फिट करना चाहता हूं। मुझे कैसे पता चलेगा कि क्या विशेषताएं रैखिक या गैर-रैखिक हैं ताकि मैं कर्नेल ट्रिक का उपयोग कर सकूं अगर गैर-रैखिक?

जवाबों:


22

यह पता लगाने के लिए कई तरीके हैं कि क्या डेटा रैखिक रूप से वियोज्य है, उनमें से कुछ इस पेपर (1) में हाइलाइट किए गए हैं। डेटासेट में दो वर्गों की धारणा के साथ, यह जानने के लिए कुछ तरीके निम्नलिखित हैं कि क्या वे रैखिक रूप से अलग हैं:

  1. रैखिक प्रोग्रामिंग: रैखिक पृथक्करण को संतुष्ट करने वाली बाधाओं के अधीन एक उद्देश्य फ़ंक्शन को परिभाषित करता है। आप यहां कार्यान्वयन के बारे में विस्तार से जान सकते हैं ।
  2. विधि perceptron: एक perceptron कवरेज़ की गारंटी करता है, तो डेटा रैखिक वियोज्य है।
  3. द्विघात प्रोग्रामिंग: द्विघात प्रोग्रामिंग अनुकूलन उद्देश्य फ़ंक्शन को SVM में बाधा के साथ परिभाषित किया जा सकता है।
  4. कम्प्यूटेशनल ज्यामिति: यदि कोई दो असंतुष्ट उत्तल पतवार पा सकता है, तो डेटा रैखिक रूप से अलग होने योग्य है
  5. क्लस्टरिंग विधि: यदि कोई कुछ क्लस्टरिंग विधियों जैसे कि-मीन्स का उपयोग करके 100% की क्लस्टर शुद्धता के साथ दो क्लस्टर पा सकता है, तो डेटा रैखिक रूप से अलग होने योग्य है।

    (1): एलेक्जेंडो, डी।, "लीनियर सेपरिबिलिटी प्रॉब्लम: कुछ टेस्टिंग मेथड्स," न्यूरल नेटवर्क्स में, IEEE ट्रांजैक्शंस पर, vol.17, no.2, pp.330-344, मार्च 2006 doi: 10.1109 / TNN। 2005.860871


1
कृपया एक संदर्भ दें (लिंक सड़ सकता है) और कम से कम इस बात की थोड़ी व्याख्या करें कि क्या तरीके शामिल हैं।
Scortchi - को पुनः स्थापित मोनिका

2
धन्यवाद। अच्छा उत्तर (+1)। R पैकेज safeBinaryRegressionरैखिक प्रोग्रामिंग दृष्टिकोण को भी लागू करता है।
Scortchi - को पुनः स्थापित मोनिका

जो (एलपी दृष्टिकोण) आसानी से ज्यामितीय रूप से व्याख्या की जाती है, कम्प्यूटेशनल रूप से कुशल और आम तौर पर उपलब्ध है (जैसा कि एलपी दिनचर्या हैं)।
user603

3

मुझे लगता है कि आप 2-वर्ग वर्गीकरण समस्या के बारे में बात करते हैं। इस मामले में एक पंक्ति है जो आपके दो वर्गों को अलग करती है और किसी भी क्लासिक एल्गोरिथ्म को इसे तब मिलाना चाहिए जब यह परिवर्तित हो जाए।

व्यवहार में, आपको एक ही डेटा पर प्रशिक्षण और परीक्षण करना होगा। यदि ऐसी कोई रेखा है, तो आपको 100% सटीकता या 100% AUC के करीब होना चाहिए। यदि ऐसी कोई रेखा नहीं है तो एक ही डेटा पर प्रशिक्षण और परीक्षण करने से कम से कम कुछ त्रुटियां होंगी। त्रुटियों की मात्रा के आधार पर यह एक गैर-रेखीय वर्गीकारक की कोशिश करने के लायक हो सकती है या नहीं।


1

हार्ड मार्जिन SVM फॉर्मूलेशन एस टी मैं , ( डब्ल्यू ' एक्स मैं + ) y मैं1

minw,b ||w||2
s.t i,(wxi+b)yi1

यदि हमारा डेटा रैखिक रूप से अलग है, तो सभी असमानता की बाधाओं को दूर किया जाएगा। आम तौर पर, द्विघात कार्यक्रमों को हल करते समय, आंतरिक बिंदु विधियां (संभव शुरुआत, केंद्रीय पथ एल्गोरिदम का पालन करना) डब्ल्यू के लिए हल करने के बाद ही डब्ल्यू की एक व्यवहार्य मूल्य पाता है जिसके साथ यह समस्या को शुरू कर सकता है। तो, निम्न एलपी को व्यवहार्यता की जांच करने के लिए हल किया जा सकता है। s टी मैं , ( डब्ल्यू ' एक्स मैं + ) y मैं1 - रों रों 0

mins,b s
s.t i,(wxi+b)yi1s
s0

यदि इस समस्या के लिए इष्टतम शून्य है, तो हम जानते हैं कि मूल असमानता बाधाओं को संतुष्ट किया जा सकता है। इसका मतलब है कि हमारा डेटा मूल स्थान में रैखिक रूप से अलग होने योग्य था। प्रत्येक प्रशिक्षण उदाहरण के लिए अलग-अलग का उपयोग करके हमें बता सकते हैं कि कौन से डेटा-पॉइंट रैखिक रूप से इन-सेबिलिटी का कारण बनते हैं।s issi


+1 यह R पैकेज में लागू विधि के पीछे ज्यामितीय अंतर्ज्ञान हैsafeBinaryRegression
user603

-2

आप लॉजिस्टिक रिग्रेशन का प्रयास करें और देखें कि यह कैसे काम करता है। यदि यह काम नहीं करता है, तो असीम रूप से कई गुठली आप कोशिश कर सकते हैं, और यह अभी भी काम नहीं कर सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.