कर्नेलयुक्त SVM से निपटने के दौरान लोग द्विघात प्रोग्रामिंग तकनीक (जैसे SMO) का उपयोग क्यों करते हैं? ग्रेडिएंट डिसेंट में क्या गलत है? क्या यह गुठली के साथ उपयोग करना असंभव है या क्या यह बहुत धीमा है (और क्यों?)।
यहां थोड़ा और संदर्भ दिया गया है: एसवीएम को थोड़ा बेहतर समझने की कोशिश करते हुए, मैंने निम्न लागत फ़ंक्शन का उपयोग करके एक रैखिक एसवीएम क्लासिफायर को प्रशिक्षित करने के लिए ग्रेडिएंट डिसेंट का उपयोग किया:
मैं निम्नलिखित सूचनाओं का उपयोग कर रहा हूं:
- मॉडल की विशेषता वज़न है और इसका पूर्वाग्रह पैरामीटर है।
- है प्रशिक्षण उदाहरण के फीचर वेक्टर।
- उदाहरण के लिए लक्ष्य वर्ग (-1 या 1) है ।
- प्रशिक्षण उदाहरणों की संख्या है।
- नियमितिकरण हाइपरपरेट है।
मैंने इस समीकरण से (सब) ग्रेडिएंट वेक्टर ( और ) के संबंध में व्युत्पन्न किया, और ग्रेडिएंट डिसेंट ने ठीक काम किया।
अब मैं गैर-रैखिक समस्याओं से निपटना चाहूंगा। क्या मैं लागत समारोह में साथ सभी डॉट उत्पादों को प्रतिस्थापित कर सकता हूं , जहां कर्नेल फ़ंक्शन है (उदाहरण के लिए) गाऊसी RBF, , फिर पथरी को निकालने के लिए पथरी का उपयोग करें। a (सब) ग्रेडिएंट वेक्टर और ग्रेडिएंट डिसेंट के साथ आगे बढ़ता है? कश्मीर( यू , वी )कश्मीरकश्मीर( यू , वी )= ई - γ ‖ यू - वी ‖ 2
यदि यह बहुत धीमा है, तो ऐसा क्यों है? क्या लागत समारोह उत्तल नहीं है? या यह इसलिए है क्योंकि ढाल बहुत तेजी से बदलता है (यह लिप्साचिट्ज निरंतर नहीं है) इसलिए एल्गोरिथ्म वंश के दौरान घाटियों में कूदता रहता है, इसलिए यह बहुत धीरे-धीरे परिवर्तित होता है? लेकिन फिर भी, यह द्विघात प्रोग्रामिंग के समय की जटिलता से भी बदतर कैसे हो सकता है, जो ? अगर यह स्थानीय मिनीमाता की बात है, तो स्टोकेस्टिक जीडी को नकली एनालाइज नहीं कर सकते हैं?