लंबा वसा डेटा के साथ वर्गीकरण


15

मुझे अपने लैपटॉप पर सैकड़ों हजारों डेटा बिंदुओं और लगभग दस हजार विशेषताओं के साथ एक रैखिक क्लासिफायरफ़ायर प्रशिक्षित करने की आवश्यकता है। मेरे विकल्प क्या हैं? इस प्रकार की समस्या के लिए कला की स्थिति क्या है?

ऐसा लगता है कि स्टोकेस्टिक ग्रेडिएंट डिसेंट होनहार दिशा है, और मेरी भावना यह है कि यह कला की स्थिति है:

"पेगासोस: प्रिमल ने एसवीएम के लिए उप-ग्रैडिएंट सबलेवर का अनुमान लगाया" शाइ शेल्व-शवार्ट्ज, योरम सिंगर, नाथन स्रेबोर, एंड्रयू कॉटर। "गणितीय प्रोग्रामिंग, सीरीज़ बी, 127 (1): 3-30, वर्ष: 2007।"

क्या यह आम सहमति है? क्या मुझे किसी और दिशा में देखना चाहिए?


1
क्या आपने कुछ आयाम घटाने के तरीकों का उपयोग करने पर विचार किया है? आयाम में कमी के लिए सुविधाओं के हजार कॉल देखें: en.wikipedia.org/wiki/Dimension_reduction
Dov

शोध के प्रयास से इस प्रश्न को सुधारा जा सकता था। क्या आपके पास कोई तकनीक है?
तमज़ीन ब्लेक

@ थोम ब्लेक: मैंने अपने विचारों के साथ प्रश्न को थोड़ा संपादित किया है।
carlosdc

डेटा के बारे में अधिक जानकारी के बिना, कोई भी जवाब बेख़बर होगा। क्या यह विरल है? निरंतर? असतत? निरर्थक विशेषताएं / वस्तुएं? कितने वर्ग? उदाहरण के लिए, विरल डेटा पर पीसीए कभी-कभी हानिकारक हो सकता है।
सायबोर्ग

2
लंबा = कई पीटी? वसा = कई विशेषताएं? क्या यह एसटीडी शब्दावली कहीं भी है, रेफरी में कहीं इस्तेमाल किया जाता है?

जवाबों:


6

मुझे लगता है कि आपको ऑनलाइन लर्निंग के तरीकों को देखना चाहिए । Perceptron और कर्नेल perceptron कोड और काम बहुत अच्छी तरह से में अभ्यास करने के लिए बहुत आसान कर रहे हैं, और अन्य ऑनलाइन तरीकों की एक पूरी मेजबान देखते हैं। ध्यान दें कि किसी भी ऑनलाइन शिक्षण पद्धति को बैच लर्निंग एल्गोरिदम में परिवर्तित किया जा सकता है, इस स्थिति में वे स्टोचैस्टिक ग्रेडिएंट डिसेंट विधियों से निकट से मिलते जुलते हैं।

यदि आप Matlab का उपयोग कर रहे हैं , तो फ्रांसेस्को ओरबोना द्वारा DOGMA नामक एक बहुत अच्छा टूलबॉक्स है , जिसमें ऑनलाइन लर्निंग एल्गोरिदम शामिल है, और आप इसका उपयोग करके कुछ अलग तरीकों का मूल्यांकन कर सकते हैं। मैंने अपने कुछ शोधों में इसका उपयोग किया है और इसे बहुत उपयोगी पाया है (ध्यान दें कि जहाँ तक मुझे याद है यह डेटा की अपेक्षा करता है [विशेषताएँ x उदाहरण] ताकि आपको इसे स्थानांतरित करना पड़ सके)।

2ε2


7

सबसे पहले, मैं आपसे पूछना चाहता हूं कि आप कैसे जानते हैं कि रैखिक क्लासिफायरियर सबसे अच्छा विकल्प है? इतनी बड़ी जगह (R ^ 10000) के लिए सहज रूप से यह संभव है कि कुछ अन्य गैर-रेखीय क्लासिफायर एक बेहतर विकल्प हों।

मेरा सुझाव है कि आप कई अलग-अलग क्लासिफायर की कोशिश करें और भविष्यवाणी की त्रुटियों का निरीक्षण करें (मैं कई नियमित वर्गीकरण मॉडल की कोशिश करूँगा)।

यदि आप मेमोरी से बाहर निकलते हैं तो पीसीए का उपयोग करके आयाम को कम करें


2
धन्यवाद। मैं इस बारे में अधिक सोच रहा था कि समस्या के पैमाने को कैसे संभालना है। मैं रैखिक काम करके शुरू करना चाहता था, क्योंकि यह सरल है। मुझे लगता है कि आप एक कर्नेल आधारित पद्धति का सुझाव देते हैं। मुझे केवल यह बताने दें कि यदि मेरे पास 750000 अंक हैं तो कर्नेल मैट्रिक्स 540 जीबी आकार का होगा। तो इसका उत्तर नहीं हो सकता है: इसे LIBSVM / SVMLight / etc में प्लग करें और एक अच्छा C और गामा प्राप्त करें और देखें कि आपको क्या मिलता है।
carlosdc

2
(-1) उत्तर क) आंशिक रूप से इतना सामान्य है, इसे किसी भी वर्गीकरण प्रश्न पर लागू किया जा सकता है ख) यह नहीं समझाया गया है कि पीसीए की सिफारिश क्यों की जाती है (किसी भी अन्य आयाम में कमी तकनीक पर)।
स्टीफन

3

आप पीसीए का उपयोग भी कर सकते हैं बिना कोवियर्स मैट्रिक्स की गणना के आयामों को कम करने के लिए --- पीसीए के समकक्ष न्यूटॉर्क का उपयोग करके।

यहां एक पेपर है जो इसका वर्णन करता है (लेकिन मैं आपकी स्वयं की खोज करने की सलाह देता हूं): http://users.ics.tkk.fi/oja/Oja1982.pdf , और यहां somethings का लिंक दिया गया है, जो मैटलैब कार्यान्वयन का काम कर सकता है: http : : //www.cs.purdue.edu/homes/dgleich/projects/pca_neural_nets_website/index.html


1

जैसा कि jb ने सुझाव दिया है, मुझे लगता है कि "डाइमेंशन रिडक्शन" पद्धति का उपयोग करना बेहतर है। सिद्धांत घटक विश्लेषण (पीसीए) एक लोकप्रिय विकल्प है। इसके अलावा आप बिना सोचे-समझे फ़ीचर सीखने की तकनीक भी आज़मा सकते हैं। अनुपयोगी फ़ीचर सीखने के बारे में अधिक जानकारी के लिए http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial पर पाया जा सकता है


1
पीसीए पीएसी नहीं;) ( 15 वर्ण )
न्यूरॉन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.