जब हम सिर्फ सुविधाओं की संख्या कम कर सकते हैं तो हम सीखने के एल्गोरिदम को गति देने के लिए पीसीए का उपयोग क्यों करते हैं?


12

मशीन लर्निंग कोर्स में, मुझे पता चला कि पीसीए ( प्रिंसिपल कंपोनेंट एनालिसिस ) का एक सामान्य उपयोग अन्य मशीन लर्निंग एल्गोरिदम को गति देना है। उदाहरण के लिए, कल्पना करें कि आप लॉजिस्टिक रिग्रेशन मॉडल का प्रशिक्षण ले रहे हैं। यदि आपके पास 1 से n तक प्रशिक्षण सेट और यह आपके वेक्टर x का आयाम बहुत बड़ा है (चलो एक आयाम कहते हैं), आप छोटे आयाम प्राप्त करने के लिए PCA का उपयोग कर सकते हैं (मान लें कि k आयाम) सुविधा वेक्टर z। फिर आप 1 से n तक प्रशिक्षण सेट पर अपने लॉजिस्टिक रिग्रेशन मॉडल को प्रशिक्षित कर सकते हैं । इस मॉडल का प्रशिक्षण तेज़ होगा क्योंकि आपकी सुविधा वेक्टर में कम आयाम हैं।( z ( i ) , y ( i ) )(x(i),y(i))(z(i),y(i))

हालाँकि, मुझे समझ में नहीं आता है कि आप अपने फीचर वेक्टर के आयाम को k को आयामों में कम नहीं कर सकते हैं, बस अपनी सुविधाओं के k को यादृच्छिक पर चुनकर और बाकी को समाप्त कर सकते हैं।

Z vectors आपके फ़ीचर वैक्टर के रैखिक संयोजन हैं। चूँकि z vectors k-आयामी सतह तक ही सीमित हैं, इसलिए आप a को हटाए गए फ़ीचर मानों को k शेष सुविधा मानों के रैखिक फ़ंक्शन के रूप में लिख सकते हैं, और इस प्रकार सभी z आपके k सुविधाओं के रैखिक संयोजनों द्वारा बन सकते हैं। तो क्या समाप्त सुविधाओं के साथ एक प्रशिक्षण सेट पर प्रशिक्षित किसी मॉडल के पास एक प्रशिक्षण सेट पर प्रशिक्षित मॉडल के समान शक्ति नहीं है, जिसका आयाम पीसीए द्वारा कम किया गया था? क्या यह सिर्फ मॉडल के प्रकार पर निर्भर करता है और क्या यह किसी प्रकार के रैखिक संयोजन पर निर्भर करता है?


1
ड्रॉप कॉलम पीसीए
हैटाओ डु

2
पॉलिमरेज़ चेन रिएक्शन को इसके साथ क्या करना है? :-) --- सभी गंभीरता में, आपको किसी शब्द का उपयोग करने से पहले हमेशा एक शब्द का उच्चारण करना चाहिए।
कार्ल विटथॉफ्ट

आप पीसीए द्वारा प्राप्त किए गए आइगेनवेक्टर्स को नई सुविधाओं के रूप में देख सकते हैं, इसलिए पीसीए उन विशेषताओं को कम करने की अनुमति देता है - जिन्हें हमने अपने साथ शुरू किए गए से अधिक विचरण पर कब्जा कर लिया है।
मैथ्यूडलर

जवाबों:


26

मान लीजिए कि आपके पास शुरू में विशेषताएं हैं लेकिन यह बहुत अधिक है तो आप वास्तव में अपने मॉडल को सुविधाओं पर फिट करना चाहते हैं । आप अपनी सुविधाओं में से चुन सकते हैं और बाकी को छोड़ सकते हैं । यदि हमारी विशेषता मैट्रिक्स है, तो यह का उपयोग करने से मेल खाती है, जहां में के स्तंभ हैं जिन्हें हम शामिल करना चाहते हैं। लेकिन यह अन्य कॉलमों में सभी सूचनाओं को नजरअंदाज करता है, इसलिए एक अधिक सामान्य आयाम कमी पर विचार क्यों न करें जहां ? यह वही है जो पीसीए करता है: हम मैट्रिक्स ऐसे पाते हैं जैसे किडी < पी डी एक्स एक्स डी डी { 0 , 1 } पी × एक्स एक्स वी वी आर पी × वी एक्स वी एक्स एक्स डी पी पीpd<pdXXDD{0,1}p×dXXVVRp×dVXV में यथासंभव अधिक जानकारी शामिल है। सभी रैखिक संयोजन समान रूप से नहीं बनाए जाते हैं। जब तक हमारे मैट्रिक्स इतना कम रैंक है कि के एक यादृच्छिक सेट कॉलम कर सकते हैं (उच्च संभावना के साथ) सभी के स्तंभ अंतरिक्ष अवधि कॉलम हम निश्चित रूप से सभी के साथ के रूप में बस के रूप में अच्छी तरह से करने में सक्षम नहीं होगा सुविधाओं। कुछ जानकारी खो जाएगी, और इसलिए यह हमें कम से कम जानकारी के रूप में खो देता है। पीसीए के साथ, "सूचना" जिसे हम खोने से बचने की कोशिश कर रहे हैं, डेटा में भिन्नता है।XXdpp

जैसा कि हम भविष्यवाणियों के रैखिक परिवर्तनों के लिए खुद को प्रतिबंधित करते हैं, इस उपयोग-मामले में संपूर्ण बिंदु गणना समय है। अगर हम पर फैंसी गैर-रैखिक आयाम में कमी कर सकते हैं तो हम शायद सभी पर भी मॉडल फिट कर सकते हैं। तो पीसीए पूरी तरह से तेजी से गणना और प्रभावी के चौराहे पर बैठता है।एक्सXX


2
+1। यह अभी भी पूछने के लिए समझ में आता है, क्यों एक्स में भिन्नता है (कि पीसीए को बनाए रखने की कोशिश करता है) वाई की भविष्यवाणी के लिए प्रासंगिक होना चाहिए ... यह एक संबंधित धागा है : ysts.stackexchange.com/questions/141864
अमीबा का कहना है कि मोनिका

4

मूल डेटा में विचरण / सूचना को संरक्षित करते हुए पीसीए सुविधाओं को कम कर देता है। यह डेटा की वास्तविकता से मिलता-जुलता नहीं होने के साथ संगणना को सक्षम करने में मदद करता है।


2

पीसीए समाधान

सबसे पहले, इस उद्देश्य के लिए पीसीए का उपयोग करते समय सावधान रहें। जैसा कि मैंने में लिखा एक संबंधित सवाल के जवाब पीसीए नहीं है जरूरी सुविधाओं है कि कर रहे हैं का चयन करने के लिए नेतृत्व प्रतिगमन तुम क्या करने का इरादा के लिए जानकारीपूर्ण (यह भी देखें Jolliffe 1982 )।

ओपी प्रस्तावित समाधान

अब प्रस्तावित वैकल्पिक तंत्र पर विचार करें: reduce the dimension of your feature vector to k dimensions by just choosing k of your features at random and eliminating the rest.अब समस्या कथन में हमें यह मानने के लिए कहा गया था dimension of your vector x is very large। चलो इस आयाम कोp

समूह से भविष्यवाणियों को चुनने के लिए तरीके हैं । एक उदाहरण देने के लिए यदि और हम डेटासेट से भविष्यवाणियों का चयन करते हैं तो हमारे पास विभिन्न मॉडल होंगे जो हमें फिट करने होंगे। और यह मानकर कि हम जानते हैं कि , और आदि नहीं हैं। बस रखो, यह एक समस्या नहीं है जिसे आप एक बड़े सेटिंग में बल देना चाहेंगे ।कश्मीर पी पी = 1000 कश्मीर = 5 8.25 × 10 12 k = 5 कश्मीर = 6 पीpCkkpp=1000k=58.25×1012k=5k=6p

सुझाया हुआ समाधान

उन प्रतिगमन से निपटने के लिए जहां बड़ी संख्या में दंडित प्रतिगमन रणनीतियों का प्रस्ताव किया गया है। विशेष रूप से एलएएसओओ विधि भविष्यवाणियों से योगदान को शून्य करके एक प्रतिगमन मॉडल का निर्माण करते समय आयाम में कमी करेगा जो मॉडल में पर्याप्त योगदान नहीं करते हैं। मॉडल को कुशलता से फिट करने के लिए एक बहुत ही चतुर एल्ग्रोथ (LARS) है।p

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.