कौन सी मशीन लर्निंग एल्गोरिदम यह अनुमान लगाने के लिए अच्छा है कि कौन सी सुविधाएँ अधिक महत्वपूर्ण हैं?


12

मेरे पास न्यूनतम सुविधाओं के साथ डेटा है जो नहीं बदलते हैं, और कुछ अतिरिक्त सुविधाएँ जो बदल सकती हैं और परिणाम पर बड़ा प्रभाव डालती हैं। मेरा डेटा-सेट इस तरह दिखता है:

विशेषताएं ए, बी, सी (हमेशा मौजूद), और डी, ई, एफ, जी, एच (कभी-कभी मौजूद) हैं

A = 10, B = 10, C = 10                  outcome = 10
A = 8,  B = 7,  C = 8                   outcome = 8.5
A = 10, B = 5,  C = 11, D = 15          outcome = 178
A = 10, B = 10, C = 10, E = 10, G = 18  outcome = 19
A = 10, B = 8,  C = 9,  E = 8,  F = 4   outcome = 250
A = 10, B = 11, C = 13, E = 8,  F = 4   outcome = 320
...

मैं परिणाम मूल्य की भविष्यवाणी करना चाहता हूं, और परिणाम निर्धारित करने के लिए अतिरिक्त मापदंडों का संयोजन बहुत महत्वपूर्ण है। इस उदाहरण में, E और F की उपस्थिति एक बड़े परिणाम की ओर ले जाती है, जबकि E और G की उपस्थिति नहीं है। इस घटना को पकड़ने के लिए कौन सी मशीन लर्निंग एल्गोरिदम या तकनीक अच्छा है?


"कभी-कभी मौजूद" से, क्या आपका मतलब है कि आप केवल कुछ समय के लिए उनके मूल्य को जानते हैं? या कि वे ज्यादातर मामलों में भूमिका नहीं निभाने के लिए जाने जाते हैं? या शायद कुछ और?
डेविड जे। हैरिस

@ DavidJ.Harris द्वारा "कभी-कभी उपस्थित", मेरा मतलब है कि विशेष प्रशिक्षण उदाहरण संपत्ति पर कब्जा नहीं करता है। यह ऐसा है जैसे यह शून्य के बराबर था। मेरी समस्या में, मेरी सभी विशेषताएं एक निश्चित सीमा में सकारात्मक संख्याएँ होंगी (उदाहरण के लिए, 5 से 15 या 100 से 1000 तक)।
बेंजामिन क्राउजियर

1
यह इस लिंक को देखने के लिए अच्छा हो सकता है eren.0fees.net/2012/10/22/...
erogol

जवाबों:


14

यह मशीन लर्निंग में अनुसंधान के मुख्य क्षेत्रों में से एक है और इसे फ़ीचर चयन के रूप में जाना जाता है ।

सामान्य तौर पर, यह कहने का एकमात्र तरीका है कि सुविधाओं का सबसे अच्छा सबसेट क्या है (कुछ भविष्य कहनेवाला मॉडल में इनपुट के लिए जो उन्हें जोड़ सकते हैं), सभी संभव सबसेट की कोशिश करना है। यह आम तौर पर असंभव होता है, इसलिए लोग विभिन्न उत्तराधिकारियों द्वारा फीचर सबसेट के स्थान का नमूना लेने की कोशिश करते हैं (कुछ विशिष्ट दृष्टिकोणों के लिए लेख देखें)।


3

मेरी समझ से, आप चर महत्व का एक उपाय खोज रहे हैं। ये कई अलग-अलग सैद्धांतिक दृष्टिकोणों के आधार पर कई स्वादों में आते हैं, लेकिन सभी उन विधियों के मजबूत लिंक हैं जिनका उपयोग आप एल्गोरिथ्म के बारे में करने के लिए कर रहे हैं। आम तौर पर, प्रत्येक मशीन लर्निंग एल्गोरिदम में एक कैनोनिकल अनुकूलन विधि होगी; तंत्रिका नेटवर्क के लिए वापस प्रसार, एसवीएम के लिए अनुक्रमिक न्यूनतम अनुकूलन, निर्णय पेड़ों के लिए विभिन्न सूचना मानदंड और सांख्यिकीय महत्व परीक्षण जिसमें ची स्क्वैड महत्व या गिन्नी अशुद्धता शामिल हैं। बेशक, प्रत्येक एल्गोरिदम के लिए अन्य अधिक उपन्यास अनुकूलन विधियां अक्सर प्रस्तावित की जाती हैं।

प्रत्येक एल्गोरिथ्म के लिए ये अनुकूलन के तरीके अनिवार्य रूप से हाथ में मॉडल के लिए चर महत्व को परिभाषित करते हैं। अनिवार्य रूप से, आप उस ऑप्टिमाइज़ेशन चरण के परिणामों के एक अनुमान या व्याख्यात्मक प्रतिनिधित्व की तलाश कर रहे हैं जो एल्गोरिथम उपक्रम कर रहा है। हालांकि, यह कई कारणों से समस्याग्रस्त है।

  1. मॉडल रूप चयन पर किसी दिए गए चर के प्रभाव को निर्धारित करने की कठिनाई, यह देखते हुए कि चयन अक्सर एक स्टोकेस्टिक प्रक्रिया ही होती है। चर मॉडल के चयन को कुछ हद तक प्रभावित करते हैं, ताकि किसी मॉडल में अंतिम भविष्यवाणी के लिए एक चर महत्वपूर्ण न हो , यह मॉडल रूप में महत्वपूर्ण रूप से आकार दे सकता है। यह देखते हुए कि मॉडल की पीढ़ी अक्सर स्टोचस्टिक (कण झुंड अनुकूलन या एक बैगिंग विधि आदि का उपयोग करके अनुकूलित) है, यह ठीक से समझना मुश्किल है कि किसी दिए गए चर ने अपने रूप को कैसे आकार दिया होगा।

  2. किसी एकल चर के महत्व को निकालने की कठिनाई को देखते हुए यह केवल दूसरे चर के साथ संयोजन या बातचीत में महत्वपूर्ण हो सकता है।

  3. कुछ चर केवल कुछ टिप्पणियों के लिए महत्वपूर्ण हो सकते हैं। अन्य टिप्पणियों पर महत्व की कमी एक वास्तविक अंतर को औसत करके समग्र महत्व के माप को भ्रमित कर सकती है।

यह भी चर महत्व के लिए एक तत्काल व्याख्या मीट्रिक प्राप्त करने के लिए कठिन है बिल्कुल के रूप में मॉडल के आधार पर परिभाषित किया गया है, क्योंकि यह एक एकल संख्या का उत्पादन नहीं हो सकता है (विशेष रूप से जीतना के मामले में)। इसके बजाय, इन मामलों में प्रत्येक चर के लिए महत्व का वितरण है।

इन मुद्दों को दूर करने का एक तरीका हो सकता है कि वे गड़बड़ी का उपयोग करें। यह अपने चर में यादृच्छिक शोर जोड़कर अपने अंतिम मॉडल का विश्लेषण करने का एक तरीका है, और फिर यह जांचता है कि यह परिणामों को कैसे प्रभावित करता है। लाभ यह है कि यह आपको यह पता लगाने की अनुमति देता है कि सिमुलेशन के माध्यम से कौन से चर सबसे अधिक महत्वपूर्ण हैं - इस सवाल का उत्तर देते हुए कि कौन से चर सबसे अधिक भविष्यवाणी को नष्ट कर देंगे यदि हटा दिया गया। नुकसान यह है कि एक अच्छा मौका है कि भले ही चर हटा दिए गए / विकृत हो, मॉडल (यदि पुन: प्रशिक्षित) अन्य चर का उपयोग कर सकते हैं, तो उनके प्रभाव को फिर से संगठित किया जा सकता है, जिसका अर्थ है कि "चर महत्व" आपको अभी भी वास्तव में प्राप्त करता है। आपके प्रशिक्षित मॉडल में महत्व को इंगित करता है, लेकिन सभी संभावित मॉडलों में समग्र महत्व नहीं।


3

@ बिटवाइज उल्लेख के अनुसार, फीचर का चयन या फीचर निष्कर्षण अपने आप में अनुसंधान का एक बड़ा क्षेत्र है और इसे करने के अनगिनत तरीके हैं।

मेरे विचार में अन्य उत्तर सभी मान्य हैं, लेकिन अंत में, आप शायद सबसे अधिक पसंद करेंगे, और वह तरीका चुनें जो आपके लिए सबसे सहज हो और जिसे आप सबसे अच्छा समझें। मैं अभी भी दो संभावित विकल्प जोड़ूंगा।

एकाधिक प्रतिगमन शायद सबसे पुरानी तकनीक है। यह विचार भविष्यवक्ताओं से प्रतिक्रिया का वर्णन करने के लिए एक मॉडल फिट करने के लिए है और केवल भविष्यवक्ताओं को रखने के लिए है जो प्रतिक्रिया पर एक बड़ा प्रभाव डालते हैं (आनुपातिकता का एक बड़ा गुणांक)। यहाँ आप शायद डी, ई, एफ और जी के अभाव पुनःकूटित करना हो जाएगा D=0, E=0, F=0, जी =0या ऐसा ही कुछ।

एक और तकनीक जिसने कभी लोकप्रियता हासिल नहीं की कि वह योग्य है- सह-जड़ता विश्लेषण ( विहित विश्लेषण का एक प्रकार )। वहाँ इसके बारे में कोई कार्यान्वयन, है जहाँ तक मुझे पता है, और आप स्क्रैच से शुरू करने के लिए होता है ( वहाँ उदाहरण के लिए)। यह एक रैखिक विधि है जो आपके परिणामों (यों) से मेल खाने वाली सुविधाओं का सबसे अच्छा रैखिक संयोजन पाता है। यह ब्लॉग पोस्ट एक उदाहरण दिखाता है कि इसका उपयोग कैसे किया जा सकता है।


2

मैं सूचना लाभ (जिसे पारस्परिक जानकारी भी कहा जाता है) का उपयोग करता हूं। मेरे सलाहकार और मैं नियमित रूप से एसवीएम द्वारा वर्गीकरण के लिए सुविधाओं के विश्लेषण के लिए इस पेपर कोहेन, 2008 में वर्णित दृष्टिकोण का उपयोग करते हैं ।


2

रैंडम वन आप क्या करना चाहते हैं के लिए बहुत आसान हो सकता है। R के लिए randomForest पैकेज में एक फ़ंक्शन है जो महत्व के 2 उपायों की गणना करता है। इसमें कुछ आंशिक निर्भरता भूखंडों को बनाने की क्षमता भी है, ताकि आप नेत्रहीन प्रतिक्रिया पर हो सकने वाले सीमांत प्रभाव का निरीक्षण कर सकें।


1

मैं यहाँ बुरा महसूस कर रहा हूँ लेकिन एक कारण से। क्या आपने एक संकेतक चर वर्तमान द्वारा गैर-समान टिप्पणियों को प्रतिस्थापित करने पर विचार किया है। आपके विवरण से ऐसा लगता है कि यह संकेतक मान एक वैध विशेषता है क्योंकि कारकों की उपस्थिति से डी तक एच गैर-सूचनात्मक हैं: यह उनकी उपस्थिति सिर्फ बड़े परिणामों को इंगित करती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.