आनुवंशिक एल्गोरिथ्म के लिए मापदंडों का चयन


9

किसी दिए गए सिस्टम को मॉडल करने के लिए आनुवंशिक एल्गोरिथम के लिए उचित संख्या में पैरामीटर का चयन कैसे किया जा सकता है?

उदाहरण के लिए, मान लें कि आप कारों के उत्पादन का अनुकूलन करना चाहते हैं, और आपके पास 1,000 विभिन्न कर्मचारियों में से प्रत्येक के लिए विभिन्न कार्यों में प्रति घंटा दक्षता के 1,000 माप हैं। तो, आपके पास 1,000,000 डेटा पॉइंट हैं। इनमें से अधिकांश आपके कारखाने की समग्र दक्षता से कमजोर रूप से संबद्ध होने की संभावना रखते हैं, लेकिन इतनी कमजोर नहीं कि आप कह सकें कि वे सांख्यिकीय विश्वास के साथ अप्रासंगिक हैं। आप अपने GA के इनपुट लेने के बारे में कैसे जाना है ताकि आपके पास आज़ादी की 1,000,000+ डिग्री न हो, जिसके परिणामस्वरूप बहुत धीमी गति से अभिसरण या कोई अभिसरण न हो?

विशेष रूप से, वे एल्गोरिदम क्या हैं जिनका उपयोग पूर्व-चयन या चुनिंदा सुविधाओं को समाप्त करने के लिए किया जा सकता है?

एक दृष्टिकोण मैं अपने आप को इस परिदृश्य में इस्तेमाल किया है पैरामीटर चयन खुद विकसित करने के लिए, तो मैं जैसे माता-पिता हो सकता है है {a,b,c}, {b,d,e,q,x,y,z}, और इतने पर। फिर मैं बच्चों को फीचर जोड़ने या छोड़ने के लिए म्यूट करूंगा। यह कुछ दर्जन सुविधाओं के लिए अच्छी तरह से काम करता है। लेकिन समस्या यह है कि अगर बड़ी संख्या में आजादी है तो यह अक्षम है। उस स्थिति में, आप 10^nसंयोजन देख रहे हैं (ऊपर दिए गए उदाहरण में 10^1,000,000), जो किसी भी प्रकार के उपयोगी प्रदर्शन को प्राप्त करने के लिए महत्वपूर्ण सुविधाओं के कुछ पूर्व फ़िल्टरिंग बनाता है।

जवाबों:


11

सबसे पहले - उदाहरण अच्छी तरह से अनुकूल नहीं लगता क्योंकि आप इसे हल करने के लिए कुछ प्रतिगमन या शास्त्रीय एमएल विधियों का उपयोग करेंगे। दूसरी बात - आप फीचर चयन की एक सामान्य समस्या (Kira, Rendell, 1992) या विशेषता चयन (हॉल, होम्स, 2003) या चर चयन (गुयोन, एलिससेफ, 2003) या चर उप-चयन (स्टीकिंग, स्कीबेक, 2005) का उल्लेख कर रहे हैं या सुविधा निष्कर्षण (हिलियन, मैसन, रूक्स, 1988) या आयामीता में कमी (रोविस, शाऊल, 200) या राज्य अमूर्त (अमरल, 1968)। यह समस्या न केवल आनुवंशिक एल्गोरिदम के लिए बल्कि उच्च आयामी डेटा से निपटने के दौरान लगभग सभी मशीन सीखने की तकनीक के लिए प्रासंगिक है।

तीन मामलों को यहां प्रतिष्ठित किया जा सकता है: राज्य अमूर्त के रूप में ज्ञात इस समस्या का अंतिम उदाहरण आमतौर पर प्रक्रिया मॉडलिंग से संबंधित है (जो आपके उदाहरण के अनुरूप है, लेकिन जीए संदर्भ नहीं)। आपके प्रश्न का शाब्दिक रूप से लेते समय पहले तीन अर्थात फीचर चयन , विशेषता चयन या परिवर्तनशील चयन सबसे अधिक प्रासंगिक लगते हैं। इस संदर्भ में एक सामान्य समाधान mRMR दृष्टिकोण (पेंग, लांग, डिंग, 2005) है । मेरे अनुभव से यह निरंतर डेटा के साथ हमेशा अच्छी तरह से काम नहीं करता है - हालांकि, आपसी जानकारी को अन्य गुणांक के साथ प्रतिस्थापित किया जा सकता है, उदाहरण के लिए सहसंबंध। एक अन्य संभावित दृष्टिकोण क्रॉस-वैलिडेशन का उपयोग करना है (पिकार्ड, कुक, 1984)इसके लिए। आपके पास विभिन्न विशेषताओं का उपयोग करके प्रत्येक मॉडल हो सकता है, और क्रॉस-मान्यता तकनीकों के साथ मॉडल चयन के माध्यम से आप सबसे अच्छा मॉडल चुनते हैं, जो आपको यह जानकारी देता है कि दिए गए कार्य के लिए कौन सी सुविधाएँ सर्वोत्तम हैं।

सुविधा निष्कर्षण और आयामी स्वरूप कमी मामलों न केवल प्रारंभिक सुविधाओं का चयन करने के लिए अपने संयोजन की अनुमति देते हैं, लेकिन यह भी। इस मामले के लिए एक प्रसिद्ध उदाहरण समाधान पीसीए एल्गोरिथ्म (पियर्सन, 1901) है , जो कि स्पष्ट रूप से विचरण के संदर्भ में इष्टतम का उत्पादन करता है, जिसमें इनपुट सुविधाओं के रैखिक संयोजनों की सुविधाओं का सेट है।

यह भी ध्यान दें, कि कई मॉडल हैं जो फीचर निष्कर्षण कार्य को खुद से संभालते हैं। कुछ उदाहरण हैं: ग्रोइंग न्यूरल गैस नेटवर्क (फ्रिट्ज़के, 1995) , लेस्सो (टिबशिरानी, ​​2011) , आरएफई एसवीएम (ज़ेंग, चेन, ताओ, 2009) , डिसीजन ट्रीज़ (क्विनलान, 1986)

संदर्भ:


3

मैंने ऐसा पहले कभी नहीं किया है, और स्पष्ट रूप से उक्त डेटा तक पहुंच नहीं है, लेकिन ऐसा करने का एक संभावित अच्छा तरीका क्लस्टरिंग के माध्यम से होगा । प्रत्येक कर्मचारी के लिए, हमारे पास एक एन-डायमेंशनल वेक्टर है, जहां प्रत्येक आयाम एक अलग कार्य के लिए सहसंयोजक होता है। फिर, हम समूह "समान" कर्मचारियों को एक साथ क्लस्टरिंग का उपयोग कर सकते हैं; हालाँकि, यह पूरी तरह से आपके डेटा पर निर्भर होने वाला है, अर्थात यह काफी संभव है कि केवल 1000 कर्मचारियों को दिए जाने से उन कर्मचारियों के समूह का उत्पादन होगा जो वास्तव में संबंधित नहीं हैं, और इसलिए जब हम जनसंख्या में कमी प्राप्त कर सकते हैं, तो सूचना के नुकसान की कीमत पर हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.