क्या कोई मुझे बता सकता है कि फीचर जेनरेशन का उद्देश्य क्या है? और छवि को वर्गीकृत करने से पहले फीचर स्पेस संवर्धन की आवश्यकता क्यों है? क्या यह एक आवश्यक कदम है?
क्या फीचर स्पेस को समृद्ध करने की कोई विधि है?
क्या कोई मुझे बता सकता है कि फीचर जेनरेशन का उद्देश्य क्या है? और छवि को वर्गीकृत करने से पहले फीचर स्पेस संवर्धन की आवश्यकता क्यों है? क्या यह एक आवश्यक कदम है?
क्या फीचर स्पेस को समृद्ध करने की कोई विधि है?
जवाबों:
फ़ीचर जेनरेशन - यह आपके कृत्रिम विश्लेषण में संभावित उपयोग के लिए कच्चे, असंरचित डेटा और परिभाषित सुविधाओं (यानी चर) को लेने की प्रक्रिया है। उदाहरण के लिए, टेक्स्ट माइनिंग के मामले में आप हजारों टेक्स्ट मैसेज (जैसे एसएमएस, ईमेल, सोशल नेटवर्क मैसेज आदि) के कच्चे लॉग से शुरू हो सकते हैं और निश्चित आकार का उपयोग करके कम-मूल्य वाले शब्दों (स्टॉपवर्ड्स) को हटाकर सुविधाएं उत्पन्न कर सकते हैं। शब्दों के ब्लॉक (यानी एन-ग्राम) या अन्य नियम लागू करना।
फ़ीचर एक्सट्रैक्शन - फीचर्स जेनरेट करने के बाद, अक्सर ऑरिजिनल फीचर्स के ट्रांसफ़ॉर्मेशन को टेस्ट करना और अपने मॉडल में उपयोग के लिए संभावित ऑरिजिनल और डिराइव्ड फीचर्स के इस पूल का चयन करना आवश्यक होता है (यानी फीचर एक्सट्रैक्शन और सिलेक्शन)। व्युत्पन्न मूल्यों का परीक्षण एक सामान्य कदम है क्योंकि डेटा में महत्वपूर्ण जानकारी हो सकती है जिसमें आपके परिणाम के साथ एक गैर-रेखीय पैटर्न या संबंध होता है, इस प्रकार डेटा तत्व का महत्व केवल इसकी परिवर्तित स्थिति (जैसे उच्चतर आदेश डेरिवेटिव) में स्पष्ट हो सकता है। बहुत सारी विशेषताओं का उपयोग करने से परिणाम में बहुत अधिक कॉलिनिटी हो सकती है या अन्यथा सांख्यिकीय मॉडल को भ्रमित किया जा सकता है, जबकि आपके विश्लेषण के उद्देश्य के अनुरूप सुविधाओं की न्यूनतम संख्या को निकालना पारसीमोनी के प्रमुख का अनुसरण करता है।
इस तरह से अपने फ़ीचर स्पेस को बढ़ाना अक्सर छवियों या अन्य डेटा ऑब्जेक्ट्स के वर्गीकरण में एक आवश्यक कदम होता है क्योंकि कच्ची फ़ीचर स्पेस आमतौर पर असंरचित और अप्रासंगिक डेटा की भारी मात्रा से भरी होती है जिसमें शामिल होता है जिसे अक्सर प्रतिमान में "शोर" के रूप में संदर्भित किया जाता है। एक "सिग्नल" और "शोर" (जो यह कहना है कि कुछ डेटा का अनुमानित मूल्य है और अन्य डेटा नहीं है)। फीचर स्पेस को बढ़ाकर आप उन महत्वपूर्ण डेटा को बेहतर ढंग से पहचान सकते हैं, जो आपके विश्लेषण (यानी "शोर") को हटाते समय आपके विश्लेषण (या "सिग्नल") में अन्य मूल्य हैं।