फीचर इंजीनियरिंग के लिए ट्यूटोरियल


19

जैसा कि सभी जानते हैं, मशीन लर्निंग के लिए फीचर इंजीनियरिंग बेहद महत्वपूर्ण है, हालांकि मुझे इस क्षेत्र से जुड़ी कुछ सामग्रियां मिलीं। मैंने कागले में कई प्रतियोगिताओं में भाग लिया और विश्वास है कि कुछ मामलों में अच्छे क्लासिफायर की तुलना में अच्छी सुविधाएँ और भी महत्वपूर्ण हो सकती हैं। क्या किसी को सुविधा इंजीनियरिंग के बारे में कोई ट्यूटोरियल पता है, या यह शुद्ध अनुभव है?


1
क्या आपका मतलब है कि प्री-प्रोसेसिंग ऑफ़ फीचर्स (सामान्यीकरण और अन्य परिवर्तन) या फ़ीचर चयन?
मैटबग्ग

2
@ mb3041023 नहीं, दोनों से पहले का चरण, जिसमें आप कुछ कच्चे डेटा जैसे ग्रंथ, चित्र या श्रृंखला को कुछ उपयोग योग्य विशेषताओं में परिवर्तित करते हैं।

8
मेरे अनुभव में, मशीन सीखने की समस्या का एक बड़ा हिस्सा, वस्तुतः हल / अनुकूलित (यानी सुविधाओं, सुविधा प्रतिनिधित्व, चयन, आदि) को हल करने के लिए सही समस्या को स्थापित कर रहा है। मैं विशुद्ध रूप से अनुभवजन्य सुविधा के चयन के लिए समर्पित और कई वास्तविक जीवन के चित्रण (जैसे कागल) के साथ पूर्व-प्रसंस्करण देखना पसंद करूंगा। अगर किसी को एक का पता है, pls। पद। डेटा क्लीनिंग / डेटा इंप्यूटेशन जैसी चीजों के लिए समर्पित कई किताबें हैं, लेकिन फीचर चयन पर एक समर्पित व्यावहारिक पाठ की जरूरत है।
पॅट

2
एक नज़र डालें: "फ़ीचर एक्सट्रैक्शन: फ़ाउंडेशन एंड एप्लिकेशन", 2006
जसोब्ब

2
@ajonb, लेखक, आकार, मूल्य और लिंक के बारे में कुछ इस तरह: गयोन एड।, फ़ीचर एक्सट्रैक्शन: फ़ाउंडेशन और एप्लिकेशन 2006, 778p, $ 306
डेनिस

जवाबों:


7

मैं कहूंगा अनुभव - मूल विचार हैं:

  • फिट करने के लिए कि क्लासिफायर कैसे काम करते हैं; एक पेड़ को एक ज्यामिति समस्या देना, एक केएनएन को ओवरसाइज़्ड आयाम और एक एसवीएम को अंतराल डेटा एक अच्छा विचार नहीं है
  • जितना संभव हो उतने अधरों को हटा दें; उम्मीद है कि कुछ क्लासिफायर फूरियर विश्लेषण करेंगे बल्कि भोली है (भले ही, यह बहुत जटिलता को बर्बाद कर देगा)
  • सभी वस्तुओं के लिए सामान्य विशेषताएं बनाएं ताकि श्रृंखला में कुछ नमूने उन्हें बाहर न गिराए
  • पिछले कामों की जाँच करें - अक्सर विज़ुअलाइज़ेशन या इसी प्रकार के डेटा के परीक्षण के लिए उपयोग किए जाने वाले परिवर्तन को पहले से ही दिलचस्प पहलुओं को उजागर करने के लिए तैयार किया जाता है
  • अस्थिर, पीसीए जैसे परिवर्तनों का अनुकूलन करने से बचें, जिससे ओवरफिटिंग हो सकती है
  • खूब प्रयोग करो

आप "अंतराल डेटा" को कैसे परिभाषित करते हैं? मैंने Google पर खोज की और कई अलग-अलग परिभाषाएँ पाईं।
शक्ति

आप पीसीए बिंदु पर विस्तृत कर सकते हैं?
डैनियल वेलकोव

एक्स|एक्स-निकटतम प्रमुख|<0.3

@DanielVelkov जब आप पीसीए को शोरगुल डेटा पर बूट करते हैं तो घटक अक्सर अस्थिर होते हैं; यह पूरे उपलब्ध सेट पर एक वैश्विक पीसीए बनाने के लिए विचार को बढ़ावा देता है, जो जानकारी लीक करता है और मूल्यांकन को खराब करने का एक सीधा तरीका है।

@mbq क्या है अगर पीसीए केवल प्रशिक्षण सेट पर चलाया जाता है, जिस तरह से यह माना जाता है?
डैनियल वेलकोव

1

ओ'रेली की एक पुस्तक है जिसे झेंग एट अल द्वारा " मशीन लर्निंग के लिए फ़ीचर इंजीनियरिंग " कहा जाता है ।

मैंने पुस्तक पढ़ी और इसमें विभिन्न प्रकार के डेटा शामिल हैं (जैसे श्रेणीबद्ध, पाठ ...) और इसके साथ जाने वाले फीचर इंजीनियरिंग के विभिन्न पहलुओं का वर्णन करता है। इसमें डेटा का सामान्यीकरण, फीचर का चयन, टेक्स्ट में tf-idf जैसी चीजें शामिल हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.