क्या सुविधा इंजीनियरिंग के लिए कोई उपकरण हैं?


29

विशेष रूप से मैं जो देख रहा हूं वह कुछ कार्यक्षमता वाले उपकरण हैं, जो कि इंजीनियरिंग की विशेषता है। मैं एमएस एक्सेल के समान कुछ आसानी से आसानी से देखने, कल्पना करने, अंतराल को भरने आदि में सक्षम होना चाहूंगा, लेकिन इसमें वीबी के बजाय अंतर्निहित भाषा के रूप में आर है।

जवाबों:


21

बहुत दिलचस्प सवाल (+1)। हालांकि मुझे किसी ऐसे सॉफ्टवेयर टूल के बारे में जानकारी नहीं है जो वर्तमान में फीचर इंजीनियरिंग के लिए व्यापक कार्यक्षमता प्रदान करता है , निश्चित रूप से उस संबंध में विकल्पों की एक विस्तृत श्रृंखला है। वर्तमान में, जहां तक ​​मुझे पता है, फीचर इंजीनियरिंग अभी भी काफी हद तक एक श्रमसाध्य और मैनुअल प्रक्रिया है (यानी, इस ब्लॉग पोस्ट को देखें )। फीचर इंजीनियरिंग विषय डोमेन के बारे में बात करते हुए, जेसन ब्राउनली का यह उत्कृष्ट लेख विषय का एक अधिक व्यापक अवलोकन प्रदान करता है।

ओ'रेली मीडिया इंक में मुख्य डेटा वैज्ञानिक और डेटा रणनीति के लिए सामग्री रणनीति के निदेशक बेन लोरिका ने एक बहुत अच्छा लेख लिखा है , जिसमें अत्याधुनिक (जून 2014 तक) दृष्टिकोण, तरीके, उपकरण और स्टार्टअप का वर्णन किया गया है। के क्षेत्र को स्वचालित (या, के रूप में वे कहते हैं, को व्यवस्थित बनाने ) सुविधा इंजीनियरिंग।

मैंने कुछ स्टार्टअप्स पर एक संक्षिप्त नज़र डाली, जो बेन ने संदर्भित किया है और स्काईट्री द्वारा एक उत्पाद वास्तव में काफी प्रभावशाली दिखता है, खासकर इस प्रश्न के विषय के संबंध में। यह कहने के बाद कि, उनके कुछ दावे मुझे वास्तव में संदेहास्पद लगते हैं (जैसे, "स्काईट्री ने ओपन सोर्स विकल्पों की तुलना में 150x तक मशीन सीखने के तरीकों को गति दी" )। व्यावसायिक डेटा विज्ञान और मशीन सीखने के प्रसाद के बारे में बात करते हुए, मुझे Microsoft द्वारा समाधानों का उल्लेख करना होगा, विशेष रूप से उनके एज़्योर मशीन लर्निंग स्टूडियो में । यह वेब-आधारित उत्पाद काफी शक्तिशाली और सुरुचिपूर्ण है और कुछ सुविधा इंजीनियरिंग कार्यक्षमता (FEF) प्रदान करता है। कुछ सरल FEF के उदाहरण के लिए, यह अच्छा वीडियो देखें ।

इस सवाल पर लौटते हुए, मुझे लगता है कि सबसे आसान तरीका जो कि एक स्वचालित इंजीनियरिंग इंजीनियरिंग के लिए आवेदन कर सकता है, वह है समान आईडीई का उपयोग करना । चूँकि आप (मैं, भी) एक विज्ञान विज्ञान बैकेंड के रूप में R भाषा में रुचि रखते हैं, मैं RKudio के समान एक अन्य ओपन सोर्स IDE RStudio के अलावा, जाँच करने का सुझाव दूंगा । RKWard बनाम RStudio के फायदों में से एक यह है कि यह आईडीई के लिए लेखन प्लगइन्स का समर्थन करता है , इस प्रकार, डेटा वैज्ञानिकों को फीचर इंजीनियरिंग को स्वचालित करने और उनके आर-आधारित डेटा विश्लेषण को कारगर बनाने में सक्षम बनाता है।

अंत में, फीचर इंजीनियरिंग समाधानों के स्पेक्ट्रम के दूसरी तरफ हम कुछ शोध परियोजनाओं को पा सकते हैं । दो सबसे उल्लेखनीय स्टैनफोर्ड यूनिवर्सिटी की कोलंबस परियोजना लगती है , जिसे इसी शोध पत्र में विस्तार से वर्णित किया गया है , और इस पेपर में ब्रेनवाश का वर्णन किया गया है ।


5

Featuretools हाल ही में जारी की गई पायथन लाइब्रेरी है जो स्वचालित सुविधा इंजीनियरिंग के लिए है। यह डीप फीचर सिंथेसिस नामक एल्गोरिथ्म पर आधारित है जो मूल रूप से 2015 एमआईटी में विकसित किया गया था और कागले पर सार्वजनिक डेटा विज्ञान प्रतियोगिताओं पर परीक्षण किया गया था।

यहां बताया गया है कि यह सामान्य डेटा विज्ञान प्रक्रिया में कैसे फिट बैठता है।

यहां छवि विवरण दर्ज करें

पुस्तकालय का उद्देश्य न केवल विशेषज्ञों को बेहतर मशीन लर्निंग मॉडल बनाने में तेजी से मदद करना है, बल्कि डेटा विज्ञान की प्रक्रिया को सीखने की कोशिश कर रहे लोगों को कम डराना है। यदि आपके पास ईवेंट संचालित या संबंधपरक डेटा है, तो मैं आपको इसकी जांच करने की अत्यधिक अनुशंसा करता हूं!

अस्वीकरण: मैं इस परियोजना के डेवलपर्स में से एक हूं।


2

फ़ीचर इंजीनियरिंग मशीन लर्निंग के केंद्र में है और बल्कि श्रमसाध्य और समय लेने वाली है। मानव को पाश से बाहर निकालने की उम्मीद में फीचर इंजीनियरिंग को स्वचालित करने के लिए कई प्रयास किए गए हैं। वर्गीकरण समस्याओं के लिए ऐसा करने वाला एक विशिष्ट कार्यान्वयन ऑटो-स्केलेर है । यह रूपांतरणों और एल्गोरिथ्म (और एल्गोरिथ्म मापदंडों) के उपयुक्त सेट को चुनने के लिए हुड के तहत एसएमएसी नामक एक अनुकूलन प्रक्रिया का उपयोग करता है ।

ध्यान दें कि ट्रिकैक्टा डेटा परिवर्तन के लिए टूल का उपयोग करने के लिए वास्तव में आसान प्रदान करता है। इसमें एक अत्यधिक सहज GUI है जो परिवर्तन / सुविधा इंजीनियरिंग मानचित्र सेट करने की अनुमति देता है। एक नि: शुल्क परीक्षण संस्करण भी है जिसका उपयोग यथोचित आकार की समस्याओं के लिए किया जा सकता है।


2

स्किकिट-लर्न ने हाल ही में नए ट्रांसफार्मर जारी किए हैं जो फीचर इंजीनियरिंग के कई पहलुओं से निपटते हैं। उदाहरण के लिए:

  1. आप कई गुम डेटा प्रतिरूपण तकनीकें कर सकते हैं SimpleImputer( http://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html ), जिसमें माध्य, और दोनों तरह के वैरिएबल वैरिएबल में माध्य और मनमाना प्रतिरूपण शामिल हैं। ।

  2. आप कई अनुमानक, जैसे बे, यादृच्छिक वन और अन्य (R के MICE, अमेलिया और मिसफॉरेस्ट के बराबर), IterativeImputer( https://scikit-learn.org/stable/model/generated/sklearn.impute.terativeImputerImputerImputerIututer के साथ मल्टीवेरियट इंप्यूटेशन कर सकते हैं। .html # sklearn.impute.IterativeImputer )

  3. आप OneHotEncoder()Scikit-learn से श्रेणीबद्ध एक हॉट एन्कोडिंग कर सकते हैं

  4. आप के साथ संख्याओं द्वारा श्रेणीबद्ध चर सांकेतिक शब्दों में बदलना कर सकते हैं LabelEncoder

  5. आप PowerTransformer( http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html ) के साथ योस-जॉनसन चर परिवर्तन कर सकते हैं

  6. आप KBinsDiscretiser( https://scikit-learn.org/stable/auto_examples/preprocessing/plot_discretization.html ) के साथ विवेक कर सकते हैं।

स्किकिट-लर्न में संभावित रूप से अन्य फीचर इंजीनियरिंग ट्रांसफार्मर हैं और डेवलपर्स लाइब्रेरी को नियमित रूप से अपडेट करते हैं।

प्रसिद्ध स्किट-लर्न लाइब्रेरी के विकल्प के रूप में, हाल ही में जारी एक खुला स्रोत पुस्तकालय है जिसे फीचर-इंजन कहा जाता है । सुविधा इंजन के साथ आप कर सकते हैं:

  1. मतलब है, औसत, मनमाना, पूंछ का अंत और संख्यात्मक और श्रेणीबद्ध चर में यादृच्छिक आवेग
  2. एक गर्म, पूर्णांक, क्रमिक, माध्य एन्कोडिंग और सबूत के वजन सहित विभिन्न प्रकार के वर्गीकरण एन्कोडिंग करें।
  3. लॉग, पारस्परिक, ऍक्स्प और बॉक्स कॉक्स सहित विभिन्न परिवर्तनशील परिवर्तन करें
  4. समान आवृत्ति, समान दूरी और पेड़ आधारित सहित विभिन्न प्रकार के विवेक
  5. बाहरी तौर पर संभालना।

Github repo और docs में अधिक विवरण ( https://feature-engine.readthedocs.io/en/latest/ )

डिस्क्लेमर: मैंने फीचर इंजन बनाया और इसे ओपन सोर्स बनाया।

एक अन्य ओपन सोर्स पायथन पैकेज विभिन्न प्रकार के श्रेणीबद्ध चर एन्कोडिंग के लिए अनुमति देता है: https://contrib.scikit-learn.org/categorical-encoding/

अंत में, फीचर टूल ट्रांजेक्शनल डेटा के लिए एक अच्छा ओपन सोर्स लाइब्रेरी है।


1

आपको Azure Machine Learning platform की जाँच करने पर विचार करना चाहिए । यह ऑनलाइन है और आप इसे मुफ्त खाते के साथ उपयोग कर सकते हैं।

Azure ML आपको ग्राफिक यूजर इंटरफेस में मॉड्यूल का उपयोग करके एक वर्कफ़्लो प्रदान करता है। उनमें से कई डेटा मुंगिंग से संबंधित हैं और आप आसानी से अपने डेटा को साफ कर सकते हैं। अगर ऐसा कुछ है जो आप GUI में नहीं कर सकते हैं, तो आप बस एक मॉड्यूल जोड़ सकते हैं जो आपको अपने डेटा में हेरफेर करने के लिए कस्टम आर या पायथन स्क्रिप्ट चलाने देता है।

इसका अच्छा हिस्सा यह है कि आप किसी भी समय आसानी से अपने डेटा की कल्पना कर सकते हैं और dataframe.describe()आर जैसे सरल आंकड़ों की जांच कर सकते हैं ।


1

अमेज़ॅन मशीन लर्निंग एक उपकरण है, जिसे मैं कुछ समय के लिए फीचर इंजीनियरिंग के लिए उपयोग करता हूं।

जैसा कि अमेज़ॅन एडब्ल्यूएस सेवाओं ने बहुत सारे वादे और मानक दिखाए हैं, मैं निश्चित रूप से अमेज़ॅन एमएल पर भरोसा करूंगा, यह डेटा वैज्ञानिकों के वर्कफ़्लो को सरल बनाने के लिए संभावनाएं और वादे हैं। लेकिन अभी तक, यह अभी भी छोटा है।

लेकिन, जैसा कि आपने फीचर इंजीनियरिंग के लिए एक उपकरण मांगा है, इसलिए यह उनमें से एक है।

अमेज़ॅन एमएल का उपयोग करने के लिए कुछ FAQ के बारे में /।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.