मैं स्पष्ट रूप से पूरे उद्योग के लिए बात नहीं कर सकता, लेकिन मैं उद्योग में काम करता हूं और काग्ले पर प्रतिस्पर्धा की है इसलिए मैं अपने पीओवी को साझा करूंगा।
सबसे पहले, आपको यह संदेह करना सही है कि कागले उद्योग में लोगों के साथ क्या मेल खाते हैं। यह एक गेम है, और गेममैनशिप के अधीन है, बहुत सारे पागल प्रतिबंधों के साथ। उदाहरण के लिए, वर्तमान में चल रहे सैंटनर प्रतियोगिता में:
- अपने नाम को छिपाने के लिए फीचर नाम कृत्रिम रूप से हैशेड थे
- "प्रशिक्षण" सेट कृत्रिम रूप से स्तंभों की तुलना में कम पंक्तियों के लिए सीमित था, ताकि विशेष रूप से चयन, मजबूती और नियमितीकरण तकनीक सफलता के लिए अपरिहार्य हो।
- तथाकथित "परीक्षण" सेट में प्रशिक्षण सेट की तुलना में स्पष्ट रूप से अलग वितरण है और दोनों स्पष्ट रूप से एक ही आबादी से यादृच्छिक नमूने नहीं हैं ।
अगर किसी ने मुझे काम पर इस तरह का डेटा सेट दिया है, तो मैं तुरंत उनके साथ फीचर इंजीनियरिंग पर काम करने की पेशकश करूंगा ताकि हमें ऐसी सुविधाएं मिल सकें जो अधिक उपयोगी थीं। मैं सुझाव दूंगा कि हम डोमेन ज्ञान का उपयोग संभावित संपर्क शर्तों, थ्रेसहोल्ड, श्रेणीबद्ध चर कूटनीति रणनीतियों आदि पर निर्णय लेने के लिए करें। इस तरह से समस्या का समाधान करना स्पष्ट रूप से अधिक उत्पादक होगा, जो डेटाबेस इंजीनियर द्वारा निर्मित निकास फाइल से अर्थ निकालने की कोशिश में अधिक उत्पादक होगा। एमएल में प्रशिक्षण।
इसके अलावा, यदि आप सीखते हैं, कहते हैं, कि एक विशेष संख्यात्मक कॉलम बिल्कुल भी संख्यात्मक नहीं है, बल्कि एक ज़िप कोड है, तो आप अपने डेटा को बढ़ाने के लिए यूएस सेंसस जैसे 3-पार्टी डेटा स्रोतों से डेटा प्राप्त कर सकते हैं। या यदि आपके पास कोई तिथि है, तो शायद आप उस दिन के लिए S & P 500 समापन मूल्य शामिल करेंगे। इस तरह की बाहरी वृद्धि रणनीतियों के लिए विशिष्ट डेटा सेट और महत्वपूर्ण डोमेन ज्ञान की विस्तृत जानकारी की आवश्यकता होती है, लेकिन आमतौर पर शुद्ध एल्गोरिथम सुधार की तुलना में बहुत बड़ा भुगतान होता है।
तो, उद्योग और कागले के बीच पहला बड़ा अंतर यह है कि उद्योग में, सुविधाएँ (इनपुट डेटा के अर्थ में) परक्राम्य हैं।
मतभेदों का एक दूसरा वर्ग प्रदर्शन है। अक्सर, मॉडल को दो तरीकों में से एक में उत्पादन के लिए तैनात किया जाएगा: 1) मॉडल की भविष्यवाणियां बहुत बड़ी डेटाबेस तालिका में प्रत्येक पंक्ति के लिए पूर्व-गणना की जाएंगी, या 2) एक आवेदन या वेबसाइट मॉडल को डेटा की एक पंक्ति से गुजारेंगी और वास्तविक समय में लौटी एक भविष्यवाणी की जरूरत है। दोनों ही मामलों में अच्छे प्रदर्शन की आवश्यकता होती है। इन कारणों से, आप अक्सर ऐसे मॉडल नहीं देखते हैं, जो K- निकटतम-पड़ोसी या अतिरिक्त रैंडम फ़ॉरेस्ट जैसी स्मृति का अनुमान लगाने या उपयोग करने में धीमा हो सकते हैं। एक लॉजिस्टिक रिग्रेशन या तंत्रिका नेटवर्क, इसके विपरीत, कुछ मैट्रिक्स गुणन के साथ रिकॉर्ड का एक बैच स्कोर कर सकता है, और मैट्रिक्स गुणन को सही पुस्तकालयों के साथ अत्यधिक अनुकूलित किया जा सकता है ।हालांकि मैं शायद +0.001 एयूसी प्राप्त कर सकता हूं, अगर मैं अभी तक एक और गैर-पैरामीट्रिक मॉडल पर खड़ा हूं, तो मैं नहीं करूंगा क्योंकि भविष्यवाणी थ्रूपुट और विलंबता बहुत अधिक गिर जाएगी।
इसके लिए एक विश्वसनीयता आयाम है - चार अलग-अलग अत्याधुनिक 3-पार्टी पुस्तकालयों को स्टैक करना, जो कहते हैं कि लाइट जीबीएम , एक्सगबॉस्ट , कैटबॉस्ट , और टेन्सोर्फ़्लो ( जीपीयू पर , निश्चित रूप से) आपको एमएसई में 0.01 कमी मिल सकती है। काग्ले प्रतियोगिताओं को जीतता है, लेकिन अगर कुछ गलत होता है, तो इसे स्थापित करने, तैनात करने और डिबग करने के लिए चार अलग-अलग पुस्तकालय हैं। यह बहुत अच्छा है अगर आप अपने लैपटॉप पर काम कर रहे सभी सामान प्राप्त कर सकते हैं, लेकिन इसे डॉक के कंटेनर के अंदर चलाना एडब्ल्यूएस पर चल रहा है, यह पूरी तरह से कहानी है। ज्यादातर कंपनियां इस तरह की तैनाती के मुद्दों से निपटने के लिए सिर्फ एक छोटी-सी डेवॉप्स टीम का सामना नहीं करना चाहती हैं।
यह कहा, अपने आप में स्टैकिंग जरूरी एक बड़ी बात नहीं है। वास्तव में, कुछ अलग-अलग मॉडलों को ढेर करना जो सभी समान रूप से अच्छा प्रदर्शन करते हैं, लेकिन बहुत अलग निर्णय सीमाएं हैं, एयूसी में एक छोटे से टक्कर और मजबूती में एक बड़ी टक्कर पाने का एक शानदार तरीका है। बस इतनी रसोई फेंक मत जाओ अपने विषम पहनावा में डूब जाता है कि आपके पास तैनाती के मुद्दे हैं।