मैंने सोचा था कि सामान्यीकृत रैखिक मॉडल (GLM) को एक सांख्यिकीय मॉडल माना जाएगा, लेकिन एक मित्र ने मुझे बताया कि कुछ पेपर इसे मशीन लर्निंग तकनीक के रूप में वर्गीकृत करते हैं। कौन सा सच है (या अधिक सटीक)? किसी भी स्पष्टीकरण की सराहना की जाएगी।
मैंने सोचा था कि सामान्यीकृत रैखिक मॉडल (GLM) को एक सांख्यिकीय मॉडल माना जाएगा, लेकिन एक मित्र ने मुझे बताया कि कुछ पेपर इसे मशीन लर्निंग तकनीक के रूप में वर्गीकृत करते हैं। कौन सा सच है (या अधिक सटीक)? किसी भी स्पष्टीकरण की सराहना की जाएगी।
जवाबों:
भविष्यवाणी के संबंध में, सांख्यिकी और मशीन सीखने के विज्ञान ने विभिन्न दृष्टिकोणों से ज्यादातर एक ही समस्या को हल करना शुरू कर दिया।
मूल रूप से आंकड़े मानते हैं कि डेटा किसी दिए गए स्टोचस्टिक मॉडल द्वारा निर्मित किए गए थे। इसलिए, एक सांख्यिकीय दृष्टिकोण से, एक मॉडल को ग्रहण किया जाता है और विभिन्न मान्यताओं को देखते हुए त्रुटियों का इलाज किया जाता है और मॉडल के मापदंडों और अन्य प्रश्नों का अनुमान लगाया जाता है।
मशीन लर्निंग कंप्यूटर विज्ञान के दृष्टिकोण से आता है। मॉडल एल्गोरिदम हैं और आमतौर पर डेटा के संबंध में बहुत कम धारणाएं आवश्यक हैं। हम परिकल्पना अंतरिक्ष और सीखने के पूर्वाग्रह के साथ काम करते हैं। मशीन लर्निंग का सबसे अच्छा विस्तार मुझे मिला है जो टॉम मिशेल की किताब मशीन लर्निंग में निहित है ।
दो संस्कृतियों के संबंध में अधिक विस्तृत और पूर्ण विचार के लिए आप लियो ब्रिमन पेपर को स्टैटिस्टिकल मॉडलिंग: द टू कल्चर कह सकते हैं
हालाँकि जो भी जोड़ा जाना चाहिए वह यह है कि भले ही दोनों विज्ञान अलग-अलग दृष्टिकोणों के साथ शुरू हुए हों, दोनों अब सामान्य ज्ञान और तकनीकों का एक उचित हिस्सा साझा करते हैं। क्यों, क्योंकि समस्याएं समान थीं, लेकिन उपकरण अलग थे। इसलिए अब मशीन लर्निंग को ज्यादातर सांख्यिकीय दृष्टिकोण से देखा जाता है (एक हस्ती, तिब्शीरानी, फ्राइडमैन किताब की जाँच करें) एक मशीन के सांख्यिकीय सीखने के साथ मशीन सीखने के दृष्टिकोण से सांख्यिकीय शिक्षण के तत्व , और शायद केविन पी। मर्फी की पुस्तक मशीन लर्निंग: ए संभाव्य परिप्रेक्ष्य , आज उपलब्ध सर्वोत्तम पुस्तकों में से कुछ का नाम लेना)।
यहां तक कि इस क्षेत्र के विकास का इतिहास इस दृष्टिकोण के लाभ को दर्शाता है। मैं दो घटनाओं का वर्णन करूंगा।
पहला CART पेड़ों का निर्माण है, जो एक ठोस सांख्यिकीय पृष्ठभूमि के साथ ब्रेमेन द्वारा बनाया गया था। लगभग उसी समय, क्विनलान ने ID3, C45, See5 और इतने पर, एक अधिक कंप्यूटर विज्ञान पृष्ठभूमि के साथ निर्णय ट्री सूट विकसित किया। अब यह दोनों पेड़ों के परिवारों और पहनावा और जंगलों जैसी पहनावे पद्धतियाँ काफी हद तक समान हैं।
दूसरी कहानी को बढ़ावा देने के बारे में है। प्रारंभ में वे फ्रायड और शापायर द्वारा विकसित किए गए थे जब उन्होंने AdaBoost की खोज की थी। AdaBoost को डिजाइन करने के विकल्प ज्यादातर कम्प्यूटेशनल दृष्टिकोण से किए गए थे। यहां तक कि लेखकों को भी अच्छी तरह से समझ नहीं आया कि यह क्यों काम करता है। केवल 5 साल बाद ब्रेमेन (फिर से!) ने एक सांख्यिकीय दृष्टिकोण से एडबॉस्ट मॉडल का वर्णन किया और उस काम के लिए स्पष्टीकरण दिया। तब से, दोनों प्रकार की पृष्ठभूमि वाले विभिन्न प्रख्यात वैज्ञानिकों ने उन विचारों को विकसित किया जो कि एल्गोरिदम को बढ़ावा देने के लिए अग्रणी थे, जैसे कि लॉजिस्टिक बूस्टिंग, ग्रेडिएंट बूस्टिंग, सौम्य बूस्टिंग एन्स। एक ठोस सांख्यिकीय पृष्ठभूमि के बिना बढ़ावा देने के बारे में सोचना अब मुश्किल है।
सामान्यीकृत रैखिक मॉडल एक सांख्यिकीय विकास है। हालाँकि नए बायेसियन उपचार इस एल्गोरिथम को मशीन लर्निंग खेल के मैदान में भी रखते हैं। इसलिए मेरा मानना है कि दोनों दावे सही हो सकते हैं, क्योंकि इसकी व्याख्या और उपचार यह बताता है कि यह कैसे अलग हो सकता है।
बेन के जवाब के अलावा, सांख्यिकीय मॉडल और मशीन लर्निंग मॉडल के बीच सूक्ष्म अंतर यह है कि सांख्यिकीय मॉडल में, आप मॉडल के निर्माण से पहले आउटपुट समीकरण संरचना को स्पष्ट रूप से तय करते हैं। मॉडल पैरामीटर / गुणांक की गणना करने के लिए बनाया गया है।
उदाहरण के लिए रैखिक मॉडल या GLM लें,
y = a1x1 + a2x2 + a3x3
आपके स्वतंत्र चर एक्स 1, एक्स 2, एक्स 3 हैं और निर्धारित किए जाने वाले गुणांक ए 1, ए 2, ए 3 हैं। आप मॉडल बनाने से पहले अपनी समीकरण संरचना को इस तरह परिभाषित करते हैं और a1, a2, a3 की गणना करते हैं। यदि आप मानते हैं कि y किसी भी तरह से गैर-रैखिक तरीके से x2 से सहसंबद्ध है, तो आप कुछ इस तरह की कोशिश कर सकते हैं।
y = a1x1 + a2(x2)^2 + a3x3.
इस प्रकार, आप आउटपुट संरचना के संदर्भ में प्रतिबंध लगाते हैं। जब तक आप स्पष्ट रूप से सिग्मॉइड या कर्नेल जैसे परिवर्तन लागू नहीं करते हैं, तब तक सांख्यिकीय मॉडल रैखिक मॉडल हैं, जब तक कि उन्हें नॉनलाइनर (जीएलएम और एसवीएम) नहीं बनाया जाता।
मशीन लर्निंग मॉडल के मामले में, आप शायद ही कभी आउटपुट संरचना और एल्गोरिदम निर्दिष्ट करते हैं जैसे निर्णय पेड़ स्वाभाविक रूप से गैर-रैखिक होते हैं और कुशलता से काम करते हैं।
बेन ने जो बताया, उसके विपरीत मशीन लर्निंग मॉडल केवल भविष्यवाणी के बारे में नहीं हैं, वे वर्गीकरण, प्रतिगमन आदि का उपयोग करते हैं जो भविष्यवाणियों को बनाने के लिए उपयोग किया जा सकता है जो विभिन्न सांख्यिकीय मॉडल द्वारा भी किया जाता है।
जीएलएम बिल्कुल एक सांख्यिकीय मॉडल है, जबकि अधिक से अधिक सांख्यिकीय तरीकों को औद्योगिक उत्पादन में मशीन लर्निंग ट्रिक्स के रूप में लागू किया जा रहा है । मेटा-विश्लेषण जो मैंने इन दिनों सबसे अधिक पढ़ा है, वह सांख्यिकीय क्षेत्र में एक अच्छा उदाहरण है।
GLM के साथ एक संपूर्ण औद्योगिक अनुप्रयोग यह समझा सकता है कि आपके मित्र ने आपको यह क्यों बताया कि GLM को मशीन सीखने की तकनीक के रूप में माना जाता है । आप उस बारे में सोर्स पेपर http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf देख सकते हैं ।
मैंने एक सरलीकृत लागू किया जिसे कुछ सप्ताह पहले उत्पादन परिदृश्य में मेरी सिफारिश प्रणाली के लिए मुख्य ढांचे के रूप में माना गया था। बहुत सराहना की अगर आप मुझे कुछ सुझाव देते हैं, और आप स्रोत कोड की जाँच कर सकते हैं: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala
आशा है कि यह आपकी मदद करेगा, अच्छे दिन!