क्या मशीन सीखने के लिए सांख्यिकीविदों के लिए यह महत्वपूर्ण है?


22

क्या मशीन किसी भी सांख्यिकीविद् के लिए एक महत्वपूर्ण विषय है जिससे आप परिचित हो सकते हैं? ऐसा लगता है कि मशीन सीखने के आंकड़े हैं। सांख्यिकी कार्यक्रमों (स्नातक और स्नातक) को मशीन सीखने की आवश्यकता क्यों नहीं है?


1
यहाँ पाठकों को निम्नलिखित सूत्र में रुचि हो सकती है: डेटा माइनिंग, सांख्यिकी, मशीन लर्निंग और AI के बीच क्या अंतर है
गूँग -

2
नहीं पता, लेकिन मुझे पूरा यकीन है कि मशीन लर्निंग करने वाले सभी को आंकड़े सीखना चाहिए।
डेव

जवाबों:


18

मशीन लर्निंग उच्च आयामी लागू आँकड़ों का एक विशेष क्षेत्र है। इसके लिए काफी प्रोग्रामिंग बैकग्राउंड की भी आवश्यकता होती है जो अच्छे मात्रात्मक कार्यक्रम के लिए आवश्यक नहीं है, खासकर स्नातक स्तर पर लेकिन स्नातक स्तर पर भी कुछ हद तक। इसमें केवल आंकड़ों के पूर्वानुमान पहलू के लिए आवेदन किया गया है, जबकि गणितीय आंकड़ों के साथ-साथ हीन और वर्णनात्मक लागू आंकड़ों पर ध्यान देने की आवश्यकता है। कई कार्यक्रम छात्रों को मशीन लर्निंग (उदाहरण के लिए सीएमयू) के संपर्क में आने का एक बड़ा मौका देते हैं, लेकिन कुछ निश्चित उच्च प्रोफ़ाइल तकनीकी नौकरियों को छोड़कर, इन आंकड़ों को लागू करने के लिए औद्योगिक सांख्यिकीविदों को शायद ही कभी मौका मिलता है।

मैं हाल ही में कई डेटा वैज्ञानिक और मशीन रोजगार के बाजार में पदों सीखने देखा है, वहीं मैं एक मशीन पृष्ठभूमि सीखने की आवश्यकता नहीं है की "सांख्यिकीविद" सामान्य नौकरी का विवरण लगता है, लेकिन है बुनियादी आँकड़ों, अनुमान, और संचार के एक निर्दोष समझने की आवश्यकता है: ये वास्तव में एक स्नातक सांख्यिकी कार्यक्रम का मूल होना चाहिए। मशीन लर्निंग और डेटा साइंस भी नौकरी के शीर्षक और विषयों के रूप में अपेक्षाकृत नए हैं। यह सांख्यिकीविदों के रूप में रोजगार पाने वालों के लिए एक असहमति होगी, जो मशीन सीखने की दिशा में अपनी समस्या सुलझाने की रणनीति को अपनाने के लिए है, अगर इसे 10 या 20 वर्षों में प्रभावोत्पादकता के लिए व्यवसाय / फार्मा / बायोसाइंस उद्यम में छोड़ दिया जाता है।

अंत में, मुझे नहीं लगता कि मशीन लर्निंग, आंकड़ों की ठोस समझ को बढ़ाता है। सांख्यिकी मूल रूप से एक क्रॉस-डिसिप्लिनरी फ़ील्ड है और आपके क्षेत्र में गैर-तकनीकी विशेषज्ञों (जैसे कि डॉक्टर, सीएफओ, या प्रशासक) को संवाद करना और उन्हें समझाने के लिए महत्वपूर्ण है कि आपने जिस कार्यप्रणाली को चुना था, वही क्यों चुना। मशीन लर्निंग एक ऐसा आला, उच्च तकनीकी क्षेत्र है, जो कई लागू प्रथाओं में, मानक उपकरणों और तकनीकों की तुलना में केवल बेहतर प्रदर्शन का वादा करता है। पर्यवेक्षित और अनुपयोगी शिक्षा में कई तरीके गैर-विशेषज्ञों (और यहां तक ​​कि कुछ कम प्रशिक्षित विशेषज्ञों) द्वारा "ब्लैक बॉक्स" के रूप में माना जाता है। जब एक विशिष्ट शिक्षण पद्धति की अपनी पसंद का बचाव करने के लिए कहा जाता है, तो ऐसे स्पष्टीकरण होते हैं जो सपाट हो जाते हैं और लागू समस्या से प्रेरित परिस्थितियों में से किसी पर आकर्षित होते हैं।


1
क्या आप विस्तार से थोड़ा और समझा सकते हैं कि फ्लैट के गिरने के स्पष्टीकरण से आपका क्या मतलब है (उदाहरण शायद?)।
cbeleites

10
मैं एक रेखीय विभेदक विश्लेषण, समर्थन वेक्टर मशीनों और एक GLM LASSO के बीच अंतर का वर्णन नहीं कर सकता जो एक डॉक्टर को समझ में आता है। इसलिए मैंने सावधानीपूर्वक समायोजित कोवरिएट्स का उपयोग करके स्तन कैंसर के जोखिम की भविष्यवाणी के लिए एक लॉजिस्टिक रिग्रेशन मॉडल बनाया। जब प्रस्तुत किया जाता है, तो डॉक्टरों ने तुरंत उनके प्रभाव आकारों के बारे में एक चर्चा शुरू की। मेरे "विज्ञान" मॉडल का भेदभाव अधिक परिष्कृत एमएल तकनीकों (सत्यापन नमूने में बूटस्ट्रैप के आधार पर एयूसी के लिए 90% सीआई को ओवरलैप करने) के लिए बहुत तुलनीय था, और मैं इस तरह की केस रिपोर्ट के साथ एकमात्र नहीं हूं!
21

4
@cbeleites, क्या तुमने कभी गणित के ज्ञान के सबसे अच्छे कॉलेज बीजगणित की राशि वाले व्यक्ति से संवाद किया है? एसवीएम प्रभाव आकारों का उत्पादन नहीं करता है, जो डॉक्टर समझेंगे; मार्जिन की चौड़ाई उनके लिए समझ में नहीं आती है, विषम अनुपात के विपरीत जो वे बहुत अधिक उपयोग किए जाते हैं। यदि आप क्लाइंट की भाषा नहीं बोल सकते हैं, तो वे अपना समय और पैसा आप पर बर्बाद नहीं करेंगे।
StasK

2
@GraemeWalsh शानदार बिंदु। मैं भविष्य कहनेवाला अनुमान के लिए परिष्कृत भविष्य कहनेवाला मॉडल का उपयोग करने की अवधारणा के साथ बहुत संघर्ष करता हूं, जैसा कि अक्सर संरचनात्मक समीकरण मॉडलिंग या ग्रेंजर की उपादेय कारण में होता है। मुझे लगता है कि इस क्षेत्र में बहुत काम होना बाकी है। उदाहरण के लिए, सहज रूप से मैं अर्ध-पैरामीट्रिक मॉडलिंग और सीमांत संरचनात्मक मॉडल के बीच समानता का एक बड़ा सौदा पहचानता हूं, लेकिन अनिश्चित है जहां मतभेद झूठ हैं।
एडम

2
@ जसे आपको नेटफ्लिक्स प्रतियोगिता के विजेताओं से आमंत्रित पेपर पर एक नज़र डालनी चाहिए। उनकी रिपोर्टें बहुत समान थीं, यहां तक ​​कि बेइज़ियन मॉडल के साथ मॉडल की एक बड़ी जगह पर खराब वजन चलाने के बावजूद, उन्होंने देखा कि पका को सभी परिस्थितियों में एक वर्चस्व के बाद का वजन था। यह कहने के लिए नहीं है कि वे समान हैं, लेकिन सादगी और सटीकता के बीच एक व्यापार बंद है जो मुझे उन प्रभावी मॉडल के लिए अनुकूल बनाता है जो एमएल अखाड़ा प्रदान करता है। एक व्यक्ति यह सोच सकता है कि गैर-पैरामीट्रिक मॉडल के समान परिष्कृत पैरामीट्रिक मॉडल कैसे प्रदर्शन करते हैं।
AdamO

14

ठीक है, आइए आँकड़ों के हाथी के बारे में हमारी दृष्टि के साथ आँख बंद करके जो हमने एक या दो लोगों से सीखा है, जो हमने अपने ग्रेड कार्यक्रमों में बारीकी से काम किया है ...

स्टेटमेंट प्रोग्राम्स के लिए जरूरी है कि वे जो देखें फिट हों, यानी जो सबसे महत्वपूर्ण चीजें हैं, वे चाहते हैं कि उनके छात्रों को सीमित समय में सीखने को मिले, जिसके लिए छात्रों के पास कार्यक्रम होगा। एक संकीर्ण क्षेत्र कुछ अन्य क्षेत्रों है कि तर्क दिया जा सकता को अलविदा चुंबन साधन की आवश्यकता होती है उतना ही महत्वपूर्ण माना जाता है। कुछ कार्यक्रमों को माप सिद्धांत की आवश्यकता होती है, कुछ नहीं। कुछ को विदेशी भाषा की आवश्यकता होती है, लेकिन अधिकांश कार्यक्रम नहीं होते हैं। कुछ कार्यक्रम बेयसियन प्रतिमान को केवल अध्ययन के लायक वस्तु के रूप में लेते हैं, लेकिन अधिकांश नहीं। कुछ कार्यक्रमों से पता चलता है कि सांख्यिकीविदों की सबसे बड़ी मांग सर्वेक्षण के आंकड़ों में है (कम से कम अमेरिका में ऐसा ही है), लेकिन अधिकांश ऐसा नहीं करते हैं। बायोस्टैट कार्यक्रम पैसे का पालन करते हैं और एसएएस + को सिखाते हैं जो चिकित्सा और फार्मा विज्ञान को आसानी से बेचेंगे।

कृषि प्रयोगों को डिजाइन करने वाले व्यक्ति के लिए, या फोन सर्वेक्षण के माध्यम से सर्वेक्षण डेटा एकत्र करना, या साइकोमेट्रिक तराजू को मान्य करना, या जीआईएस में रोग की घटनाओं के नक्शे का निर्माण करना, मशीन सीखना कंप्यूटर विज्ञान की एक अमूर्त कला है, आंकड़ों से बहुत दूर जो वे एक दैनिक पर काम करते हैं। आधार। इनमें से कोई भी व्यक्ति लर्निंग सपोर्ट वेक्टर मशीनों या यादृच्छिक जंगलों से कोई तत्काल लाभ नहीं देखेगा।

सभी सब में, मशीन लर्निंग आंकड़ों के अन्य क्षेत्रों के लिए एक अच्छा पूरक है, लेकिन मैं यह तर्क दूंगा कि बहुभिन्नरूपी सामान्य वितरण और सामान्यीकृत रैखिक मॉडल जैसे मुख्यधारा के सामान को पहले आने की आवश्यकता है।


5

मशीन लर्निंग , डेटा से ज्ञान प्राप्त करना / सीखना है। उदाहरण के लिए, मैं मशीन लर्निंग एल्गोरिदम के साथ काम करता हूं जो कुछ जीनों का चयन कर सकता है जो डीएनए माइक्रोएरे डेटा (जैसे कैंसर या मधुमेह) से एक विशेष प्रकार की बीमारी में शामिल हो सकते हैं। फिर भविष्य में शुरुआती निदान (अनदेखी नमूनों का वर्गीकरण) के लिए वैज्ञानिक इन जीन (सीखे हुए मॉडल) का उपयोग कर सकते हैं।

मशीन लर्निंग में बहुत सारे आँकड़े शामिल होते हैं लेकिन मशीन लर्निंग की शाखाएँ होती हैं जिन्हें आँकड़ों की आवश्यकता नहीं होती है (जैसे आनुवांशिक प्रोग्रामिंग)। इन उदाहरणों में आपको जिस समय आँकड़े की आवश्यकता होगी, केवल यह देखना होगा कि क्या आपने मशीन लर्निंग का उपयोग करके बनाया गया मॉडल सांख्यिकीय रूप से किसी अन्य मॉडल से काफी अलग है।

मेरी राय में, सांख्यिकीविदों के लिए मशीन सीखने का एक परिचय लाभप्रद होगा । इससे सांख्यिकीविदों को सांख्यिकी के अनुप्रयोग के वास्तविक विश्व परिदृश्यों को देखने में मदद मिलेगी। हालाँकि, यह अनिवार्य नहीं होना चाहिए । आप एक सफल सांख्यिकीविद बन सकते हैं और अपना पूरा जीवन बिना मशीन सीखे पास जाने में बिता सकते हैं!


2
मैं कहता हूं कि आपको हर बार अपने मॉडल के प्रदर्शन की रिपोर्ट करने के लिए आंकड़ों की आवश्यकता होगी। Mabe ऐसा इसलिए है क्योंकि मेरा पेशा विश्लेषणात्मक रसायन विज्ञान है, जहां एक महत्वपूर्ण नियम "आत्मविश्वास अंतराल के बिना एक संख्या है जिसका कोई परिणाम नहीं है"।
1927 में cbeleites मोनिका

1
@ क्लब मैं आपसे सहमत हूँ। मेरा मतलब था कि सांख्यिकीविदों को मशीन सीखने के विशेषज्ञों की आवश्यकता नहीं है! मशीन सीखने के बिना वे प्राप्त कर सकते हैं :)
विद्रोहियों

1
मल्टीमॉडल एसिमेटर्स (जैसे, सिविया और स्किलिंग डेटा एनालिसिस ) के मामले में @cbeleites, या कई आत्मविश्वास अंतराल ।
अलंकालविटि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.