द टू कल्चर: स्टैटिस्टिक्स बनाम मशीन लर्निंग?


420

पिछले साल, मैंने ब्रेंडन ओ'कॉनर का एक ब्लॉग पोस्ट पढ़ा जिसका शीर्षक था "सांख्यिकी बनाम मशीन लर्निंग, लड़ाई!" दोनों क्षेत्रों के बीच कुछ अंतरों पर चर्चा की। एंड्रयू जेलमैन ने इस पर अनुकूल प्रतिक्रिया दी :

साइमन ब्लोमबर्ग:

R के फॉर्च्यून्स पैकेज से: उत्तेजक रूप से परफेक्शन के लिए, 'मशीन लर्निंग, मॉडल और मान्यताओं की किसी भी जाँच के आंकड़े को घटाता है'। - ब्रायन डी। रिपले (मशीन सीखने और आँकड़ों के बीच अंतर के बारे में) का उपयोग करें! 2004, वियना (मई 2004) :-) सीज़न की शुभकामनाएँ!

एंड्रयू जेलमैन:

उस मामले में, शायद हमें अधिक बार मॉडल और मान्यताओं की जांच से छुटकारा पाना चाहिए। तब शायद हम कुछ ऐसी समस्याओं को हल करने में सक्षम होंगे जिन्हें मशीन सीखने वाले लोग हल कर सकते हैं लेकिन हम नहीं कर सकते हैं!

वहाँ भी था "सांख्यिकीय मॉडलिंग: दो संस्कृतियों" कागज लिओ ब्रामान द्वारा 2001 में जो तर्क दिया कि सांख्यिकीविदों डेटा मॉडलिंग पर बहुत अधिक भरोसा करते हैं, और कहा कि मशीन लर्निंग तकनीक के बजाय पर भरोसा द्वारा प्रगति कर रहे हैं भविष्य कहनेवाला सटीकता मॉडलों की।

क्या इन आलोचकों की प्रतिक्रिया में पिछले दशक में सांख्यिकी क्षेत्र बदल गया है? क्या दो संस्कृतियों में अभी भी मौजूद हैं या तंत्रिका तंत्र और सहायक वेक्टर मशीनों जैसे मशीन लर्निंग तकनीक को गले लगाने के आँकड़े हैं?


21
धन्यवाद @robin; CW बनाया। हालाँकि मैं इसे पूरी तरह से "तर्कवादी" के रूप में नहीं देखता हूं; दो क्षेत्र हैं जिन्होंने एक दूसरे को सूचित किया है (यह एक तथ्य है), और सवाल यह है कि पिछले एक दशक में वे एक साथ कितना विकसित हुए हैं।
शेन

16
एक तीसरी संस्कृति जोड़ें: डेटा माइनिंग । मशीन सीखने वाले और डेटा खनिक काफी भिन्न भाषाएं बोलते हैं। आमतौर पर, मशीन सीखने वाले भी यह नहीं समझ पाते हैं कि डेटा माइनिंग में क्या अलग है। उनके लिए, यह केवल अप्रकाशित शिक्षा है; वे डेटा प्रबंधन पहलुओं को अनदेखा करते हैं और मशीन लर्निंग के लिए बज़वर्ड डेटा माइनिंग को लागू करते हैं, साथ ही भ्रम को और बढ़ाते हैं।
ऐनी-मूस


2
Wasserman के ब्लॉग में एक दिलचस्प चर्चा ।

2
मुझे ऐसा लगता है कि वास्तव में एमएल और सांख्यिकी के बीच लिंक पर पर्याप्त जोर नहीं दिया जा रहा है। कई सीएस छात्र अपने संस्थापक दिनों के दौरान आँकड़ों के बारे में कुछ भी सीखने की उपेक्षा करते हैं क्योंकि वे एमएल कार्यों को पूरा करने में ध्वनि के महत्वपूर्ण महत्व को नहीं समझते हैं। हो सकता है कि दुनिया भर के कई सीएस विभाग भी काम करने के लिए धीमी गति से चल रहे हों। यह बहुत महंगी गलती साबित होगी और मुझे यकीन है कि सीएस में सांख्यिकी ज्ञान के महत्व के बारे में अधिक जागरूकता है। मूल रूप से ML = सांख्यिकी बहुत सारे इंद्रियों में।
xji

जवाबों:


195

मुझे लगता है कि आपके पहले प्रश्न का उत्तर केवल पुष्टि में है। सांख्यिकीय विज्ञान, JASA, पिछले 10 वर्षों के सांख्यिकी के इतिहास के किसी भी मुद्दे को लें और आपको बूस्टिंग, एसवीएम और तंत्रिका नेटवर्क पर कागजात मिलेंगे, हालांकि यह क्षेत्र अब कम सक्रिय है। सांख्यिकीविदों ने वैलिएंट और वाप्निक के काम को नियुक्त किया है, लेकिन दूसरी तरफ, कंप्यूटर वैज्ञानिकों ने डोनोहो और तालाग्रैंड के काम को अवशोषित किया है। मुझे नहीं लगता कि गुंजाइश और तरीकों में कोई ज्यादा अंतर है। मैंने कभी भी ब्रीमन के तर्क को नहीं खरीदा है कि सीएस लोग केवल जो भी काम करते हैं उसका नुकसान कम करने में रुचि रखते थे। यह दृश्य तंत्रिका नेटवर्क सम्मेलनों में उनकी भागीदारी और उनके परामर्श कार्य से काफी प्रभावित था; लेकिन पीएसी, एसवीएम, बूस्टिंग में सभी ठोस आधार हैं। और आज, 2001 के विपरीत, सांख्यिकी परिमित-नमूना गुणों से अधिक चिंतित हैं,

लेकिन मुझे लगता है कि अभी भी तीन महत्वपूर्ण अंतर हैं जो जल्द दूर नहीं हो रहे हैं।

  1. मेथोडोलॉजिकल स्टैटिस्टिक्स के पेपर अभी भी बहुत औपचारिक और डिडक्टिव हैं, जबकि मशीन लर्निंग शोधकर्ता नए दृष्टिकोणों के प्रति अधिक सहिष्णु हैं, भले ही वे एक प्रमाण के साथ नहीं आते हों;
  2. एमएल समुदाय मुख्य रूप से सम्मेलनों और संबंधित कार्यवाही में नए परिणाम और प्रकाशन साझा करता है, जबकि सांख्यिकीविद जर्नल पेपर का उपयोग करते हैं। यह सांख्यिकी और स्टार शोधकर्ताओं की पहचान में प्रगति को धीमा कर देता है। जॉन लैंगफोर्ड के पास एक अच्छी पोस्ट है कुछ समय पहले से इस विषय पर ;
  3. आंकड़े अभी भी ऐसे क्षेत्रों को कवर करते हैं जो (अब के लिए) एमएल के लिए थोड़ी चिंता का विषय है, जैसे सर्वेक्षण डिजाइन, नमूनाकरण, औद्योगिक सांख्यिकी आदि।

20
महान पद! ध्यान दें कि Vapnick के पास आँकड़ों में पीएचडी थी। मुझे यकीन नहीं है कि कंप्यूटर वैज्ञानिक बहुत सारे हैं जिन्हें तालग्रैंड नाम से जाना जाता है और मुझे यकीन है कि उनमें से 0.01% तालग्राम के एक परिणाम की स्मृति द्वारा बता सकते हैं :) क्या आप कर सकते हैं? मुझे
वैलेंटाइन

जब यह अकादमिक अनुसंधान और अनुप्रयोगों की बात आती है तो मुझे अलग-अलग उत्तर दिखाई देते हैं। मुझे लगता है कि आपने पूर्व के संदर्भ में उत्तर दिया था। अनुप्रयोगों में मुझे लगता है कि सबसे बड़ा अंतर है जिस तरह से क्षेत्रों का विस्तार हो रहा है। डेटा साइंस चैनल के माध्यम से एमएल हर किसी को स्वीकार कर सकता है जो कोड कर सकता है, शाब्दिक रूप से। आँकड़ों में आपको कार्यबल में प्रवेश करने के लिए अभी भी आँकड़ों या खेतों के पास एक औपचारिक डिग्री की आवश्यकता होती है।
अक्कल

1
सर्वेक्षण के नमूने और औद्योगिक आँकड़े दोनों बहु-अरब डॉलर के क्षेत्र हैं (अमेरिकी सांख्यिकीय एसोसिएशन के सर्वेक्षण अनुसंधान के तरीके अनुभाग बायोमेट्रिक्स और परामर्श के बाद तीसरे सबसे बड़े हैं, और बाद में इसमें बड़ी संख्या में औद्योगिक सांख्यिकीविद भी शामिल हैं। गुणवत्ता पर एक अलग खंड है। , और वहाँ एक अलग सिक्स-सिग्मा सामान और अन्य गुणवत्ता नियंत्रण के तरीके हैं, उनमें से सभी पूरी तरह से सांख्यिकी में नहीं हैं)। दोनों के पास सांख्यिकीविदों की भारी कमी है क्योंकि 1960 के दशक में इन क्षेत्रों में काम करने वाले बेबी बूमर्स की वर्तमान कार्यबल सेवानिवृत्त हो रही है।
StasK

4
जहां कुछ लोग सम्मेलनों में रेड कार्पेट पर पोज़ देकर अपनी नौकरी हासिल करते हैं, वहीं दूसरे लोग वास्तविक दुनिया में तरीकों को लागू करके अपना पाते हैं। बाद के लोगों की जरूरत नहीं है कि किसी भी तरह के सितारों की पहचान करने में ज्यादा दिलचस्पी; वे इसके बजाय उन तरीकों की पहचान करेंगे जो काम करते हैं, हालांकि कई मौकों पर, किसी दिए गए क्षेत्र में कुछ वर्षों के बाद, आपको बार-बार एक ही नाम दिया जाता है।
StasK

सैंपलिंग से एमएल की चिंता क्यों नहीं होगी? एमएल में सही लेबल प्रशिक्षण डेटा होने की समस्या के समान नहीं है?
गुरमीत

169

समुदायों के बीच मैं जो सबसे बड़ा अंतर देखता हूं, वह यह है कि आंकड़े अनुमान पर जोर देते हैं, जबकि मशीन लर्निंग ने भविष्यवाणी पर जोर दिया। जब आप आंकड़े देते हैं, तो आप उस प्रक्रिया का पता लगाना चाहते हैं जिसके द्वारा आपने डेटा उत्पन्न किया था। जब आप मशीन लर्निंग करते हैं, तो आप जानना चाहते हैं कि आप कैसे भविष्यवाणी कर सकते हैं कि भविष्य के डेटा को कुछ चर की तरह दिखेगा।

बेशक दो ओवरलैप हैं। उदाहरण के लिए, एक अच्छा भविष्यवक्ता क्या होगा, इसके बारे में जानकर कि डेटा कैसे उत्पन्न हुआ था, इससे आपको कुछ संकेत मिलेंगे। हालांकि, अंतर का एक उदाहरण यह है कि मशीन लर्निंग ने प्रारंभिक अवस्था से ही p >> n समस्या (प्रशिक्षण नमूनों की तुलना में अधिक सुविधाएँ / चर) से निपट लिया है, जबकि आंकड़े अभी इस समस्या के बारे में गंभीर होने लगे हैं। क्यों? क्योंकि आप अभी भी पी / एन के बारे में अच्छी भविष्यवाणियां कर सकते हैं, लेकिन आप वास्तव में महत्वपूर्ण और क्यों हैं, इस बारे में बहुत अच्छा अनुमान नहीं लगा सकते हैं।


13
क्या यह (पीढ़ी) सामान्य और भेदभावपूर्ण मॉडल के बीच अंतर की तरह सरल किया जा सकता है?
वेन

5
"एक को सीधे [वर्गीकरण] समस्या को हल करना चाहिए और एक सामान्य समस्या को एक मध्यवर्ती कदम के रूप में हल नहीं करना चाहिए ..." - वेपनिक
वेन

3
@mbq: मेरा तात्पर्य यह नहीं था कि कोई भी निष्कासन नहीं किया जा सकता है, बस यह मुख्य लक्ष्य नहीं है और यह आमतौर पर p >> n में एमएल है, जिससे यह बहुत कठिन हो जाता है।
dsimcha

2
मैं इस दृष्टिकोण से बहुत असहमत हूं। यह गलत लग रहा है। आवर्तक तंत्रिका नेटवर्क जैसी चीजें भी प्रक्रियाओं का अनुमान लगाने की कोशिश करती हैं, और यहां तक ​​कि चलते हैं और नए अनुक्रम उत्पन्न करते हैं।
गुफा

2
तो रोबोटिक्स के बारे में क्या? संभावित रोबोटिक्स मोटे तौर पर अनुमान पर केंद्रित है, और अनुप्रयोगों में बहुत प्रमुख है। लेकिन अभी भी आंकड़ों (और मशीन / शिक्षा की तुलना में अधिक इंजीनियरिंग; वास्तविक समय विश्लेषण / नियंत्रण) की तुलना में एक अलग "स्वाद"
जियोमैट

134

बायेसियन: "हैलो, मशीन लर्नर!"

फ़्रीक्वेंटिस्ट: "हैलो, मशीन लर्नर!"

मशीन लर्निंग: "मैंने सुना है आप लोग सामान में अच्छे हैं। यहाँ कुछ डेटा है।"

F: "हाँ, चलो एक मॉडल लिखते हैं और फिर MLE की गणना करते हैं।"

बी: "हे, एफ, यह नहीं है जो आपने कल मुझे बताया था! मेरे पास कुछ अटूट डेटा थे और मैं विचरण का अनुमान लगाना चाहता था, और मैंने एमएलई की गणना की। फिर आपने मुझ पर ध्यान दिया और मुझे n - 1 के बजाय विभाजितn1n करने के लिए कहा n द्वारा । "

एफ: "आह हां, मुझे याद दिलाने के लिए धन्यवाद। मैं अक्सर सोचता हूं कि मैं सब कुछ के लिए MLE का उपयोग करने वाला हूं, लेकिन मैं निष्पक्ष अनुमानकर्ताओं और इतने पर दिलचस्पी रखता हूं ।"

एमएल: "एह, यह किस बारे में दार्शनिक है? क्या यह मेरी मदद करेगा?"

एफ: "ठीक है, एक आकलनकर्ता एक ब्लैक बॉक्स है, आप डेटा डालते हैं और यह आपको कुछ नंबर देता है। हम फ़्रीक्वेंटर्स इस बात की परवाह नहीं करते हैं कि बॉक्स का निर्माण कैसे किया गया था, इसे डिजाइन करने के लिए किन सिद्धांतों का उपयोग किया गया था। उदाहरण के लिए, मैं। पता नहीं कैसे नियम प्राप्त करने के लिए।÷(n1)

एमएल: "तो, आप क्या परवाह करते हैं?"

एफ: "मूल्यांकन।"

एमएल: "मुझे उस की आवाज़ पसंद है।"

एफ: "एक ब्लैक बॉक्स एक ब्लैक बॉक्स है किसी का दावा है एक विशेष आकलनकर्ता के लिए एक निष्पक्ष आकलनकर्ता है। , तो हम में से कई के मूल्यों की कोशिश θ बारी में, कुछ मान लिया मॉडल के आधार पर प्रत्येक से कई नमूने उत्पन्न, आकलनकर्ता के माध्यम से उन्हें धक्का , और औसत को खोजने का अनुमान θ । हम साबित कर सकते हैं कि उम्मीद अनुमान सही मूल्य के बराबर होती है, सभी मानों के लिए, तो हम कहते हैं कि यह निष्पक्ष नहीं है। "θθθ

एमएल: "बहुत अच्छा लगता है! ऐसा लगता है कि फ्रीक्वेंटर्स व्यावहारिक लोग हैं। आप प्रत्येक ब्लैक बॉक्स को उसके परिणामों से देखते हैं। मूल्यांकन महत्वपूर्ण है।"

एफ: "वास्तव में! मैं समझता हूं कि आप लोग एक समान दृष्टिकोण लेते हैं। क्रॉस-सत्यापन, या कुछ और? लेकिन जो मुझे गड़बड़ लगता है।"

एमएल: "गन्दा?"

एफ: "वास्तविक डेटा पर अपने अनुमानक का परीक्षण करने का विचार मुझे खतरनाक लगता है। आपके द्वारा उपयोग किए जाने वाले अनुभवजन्य डेटा में इसके साथ सभी प्रकार की समस्याएं हो सकती हैं, और मूल्यांकन के लिए हम जिस मॉडल पर सहमत हुए हैं, उसके अनुसार व्यवहार नहीं कर सकते हैं।"

θ

F: "हाँ। जबकि आपकी विधि ने एक डेटासेट (ट्रेन और परीक्षण डेटा के साथ डेटासेट) पर काम किया होगा जो आपने अपने मूल्यांकन में उपयोग किया था, मैं यह साबित कर सकता हूं कि मेरा हमेशा काम करेगा।"

एमएल: "सभी डेटासेट के लिए?"

एफ: "नहीं।"

ML: "तो मेरे तरीके को एक डेटासेट पर क्रॉस-वैरिफाई किया गया है। आपने किसी वास्तविक डेटासेट पर अपना परीक्षण नहीं किया है?"

F: "यह सही है।"

ML: "यह मुझे तब लीड में रखता है! मेरा तरीका आपसे बेहतर है। यह 90% समय तक कैंसर की भविष्यवाणी करता है। यदि आपके द्वारा ग्रहण किए गए मॉडल के अनुसार संपूर्ण डेटासेट व्यवहार करता है तो आपका 'प्रमाण' केवल मान्य है।"

एफ: "एम्म, हाँ, मुझे लगता है।"

θ

F: "यह सही है। जब तक डेटा वास्तव में iid नॉर्मल (या जो कुछ भी) है, मेरा प्रमाण बेकार है।"

एमएल: "तो मेरा मूल्यांकन अधिक भरोसेमंद और व्यापक है। यह केवल उन डेटासेटों पर काम करता है जो मैंने अब तक आज़माए हैं, लेकिन कम से कम वे असली डेटासेट्स, मौसा और सभी हैं। आप वहाँ थे, जो दावा करने की कोशिश कर रहे थे कि आप अधिक रूढ़िवादी थे।" 'और' पूरी तरह से 'और कि आप मॉडल-जाँच और सामान में रुचि रखते थे। "

बी: (विशेषण) "अरे दोस्तों, बीच में आने के लिए खेद है। मुझे कुछ अन्य मुद्दों को प्रदर्शित करने और संभवतः चीजों को संतुलित करने के लिए प्यार करना चाहिए, लेकिन मैं वास्तव में अपने अक्सर सहयोगी सहयोगी को देखना पसंद करता हूं।"

F: "वाह!"

एमएल: "ठीक है, बच्चों। यह सब मूल्यांकन के बारे में था। एक अनुमानक एक ब्लैक बॉक्स है। डेटा अंदर चला जाता है, डेटा बाहर आता है। हम मूल्यांकन के तहत आकलन करने वाले के आधार पर एक अनुमानक का अनुमोदन या अस्वीकृति करते हैं। हमें परवाह नहीं है। "रेसिपी 'या' डिजाइन सिद्धांतों 'के बारे में जो उपयोग किए जाते हैं।"

एफ: "हां। लेकिन हमारे पास बहुत अलग विचार हैं जिनके बारे में मूल्यांकन महत्वपूर्ण हैं। एमएल वास्तविक डेटा पर ट्रेन-एंड-टेस्ट करेंगे। जबकि मैं एक मूल्यांकन करूंगा जो अधिक सामान्य है (क्योंकि इसमें व्यापक रूप से लागू प्रमाण शामिल है)। यह भी अधिक सीमित है (क्योंकि मुझे नहीं पता है कि आपके डेटासेट को वास्तव में मॉडलिंग मूल्यांकन से खींचा गया है जो मैं अपना मूल्यांकन डिजाइन करते समय उपयोग करता हूं।)

एमएल: "आप किस मूल्यांकन का उपयोग करते हैं, बी?"

एफ: (विशेषण) "अरे। मुझे हंसी मत करो। वह कुछ भी मूल्यांकन नहीं करता है। वह सिर्फ अपने व्यक्तिपरक विश्वासों का उपयोग करता है और इसके साथ चलता है। या कुछ और।"

बी: "यह सामान्य व्याख्या है। लेकिन यह भी संभव है कि मूल्यांकन के द्वारा बायेसियनवाद को परिभाषित किया जाए। तब हम इस विचार का उपयोग कर सकते हैं कि हम में से कोई भी परवाह नहीं करता है कि ब्लैक बॉक्स में क्या है, हम केवल मूल्यांकन के विभिन्न तरीकों की परवाह करते हैं।"

बी जारी है: "क्लासिक उदाहरण: चिकित्सा परीक्षण। रक्त परीक्षण का परिणाम या तो सकारात्मक या नकारात्मक है। एक निरंकुश व्यक्ति को स्वस्थ लोगों में दिलचस्पी होगी, किस अनुपात में नकारात्मक परिणाम मिलता है। और इसी तरह, बीमार लोगों का अनुपात क्या है। एक पॉजिटिव प्राप्त करें। बार-बार आने वाला प्रत्येक रक्त परीक्षण विधि के लिए इनकी गणना करेगा, जो कि विचाराधीन है और फिर अनुशंसा करते हैं कि हम उस परीक्षण का उपयोग करें जिसे सर्वश्रेष्ठ जोड़ी मिली। "

एफ: "बिल्कुल। आप और अधिक क्या चाहते हैं?"

B: "उन व्यक्तियों के बारे में क्या है जिन्हें एक सकारात्मक परीक्षा परिणाम मिला है? वे जानना चाहते हैं कि जो लोग सकारात्मक परिणाम प्राप्त करते हैं, उनमें से कितने बीमार होंगे?" और 'उन लोगों को जो नकारात्मक परिणाम प्राप्त करते हैं, कितने स्वस्थ हैं?' "

एमएल: "आह हाँ, यह सवाल पूछने के लिए बेहतर जोड़ी की तरह लगता है।"

एफ: "हार्स!"

बी: "यहां हम फिर से जाते हैं। वह पसंद नहीं करता कि यह कहां जा रहा है।"

एमएल: "यह 'पादरियों' के बारे में है, है ना?"

एफ: "ईवीआईएल"।

बी: "वैसे भी, हाँ, आप सही एमएल हैं। सकारात्मक परिणाम वाले लोगों के अनुपात की गणना करने के लिए जो बीमार हैं आपको दो में से एक काम करना होगा। एक विकल्प यह है कि बहुत सारे लोगों पर परीक्षण चलाएं और बस निरीक्षण करें। प्रासंगिक अनुपात। उदाहरण के लिए, उनमें से कितने लोग बीमारी से मर जाते हैं। "

एमएल: "ऐसा लगता है कि मैं क्या करता हूं। ट्रेन और परीक्षण का उपयोग करें।"

बी: "लेकिन आप इन नंबरों की गणना अग्रिम में कर सकते हैं, यदि आप आबादी में सिकल की दर के बारे में एक धारणा बनाने के इच्छुक हैं। बार-बार आने वाला व्यक्ति भी अपने कैलकुलेशन अग्रिम में करता है, लेकिन इस जनसंख्या-स्तर बीमारी दर का उपयोग किए बिना।"

एफ: "अधिक असेंबल किए गए एसोसिएशन।"

बी: "ओह चुप रहो। इससे पहले, आपको पता चला था। एमएल ने पाया कि आप किसी के भी रूप में निराधार के शौकीन हैं। आपकी 'सिद्ध' कवरेज संभावनाएं वास्तविक दुनिया में तब तक नहीं टिकेंगी जब तक कि आपकी सभी धारणाएं खड़ी नहीं हो जाती हैं। मेरी पूर्व धारणा इतनी भिन्न क्यों है? आप मुझे पागल कहते हैं, फिर भी आप अपनी धारणाओं का ढोंग करते हैं, यह एक रूढ़िवादी, ठोस, धारणा-मुक्त विश्लेषण का काम है। "

बी (जारी): "वैसे भी, जैसा कि मैं कह रहा था, एमएलए, एक अलग तरह के मूल्यांकन की तरह बायसीयन। हम मनाया डेटा पर कंडीशनिंग में अधिक रुचि रखते हैं, और तदनुसार हमारे अनुमानक की सटीकता की गणना करते हैं। हम इस मूल्यांकन का उपयोग किए बिना नहीं कर सकते। एक पूर्व। लेकिन दिलचस्प बात यह है कि, एक बार जब हम मूल्यांकन के इस रूप पर निर्णय लेते हैं, और एक बार जब हम अपना पूर्व चुनते हैं, तो हमारे पास एक उपयुक्त आकलनकर्ता बनाने के लिए एक स्वचालित 'नुस्खा' होता है। अक्सरवादी के पास ऐसा कोई नुस्खा नहीं होता है। एक जटिल मॉडल के लिए निष्पक्ष अनुमानक, उसके पास उपयुक्त अनुमानक बनाने का कोई स्वचालित तरीका नहीं है। "

एमएल: "और आप करते हैं? आप स्वचालित रूप से एक अनुमानक का निर्माण कर सकते हैं?"

बी: "हाँ। मेरे पास एक निष्पक्ष अनुमानक बनाने के लिए एक स्वचालित तरीका नहीं है, क्योंकि मुझे लगता है कि पूर्वाग्रह एक आकलनकर्ता का मूल्यांकन करने का एक बुरा तरीका है। लेकिन सशर्त-ऑन-डेटा अनुमान जिसे मैं पसंद करता हूं, और पहले, मैंने दिया। मुझे अनुमानक देने के लिए पूर्व और संभावना को जोड़ सकते हैं। "

एमएल: "तो वैसे भी, चलो फिर से तैयार करें। हम सभी के पास अपने तरीकों का मूल्यांकन करने के लिए अलग-अलग तरीके हैं, और हम शायद कभी भी इस बात से सहमत नहीं होंगे कि कौन से तरीके सबसे अच्छे हैं।"

बी: "ठीक है, यह उचित नहीं है। हम उन्हें मिला सकते हैं और उनका मिलान कर सकते हैं। यदि हममें से किसी के पास अच्छा लेबल प्रशिक्षण डेटा है, तो हमें इसके खिलाफ परीक्षण करना चाहिए। और आम तौर पर हम सभी को जितनी मान्यताओं का परीक्षण करना चाहिए, उतना ही करना चाहिए। 'सबूत भी मजेदार हो सकते हैं, डेटा पीढ़ी के कुछ प्रकल्पित मॉडल के तहत प्रदर्शन की भविष्यवाणी। "

F: "हाँ दोस्तों। आइए मूल्यांकन के बारे में व्यावहारिक रहें। और वास्तव में, मैं अनंत-नमूना गुणों पर ध्यान देना बंद कर दूंगा। मैं वैज्ञानिकों से मुझे एक अनंत नमूना देने के लिए कह रहा हूं, लेकिन उन्होंने अभी भी ऐसा नहीं किया है।" मेरे लिए फिर से परिमित नमूनों पर ध्यान केंद्रित करने का समय। "

एमएल: "तो, हमारे पास बस एक आखिरी सवाल है। हमने अपने तरीकों का मूल्यांकन करने के बारे में बहुत तर्क दिया है , लेकिन हम इन तरीकों को कैसे बनाते हैं ।"

बी: "आह। जैसा कि मैं पहले से कर रहा था, हम बायेसियन के पास अधिक शक्तिशाली सामान्य तरीका है। यह जटिल हो सकता है, लेकिन हम हमेशा कुछ प्रकार के एल्गोरिथ्म (शायद एमसीएमसी का एक भोले रूप) लिख सकते हैं जो हमारे पीछे से नमूना होगा। "

एफ (अंतर्विरोध): "लेकिन इसमें पूर्वाग्रह हो सकते हैं।"

B: "तो आपके तरीके हो सकते हैं। मुझे आपको याद दिलाने की आवश्यकता है कि MLE अक्सर पक्षपाती होता है। कभी-कभी, आपको निष्पक्ष अनुमान लगाने वालों को खोजने में बहुत कठिनाई होती है, और तब भी जब आपके पास एक बेवकूफ अनुमानक होता है (कुछ वास्तव में जटिल मॉडल के लिए) जो कहेगा।" विचरण नकारात्मक है। और आप उस निष्पक्ष को बुलाते हैं। निष्पक्ष, हाँ। लेकिन उपयोगी, नहीं! "

ML: "ठीक है दोस्तों। आप फिर से हंगामा कर रहे हैं। मुझे आपसे एक सवाल पूछना है, क्या आपने कभी बी के तरीके के पूर्वाग्रह के साथ अपने तरीके के पूर्वाग्रह की तुलना की है, जब आप दोनों एक ही समस्या पर काम कर रहे हैं?"

एफ: "हाँ। वास्तव में, मैं इसे स्वीकार करने से नफरत करता हूं, लेकिन बी के दृष्टिकोण में कभी-कभी मेरे सीनेटर की तुलना में कम पूर्वाग्रह और एमएसई होता है!"

एमएल: "यहां सबक यह है कि, जब हम मूल्यांकन पर थोड़ा असहमत होते हैं, तो हममें से किसी का भी एकाधिकार नहीं होता है कि हम कैसे अनुमान लगाने वाले गुण पैदा कर सकते हैं जो हमें चाहिए।"

बी: "हां, हमें एक-दूसरे के काम को थोड़ा और पढ़ना चाहिए। हम एक-दूसरे को अनुमान लगाने वालों के लिए प्रेरणा दे सकते हैं। हमें लग सकता है कि दूसरे के अनुमानक हमारी अपनी समस्याओं के बारे में महान, आउट-ऑफ-द-बॉक्स काम करते हैं।"

एफ: "और मुझे पूर्वाग्रह के बारे में देखना बंद कर देना चाहिए। एक निष्पक्ष अनुमानक का हास्यास्पद रूप से विचलन हो सकता है। मुझे लगता है कि हम उन सभी विकल्पों के लिए 'जिम्मेदारी लेना' चाहते हैं जो हम मूल्यांकन करते हैं कि हम किस तरह से मूल्यांकन करते हैं और गुण जो हम अपने अनुमानकों में देखना चाहते हैं। हम एक दर्शन के पीछे नहीं जा सकते। सभी मूल्यांकन आप कर सकते हैं। और मैं अनुमान लगाने वालों के लिए नए विचारों को प्राप्त करने के लिए बायेसियन साहित्य पर एक नज़र डालते रहूँगा! "

बी: "वास्तव में, बहुत से लोग वास्तव में नहीं जानते हैं कि उनका अपना दर्शन क्या है। मुझे खुद पर भी यकीन नहीं है। अगर मैं बायेसियन नुस्खा का उपयोग करता हूं, और फिर कुछ अच्छे सैद्धांतिक परिणाम का सबूत है, तो इसका मतलब यह नहीं है कि मैं एक अस्टिविस्ट? एक फेनिस्ट को परफॉरमेंस के बारे में उपरोक्त प्रमाणों की परवाह है, वह व्यंजनों की परवाह नहीं करता है। और अगर मैं इसके बजाय (या साथ ही) कुछ ट्रेन-एंड-टेस्ट करता हूं, तो क्या इसका मतलब है कि मैं मशीन-लर्नर हूं? "

एमएल: "ऐसा लगता है कि हम सभी बहुत समान हैं।"


8
पाठकों के लिए जो इस प्रतिक्रिया को अंत तक पढ़ेंगे, मैं एक संक्षिप्त टेक-ऑफ संदेश जोड़ने के लिए सुझाव दूंगा (और यदि यह लागू होता है तो उचित उद्धरण प्रदान करने के लिए)।
chl

-2 वोटों के साथ, मुझे लगता है कि मैं इसे बचाने के लिए बहुत कुछ नहीं कर सकता हूं :) मुझे लगता है कि अंत, जहां वे सभी एक-दूसरे से सहमत हैं, और स्वीकार करते हैं कि वे एक-दूसरे के तरीकों का उपयोग एक दूसरे के दर्शन की चिंता किए बिना कर सकते हैं, एक है 'टेक-दूर संदेश'।
एरॉन मैकडैड

10
कोई उद्धरण की आवश्यकता है। मैंने अभी इसे खुद बनाया है। यह शायद बहुत अच्छी तरह से सूचित नहीं किया गया है, यह मेरे अपने (गलत) तर्क पर आधारित है जो मैंने वर्षों में सहकर्मियों की एक छोटी संख्या के साथ किया है।
आरोन मैकडैड

3
मैंने अतीत में ऐसे संवाद (छोटे, हालांकि) देखे हैं, और मैं उन्हें दिलचस्प लगता हूं। मैं भी डाउनवोट्स से चिंतित था, इसलिए मेरा सुझाव एक संक्षिप्त सारांश शीर्ष पर रखने के लिए था ताकि पाठकों को आपकी बाकी पोस्ट पढ़ने के लिए प्रेरित किया जा सके।
chl

3
13/10 फिर बहस करेगा
410_गॉन

67

ऐसी चर्चा में, मैं हमेशा प्रसिद्ध केन थॉम्पसन उद्धरण को याद करता हूं

जब संदेह में, जानवर बल का उपयोग करें।

इस मामले में, मशीन लर्निंग एक मोक्ष है जब मान्यताओं को पकड़ना मुश्किल है; या कम से कम यह गलत अनुमान लगाने से बहुत बेहतर है।


2
इन वर्षों में बढ़े हुए कम्प्यूटेशनल क्षमताओं और ऑटोकेनोडर्स और संबंधित तकनीकों के साथ, यह पहले से कहीं अधिक सच है।
फायरबग

एक समस्या को हल करने के लिए, इंजीनियर सूत्र, तकनीक और प्रक्रियाओं का उपयोग करते हैं, जो उन्होंने पहले इस्तेमाल किए हैं और उनकी सफलता के बारे में सुनिश्चित हैं ... आमतौर पर, इसे उपयोग ब्रूट फोर्स या थम्ब रूल्स का उपयोग कहा जाता है ... नए सूत्र, तकनीक और प्रक्रियाओं का उपयोग चरणबद्ध प्रक्रिया में किया जाता है ... इंजीनियरिंग गतिविधियाँ समूह की गतिविधियाँ होती हैं - जहाँ पर इंजीनियर, तकनीशियन और मैनुअल लेबर एक साथ काम करते हैं। जब एक नई प्रक्रिया शुरू की जाती है, तो इस प्रक्रिया के साथ तकनीशियनों और मजदूरों को प्रशिक्षित करने में समय लगता है। इसलिए आधुनिकीकरण एक विकासवादी प्रक्रिया में पेश किया गया है।
b.sahu

64

प्रत्येक अनुशासन के लेक्सिकॉन की तुलना में क्या अलग होना चाहिए।

ऐसे कई उदाहरण हैं जहां एमएल एक शब्द का उपयोग करता है और सांख्यिकी एक अलग शब्द का उपयोग करता है - लेकिन दोनों एक ही बात का उल्लेख करते हैं - ठीक है, आप उम्मीद करेंगे कि, और यह किसी भी स्थायी भ्रम का कारण नहीं बनता है (उदाहरण के लिए, विशेषताएँ / विशेषताएँ बनाम अपेक्षा चर, या तंत्रिका नेटवर्क / एमएलपी बनाम प्रक्षेपण-खोज)।

क्या अधिक परेशान करने वाली बात यह है कि दोनों विषय पूरी तरह से अलग-अलग अवधारणाओं को संदर्भित करने के लिए एक ही शब्द का उपयोग करते हैं।

कुछ उदाहरण:

कर्नेल फ़ंक्शन

एमएल में, कर्नेल फ़ंक्शंस का उपयोग क्लासिफ़ायर (उदाहरण के लिए, SVM) और निश्चित रूप से कर्नेल मशीनों में किया जाता है। यह शब्द एक साधारण इनपुट ( कोसाइन, सिग्मोइडल, आरबीएफ, बहुपद ) को संदर्भित करता है ताकि गैर-रेखीय रूप से एक नए इनपुट स्थान के लिए अलग हो सके, ताकि इस नए इनपुट स्थान में डेटा अब रैखिक रूप से अलग हो सके। (बनाम शुरू करने के लिए एक गैर-रेखीय मॉडल का उपयोग करके)।

आँकड़ों में, एक कर्नेल फ़ंक्शन घनत्व वक्र को सुचारू करने के लिए घनत्व के आकलन में प्रयोग किया जाता है।

वापसी

एमएल में, भविष्य कहनेवाला एल्गोरिदम, या उन एल्गोरिदम के कार्यान्वयन जो क्लास लेबल "क्लासिफायर" लौटाते हैं (कभी-कभी) मशीनों के रूप में संदर्भित होते हैं - लेग, सपोर्ट वेक्टर मशीन , कर्नेल मशीन । मशीनों के समकक्ष हैं regressors है, जो एक वापसी स्कोर (निरंतर चर) - जैसे, वेक्टर प्रतिगमन का समर्थन

शायद ही कभी एल्गोरिदम में मोड के आधार पर अलग-अलग नाम होते हैं - उदाहरण के लिए, एक एमएलपी शब्द का उपयोग किया जाता है चाहे वह एक वर्ग लेबल या एक निरंतर चर देता है।

सांख्यिकी में, प्रतिगमन , यदि आप अनुभवजन्य डेटा के आधार पर एक मॉडल बनाने का प्रयास कर रहे हैं, तो एक या अधिक व्याख्यात्मक चर या अधिक चर पर आधारित कुछ प्रतिक्रिया चर की भविष्यवाणी करने के लिए - तो आप प्रतिगमन विश्लेषण कर रहे हैं । इससे कोई फर्क नहीं पड़ता कि आउटपुट एक निरंतर चर या एक वर्ग लेबल (जैसे, लॉजिस्टिक प्रतिगमन) है। इसलिए, उदाहरण के लिए, कम से कम वर्ग प्रतिगमन एक ऐसे मॉडल को संदर्भित करता है जो निरंतर मूल्य देता है; दूसरी ओर लॉजिस्टिक रिग्रेशन, एक प्रायिकता का अनुमान देता है जो तब एक वर्ग लेबल के लिए विवेकाधीन होता है।

पक्षपात

एमएल में, पूर्वाग्रह एल्गोरिथ्म में अवधि धारणात्मक के समान है अवरोधन प्रतिगमन मॉडलिंग में सांख्यिकीविदों द्वारा प्रयुक्त शब्द।

सांख्यिकी में, पूर्वाग्रह गैर-यादृच्छिक त्रुटि है - अर्थात, कुछ घटना ने पूरे डेटा सेट को एक ही दिशा में प्रभावित किया है, जिसका अर्थ है कि नमूना आकार को फिर से शुरू या बढ़ाकर इस तरह की त्रुटि को दूर नहीं किया जा सकता है।


19
आंकड़ों में, पूर्वाग्रह त्रुटि के समान नहीं है। त्रुटि विशुद्ध रूप से यादृच्छिक है, पूर्वाग्रह नहीं है। आपके पास पूर्वाग्रह है जब आप जानते हैं कि आपके अनुमान का अपेक्षित मूल्य सही मूल्य के बराबर नहीं है।
जोरिस मेय्स

2
(@ जॉरिस या भले ही आप इसे न जानते हों! यह बहुत अच्छा लगता है, लेकिन यह पता लगाना कि यदि पूर्वाग्रह है तो यह काफी व्यावहारिक समस्या हो सकती है। अकेले डेटा से, आप यह सुनिश्चित कर सकते हैं कि अनुमानित प्रतिगमन पैरामीटर छोड़े गए चर से मुक्त है। पूर्वाग्रह;) यह एक आम गलत धारणा है कि पूर्वाग्रह डेटा की एक विशेषता है, न कि एक अनुमानक की संपत्ति; मुझे आश्चर्य है कि अगर यह गैर-तकनीकी उपयोग से उपजा है जैसे "वह सर्वेक्षण पक्षपाती है!" सांख्यिकीविद् भी हमेशा "त्रुटि" जैसे शब्दों के बारे में संगत नहीं होते हैं: इसका मतलब है कि वर्ग त्रुटि (एक अनुमानक की) में एक पूर्वाग्रह-युक्त घटक शामिल है, ताकि "त्रुटि" "विशुद्ध रूप से यादृच्छिक" न हो।
सिल्वरफिश

2
मुझे लगता है कि एसवीएम में "मशीन" शब्द को व्लादिमीर वेपनिक के व्यक्तिगत स्वाद के लिए जिम्मेदार ठहराया जाना चाहिए। आजकल, मुझे नहीं लगता कि इसका उपयोग किसी अन्य क्लासिफायर के नाम के लिए किया जाता है।
इलियासफ्ल

3
E[X^X]

1
[0,1]1

25

मशीन लर्निंग व्यावहारिक में इसका आधार है - एक व्यावहारिक अवलोकन या वास्तविकता का अनुकरण। यहां तक ​​कि आंकड़ों के भीतर भी, "मॉडल और मान्यताओं की जाँच" को ध्यान में रखते हुए उपयोगी तरीकों को त्यागना पड़ सकता है।

उदाहरण के लिए, सालों पहले, क्रेडिट ब्यूरो द्वारा कार्यान्वित बहुत पहले व्यावसायिक रूप से उपलब्ध (और काम करने वाला) दिवालियापन मॉडल एक सादे पुराने रैखिक प्रतिगमन मॉडल के माध्यम से बनाया गया था जो 0-1 परिणाम को लक्षित करता है। तकनीकी रूप से, यह एक बुरा दृष्टिकोण है, लेकिन व्यावहारिक रूप से, इसने काम किया।


4
यह शहरी यातायात के लिए ग्रह गुरुत्वाकर्षण मॉडल का उपयोग करने के समान है। मुझे यह बेतुका लगता है, लेकिन यह वास्तव में चुपचाप काम करता है
dassouki

5
मुझे अंतिम कथन में दिलचस्पी है: "क्रेडिट ब्यूरो द्वारा कार्यान्वित बहुत पहले व्यावसायिक रूप से उपलब्ध (और काम करने वाला) दिवालियापन मॉडल एक सादे पुराने रैखिक प्रतिगमन मॉडल के माध्यम से बनाया गया था जो कि 0-1 के परिणाम को लक्षित करता है"। वह कौन सा मॉडल था? मेरा मानना ​​है कि मूडीज द्वारा पहला मॉडल रिस्ककैल्क था, और यहां तक ​​कि पहला संस्करण एक लॉजिस्टिक रिग्रेशन मॉडल था। उस मॉडल के डेवलपर्स एमएल में पृष्ठभूमि वाले सीएस लोग नहीं थे, बल्कि अर्थमिति में थे।
गप्पे

2
मुझे यकीन है कि उन्होंने लॉजिस्टिक रिग्रेशन से पहले भेदभावपूर्ण विश्लेषण का इस्तेमाल किया था, क्योंकि
एलए

1
@ मैं व्यक्तिगत क्रेडिट ब्यूरो रिकॉर्ड के लिए एमडीएस उपभोक्ता दिवालियापन मॉडल के बारे में सोच रहा हूं। कंपनियों के लिए एक क्रेडिट जोखिम मूल्यांकन था। MDS दिवालियापन मॉडल उस समय के FICO जोखिम मॉडल से भिन्न था, जिसमें लक्ष्य दिवालियापन था और क्रेडिट की कमी नहीं थी (जैसे कि FICO के मूल स्कोर)। मेरी टिप्पणी उस संदर्भ में एमएल की बारीकियों के बारे में कम थी (क्योंकि यह बमुश्किल उपयोग में था-उस समय-जब बीके मॉडल पहली बार बनाया गया था), लेकिन इस तथ्य से संबंधित है कि व्यावहारिक प्रभावशीलता सभी से संबंधित नहीं है सिद्धांत संबंधी प्रतिबंध या धारणा उल्लंघन।
जय स्टीवंस

बस उत्सुक क्यों यह तकनीकी रूप से एक बुरा दृष्टिकोण था। क्योंकि इसने बहुत सी सरल धारणाएँ बनाईं जो वास्तविकता से बहुत भिन्न होंगी?
15

25

पिछले एक साल में सबसे बड़े अंतर जो मैंने देखे हैं:

  • मशीन सीखने के विशेषज्ञ बुनियादी बातों पर पर्याप्त समय नहीं देते हैं, और उनमें से कई इष्टतम निर्णय लेने और उचित सटीकता स्कोरिंग नियमों को नहीं समझते हैं। उन्हें यह समझ में नहीं आता है कि कोई अनुमान लगाने वाली भविष्यवाणियां तरीकों की आवश्यकता होती है जो कि उन लोगों की तुलना में बड़े नमूना आकार की आवश्यकता होती है।
  • हम सांख्यिकीविद अच्छी प्रोग्रामिंग अभ्यास और नई कम्प्यूटेशनल भाषा सीखने में बहुत कम समय लगाते हैं। जब हम कंप्यूटिंग के लिए आते हैं और सांख्यिकीय साहित्य से नए तरीके अपनाते हैं, तो हम इसे बदलने में बहुत धीमी हैं।

2
एक और नोट यह है कि हम सांख्यिकीविद खुद को उन तरीकों तक सीमित कर लेते हैं जिन्हें हम गणित के साथ साबित कर सकते हैं जो अच्छी तरह से काम करेंगे (शायद हास्यास्पद मान्यताओं के एक सेट के तहत), खासकर जब यह प्रकाशनों की बात आती है। मशीन सीखने वाले लोग उन तरीकों का उपयोग करने के लिए बहुत खुश हैं जो कुछ डेटासेट पर अनुभवजन्य रूप से काम करते हैं। नतीजतन, मुझे लगता है कि एमएल साहित्य बहुत तेजी से आगे बढ़ता है, लेकिन साथ ही शिथिलता के माध्यम से अधिक स्थानांतरण की आवश्यकता होती है।
क्लिफ एबी

24

मैं इस सवाल से असहमत हूं क्योंकि यह बताता है कि मशीन लर्निंग और आंकड़े अलग-अलग हैं या परस्पर विरोधी विज्ञान .... जब विपरीत सच है!

मशीन लर्निंग आँकड़ों का व्यापक उपयोग करता है ... किसी भी मशीन लर्निंग या डेटा माइनिंग सॉफ़्टवेयर पैकेज का एक त्वरित सर्वेक्षण, क्लस्टरिंग तकनीकों को प्रकट करेगा जैसे कि k- साधन भी आँकड़ों में पाए जाते हैं .... प्रिंसिपल कंपोनेंट्स विश्लेषण जैसे आयाम में कमी की तकनीक भी दिखाएंगे। यह भी एक सांख्यिकीय तकनीक ... यहां तक ​​कि लॉजिस्टिक प्रतिगमन एक और।

मेरे विचार में मुख्य अंतर यह है कि परंपरागत रूप से आँकड़ों का उपयोग एक पूर्व कल्पित सिद्धांत को सिद्ध करने के लिए किया जाता था और आमतौर पर विश्लेषण उस प्रमुख सिद्धांत के आसपास डिजाइन किया गया था। जहां डेटा माइनिंग या मशीन के साथ विपरीत दृष्टिकोण सीखना आमतौर पर इस बात का मानक है कि हमारे पास इसका नतीजा है कि हम सवाल पूछने के बजाय इसका पूर्वानुमान लगाने का एक तरीका खोजना चाहते हैं या सिद्धांत यह परिणाम है!


21

मैंने एक अलग फोरम पर एएसए सांख्यिकीय परामर्श ई-समूह पर बात की है। मेरी प्रतिक्रिया विशेष रूप से डेटा खनन के लिए अधिक थी, लेकिन दोनों हाथ से चलते हैं। हम सांख्यिकीविदों ने डेटा माइनर्स, कंप्यूटर वैज्ञानिकों और इंजीनियरों पर हमारी नाक को काट दिया है। यह गलत है। मुझे लगता है कि ऐसा होने का एक कारण यह भी है क्योंकि हम उन क्षेत्रों में कुछ लोगों को उनकी समस्या के रूढ़िवादी स्वरूप की अनदेखी करते हुए देखते हैं। कुछ सांख्यिकीविद् डेटा माइनिंग डेटा स्नूपिंग या डेटा फ़िशिंग कहते हैं। कुछ लोग दुरुपयोग करते हैं और तरीकों का दुरुपयोग करते हैं लेकिन सांख्यिकीविद डेटा खनन और मशीन सीखने में पीछे रह गए हैं क्योंकि हम उन्हें एक व्यापक ब्रश के साथ पेंट करते हैं। आंकड़ों के क्षेत्र के बाहर से कुछ बड़े सांख्यिकीय परिणाम आए हैं। बूस्टिंग एक महत्वपूर्ण उदाहरण है। लेकिन सांख्यिकीविद् जैसे ब्रेमेन, फ्रीडमैन, हस्ती, टिब्शिरानी, ​​एफ्रॉन, जेलमैन और अन्य लोगों ने इसे प्राप्त किया और उनके नेतृत्व ने सांख्यिकीविदों को माइक्रोएरे और अन्य बड़े पैमाने पर इंजेक्शन की समस्याओं के विश्लेषण में लाया। इसलिए जब संस्कृतियां कभी जाल नहीं लगा सकती हैं, तो अब कंप्यूटर वैज्ञानिकों, इंजीनियरों और सांख्यिकीविदों के बीच अधिक सहयोग और सहयोग है।


19

असली समस्या यह है कि यह सवाल गुमराह करने वाला है। यह मशीन लर्निंग बनाम आँकड़े नहीं है, यह वास्तविक वैज्ञानिक उन्नति के खिलाफ मशीन लर्निंग है। यदि मशीन सीखने का उपकरण 90% सही भविष्यवाणियां करता है, लेकिन मैं "क्यों" नहीं समझ सकता, तो बड़े पैमाने पर विज्ञान के लिए मशीन सीखने का क्या योगदान है? कल्पना कीजिए कि अगर मशीन सीखने की तकनीक का उपयोग ग्रहों की स्थिति का अनुमान लगाने के लिए किया जाता है: तो बहुत से लोग यह सोचकर स्मगल होंगे कि वे अपने एसवीएम के साथ कई चीजों का सटीक अनुमान लगा सकते हैं, लेकिन वे वास्तव में अपने हाथों में होने वाली समस्या के बारे में क्या जानते होंगे? ? जाहिर है, विज्ञान वास्तव में संख्यात्मक भविष्यवाणियों द्वारा आगे नहीं बढ़ता है, यह मॉडल (मानसिक, गणितीय) के माध्यम से आगे बढ़ता है जो हमें केवल संख्याओं से कहीं आगे देखते हैं।


1
+1 यह अर्थशास्त्र में मॉडल के उपयोग की याद दिलाता है। अर्थमितीय मॉडल कुछ उद्देश्यों के लिए बनाए गए हैं; अर्थात्, नीति विश्लेषण और पूर्वानुमान। सामान्य तौर पर, कोई भी वास्तव में पूर्वानुमान के बारे में परवाह नहीं करता है - यह नीति सिमुलेशन है जो सबसे अधिक मायने रखता है। जैसा कि डेविड हेंड्री कह रहे हैं, सबसे अच्छा पूर्वानुमान मॉडल जरूरी नहीं कि नीति विश्लेषण के लिए सबसे अच्छा मॉडल है - और इसके विपरीत। पीछे हटने और सोचने की जरूरत है ... मॉडल का उद्देश्य क्या है? हम किन सवालों के जवाब देने की कोशिश कर रहे हैं? और यह कैसे अनुभवजन्य खोजों को बनाने के साथ फिट बैठता है ।
ग्रीम वाल्श

17

सांख्यिकीय अधिगम (AKA मशीन लर्निंग) की खोज में इसकी उत्पत्ति "उदाहरणों से सीखते हुए" सॉफ्टवेयर बनाने के लिए हुई है। ऐसे कई कार्य हैं जिन्हें हम करना चाहते हैं जैसे कंप्यूटर, (कंप्यूटर विज़न, स्पीच रिकग्निशन, रोबोट कंट्रोल) जो प्रोग्राम करना मुश्किल है, लेकिन इसके लिए प्रशिक्षण के उदाहरण देना आसान है। इन उदाहरणों से कार्यों को सीखने के लिए मशीन लर्निंग / सांख्यिकीय शिक्षण अनुसंधान समुदाय ने एल्गोरिदम विकसित किया। नुकसान फ़ंक्शन आम तौर पर प्रदर्शन कार्य (दृष्टि, भाषण मान्यता) से संबंधित था। और निश्चित रूप से हमारे पास यह मानने का कोई कारण नहीं था कि इन कार्यों में अंतर्निहित कोई सरल "मॉडल" था (क्योंकि अन्यथा हमने उस सरल कार्यक्रम को कोडित किया होगा)। इसलिए, सांख्यिकीय निष्कर्ष निकालने के पूरे विचार का कोई मतलब नहीं था। लक्ष्य भविष्य कहनेवाला सटीकता है और कुछ नहीं।

समय के साथ, विभिन्न बलों ने लोगों को आंकड़ों के बारे में अधिक जानने के लिए मशीन सीखना शुरू कर दिया। एक सीखने की प्रक्रिया पर पृष्ठभूमि के ज्ञान और अन्य बाधाओं को शामिल करने की आवश्यकता थी। इसके कारण लोगों ने जेनरेटिव प्रोबेबिलिस्टिक मॉडल पर विचार किया, क्योंकि इससे मॉडल की संरचना और मॉडल पैरामीटर और संरचना पर पुजारियों के माध्यम से पूर्व ज्ञान को शामिल करना आसान हो जाता है। इसने इस क्षेत्र में समृद्ध सांख्यिकीय साहित्य की खोज के लिए क्षेत्र का नेतृत्व किया। एक और बल ओवरफिटिंग की घटना की खोज था। इसने एमएल समुदाय को क्रॉस-मान्यता और नियमितीकरण के बारे में जानने का नेतृत्व किया और फिर से हमने इस विषय पर समृद्ध सांख्यिकीय साहित्य की खोज की।

बहरहाल, अधिकांश मशीन लर्निंग वर्क का फोकस एक ऐसी प्रणाली का निर्माण करना है जो किसी अज्ञात प्रक्रिया के बारे में किए गए निष्कर्षों के बजाय कुछ प्रदर्शन को प्रदर्शित करता है। यह एमएल और आंकड़ों के बीच मूलभूत अंतर है।


15

आदर्श रूप से किसी व्यक्ति को अपने प्रश्न का उत्तर देने के प्रयास से पहले सांख्यिकी और मशीन लर्निंग दोनों का गहन ज्ञान होना चाहिए। मैं एमएल के लिए बहुत ज्यादा एक नवजात हूं, इसलिए मुझे माफ कर दो अगर मैं कहता हूं कि भोला है।

मुझे एसवीएम और प्रतिगमन पेड़ों में सीमित अनुभव है। आँकड़े की दृष्टि से एमएल में कमी के रूप में मुझ पर क्या प्रहार होता है, यह अनुमान की एक अच्छी तरह से विकसित अवधारणा है।

एमएल में अनुमान लगभग विशिष्ट रूप से पूर्वानुमेय सटीकता को उबालने के लिए लगता है, जैसा कि (उदाहरण के लिए) का अर्थ है वर्गीकरण त्रुटि (एमसीई), या संतुलित त्रुटि दर (बीईआर) या इसी तरह का। एमएल एक प्रशिक्षण सेट और एक परीक्षण सेट में यादृच्छिक रूप से (आमतौर पर 2: 1) डेटा को विभाजित करने की बहुत अच्छी आदत में है। प्रशिक्षण सेट और प्रदर्शन (MCE, BER आदि) का उपयोग करके मॉडल फिट किए जाते हैं और परीक्षण सेट का उपयोग करके मूल्यांकन किया जाता है। यह एक उत्कृष्ट अभ्यास है और केवल धीरे-धीरे मुख्यधारा के आँकड़ों में अपना स्थान बना रहा है।

एमएल भी resampling तरीकों (विशेष रूप से क्रॉस-मान्यता) का भारी उपयोग करता है, जिनकी उत्पत्ति आंकड़ों में दिखाई देती है।

हालांकि, एमएल अनुमान की एक पूरी तरह से विकसित अवधारणा की कमी लगती है - पूर्वानुमान की सटीकता से परे। इसके दो परिणाम हैं।

1) कोई प्रशंसा नहीं लगती है कि कोई भी भविष्यवाणी (पैरामीटर अनुमान आदि) एक यादृच्छिक त्रुटि और शायद सिस्टममैटिक्स त्रुटि (पूर्वाग्रह) के अधीन है। सांख्यिकीविद स्वीकार करेंगे कि यह भविष्यवाणी का एक अनिवार्य हिस्सा है और त्रुटि की कोशिश और अनुमान लगाएगा। सांख्यिकीय तकनीकें एक अनुमान लगाने और खोजने की कोशिश करेंगी जिसमें न्यूनतम पूर्वाग्रह और यादृच्छिक त्रुटि है। उनकी तकनीकें आमतौर पर डेटा प्रक्रिया के एक मॉडल द्वारा संचालित होती हैं, लेकिन हमेशा नहीं (उदाहरण के लिए बूटस्ट्रैप)।

2) एक मॉडल को एक ही आबादी से एक नए नमूने में एक मॉडल को लागू करने की सीमा में एमएल में एक गहरी समझ नहीं लगती है (इसके बावजूद जो मैंने पहले प्रशिक्षण-परीक्षण डेटा सेट दृष्टिकोण के बारे में कहा था)। विभिन्न सांख्यिकीय तकनीकों, उनमें से पारगमन और मॉडल जटिलता के बीच व्यापार-बंद में सांख्यिकीविदों के मार्गदर्शन के लिए, वैधानिक-आधारित तरीकों पर लागू वैधता और दंड की शर्तों को पार करते हैं। एमएल में इस तरह के दिशानिर्देश अधिक तदर्थ लगते हैं।

मैंने एमएल में कई पेपर देखे हैं जहां क्रॉस सत्यापन का उपयोग एक प्रशिक्षण डाटासेट पर कई मॉडलों की फिटिंग को अनुकूलित करने के लिए किया जाता है - मॉडल की जटिलता बढ़ने के साथ बेहतर और बेहतर फिट का उत्पादन। इस बात की थोड़ी प्रशंसा होती है कि सटीकता में छोटे लाभ अतिरिक्त जटिलता के लायक नहीं हैं और यह स्वाभाविक रूप से अति-फिटिंग की ओर जाता है। फिर इन सभी अनुकूलित मॉडल को भविष्य कहनेवाला प्रदर्शन पर एक जांच के रूप में सेट पर लागू किया जाता है और ओवरफिटिंग को रोकने के लिए। दो बातें (ऊपर) भुला दी गई हैं। भविष्य कहनेवाला प्रदर्शन एक स्टोकेस्टिक घटक होगा। एक परीक्षण सेट के खिलाफ दूसरे कई परीक्षणों के परिणामस्वरूप फिर से अधिक फिटिंग होगी। "सर्वश्रेष्ठ" मॉडल को एमएल व्यवसायी द्वारा पूरी प्रशंसा के बिना चुना जाएगा / जिसे उसने चेरी को इस प्रयोग के कई संभावित नतीजों में से एक एहसास से उठाया है।

मेरे लायक कोई 2 सेंट। हमें एक-दूसरे से बहुत कुछ सीखना है।


2
"सर्वश्रेष्ठ" मॉडल के बारे में आपकी टिप्पणी एमएल व्यवसायी द्वारा की जाएगी ... मुख्यधारा के आंकड़ों पर भी समान रूप से लागू होती है। अधिकांश मॉडल चयन प्रक्रियाओं के लिए, अंतिम मॉडल पर एक शर्त यह है कि जैसे मॉडल स्थान की कोई खोज नहीं की गई थी (यह देखते हुए कि मॉडल औसत काफी नया है)। इसलिए मुझे नहीं लगता कि आप एमएल क्लब के साथ "क्लब" के रूप में उपयोग कर सकते हैं, इसलिए बोलने के लिए।
probabilityislogic

एक एमएल प्रैक्टिशनर के रूप में, मैं उस चित्र को नहीं पहचानता जो आप पेंटिंग कर रहे हैं। एमएल साहित्य लगभग सभी विविधताओं के नियमितीकरण, एमडीएल, बायेसियन, एसआरएम और मॉडल की जटिलता को नियंत्रित करने के अन्य तरीकों के बारे में है। जहां से मैं बैठता हूं, ऐसा लगता है कि जटिलता को नियंत्रित करने के लिए स्टेट के तरीके कम संरचित हैं, लेकिन यह आपके लिए पूर्वाग्रह है।
मुहम्मद अलकरौरी

13

यह सवाल 2015 में डेटा विज्ञान की तथाकथित सुपर-संस्कृति के लिए भी बढ़ाया जा सकता है डेविड डोनोहो पेपर 50 साल का डेटा साइंस , जहां वह सांख्यिकी और कंप्यूटर विज्ञान (मशीन सीखने सहित) से अलग-अलग दृष्टिकोणों का सामना करते हैं, उदाहरण के लिए प्रत्यक्ष दृष्टिकोण। (विभिन्न व्यक्तियों से) ऐसे:

  • जब हमारे पास आंकड़े होते हैं तो हमें डेटा साइंस की आवश्यकता क्यों होती है?
  • डेटा साइंस सांख्यिकी है।
  • आँकड़ों के बिना डेटा विज्ञान संभव है, यहां तक ​​कि वांछनीय भी।
  • सांख्यिकी डेटा विज्ञान का कम से कम महत्वपूर्ण हिस्सा है।

और उदाहरण के लिए, ऐतिहासिक, दार्शनिक विचारों के साथ मिश्रित:

यह हड़ताली है कि कैसे, जब मैं आज के डेटा विज्ञान पर एक प्रस्तुति की समीक्षा करता हूं, जिसमें आँकड़ों को सुपर cially दिया जाता है, जो कि बहुत ही छोटा है, मैं यह ध्यान देने से नहीं बच सकता कि अंतर्निहित उपकरण, उदाहरण और विचार, जिन्हें डेटा विज्ञान के रूप में पढ़ाया जा रहा है, सभी सचमुच पीएचडी में प्रशिक्षित किसी व्यक्ति द्वारा आविष्कार किया गया। आँकड़े, और कई मामलों में उपयोग किए जा रहे वास्तविक सॉफ़्टवेयर को एमए या पीएचडी वाले किसी व्यक्ति द्वारा विकसित किया गया था। आंकड़ों में। सदियों से सांख्यिकीविदों के संचित ई? या तो पूरी तरह से खत्म हो रहे हैं, और डेटा विज्ञान के शिक्षण, अनुसंधान और व्यायाम में छिपा नहीं हो सकता है।

इस निबंध ने बहस के लिए कई प्रतिक्रियाएं और योगदान उत्पन्न किए हैं।


3
यह एक कागज की तरह दिखता है जो इस हालिया लोकप्रिय थ्रेड स्टैटिस्टिक्स में उल्लेख के लायक होगा ।stackexchange.com / questions / 195034 , मुझे लगता है कि किसी ने भी इसका उल्लेख नहीं किया है।
अमीबा

1
मुझे लगता है कि यदि आप इस पत्र को संक्षेप में प्रस्तुत करते हुए एक नया उत्तर देते हैं, तो यह बहुत अच्छा होगा।
अमीबा

मुझे पहले खुद के लिए दिए गए सभी उत्तरों को संक्षेप में प्रस्तुत करने की आवश्यकता होगी
लॉरेंट डुवल

12

मैं वास्तव में नहीं जानता कि मशीन लर्निंग और स्टेटिस्टिक के बीच वैचारिक / ऐतिहासिक अंतर क्या है, लेकिन मुझे यकीन है कि यह स्पष्ट नहीं है ... और मुझे यह जानने में कोई दिलचस्पी नहीं है कि मैं मशीन सीखने वाला या सांख्यिकीविद् हूं, मुझे लगता है ब्रेमन के पेपर के 10 साल बाद, बहुत सारे लोग दोनों हैं ...

वैसे भी, मुझे मॉडलों की भविष्यवाणी की सटीकता के बारे में दिलचस्प सवाल मिला । हमें यह याद रखना होगा कि किसी मॉडल की सटीकता को मापना हमेशा संभव नहीं होता है और अधिक सटीक रूप से हम अक्सर माप त्रुटि के साथ कुछ मॉडलिंग कर रहे हैं।

उदाहरण के लिए, समय श्रृंखला पूर्वानुमान में पूर्ण त्रुटि का मतलब समय के साथ होता है और यह किसी अनुमान के साथ माध्य की भविष्यवाणी करने के लिए एक प्रक्रिया के प्रदर्शन को मापता है, जो प्रदर्शन, कुछ अर्थों में, स्थिर और कुछ उन्मत्त संपत्ति को दर्शाता है । यदि (किसी कारण से) आपको अगले 50 वर्षों के लिए पृथ्वी पर औसत तापमान का अनुमान लगाने की आवश्यकता है और यदि आपका मॉडलिंग पिछले 50 वर्षों के लिए अच्छा प्रदर्शन करता है ... इसका मतलब यह नहीं है कि ...

आम तौर पर, (अगर मुझे याद है, तो इसे कोई मुफ्त दोपहर का भोजन नहीं कहा जाता है) आप मॉडलिंग के बिना कुछ भी नहीं कर सकते हैं ... इसके अलावा, मुझे लगता है कि सांख्यिकीय प्रश्न का उत्तर खोजने की कोशिश कर रहा है: "कुछ महत्वपूर्ण है या नहीं", यह विज्ञान का एक बहुत महत्वपूर्ण प्रश्न है और इसका अध्ययन प्रक्रिया के माध्यम से उत्तर नहीं दिया जा सकता है। जॉन टुकी को बताने के लिए (क्या वह एक सांख्यिकीविद थे?):

कुछ डेटा के संयोजन और एक उत्तर की इच्छा होने से यह सुनिश्चित नहीं होता है कि डेटा के किसी निकाय से एक उचित उत्तर निकाला जा सकता है

उम्मीद है की यह मदद करेगा !


12

स्पष्ट रूप से, दो क्षेत्र स्पष्ट रूप से समान लेकिन अलग-अलग समस्याओं का सामना करते हैं, समान रूप से समान लेकिन समान अवधारणाओं के साथ समान तरीके से नहीं, और विभिन्न विभागों, पत्रिकाओं और सम्मेलनों में काम करते हैं।

जब मैंने Cressie और Read's Power Divergence Statistic को पढ़ा, तो यह सब मेरे लिए जगह-जगह टूट गया। उनका सूत्र आमतौर पर इस्तेमाल किए जाने वाले परीक्षण के आँकड़ों का सामान्यीकरण करता है जो एक प्रतिपादक, लैम्ब्डा द्वारा भिन्न होता है। दो विशेष मामले हैं, लैम्ब्डा = 0 और लैम्ब्डा = 1।

कंप्यूटर विज्ञान और सांख्यिकी एक निरंतरता के साथ फिट होते हैं (जो संभवतः अन्य बिंदुओं को शामिल कर सकते हैं)। लैम्ब्डा के एक मूल्य पर, आपको आमतौर पर सांख्यिकी मंडलियों में उद्धृत किए गए आंकड़े मिलते हैं, और दूसरे पर आपको आमतौर पर Comp Sci Circle में उद्धृत आंकड़े मिलते हैं।

आंकड़े

  • लैम्ब्डा = 1
  • वर्गों के बहुत सारे दिखाई देते हैं
  • परिवर्तनशीलता के एक उपाय के रूप में भिन्न
  • संघ के एक उपाय के रूप में सहसंयोजक
  • मॉडल फिट के एक उपाय के रूप में ची-स्क्वायड स्टैटिस्टिक

कंप्यूटर विज्ञान:

  • लम्बडा = ०
  • लॉग के योग बहुत दिखाई देते हैं
  • परिवर्तनशीलता के एक उपाय के रूप में एन्ट्रॉपी
  • एसोसिएशन के एक उपाय के रूप में पारस्परिक जानकारी
  • मॉडल फिट के एक उपाय के रूप में जी-स्क्वैरिस्टिक

9

आप एक बार एक फैंसी कंप्यूटर एल्गोरिथ्म चलाते हैं - और आपको एक सीएस कॉन्फ्रेंस प्रेजेंटेशन / स्टैटिस्टिक्स पेपर (वाह, क्या तेज़ कन्वर्जेंस है) मिलता है। आप इसका व्यावसायीकरण करते हैं और इसे 1 मिलियन बार चलाते हैं - और आप टूट जाते हैं (ouch, क्यों मैं हर समय बेकार और अपूरणीय परिणाम प्राप्त कर रहा हूं ???) जब तक आप नहीं जानते कि एल्गोरिदम के गुणों को सामान्य करने के लिए संभाव्यता और आंकड़े कैसे नियोजित करें।


3
मैंने इस उत्तर को अस्वीकार कर दिया है। हालांकि इस तरह के एक प्रश्न के साथ यह अनिवार्य रूप से कुछ व्यक्तिगत राय शामिल करेगा, IMO हमें कुछ अधिक महत्वपूर्ण आलोचनाओं के लिए प्रयास करना चाहिए। यह सिर्फ एक शेख़ी के रूप में आता है।
एंडी डब्ल्यू

@AndyW, यह, ज़ाहिर है, मैं जो कुछ भी देख रहा हूं उसका एक अतिशयोक्ति है। सांख्यिकीय रूप से आगे सोचने में विफलता अकादमिक दुनिया की भी सच है, भी: मनोविज्ञान या चिकित्सा विज्ञान में प्रकाशित परिणामों की प्रतिकृति अधिकतम 25% है (देखें, उदाहरण के लिए, बस नाममात्र की बजाय , ststistics.tumblr.com / post / 21326470429 / )। 95%। ओपी कंप्यूटर विज्ञान को गले लगाने के लिए आंकड़े चाहते थे; शायद कंप्यूटर विज्ञान को कुछ आंकड़ों को गले लगाना चाहिए, और मैंने इसके कारण बताए।
StasK

5
@StasK मुझे लगता है कि आप कुछ महत्वपूर्ण बिंदु बनाते हैं, क्यों न उन्हें थोड़ा आक्रामक तरीके से बनाने की कोशिश करें?
गाला

2
मुझे इस जवाब का मज़ा आया।
इयान वारबर्टन

6

आँकड़ों के अनुप्रयोग का एक क्षेत्र है जहाँ डेटा जनरेट करने वाले मॉडल पर ध्यान देने से बहुत कुछ समझ में आता है। डिज़ाइन किए गए प्रयोगों में, उदाहरण के लिए, पशु अध्ययन, नैदानिक ​​परीक्षण, औद्योगिक डीओई, सांख्यिकीविदों का एक हाथ हो सकता है जो डेटा जनरेटिंग मॉडल है। एमएल इस बहुत महत्वपूर्ण समस्या पर ज्यादा समय खर्च नहीं करता है क्योंकि एमएल आमतौर पर "बड़े" अवलोकन डेटा के आधार पर भविष्यवाणी की एक और बहुत महत्वपूर्ण समस्या पर ध्यान केंद्रित करता है। यह कहना नहीं है कि एमएल को "बड़े" डिज़ाइन किए गए प्रयोगों पर लागू नहीं किया जा सकता है, लेकिन यह स्वीकार करना महत्वपूर्ण है कि आंकड़ों को संसाधन की कमी वाले प्रयोगों से उत्पन्न होने वाली "छोटी" डेटा समस्याओं पर विशेष विशेषज्ञता है।

दिन के अंत में मुझे लगता है कि हम सभी इस बात का उपयोग करने के लिए सहमत हो सकते हैं कि हाथ में समस्या को हल करने के लिए सबसे अच्छा क्या काम करता है। उदाहरण के लिए, हमारे पास एक डिज़ाइन किया गया प्रयोग हो सकता है जो भविष्यवाणी के लक्ष्य के साथ बहुत व्यापक डेटा पैदा करता है। सांख्यिकीय डिजाइन सिद्धांत यहां बहुत उपयोगी हैं और पूर्वसूचक के निर्माण के लिए एमएल विधियां उपयोगी हो सकती हैं।


4

मुझे लगता है कि मशीन लर्निंग को आंकड़ों के तहत एक उप-शाखा होने की जरूरत है, ठीक वैसे ही, मेरे विचार में, रसायन विज्ञान को भौतिकी के तहत एक उप-शाखा होने की आवश्यकता है।

मुझे लगता है कि रसायन विज्ञान में भौतिकी-प्रेरित दृष्टिकोण बहुत ठोस है (मुझे लगता है)। मुझे नहीं लगता कि ऐसी कोई रासायनिक प्रतिक्रिया है जिसके समकक्ष को भौतिक रूप से नहीं जाना जाता है। मुझे लगता है कि भौतिकी ने एक रसायन विज्ञान के स्तर पर हम जो कुछ भी देख सकते हैं उसे समझाकर एक अद्भुत काम किया है। अब भौतिकविदों की चुनौती क्वांटम स्तर पर छोटे रहस्यों की व्याख्या करने वाली प्रतीत होती है, वे चरम स्थितियों में, जो देखने योग्य नहीं हैं ।

अब वापस मशीन लर्निंग पर। मुझे लगता है कि यह भी आंकड़ों के तहत एक उप-शाखा होना चाहिए (बस रसायन विज्ञान भौतिकी की एक उप-शाखा है)।

लेकिन यह मुझे लगता है कि, किसी भी तरह, मशीन सीखने की वर्तमान स्थिति, या आँकड़े, पूरी तरह से यह महसूस करने के लिए पर्याप्त परिपक्व नहीं है। लेकिन लंबे समय में, मुझे लगता है कि एक को दूसरे की उप-शाखा बनना चाहिए। मुझे लगता है कि यह एमएल है कि आंकड़ों के तहत प्राप्त करना होगा।

मैं व्यक्तिगत रूप से लगता है कि "सीखने" और "नमूनों का विश्लेषण" अनुमान लगाने के लिए / अनुमान कार्य या पूर्वानुमान सभी अनिवार्य रूप से आंकड़ों का सवाल है।


3
क्या जीव विज्ञान, मनोविज्ञान और समाजशास्त्र को भी भौतिकी की "उप-शाखाएं" होना चाहिए?
अमीबा

सही .. मनोविज्ञान सिर्फ इनपुट / आउटपुट है जो अत्यधिक जटिल जैविक मशीनों को शामिल करता है। एक दिन हमें अपनी कारों को मनोवैज्ञानिकों को भेजना पड़ सकता है ताकि इसकी त्रुटियों का निदान किया जा सके (मनोवैज्ञानिक स्वयं एक कंप्यूटर हो सकता है)।
गुफामान

1
यह मुझे लगता है कि गणित सभी का पिता है। वहां से हमने गणित लागू किया है, जिसमें से भौतिकी और अन्य चीजें आती हैं। सांख्यिकी उनमें से एक है। मुझे लगता है कि एमएल को अपने आप में एक शाखा नहीं होना चाहिए और इसके बजाय आंकड़ों में मिश्रित होना चाहिए। लेकिन अगर एमएल खुद की एक शाखा बन जाता है, तो मैं इसे सांख्यिकी का एक बच्चा / उप-शाखा होना पसंद करता हूं।
गुफामान

4

ब्रायन कैफो द्वारा कौरसेरा पाठ्यक्रम "वास्तविक जीवन में डेटा विज्ञान" से

मशीन लर्निंग

  • भविष्यवाणियों पर जोर दें
  • भविष्यवाणी प्रदर्शन के माध्यम से परिणाम का मूल्यांकन करता है
  • ओवरफिटिंग की चिंता है लेकिन प्रति मॉडल जटिलता नहीं
  • प्रदर्शन पर जोर
  • उपन्यास डेटासेट पर प्रदर्शन के माध्यम से सामान्यता प्राप्त की जाती है
  • आमतौर पर, कोई सुपरपॉपुलेशन मॉडल निर्दिष्ट नहीं किया गया है
  • प्रदर्शन और मजबूती पर चिंता

पारंपरिक सांख्यिकीय विश्लेषण

  • सुपरपॉपुलेशन अनुमान पर जोर देता है
  • पूर्व-प्राथमिक परिकल्पनाओं पर ध्यान केंद्रित करता है
  • सरल मॉडल जटिल लोगों (पारसीमोनी) से अधिक पसंद किए जाते हैं, भले ही अधिक जटिल मॉडल थोड़ा बेहतर प्रदर्शन करते हों
  • पैरामीटर व्याख्या पर जोर
  • सांख्यिकीय मॉडलिंग या सैंपलिंग धारणाएं डेटा को ब्याज की आबादी से जोड़ती हैं
  • मान्यताओं और मजबूती पर चिंता

-5

कंप्यूटर साइंटिस्ट के रूप में, मैं हमेशा सांख्यिकीय दृष्टिकोणों को देखते हुए सहज हूं। मेरे लिए कई बार ऐसा लगता है कि सांख्यिकीय विश्लेषण में उपयोग किए जाने वाले सांख्यिकीय मॉडल कई स्थितियों में डेटा के लिए बहुत जटिल हैं!

उदाहरण के लिए डेटा संपीड़न और आंकड़ों के बीच एक मजबूत लिंक है। मूल रूप से किसी को एक अच्छे सांख्यिकीय मॉडल की आवश्यकता होती है जो डेटा का अच्छी तरह से अनुमान लगाने में सक्षम हो और यह डेटा का एक बहुत अच्छा संपीड़न लाता है। कंप्यूटर विज्ञान में जब डेटा को कंप्रेस करना हमेशा सांख्यिकीय मॉडल की जटिलता और भविष्यवाणी की सटीकता बहुत महत्वपूर्ण है। कोई भी एक डेटा फ़ाइल (ध्वनि डेटा या छवि डेटा या वीडियो डेटा युक्त) पाने के लिए संपीड़न के बाद बड़ा हो जाना चाहता है!

मुझे लगता है कि आंकड़ों के संबंध में कंप्यूटर विज्ञान में अधिक गतिशील चीजें हैं, उदाहरण के लिए न्यूनतम विवरण लंबाई और सामान्यीकृत अधिकतम संभावना

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.