भविष्य कहनेवाला मॉडल: आंकड़े संभवतः मशीन सीखने को हरा नहीं सकते हैं? [बन्द है]


14

मैं वर्तमान में सांख्यिकी / अर्थमिति पर केंद्रित एक मास्टर कार्यक्रम का अनुसरण कर रहा हूं। मेरे मास्टर में, सभी छात्रों को 3 महीने का शोध करना था। पिछले हफ्ते, सभी समूहों को बाकी मास्टर छात्रों के लिए अपने शोध को प्रस्तुत करना पड़ा।

लगभग हर समूह ने कुछ सांख्यिकीय मॉडलिंग की और कुछ मशीन सीखने वाले ने अपने शोध विषयों के लिए मॉडलिंग की और हर बार आउट-ऑफ-सैंपल भविष्यवाणियां बात करने के लिए आईं सरल मशीन लर्निंग मॉडल ने बहुत परिष्कृत सांख्यिकीय मॉडल को हराया जो कि प्रत्येक ने पिछले 3 के लिए बहुत मेहनत की थी महीने। कोई फर्क नहीं पड़ता कि कितने अच्छे सांख्यिकीय मॉडल मिलते हैं, एक साधारण यादृच्छिक वन को हमेशा बहुत कम आउट-ऑफ-सैंपल त्रुटियां मिलीं।

मैं सोच रहा था कि क्या यह आम तौर पर स्वीकृत अवलोकन है? अगर यह आउट-ऑफ-सैंपल फोरकास्टिंग की बात आती है, तो एक साधारण यादृच्छिक वन या चरम ढाल बूस्टिंग मॉडल को हरा देने का कोई तरीका नहीं है? आर पैकेज का उपयोग करके लागू करने के लिए ये दो विधियां सुपर सरल हैं, जबकि सभी सांख्यिकीय मॉडल जो सभी के साथ आए थे उन्हें अनुमान लगाने के लिए काफी कौशल, ज्ञान और प्रयास की आवश्यकता होती है।

इस बारे में आपके क्या विचार हैं? क्या सांख्यिकीय / अर्थमितीय मॉडल का एकमात्र लाभ यह है कि आप व्याख्या प्राप्त करते हैं? या हमारे मॉडल सिर्फ इतने अच्छे नहीं थे कि वे सरल यादृच्छिक वन भविष्यवाणियों को समझने में विफल रहे? क्या कोई कागजात हैं जो इस मुद्दे को संबोधित करते हैं?


5
यह अच्छी तरह से "बहुत व्यापक" के रूप में बंद हो सकता है। (उम्मीद है कि "राय-आधारित" के रूप में नहीं!) मेरा लेना: मुझे नहीं लगता कि एक सार्वभौमिक उत्तर है। मेरा अनुभव है कि सांख्यिकीय मॉडल बेहतर हैं यदि कम अवलोकन हैं, क्योंकि तब किसी तरह की संरचना को लागू करने से बड़े पैमाने पर मॉडल-मुक्त दृष्टिकोण में सुधार होता है। इसके विपरीत, यदि कई अवलोकनों में RFs बेहतर है। ...
स्टीफ़न कोलासा

4
... अन्य प्रश्न यह है कि वास्तव में मूल्यांकन कैसे किया गया था, और कैसे। यदि बिंदु भविष्यवाणियों का उचित रूप से मूल्यांकन किया गया था (सटीकता के उपाय आश्चर्यजनक रूप से भ्रामक हो सकते हैं), तो यह एक अलग बात है यदि घनत्व की भविष्यवाणी की गई थी। सांख्यिकीय मॉडल घनत्व पूर्वानुमान में बेहतर हो सकते हैं, फिर से क्योंकि आपको बहुत अधिक डेटा की आवश्यकता होती है।
स्टीफ़न कोलासा

1
@StephanKolassa: मुझे लगता है कि इस प्रश्न का एक अच्छा उत्तर (या कई उत्तरों का सेट) में ऐसे कारण शामिल होंगे, जिनके कारण सार्वभौमिक उत्तर नहीं है - सैद्धांतिक रूप से और व्यावहारिक रूप से -, भविष्य कहनेवाला प्रदर्शन का मूल्यांकन कैसे किया जाता है, सांख्यिकीय और मशीन के बीच अंतर कैसे निकालना है सीखने के तरीके, भविष्यवाणी से परे क्या लक्ष्य हो सकते हैं, और कुछ चीजें जो मैंने नहीं सोची हैं। इतना विस्तृत दायरा; लेकिन मेरी राय में बहुत व्यापक नहीं है, और इसे सीमित करने की कोशिश करना सिर्फ उपयोगी सामान्य बिंदुओं को बनाने से रोक सकता है।
Scortchi - को पुनः स्थापित मोनिका

5
हम जो नहीं चाहते हैं वह उपाख्यानों का एक संग्रह है - मैं उपयोगकर्ताओं को हटाने के जवाबों के लिए झंडा लगाने का आग्रह करता हूं जो उदाहरण के लिए थोड़ा अधिक आते हैं "मैंने हमेशा पाया है कि यादृच्छिक जंगलों ने तर्कवादी प्रतिगमन को हराया", हालांकि चिंताजनक है। हम टिप्पणियों के बारे में थोड़ा सुस्त हो सकते हैं, लेकिन चैट करने के लिए लंबे धागे को स्थानांतरित किया जाएगा।
Scortchi - को पुनः स्थापित मोनिका

14
मुझे नहीं लगता कि सांख्यिकी और मशीन सीखने के बीच कोई सार्थक अंतर है। उदाहरण के लिए, लियो ब्रिमन, एक प्रमुख यादृच्छिक वन शोधकर्ता, यूसी बर्कले में सांख्यिकी के प्रोफेसर थे । आपके उपाख्यान के संदर्भ में, RF अन्य मॉडलों की तुलना में बेहतर था जो लोग फिट थे, लेकिन मुझे कोई कारण नहीं दिखता कि यह सामान्य रूप से सही होना चाहिए (यह भी देखें कि नि: शुल्क लंच प्रमेय नहीं है)। शायद यह तरीकों की तुलना में डेटा सेट (या यहां तक ​​कि छात्रों) के बारे में अधिक कहता है।
साइकोरैक्स का कहना है कि

जवाबों:


20

सांख्यिकीय मॉडलिंग मशीन सीखने से अलग है। उदाहरण के लिए, एक रेखीय प्रतिगमन एक सांख्यिकीय मॉडल और मशीन लर्निंग मॉडल दोनों है। इसलिए यदि आप एक रेखीय प्रतिगमन की तुलना एक यादृच्छिक जंगल से करते हैं, तो आप एक सरल मशीन लर्निंग मॉडल की तुलना एक अधिक जटिल से कर रहे हैं। आप कर रहे हैं नहीं एक मशीन सीखने मॉडल के लिए सांख्यिकीय मॉडल की तुलना।

सांख्यिकीय मॉडलिंग व्याख्या से अधिक प्रदान करता है; यह वास्तव में कुछ जनसंख्या पैरामीटर का एक मॉडल देता है। यह गणित और सिद्धांत के एक बड़े ढांचे पर निर्भर करता है, जो गुणांकों के विचरण, भविष्यवाणियों के विचरण, और परिकल्पना परीक्षण जैसी चीजों के लिए सूत्रों की अनुमति देता है। सांख्यिकीय मॉडलिंग की संभावित उपज मशीन लर्निंग से बहुत अधिक है, क्योंकि आप होल्डआउट पर त्रुटि को मापने के बजाय जनसंख्या मापदंडों के बारे में मजबूत बयान दे सकते हैं, लेकिन सांख्यिकीय मॉडल के साथ समस्या का सामना करना काफी मुश्किल है।


1
जहां तक ​​मैं समझता हूं कि आप कहते हैं कि आंकड़ों के साथ आपको गुणांक के भिन्नता, भविष्यवाणियों के विचरण और परिकल्पना परीक्षण जैसे अधिक लाभ मिलते हैं। लेकिन जब यह पूरी तरह से भविष्य कहनेवाला मॉडलिंग की बात आती है, तो कुछ प्रतिक्रिया चर के बिंदु पूर्वानुमान बनाने, क्या आपको लगता है कि सांख्यिकीय मॉडल मशीन सीखने के मॉडल को हरा सकते हैं?
डबविस

5
यह वह जगह है इस सवाल का जवाब (+1!)। मेरे विचार में (और शायद दूसरों के रूप में भी) कई प्रकार के सांख्यिकीय विश्लेषण हैं: वर्णनात्मक, ह्रासमान, भविष्य कहनेवाला, खोजपूर्ण, आदि। मशीन सीखना ज्यादातर भविष्य कहनेवाला विश्लेषण के भीतर गिर जाएगा, और इसमें से अधिकांश आपको हीनतापूर्ण बनाने की अनुमति नहीं देता है। चीजों पर जोर देना, इसलिए यह सब "हाथ में काम के लिए सही उपकरण का उपयोग करने " के लिए उबलता है (रैखिक प्रतिगमन उदाहरण को देखते हुए, इसका उपयोग सभी क्षेत्रों में किया जा सकता है, जैसे सशर्त अपेक्षाओं का अनुमान लगाना, जो एक वर्णनात्मक कार्य है)।
फायरबग

2
ऐसा लगता है कि मशीन लर्निंग की तुलना में स्टैण्डर्ड स्टैटिस्टिकल मॉडलिंग बेहतर अनुमान के लिए (जैसा कि भविष्यवाणी के विपरीत) हो सकता है, जो मॉडल व्याख्या में मदद कर सकता है। हालांकि यह निश्चित रूप से सच है अगर हम एक सामान्य कम से कम चौकोर प्रतिगमन की तुलना एक गहरे तंत्रिका नेटवर्क से करते हैं, तो यह देखते हुए कि मूल प्रश्न विशेष रूप से यादृच्छिक वन (अनुमान के लिए एक अच्छा एमएल एल्गोरिथ्म) का संदर्भ देता है, इस तरह का एक बयान थोड़ा फजी है।
ग्रीनस्टिक

2
यहां समय श्रृंखला डोमेन से कुछ ठोस सबूत हैं जहां सांख्यिकीय मॉडल लगातार मशीन सीखने के दृष्टिकोण को हरा देते हैं: मकारिडिस "सांख्यिकीय और मशीन लर्निंग पूर्वानुमान के तरीके: चिंताएं और आगे बढ़ने के तरीके"
रिचर्ड हार्डी

1
यह सिर्फ सही जवाब है। यहाँ एक उदाहरण है: कहते हैं कि आपके पास एक उपाय है जो किसी बीमारी के साथ रोगियों के अस्तित्व की भविष्यवाणी करता है। यह निर्धारित करने के लिए कि अंतरराष्ट्रीय स्तर पर वैध तरीके से यह माप कैसे किया जाता है (मूल रूप से गुणांक 0 से एक अलौकिक या बहुभिन्नरूपी मॉडल में 5% से कम लम्बाई के साथ भिन्न होता है) पर अंतरराष्ट्रीय मानक हैं। हालांकि मुझे पूरा यकीन है कि 99% समय पर्याप्त डेटा के साथ एक यादृच्छिक वन एक बेहतर भविष्यवाणी मॉडल होगा।
रेमी निकोल

5

यह प्रश्न गलत है जिस तरह से आपने इसे कहा था। उदाहरण के लिए, मशीन लर्निंग का एक महत्वपूर्ण हिस्सा सांख्यिकीय शिक्षण कहा जा सकता है । तो, आपकी तुलना सेब बनाम फलों के तीखे की तरह है।

हालाँकि, आप जिस तरह से इसे तैयार करते हैं, मैं उसके साथ जाऊँगा, और निम्नलिखित का दावा करूँगा: जब भविष्यवाणी की बात आती है, तो कुछ प्रकार के आँकड़ों के बिना कुछ भी नहीं किया जा सकता है क्योंकि भविष्यवाणी स्वाभाविक रूप से इसमें यादृच्छिकता (अनिश्चितता) होती है। इस पर विचार करें: कुछ अनुप्रयोगों में मशीन सीखने की बड़ी सफलता के बावजूद , परिसंपत्ति की कीमत की भविष्यवाणी में यह पूरी तरह से कुछ भी नहीं है। कुछ भी नहीं। क्यों? क्योंकि अधिकांश विकसित तरल बाजारों में संपत्ति की कीमतें स्वाभाविक रूप से स्टोचस्टिक हैं।

आप परमाणुओं के रेडियोधर्मी क्षय के बारे में जानने और जानने के लिए पूरे दिन मशीन सीखने को चला सकते हैं, और यह अगले परमाणु के क्षय समय की भविष्यवाणी करने में सक्षम नहीं होगा, बस क्योंकि यह यादृच्छिक है।

एक आकांक्षी सांख्यिकीविद् के रूप में यह मशीन सीखने के लिए नहीं आपकी ओर से मूर्खता होगी, क्योंकि यह आंकड़ों के सबसे गर्म अनुप्रयोगों में से एक है, जब तक कि निश्चित रूप से, आप यह सुनिश्चित करने के लिए जानते हैं कि आप शिक्षाविद के लिए जा रहे हैं। जिस किसी को भी उद्योग में काम करने की संभावना है, उसे एमएल में मास्टर करने की आवश्यकता है। सांख्यिकी और एमएल भीड़ के बीच कोई दुश्मनी या प्रतिस्पर्धा नहीं है। वास्तव में, यदि आप प्रोग्रामिंग पसंद करते हैं, तो आप एमएल क्षेत्र में घर पर महसूस करेंगे


2

आम तौर पर नहीं, लेकिन संभवतः मिसकैरेज के तहत हाँ। आप जिस मुद्दे की तलाश कर रहे हैं, उसे स्वीकार्यता कहा जाता है। एक निर्णय स्वीकार्य है यदि इसकी गणना करने के लिए कोई कम जोखिम भरा तरीका नहीं है।

सभी बायेसियन समाधान स्वीकार्य हैं और गैर-बायेसियन समाधान इस हद तक स्वीकार्य हैं कि वे हर नमूने में या सीमा पर बायेसियन समाधान से मेल खाते हैं। एक स्वीकार्य फ्रीसेंटिस्ट या बायेसियन समाधान हमेशा एक एमएल समाधान को हरा देगा जब तक कि यह स्वीकार्य भी न हो। इसके साथ ही कहा गया कि, कुछ व्यावहारिक टिप्पणियां हैं जो इस कथन को सही लेकिन शून्य बनाती हैं।

सबसे पहले, बायेसियन विकल्प के लिए पूर्व में आपका वास्तविक पूर्व होना चाहिए न कि कुछ पूर्व वितरण का उपयोग किसी पत्रिका को खुश करने के लिए किया जाता है। दूसरा, कई फ़्रीक्वेनिस्ट समाधान बेवजह हैं और मानक समाधान के बजाय एक संकोचन अनुमानक का उपयोग किया जाना चाहिए। बहुत सारे लोग स्टीन की लेम्मा और नमूना त्रुटि के बाहर इसके निहितार्थ से अनजान हैं। अंत में, एमएल कुछ और मजबूत हो सकता है, कई मामलों में, चूक की त्रुटि तक।

जब आप निर्णय लेने वाले पेड़ों और उनके चचेरे भाई जंगलों में जाते हैं, तो आप एक समान पद्धति का उपयोग नहीं कर रहे हैं जब तक कि आप भी बेयर्स नेट के समान कुछ का उपयोग नहीं कर रहे हैं। एक ग्राफ़ समाधान में पर्याप्त मात्रा में निहित जानकारी होती है, विशेष रूप से एक निर्देशित ग्राफ़। जब भी आप किसी संभाव्य या सांख्यिकीय प्रक्रिया में जानकारी जोड़ते हैं तो आप परिणाम की परिवर्तनशीलता को कम कर देते हैं और परिवर्तन को स्वीकार्य मानते हैं।

यदि आप मशीन सीखने को कार्य के दृष्टिकोण से देखते हैं, तो यह सिर्फ एक सांख्यिकीय समाधान बन जाता है, लेकिन समाधान का उपयोग करने के लिए सन्निकटन का उपयोग करता है। बेयसियन समाधानों के लिए, MCMC समय की अविश्वसनीय मात्रा में बचत करता है, जैसा कि कई एमएल समस्याओं के लिए ढाल मूल करता है। यदि आपको या तो कई एमएल समस्याओं पर ब्रूट बल को एकीकृत करने या उपयोग करने के लिए एक सटीक पोस्टीरियर का निर्माण करना था, तो जवाब मिलने से पहले ही सौर मंडल की गर्मी से मृत्यु हो जाती।

मेरा अनुमान है कि आपके पास सांख्यिकी या अनुचित आँकड़ों का उपयोग करने वालों के लिए एक गलत मॉडल है। मैंने एक व्याख्यान पढ़ाया जहां मैंने साबित किया कि नवजात शिशु खिड़कियों से बाहर तैरने लगेंगे अगर उचित रूप से न उतारा जाए और जहां एक बायेसियन विधि इतनी मौलिक रूप से एक बहुराष्ट्रीय विकल्प पर एक फ्रीक्वेंटिस्ट पद्धति से बाहर निकले, तो फ्रीडेंटिस्ट ने भी उम्मीद में तोड़ दिया, जबकि बायेसियन विधि ने प्रतिभागियों के पैसे को दोगुना कर दिया। । अब मैंने पूर्व में आँकड़ों का दुरुपयोग किया और बाद में फ़्रीक्वेंटिस्ट अनुमानक की अयोग्यता का लाभ उठाया, लेकिन आँकड़ों के एक भोले उपयोगकर्ता आसानी से वही कर सकते थे जो मैंने किया। मैंने केवल उदाहरणों को स्पष्ट करने के लिए उन्हें चरम दिया, लेकिन मैंने बिल्कुल वास्तविक डेटा का उपयोग किया।

रैंडम वन लगातार अनुमानक होते हैं और वे कुछ बायेसियन प्रक्रियाओं से मिलते जुलते लगते हैं। कर्नेल आकलनकर्ताओं से जुड़ाव के कारण, वे काफी करीब हो सकते हैं। यदि आप समाधान प्रकारों के बीच प्रदर्शन में एक भौतिक अंतर देखते हैं, तो अंतर्निहित समस्या में कुछ है जिसे आप गलत समझ रहे हैं और यदि समस्या कोई महत्व रखती है, तो आपको वास्तव में अंतर के स्रोत की तलाश करने की आवश्यकता है क्योंकि यह भी हो सकता है मामला है कि सभी मॉडल गलत हैं।


1

हो सकता है कि बहुत से मशीन लर्निंग कम से कम कुछ उद्देश्यों के लिए, पी-हैकिंग से अलग न हों।

यदि आप यह पता लगाने के लिए हर संभव मॉडल का परीक्षण करते हैं कि ऐतिहासिक डेटा के आधार पर उच्चतम भविष्यवाणी सटीकता (ऐतिहासिक भविष्यवाणी या आउट-समूह भविष्यवाणी) है, तो इसका मतलब यह नहीं है कि परिणाम समझने में मदद करेंगे कि क्या हो रहा है। हालांकि, संभवतः यह संभव रिश्तों को मिलेगा जो एक परिकल्पना को सूचित कर सकते हैं।

विशिष्ट परिकल्पनाओं को प्रेरित करना और फिर सांख्यिकीय तरीकों का उपयोग करके उनका परीक्षण करना निश्चित रूप से समान रूप से पी-हैक (या समान) हो सकता है।

लेकिन मुद्दा यह है कि यदि मानदंड "ऐतिहासिक डेटा के आधार पर उच्चतम भविष्यवाणी सटीकता" है, तो कुछ मॉडल में अति-आत्मविश्वास होने का एक उच्च जोखिम है जो किसी को समझ में नहीं आता है, वास्तव में उन ऐतिहासिक परिणामों और / के बारे में कोई भी विचार किए बिना। या वे भविष्य के लिए जानकारीपूर्ण हो सकते हैं या नहीं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.