मशीन सीखने में सहसंबंध और कारण के बीच क्या संबंध है?


13

यह एक सर्वविदित तथ्य है कि "सहसंबंध बराबर कार्य नहीं करता है", लेकिन मशीन सीखना लगभग पूरी तरह से सहसंबंध पर आधारित लगता है। मैं छात्रों के प्रदर्शन पर उनके पिछले प्रदर्शनों के आधार पर अनुमान लगाने के लिए एक प्रणाली पर काम कर रहा हूं। अन्य कार्यों के विपरीत, Google खोज की तरह, यह उस तरह की प्रणाली की तरह प्रतीत नहीं होता है जिसे आसानी से प्राप्त किया जा सकता है - इसलिए उस संबंध में कार्य-कारण वास्तव में प्रासंगिक नहीं है।

स्पष्ट रूप से, यदि हम प्रणाली को अनुकूलित करने के लिए प्रयोग करना चाहते हैं, तो हमें सहसंबंध / कार्य भेद के बारे में ध्यान रखना होगा। लेकिन, उचित कठिनाई स्तर की संभावना वाले प्रश्नों को चुनने के लिए सिर्फ एक प्रणाली के निर्माण के दृष्टिकोण से, क्या इस भेद का कोई महत्व है?


कृपया परिभाषित करें या कम से कम संदर्भित करें कि "सहसंबंध बराबर कार्य नहीं करता है" में सहसंबंध के कारण क्या होता है
सेटरोपेरे

जवाबों:


11

एआई के सभी सहसंबंध पर काम नहीं करते हैं, बेयसियन बेलिफ़ नेटवर्क को इस संभावना के आसपास बनाया गया है कि ए बी का कारण बनता है।

मैं छात्रों के प्रदर्शन पर उनके पिछले प्रदर्शनों के आधार पर अनुमान लगाने के लिए एक प्रणाली पर काम कर रहा हूं।

मुझे नहीं लगता कि आपको इसके लिए कारण की आवश्यकता है। पिछले प्रदर्शन के कारण वर्तमान प्रदर्शन नहीं होता है। प्रारंभिक प्रश्न पर उत्तर देने से बाद के प्रश्न पर उत्तर नहीं मिलता है।

लेकिन उचित कठिनाई स्तर की संभावना वाले प्रश्नों को चुनने के लिए सिर्फ एक प्रणाली के निर्माण के दृष्टिकोण से - क्या यह अंतर कोई महत्व नहीं रखता है?

नहीं, आपके उदाहरण के लिए नहीं। मुझे लगता है कि सहसंबंध (या यहां तक ​​कि साधारण एक्सट्रपलेशन) आपकी समस्या को बहुत अच्छी तरह से हल करेगा। प्रत्येक प्रश्न के लिए एक कठिनाई स्कोर असाइन करें और फिर छात्रों को तेजी से कठिन स्तरों (जो कि अधिकांश परीक्षाओं में काम करता है) में प्रश्न फ़ीड करें और फिर जब छात्र उन्हें गलत करना शुरू कर दें, तो आप कठिनाई को वापस हवा दे सकते हैं। यह एक प्रतिक्रिया एल्गोरिथ्म है जो एक बहुस्तरीय अवधारणात्मक में न्यूरॉन पर किए गए त्रुटि न्यूनीकरण के समान है। इस तरह के इनपुट रिक्त स्थान का गैर-तुच्छ टुकड़ा यह तय कर रहा है कि एक कठिन प्रश्न क्या है!

एआई में कार्य-कारण का एक बेहतर उदाहरण होगा:

मेरी गाड़ी धीमी हो रही है। मेरी त्वरक फर्श पर है। ज्यादा शोरगुल नहीं है। डैशबोर्ड पर लाइट्स हैं। क्या संभावना है कि मैं ईंधन से बाहर चला गया हूँ?

इस मामले में, ईंधन से बाहर चलने से कार धीमी हो गई है। यह ठीक उसी तरह की समस्या है जिसे बेयसियन बेलिफ़ नेटवर्क्स हल करता है।


"मुझे नहीं लगता कि आपको इसके लिए कारण की आवश्यकता है। पिछले प्रदर्शन से वर्तमान प्रदर्शन का कारण नहीं बनता है। प्रारंभिक प्रश्न पर उत्तर देने से बाद के प्रश्न पर उत्तर नहीं मिलता है।" - अच्छी तरह से तथ्य यह है कि एक छात्र ने एक अभ्यास पूरा किया है, जिससे उन्हें एक और व्यायाम पर बेहतर प्रदर्शन करने का कारण हो सकता है (हम उन्हें संकेत, संकेत के साथ प्रदान करते हैं)।
केसबश

लेकिन मुझे लगता है कि आप सही हैं, यह सहसंबंध बनाम कार्य के बारे में इतना नहीं है, लेकिन क्या यह एक सहसंबंध के साथ सहसंबद्ध है (यानी एक विशेष वर्ग में छात्र ज्यामिति विषयों में अच्छा कर रहे हैं क्योंकि शिक्षक ने इसे और अधिक विस्तार से, बनाम छात्रों को शामिल किया है) उच्च प्रदर्शन करने के लिए सबसे कठिन विषयों को पूरा किया क्योंकि वे केवल वही हैं जो इसके लिए
उठते हैं

आह! यह दिलचस्प है: एक अभ्यास को पूरा करना और इसके परिणाम को जानना सवालों पर बेहतर होने का कारण है। लेकिन यह यहाँ देखने योग्य नहीं है। केवल एक चीज जो आप देख रहे हैं, वह परीक्षा के प्रश्न हैं, जो सहसंबद्ध हैं। सहसंबंध गंदा नहीं है, यह कहना ठीक है कि दो सांख्यिकीय प्रक्रियाओं में एक संबंध है।
डॉ। रॉब लैंग

एक कारण बी एक विश्वास नेटवर्क की एक व्याख्या है।
सेटरोपेरे

6

मशीन लर्निंग लगभग पूरी तरह से सहसंबंध पर आधारित लगती है

मुझे ऐसा नहीं लगता, कम से कम सामान्य तौर पर नहीं। उदाहरण के लिए, पीएसी विश्लेषण और वीसी आयाम विश्लेषण के संदर्भ में एमएल एल्गोरिदम के लिए मुख्य धारणा यह है कि प्रशिक्षण / परीक्षण डेटा उसी वितरण से आते हैं जो भविष्य के डेटा होगा।

तो आपके सिस्टम में, आपको यह मानकर चलना होगा कि प्रत्येक छात्र किसी न किसी प्रकार की सशर्त संभाव्यता वितरण को लागू करता है जो विशेष विषयों पर विशेष प्रकार के प्रश्नों के उत्तर उत्पन्न करता है। एक और, और अधिक समस्याग्रस्त धारणा जो आपको करनी है, वह यह है कि यह वितरण नहीं बदलता (या तेजी से नहीं बदलता है)।


2

मैं पूर्व के उत्तर से सहमत हूं।

हालांकि, यदि आप सामान्य रूप से सहसंबंध / कार्य-कारण को देखने में रुचि रखते हैं, तो दो आइटम जिन्हें आप देखना चाहते हैं:

  • पर्ल (हाँ, उस पर्ल ) ने इस पर बहुत कम सभ्य पुस्तकों में से एक का उत्पादन किया है।
  • सुदृढीकरण सीखना , और बहु सशस्त्र दस्यु समस्या एक अभिनेता के चारों ओर एक अज्ञात वातावरण में कार्रवाई के इष्टतम पाठ्यक्रमों को अनुमान लगाने की कोशिश करने के आसपास आधारित हैं - यानी उन्हें सीखना चाहिए कि कौन सी 'क्रियाएं' उन्हें सर्वश्रेष्ठ 'इनाम' देंगी, और इसलिए स्पष्ट रूप से कारण को छेड़ो रिश्तों।

2

अन्य उत्तरों के अलावा, एक दिलचस्प विषय है - यदि आप मैन्युअल रूप से सुविधाओं का चयन कर रहे हैं, तो आप ओवरफिटिंग को कम करने के लिए 'संयोग संबंधी सहसंबंध' के बारे में सोच सकते हैं, अर्थात, उन सुविधाओं से बचना जो किसी भी तरह आपके प्रशिक्षण डेटा में सहसंबंधित हो लेकिन सामान्य मामले में t / को सहसंबंधित नहीं किया जाना चाहिए - कि जो भी कारण हो संबंध नहीं है।

एक क्रूड उदाहरण के रूप में, मान लीजिए कि आप ऐतिहासिक परीक्षा परिणामों की एक डेटा तालिका लेते हैं और असफल / पास मानदंड का अनुमान लगाने की कोशिश करते हैं; आप बस सभी उपलब्ध डेटा फ़ील्ड को सुविधाओं के रूप में शामिल करते हैं, और यह कि छात्रों के जन्मदिन के साथ-साथ तालिका भी होती है। अब, प्रशिक्षण डेटा में एक मान्य सहसंबंध हो सकता है कि 12 वीं कक्षा में पैदा होने वाले छात्र हमेशा पास होते हैं और 13 वीं कक्षा में पैदा हुए छात्र लगभग हमेशा असफल होते हैं ... लेकिन चूंकि कोई कारण संबंध नहीं है, इसलिए इसे बाहर रखा जाना चाहिए।

वास्तविक जीवन में यह थोड़ा अधिक सूक्ष्म है, लेकिन यह उन सहसंबंधों को भेद करने में मदद करता है जो आपके डेटा को वैध संकेतों के लिए फिट करते हैं जिन्हें सीखा जाना चाहिए; और सहसंबंध जो आपके प्रशिक्षण सेट में यादृच्छिक शोर के कारण होते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.