क्या प्लॉट और रैखिक बीजगणित का उपयोग किए बिना सरल रैखिक प्रतिगमन किया जा सकता है?


47

मैं पूरी तरह से अंधा हूं और एक प्रोग्रामिंग पृष्ठभूमि से आता हूं।

जो मैं करने की कोशिश कर रहा हूं वह मशीन सीखना सीखना है, और ऐसा करने के लिए, मुझे पहले रैखिक प्रतिगमन के बारे में जानने की आवश्यकता है। इंटरनेट पर सभी स्पष्टीकरण मैं इस विषय के बारे में पा रहा हूं पहले डेटा की साजिश करो। मैं रेखीय प्रतिगमन की एक व्यावहारिक व्याख्या की तलाश कर रहा हूं जो कि रेखांकन और भूखंडों पर निर्भर नहीं है।

यहाँ सरल रेखीय प्रतिगमन के उद्देश्य के बारे में मेरी समझ है:

सरल रेखीय प्रतिगमन सूत्र को खोजने की कोशिश कर रहा है जो एक बार आप Xइसे देते हैं, आपको निकटतम अनुमान प्रदान करेगा Y

इसलिए, जैसा कि मैं इसे समझता हूं, स्वतंत्र चर (कीमत) के साथ भविष्यवक्ता (उदाहरण के लिए वर्ग फुट में एक घर का क्षेत्र) की तुलना करने के लिए क्या किया जाना चाहिए। मेरे उदाहरण में, आप संभवतः अपने क्षेत्र से एक घर की कीमत की गणना करने के लिए सबसे अच्छा सूत्र प्राप्त करने का एक गैर-दृश्य तरीका बना सकते हैं। उदाहरण के लिए, हो सकता है कि आपको पड़ोस में 1000 घरों का क्षेत्रफल और मूल्य मिले, और मूल्य को क्षेत्र में विभाजित करें? परिणाम (कम से कम ईरान में जहां मैं रहता हूं) में बहुत ही नगण्य विचरण होता। तो आप शायद इस तरह से कुछ मिलेगा:

Price = 2333 Rials * Area of the house

बेशक, फिर आपको अपने डेटा सेट में सभी 1000 घरों से गुजरने की ज़रूरत होगी, क्षेत्र को ऊपर दिए गए सूत्र में डालेंगे, अनुमान की वास्तविक कीमत से तुलना करेंगे, परिणामों को वर्ग करेंगे (मैं अनुमान लगाता हूं कि एक दूसरे को रद्द करने से रोकें) और फिर एक संख्या प्राप्त करें, फिर 2333त्रुटियों को कम करने के लिए चारों ओर खेलते रहें ।

बेशक, यह जानवर बल विकल्प है जहां त्रुटियों की गणना करने और सर्वोत्तम विकल्प पर पहुंचने के लिए शायद उम्र लग जाएगी, लेकिन आप देखते हैं कि मैं क्या कह रहा हूं? मैंने किसी ग्राफ़, या रेखा, या किसी भूखंड पर बिंदु या आपके मौजूदा डेटा पर रेखा को फिट करने का सबसे अच्छा तरीका कुछ भी नहीं कहा।

तो, आपको इसके लिए एक बिखरे हुए भूखंड और रैखिक बीजगणित की आवश्यकता क्यों होगी? क्या कोई गैर-दृश्य तरीका नहीं है?

पहले, क्या मैं अपनी धारणाओं में सही हूं? यदि नहीं, तो मुझे सुधार करना अच्छा लगेगा। चाहे मैं हूं या नहीं, लेकिन क्या रैखिक बीजगणित के साथ खेलने के बिना सूत्र के साथ आने का एक तरीका है?

मैं वास्तव में इसकी सराहना करूंगा यदि मुझे स्पष्टीकरण के साथ एक उदाहरण मिल सकता है, ताकि मैं अपनी समझ का परीक्षण करने के लिए पाठ के साथ कर सकूं।


2
लेकिन क्या आपके पास स्थानिक कल्पना है जो दृष्टि को ले जा सकती है? यदि हाँ, तो मुझे लगता है कि किसी बिखराव की किसी तरह कल्पना की जा सकती है। मुझे संदेह है कि प्रतिगमन के सार को पूरी तरह से प्रस्तावक सोच (जैसे मौखिक) द्वारा कब्जा किया जा सकता है।
ttnphns

3
आपकी गणित पृष्ठभूमि क्या है? सिंपल लीनियर रिग्रेशन नाम का विकिपीडिया पेज ज्यादातर टेक्स्ट है, और मुझे लगता है कि पहले पैराग्राफ में इसका काफी स्पष्ट वर्णन है। वह लेख आपके द्वारा खोजे जा रहे विवरण के स्तर की तुलना कैसे करता है?
छायाकार 13

3
मैं इसके बारे में सोचता रहूंगा, देख सकता हूं कि क्या मैं ऊपर आ सकता हूं, लेकिन बल्ले से ही सही, एक समीकरण को हल करने के बारे में सोचें जिसका कोई हल नहीं है। आपके सभी डेटा बिंदुओं को आपके रजिस्ट्रार (घर का क्षेत्र) द्वारा गलत अनुमान लगाया जाएगा। आप एक समीकरण की तलाश कर रहे हैं जो आपकी त्रुटियों को यथासंभव सहनशील बनाता है।
एंटोनी पारेलाडा

8
उत्कृष्ट प्रश्न, हमें विकलांग लोगों के लिए अपनी अवधारणाओं को समझाने के बारे में अधिक सोचने की आवश्यकता है
अक्सकल

4
आपको एक भूखंड का उपयोग करने की आवश्यकता नहीं है। वास्तव में, कई रैखिक प्रतिगमन (कई भविष्यवाणियों के साथ प्रतिगमन) के लिए आप एक आयामी स्थान की साजिश नहीं कर सकते । हालांकि, रैखिक बीजगणित अभी भी काम करता है। रैखिक प्रतिगमन में शामिल सभी रैखिक बीजगणित सूत्र सरल स्केलर संख्याओं पर संचालन के लिए कम किए जा सकते हैं। यदि आप अपनी पवित्रता को महत्व देते हैं तो आप इसे उस तरह से नहीं करना चाहेंगे। p+1
अनुमान

जवाबों:


17

हाँ अपने पर। आपको 2333 के आस-पास खेलना जारी रखना होगा जब तक आपको सही नहीं मिल जाता जो त्रुटि को कम करता है। लेकिन "सही" खोजने के लिए एक गणितीय तरीका है। चलो उस नंबर को कॉल करें । , चुकता त्रुटियों का योग (एसएसई) का एक कार्य है क्योंकि प्रत्येक विकल्प के लिए की राशि की गणना कर सकते हैं प्रत्येक अनुमान बंद है, इसे वर्ग, और उन्हें एक साथ योग।β ββEββ

क्या चुकता त्रुटियों की कुल राशि को कम करता है? यह सिर्फ पथरी की समस्या है। के व्युत्पन्न को by और इसे शून्य के बराबर सेट करें। यह लिए एक समीकरण देता है । दूसरे व्युत्पन्न की जांच करें यह जानना सकारात्मक है कि यह एक न्यूनतम है। इस प्रकार आपको लिए एक समीकरण मिलता है जो त्रुटि को कम करता है।β β ββEβββ

यदि आप इसे इस प्रकार प्राप्त करते हैं, तो आपको एक योग के रूप में मिलेगा । यदि आप अनुमान के रैखिक बीजगणित के रूप में लिखते हैं तो आप देखेंगे कि यह वही बात है।β

संपादित करें: यहां इस प्रकार के व्युत्पत्ति के साथ कुछ नोट्स का लिंक दिया गया है। गणित थोड़ा गड़बड़ हो जाता है, लेकिन इसके मूल में यह सिर्फ एक पथरी की समस्या है।


हे भगवान। आखिरकार! यह गणना करने के लिए एक गैर-रैखिक-बीजगणित तरीका। आपके उत्तर में जिन अवधारणाओं के बारे में आप बात कर रहे हैं, वे मेरे सिर के ऊपर हैं, लेकिन इस विचारधारा को बेहतर ढंग से समझने के प्रयास में मैं निश्चित रूप से डेरिवेटिव में देखूंगा।
परम डस्टडार

1
मैंने कुछ नोटों से लिंक किया है जो इसे काफी प्राथमिक स्तर पर समझाते हैं। मुझे लगता है कि किसी भी उत्तर के लिए पथरी की आवश्यकता होगी क्योंकि जिस तरह से आप समस्याओं को हल करते हैं जैसे " का न्यूनतम पता लगाएं " एक व्युत्पन्न लेना और इसे शून्य के बराबर सेट करना है। सहज रूप से, यह सिर्फ यह कह रहा है कि एक पहाड़ी की न्यूनतम (या अधिकतम) वह जगह होगी जहां पहाड़ी समतल है (चूंकि ढलान पहाड़ी के किनारे उच्चतम है!)। व्युत्पन्न = ढलान। इसलिए क्षेत्रों में बदलने से में थोड़ा बदलाव होने लगता है, आप न्यूनतम (या अधिकतम के पास हैं। आपको यह सुनिश्चित करने की आवश्यकता है कि यह अधिकतम नहीं है!)। β E(β)βE
बजे क्रिस रैकाकस

4
यह विचार आपको मशीन सीखने के लिए लाता है। मशीन लर्निंग में बुनियादी तरीकों में से एक ढाल सभ्य है। वह मूल रूप से "ढलान का पालन" करने के लिए अनुवाद करता है। यदि आप उस दिशा में गेंद को लुढ़कने देते रहें, जहाँ पहाड़ी खड़ी है, तो आप एक न्यूनतम हिट करेंगे। तो ग्रेडिएंट सभ्य तरीका ठीक यही करना है: यह पता करें कि किस तरह से बदलते हुए में त्रुटि सबसे कम हो जाती है और इस तरह से जाती है! β
क्रिस रैकॉकास

2
कम से कम वर्गों के प्रतिगमन के लिए आपको धीरे-धीरे सभ्य करने की आवश्यकता नहीं है क्योंकि आप एक समीकरण के लिए हल कर सकते हैं जो कि उत्तर है, लेकिन यह समझने का एक अच्छा तरीका देता है कि मशीन सीखना क्या है। यह त्रुटि को मापने का एक तरीका चुनने के लिए उबलता है, और फिर त्रुटि समीकरण को कम करने के लिए कोई रास्ता ढूंढता है। परिणाम डेटा के माध्यम से सीखा गया "सबसे अच्छा" आकलन समीकरण है। मुझे आशा है कि आप मशीन सीखने के लिए अपने रास्ते पर मदद करेंगे!
क्रिस रैकॉकास

10

आपकी समझ करीब है, लेकिन कुछ विस्तार की आवश्यकता है: सरल रैखिक प्रतिगमन उस सूत्र को खोजने की कोशिश कर रहा है जो एक बार आप Xइसे देते हैं, आपको Y एक रैखिक संबंध के आधार पर निकटतम अनुमान प्रदान करेगा X और Y

घर की कीमतों का आपका उदाहरण, जब थोड़ा बढ़ाया जाता है, तो पता चलता है कि आप तितर बितर भूखंड और इस तरह से क्यों समाप्त होते हैं। सबसे पहले, क्षेत्र द्वारा कीमत को विभाजित करना अन्य मामलों में काम नहीं करता है, जैसे मेरे गृह नगर में जमीन की कीमतें, जहां निर्माण पर नियमों का मतलब है कि बस उस जमीन के पार्सल का मालिक होना जिस पर आप घर बना सकते हैं, का उच्च मूल्य है। इसलिए भूमि की कीमतें केवल क्षेत्रों के लिए आनुपातिक नहीं हैं। पार्सल क्षेत्र की प्रत्येक वृद्धि पार्सल मूल्य में समान वृद्धि दे सकती है , लेकिन अगर आप 0 क्षेत्र के सभी (पौराणिक) पार्सल के लिए नीचे जाते हैं, तो अभी भी एक संबद्ध स्पष्ट मूल्य होगा जो भूमि के पार्सल के मालिक होने के मूल्य का प्रतिनिधित्व करता है कि निर्माण के लिए मंजूरी दे दी है।

यह अभी भी क्षेत्र और मूल्य के बीच एक रैखिक संबंध है, लेकिन सिर्फ पार्सल के मालिक के मूल्य का प्रतिनिधित्व करते हुए, रिश्ते में एक अवरोधन है। क्या यह फिर भी एक बनाता है रैखिक संबंध यह है कि परिवर्तन इकाई प्रति मूल्य में परिवर्तन क्षेत्र में, ढाल या प्रतिगमन गुणांक, हमेशा एक ही क्षेत्र या मूल्य के परिमाण की परवाह किए बिना है।

तो कहते हैं कि आप पहले से ही किसी भी तरह से अवरोधन और ढलान दोनों को जानते हैं जो पार्सल क्षेत्रों को मूल्य से संबंधित करते हैं, और आप उस रैखिक संबंध से मूल्यों की तुलना हालिया बिक्री द्वारा दर्शाए गए वास्तविक मूल्यों से करते हैं। आप पाएंगे कि भविष्यवाणी और वास्तविक मूल्य शायद ही कभी मेल खाते हैं। ये विसंगतियां आपके मॉडल में त्रुटियों का प्रतिनिधित्व करती हैं, और परिणामित पूर्वानुमान के आसपास मूल्यों के बिखराव का परिणाम है। आपको क्षेत्र और मूल्य के बीच अपने अनुमानित स्ट्रेट-लाइन रिलेशन के चारों ओर गुच्छित बिंदुओं का एक बिखरा हुआ प्लॉट मिलता है।

अधिकांश व्यावहारिक उदाहरणों में आप पहले से ही अवरोधन और ढलान को नहीं जानते हैं, इसलिए आपको उन्हें डेटा से अनुमान लगाने का प्रयास करना होगा। यही कारण है कि रैखिक प्रतिगमन करने की कोशिश करता है।

अधिक से अधिक संभावना आकलन के परिप्रेक्ष्य से रैखिक प्रतिगमन और संबंधित मॉडलिंग के बारे में सोचना बेहतर हो सकता है , जो आपके मॉडल में विशेष पैरामीटर मानों की खोज है जो डेटा को सबसे अधिक संभावित बनाते हैं। यह "ब्रूट-फोर्स" दृष्टिकोण के समान है जो आप अपने प्रश्न में प्रस्तावित करते हैं, लेकिन आप जो अनुकूलन करने की कोशिश कर रहे हैं उसके कुछ अलग उपाय के साथ। आधुनिक कंप्यूटिंग विधियों और खोज पैटर्न के बुद्धिमान डिजाइन के साथ, यह काफी जल्दी किया जा सकता है।

अधिकतम संभावना अनुमान उन तरीकों से लगाया जा सकता है, जिनमें ग्राफिकल प्लॉट की आवश्यकता नहीं होती है और यह उस तरह से है जैसा आप पहले से सोच रहे हैं। रैखिक प्रतिगमन के मामले में, मानक न्यूनतम-वर्ग प्रतिगमन और अधिकतम संभावना दोनों ही अवरोधन और ढलान के समान अनुमान प्रदान करते हैं।

अधिकतम संभावना के संदर्भ में सोचने का अतिरिक्त लाभ यह है कि यह अन्य स्थितियों के लिए बेहतर रूप से फैली हुई है जहां सख्ती से रैखिक संबंध नहीं हैं। एक अच्छा उदाहरण लॉजिस्टिक रिग्रेशन है जिसमें आप भविष्यवाणियों के आधार पर होने वाली किसी घटना की संभावना का अनुमान लगाने की कोशिश करते हैं। यह अधिकतम संभावना द्वारा पूरा किया जा सकता है, लेकिन मानक रैखिक प्रतिगमन के विपरीत कोई सरल समीकरण नहीं है जो लॉजिस्टिक प्रतिगमन में अवरोधन और ढलान का उत्पादन करता है।


1
x2

@ अगर आप सही हैं। मैं ओपी द्वारा प्रदान किए गए उदाहरण से शुरू कर रहा था, जिसने मूल्यों और क्षेत्रों के बीच आनुपातिकता का परिचय दिया। मैं मूल भविष्यवक्ता चर के रूपांतरित मूल्यों के बारे में सोचना चाहता हूं क्योंकि प्रतिगमन में वास्तविक स्वतंत्र चर, जब शक्तियों या लॉग जैसे परिवर्तनों का उपयोग किया जाता है। मुझे लगता है कि व्यवहार में शब्दावली में अंतर के रूप में समाप्त होता है, हालांकि निहित त्रुटि मॉडल में अंतर हैं।
EdM

मैं आपकी बात देखता हूं, किसी भी तरह, यह एक अच्छा जवाब था (+1)

6

सबसे पहले, मेरी तारीफ। सभी के लिए आँकड़ों से जूझना मुश्किल है (मैं एक चिकित्सक हूं, इसलिए आप अनुमान लगा सकते हैं कि यह मेरे लिए कितना कठिन है) ...

मैं रेखीय प्रतिगमन के लिए एक दृश्य स्पष्टीकरण का प्रस्ताव नहीं कर सकता , लेकिन कुछ बहुत करीब: रैखिक प्रतिगमन के लिए एक स्पर्शपूर्ण स्पष्टीकरण

कल्पना कीजिए कि आप एक दरवाजे से एक कमरे में प्रवेश कर रहे हैं। कमरा कमोबेश एक वर्ग आकार में है, और दरवाजा निचले बाएं कोने में है। आप अगले कमरे में जाना चाहते हैं, जिसके दरवाजे से आपको उम्मीद है कि वह ऊपरी दाएं कोने में होगा, कम या ज्यादा। कल्पना कीजिए कि आप यह नहीं बता सकते कि अगला दरवाजा कहाँ है (कभी!), लेकिन वहाँ कुछ लोग कमरे में बिखरे हुए हैं, और वे आपको बता सकते हैं कि कौन से रास्ते पर जाना था। वे या तो नहीं देख सकते हैं, लेकिन वे आपको बता सकते हैं कि उनके करीब क्या है। अंतिम रास्ता जिसे आप अगले दरवाजे तक पहुंचाने के लिए लेंगे, इस लोगों द्वारा निर्देशित, एक प्रतिगमन लाइन के अनुरूप है, जो इन लोगों के बीच की दूरी को कम करता है, और आपको सही रास्ते पर (यदि नहीं) के करीब, दरवाजे की ओर लाता है।


1
(+1) मुझे आपका उदाहरण बहुत पसंद है और यह मज़ेदार है कि शुद्ध संयोग से हमने इस समस्या के लिए बहुत समान चित्रण का उपयोग किया है!
टिम

"कमरा कम या ज्यादा एक वर्ग आकार में है" - अंधे लोगों के लिए वर्ग क्या है? इस वाक्य के साथ आप हमें उस स्थान पर वापस लाएंगे जहाँ से हम शुरू करेंगे।
अक्कल

4
मैं सहमत नहीं हूँ। उन्हें एक दिशा में 10 फीट चलने दें, फिर उन्हें 90 ° (जैसे कि एक आर्सेपैन) मोड़ दें और उन्हें फिर से 10 फीट चलने दें। यदि आप ठीक से नहीं देख सकते हैं तो यह एक वर्ग है।
जो_ 74४

@ GiuseppeBiondi-Zoccai, अगर मैं तापमान पर कक्ष में दबाव का एक मॉडल बना रहा हूं, तो मुझे वर्गों और लाइनों और अन्य स्थानिक अवधारणाओं को लाने की आवश्यकता क्यों होगी? यदि आप अंधे नहीं हैं तो यह निश्चित रूप से सुविधाजनक है, लेकिन एक नेत्रहीन व्यक्ति के लिए ये स्थानिक उपमाएँ हाथ में समस्या के लिए मेज पर कुछ भी नहीं लाती हैं, वे केवल प्रदर्शनी को जटिल करते हैं
अक्षल

2
फिर, मैं विनम्रता से असहमत हूं ... मेरी धारणा हमेशा से रही है कि नेत्रहीन लोगों ने विशेष रूप से स्पर्श संबंधी स्थानिक कौशल विकसित किए हैं। वैसे भी, कोई भी उदाहरण जो काम करता है वह ठीक है, और अधिक मर्जर।
जो_ 74४

3

YX

Y=β0+β1X+ε

β0yx

इसे स्पष्ट करने के लिए, इस उदाहरण को और भी सरल बनाने देता है - जैसा कि गेलमैन और पार्क ने किया था। उनके द्वारा प्रस्तावित सरलीकरण को विभाजित करने के लिए हैXचर, यानी घर का क्षेत्र, तीन समूहों में: "छोटा", "मध्यम", और "बड़ा" घर (वे वर्णन करते हैं कि इस तरह का निर्णय कैसे किया जाए, लेकिन यह कम महत्व का है)। अगला, "छोटे" घर के औसत आकार और "बड़े" घर के औसत आकार की गणना करें। "छोटे" घर और "बड़े" एक की औसत कीमत की भी गणना करें। अब, अपने डेटा को दो बिंदुओं पर कम करें - अंतरिक्ष में बिखरे हुए छोटे और बड़े घरों के लिए डेटा पॉइंट्स के बादलों के केंद्र और "डेटा" के बारे में सभी डेटा पॉइंट्स को हटा दें। आपको दो-आयामी स्थान में दो बिंदुओं के साथ छोड़ दिया जाता है। प्रतिगमन रेखा वह रेखा है जो बिंदुओं को जोड़ती है - आप इसे एक बिंदु से दूसरे बिंदु तक एक दिशा के रूप में सोच सकते हैं। β1

ऐसा ही तब होता है जब हमारे पास अधिक बिंदु होते हैं, अंतरिक्ष में चारों ओर बिखरे हुए होते हैं: प्रतिगमन रेखा हर बिंदु पर वर्ग दूरी को कम करके उसका रास्ता ढूंढ लेती है। तो लाइन अंतरिक्ष में बिखरे हुए बिंदुओं के बादल के केंद्र से होकर गुजर रही है। दो बिंदुओं को जोड़ने के बजाय, आप इसे ऐसे केंद्रीय बिंदुओं की असीमित संख्या को जोड़ने के बारे में सोच सकते हैं।


जेलमैन, ए।, और पार्क, डीके (2012)। अपर क्वार्टर या थर्ड और लोअर क्वॉर्टर या थर्ड में एक प्रेडिक्टर को विभाजित करना। द अमेरिकन स्टेटिस्टिशियन, 62 (4), 1-8।


3

छोटा जवाब हां है। सभी बिंदुओं के मध्य में कौन सी रेखा सबसे अच्छी जाती है जिसमें संपूर्ण या सिर्फ एक हवाई जहाज या भाला की सतह शामिल होती है? इसे बनाओ; अपने सिर में या एक तस्वीर पर। आप उस एकांत रेखा की तलाश कर रहे हैं, जिसमें से प्रत्येक बिंदु (ब्याज की, चाहे आप उन्हें प्लॉट करें या न करें) जो उस रेखा से कुल कम से कम (अंकों के बीच) विचलन में योगदान करेंगे। यदि आप इसे सामान्य अर्थों के अनुसार, आँख से करते हैं, तो आप गणितीय रूप से गणना किए गए परिणाम का अनुमान लगा सकते हैं। उसके लिए सूत्र हैं जो आंख को परेशान करते हैं और सामान्य ज्ञान नहीं हो सकता है। इंजीनियरिंग और विज्ञान में समान औपचारिक समस्याओं में, स्कैटर अभी भी आंख से प्रारंभिक मूल्यांकन को आमंत्रित करते हैं, लेकिन उन एरेनास में एक "परीक्षण" संभावना के साथ आने वाला है कि एक रेखा रेखा है। यह वहां से ढलान पर जाता है। हालाँकि, आप जाहिरा तौर पर (प्रभाव में) एक मशीन को पढ़ाने की कोशिश कर रहे हैं (a) एक बड़े आकार का बर्नीयर और (b) उसके अंदर बिखरे पशुधन। यदि आप अपनी मशीन देते हैं कि अचल संपत्ति और रहने वालों की एक तस्वीर (चित्रमय, बीजगणितीय) कितनी मात्रा में है, तो यह पता लगाने में सक्षम होना चाहिए (मध्य रेखा को बड़े करीने से दो में बूँद को विभाजित करना, एक पंक्ति में अवरोही गणना) आपको क्या करना है। किसी भी सभ्य सांख्यिकी पाठ्यपुस्तक (शिक्षकों या प्रोफेसरों को एक से अधिक नाम पूछने के लिए) को पहले स्थान पर रैखिक प्रतिगमन के पूरे बिंदु को समझना चाहिए, और इसे सरलतम मामलों में कैसे करना है (उन मामलों को लेकर जो सरल नहीं हैं)। बाद में प्रेट्ज़ेल की एक संख्या, आप इसे पैट होगा। यदि आप अपनी मशीन देते हैं कि अचल संपत्ति और रहने वालों की एक तस्वीर (चित्रमय, बीजगणितीय) कितनी मात्रा में है, तो यह पता लगाने में सक्षम होना चाहिए (मध्य रेखा को बड़े करीने से दो में बूँद को विभाजित करना, एक पंक्ति में अवरोही गणना) आपको क्या करना है। किसी भी सभ्य सांख्यिकी पाठ्यपुस्तक (शिक्षकों या प्रोफेसरों को एक से अधिक नाम पूछने के लिए) को पहले स्थान पर रैखिक प्रतिगमन के पूरे बिंदु को समझना चाहिए, और इसे सरलतम मामलों में कैसे करना है (उन मामलों को लेकर जो सरल नहीं हैं)। बाद में प्रेट्ज़ेल की एक संख्या, आप इसे पैट होगा। यदि आप अपनी मशीन देते हैं कि अचल संपत्ति और रहने वालों की एक तस्वीर (चित्रमय, बीजगणितीय) कितनी मात्रा में है, तो यह पता लगाने में सक्षम होना चाहिए (मध्य रेखा को बड़े करीने से दो में बूँद को विभाजित करना, एक पंक्ति में अवरोही गणना) आपको क्या करना है। किसी भी सभ्य सांख्यिकी पाठ्यपुस्तक (शिक्षकों या प्रोफेसरों को एक से अधिक नाम पूछने के लिए) को पहले स्थान पर रैखिक प्रतिगमन के पूरे बिंदु को समझना चाहिए, और इसे सरलतम मामलों में कैसे करना है (उन मामलों को लेकर जो सरल नहीं हैं)। बाद में प्रेट्ज़ेल की एक संख्या, आप इसे पैट होगा। किसी भी सभ्य सांख्यिकी पाठ्यपुस्तक (शिक्षकों या प्रोफेसरों को एक से अधिक नाम पूछने के लिए) को पहले स्थान पर रैखिक प्रतिगमन के पूरे बिंदु को समझना चाहिए, और इसे सरलतम मामलों में कैसे करना है (उन मामलों को लेकर जो सरल नहीं हैं)। बाद में प्रेट्ज़ेल की एक संख्या, आप इसे पैट होगा। किसी भी सभ्य सांख्यिकी पाठ्यपुस्तक (शिक्षकों या प्रोफेसरों को एक से अधिक नाम पूछने के लिए) को पहले स्थान पर रैखिक प्रतिगमन के पूरे बिंदु को समझना चाहिए, और इसे सरलतम मामलों में कैसे करना है (उन मामलों को लेकर जो सरल नहीं हैं)। बाद में प्रेट्ज़ेल की एक संख्या, आप इसे पैट होगा।


पुनः में: सिल्वरफ़िश की मेरी पोस्ट सुप्रा की टिप्पणी (उस टिप्पणी में टिप्पणी जोड़ने के लिए इसके अलावा कोई सरल तरीका नहीं लगता है), हां, ओपी अंधा है, मशीन लर्निंग सीख रहा है, और प्लॉट या ग्राफ़ के बिना व्यावहारिकता का अनुरोध किया है, लेकिन मुझे लगता है कि वह "दृष्टि" से "विज़ुअलाइज़िंग" को भेद करने में सक्षम है, कल्पना करता है और उसके सिर में सत्य चित्र हैं, और उसके चारों ओर की वस्तुओं में भौतिक के सभी तरीकों का एक मूल विचार है (घरों में, दूसरों के बीच), इसलिए वह अभी भी हो सकता है " "गणितीय रूप से और साथ ही उसके सिर में दोनों को आकर्षित करें, और संभवतः कागज पर 2 डी और 3 डी का एक अच्छा सादृश्य डाल सकते हैं। आजकल पुस्तकों और अन्य ग्रंथों की एक विस्तृत श्रृंखला भौतिक ब्रेल के साथ-साथ किसी के स्वयं के कंप्यूटर (जैसे मंचों, शब्दकोशों, आदि) पर इलेक्ट्रॉनिक आवाज़ में उपलब्ध है। और अंधे के लिए कई स्कूलों में काफी पूर्ण पाठ्यक्रम है। हवाई जहाज या भाला के बजाय, सोफा या बेंत जरूरी अधिक उपयुक्त नहीं होगा, और सांख्यिकी ग्रंथ शायद उपलब्ध हैं। वह इस बात से कम चिंतित है कि मशीनें कैसे प्लॉट और ग्राफ़ सीख सकती हैं या प्रतिगमन की गणना कर सकती हैं, फिर कैसे प्रतिगमन को समझने के लिए मशीनें कुछ समतुल्य (और अधिक बुनियादी) करना सीख सकती हैं (क्या कोई मशीन इसे प्रदर्शित कर सकती है, इस पर प्रतिक्रिया करें, इसका अनुसरण करें) इसे, इससे बचें, या जो भी हो)। आवश्यक जोर (दृष्टिहीन और साथ ही दृष्टिहीन छात्रों के लिए) अभी भी कल्पना करना है कि गैर-विज़ुअल क्या हो सकता है (जैसे कि यूक्लिड और पाइथागोरस से पहले, लाइन के उदाहरण के बजाय रेखीयता की अवधारणा के रूप में), और कैसे कल्पना करना है एक विशेष प्रकार की रैखिकता (प्रतिगमन, जिसका मूल बिंदु कम से कम विचलन के लिए सबसे उपयुक्त है, का मूल उद्देश्य गणित और सांख्यिकी में प्रारंभिक)। प्रतिगमन की एक लाइनप्रिंटर फोरट्रान आउटपुट मानसिक रूप से आत्मसात करने तक "दृश्य" है, लेकिन यहां तक ​​कि प्रतिगमन का मूल बिंदु काल्पनिक है (एक पंक्ति जो तब तक नहीं है जब तक कि यह एक उद्देश्य के लिए नहीं किया जाता है)।


2
शायद मैं इस उत्तर को गलत समझ रहा हूं, लेकिन "इसे अपने सिर में या एक चित्र पर खींचो" लगता है कि सवाल का कुछ हद तक याद आता है: मूल प्रश्न किसी ऐसे व्यक्ति द्वारा प्रस्तुत किया जाता है जो पूरी तरह से अंधा है, और इसलिए एक गैर की तलाश कर रहा है प्रतिगमन दृष्टिकोण का दृश्य तरीका।
सिल्वरफिश

@ सिल्वरफ़िश रिस्पांस (एक टिप्पणी के लिए बहुत लंबा) ऊपर दिए गए उत्तर में संपादित किया गया है

धन्यवाद। मैंने सोचा था कि डाउनवोट थोड़ा कठोर था (यह मैं नहीं था) लेकिन इस उत्तर में भाषा के कुछ विकल्प दुर्भाग्यपूर्ण थे (उदाहरण के लिए "आंख के द्वारा" चीजों को करने के कई संदर्भ हैं)। फिर भी, मैं समझ सकता हूं कि आप दृश्य धारणा के बीच अंतर क्यों करना चाहते हैं और "मन की आंख" के माध्यम से क्या कल्पना की जा सकती है।
सिल्वरफिश

2
मैं अपने दिमाग में चीजों की कल्पना कर सकता हूं। यह सिर्फ इतना है कि मैं विज़ुअलाइज़ेशन के समान तरीकों का उपयोग नहीं करता हूं। यह उपयोग नहीं करने drawया नहीं की बात नहीं है visualize। यह विज़ुअलाइज़ेशन को प्राप्त करने के लिए अवधारणा के उपयोग की बात है, बजाय अन्य तरीके के। मैंने पाया है कि यह गणित में बहुत सारी जगहों पर होता है। एक कठिन विषय की व्याख्या करने के लिए, आमतौर पर आकृतियों और चित्रों का उपयोग किया जाता है, न कि गणना से संबंधित अवधारणाओं के बारे में जिन्हें सीखने वाला वास्तविक जीवन से जानता होगा।
परम डौस्तदार

3

कारण है कि भूखंडों को सार्वभौमिक रूप से सरल प्रतिगमन का परिचय देने के लिए उपयोग किया जाता है - एक प्रतिक्रिया जो एक एकल भविष्यवक्ता द्वारा भविष्यवाणी की जाती है - यह है कि वे समझने में सहायता करते हैं।

हालांकि, मुझे विश्वास है कि मैं कुछ स्वाद दे सकता हूं जो समझने में सहायता कर सकता है कि क्या हो रहा है। इसमें मैं ज्यादातर उन कुछ समझ को व्यक्त करने की कोशिश पर ध्यान केंद्रित करूँगा, जो वे देते हैं, जो कुछ अन्य पहलुओं के साथ मदद कर सकता है जो आप आमतौर पर प्रतिगमन को पढ़ने में सामना करेंगे। तो यह उत्तर मुख्य रूप से आपके पोस्ट के एक विशेष पहलू से निपटेगा।

कल्पना कीजिए कि आप एक बड़े आयताकार टेबल से पहले बैठे हैं जैसे कि एक सादा कार्यालय डेस्क, एक पूर्ण हाथ-स्पैन लंबा (शायद 1.8 मीटर), शायद आधा चौड़ा।

आपको सामान्य स्थिति में एक लंबी साइड के बीच में टेबल से पहले बैठाया जाता है। इस तालिका में बड़ी संख्या में नाखून (काफी चिकने सिर के साथ) को शीर्ष सतह पर इस तरह से बांधा गया है कि प्रत्येक एक छोटे तरीके से ऊपर (जहां वे महसूस करने के लिए पर्याप्त हैं, और उन्हें एक स्ट्रिंग टाई करने के लिए या रबर बैंड संलग्न करने के लिए पर्याप्त है) )।

ये कीलें आपके डेस्क के किनारे से अलग-अलग दूरी पर हैं, इस तरह से कि एक छोर की ओर (बाएं छोर से कहें) वे आम तौर पर डेस्क के आपके किनारे के करीब होते हैं और फिर जैसे ही आप दूसरे छोर की ओर बढ़ते हैं, नाखून-सिर अपने किनारे से और दूर हो जाते हैं।

इसके अलावा कल्पना कीजिए कि आपके किनारे से किसी भी स्थिति में आपके किनारे से नाखून औसत से कितनी दूर हैं, यह समझ में आना उपयोगी होगा।

डेस्क के अपने किनारे के साथ कुछ जगह चुनें और अपना हाथ वहाँ रखें, फिर सीधे टेबल के पार पहुँचें, धीरे से अपने हाथ को सीधे अपनी ओर खींचते हुए, फिर दूर, फिर से अपने हाथ को नाखून के सिर के ऊपर और पीछे ले जाएँ। आप इन नाखूनों से कई दर्जन धक्कों का सामना करते हैं - आपके हाथ की उस संकीर्ण चौड़ाई के भीतर (जैसा कि यह आपके किनारे से सीधे दूर जाता है, डेस्क के बाएं छोर से निरंतर दूरी पर), एक खंड, या पट्टी, लगभग दस सेंटीमीटर चौड़ा ।

विचार यह है कि उस छोटे खंड में डेस्क के अपने किनारे से एक नाखून के लिए कुछ औसत दूरी का पता लगाना है। सहज रूप से यह सिर्फ उन धक्कों के बीच का हिस्सा है जो हमने मारा, लेकिन अगर हमने डेस्क के उस हाथ-चौड़ाई वाले हिस्से में प्रत्येक दूरी-से-एक कील को मापा, तो हम उन औसत को आसानी से गणना कर सकते हैं।

उदाहरण के लिए, हम एक टी-स्क्वायर का उपयोग कर सकते हैं, जिसका सिर स्लाइड के किनारे पर होता है और जिसका शाफ़्ट डेस्क के दूसरी तरफ चलता है, लेकिन डेस्क के ठीक ऊपर इसलिए हम नाखूनों को नहीं मारते हैं क्योंकि यह बाईं ओर स्लाइड करता है या दाईं ओर - जैसा कि हम किसी दिए गए नाखून को पास करते हैं हम टी-स्क्वायर के शाफ्ट के साथ इसकी दूरी प्राप्त कर सकते हैं।

इसलिए हमारे किनारे के साथ स्थानों की प्रगति पर हम एक हाथ की चौड़ाई की पट्टी में सभी नाखूनों को खोजने की ओर और हमसे दूर जाने और उनकी औसत दूरी का पता लगाने के इस अभ्यास को दोहराते हैं। शायद हम डेस्क को अपने किनारे के साथ हाथ-चौड़ाई की स्ट्रिप्स में विभाजित करते हैं (इसलिए हर कील का एक पट्टी में सामना होता है)।

अब कल्पना करें कि ऐसी 21 स्ट्रिप्स थीं, पहली बाएं किनारे पर और आखिरी दाएं किनारे पर। जब हम स्ट्रिप्स में आगे बढ़ते हैं तो साधन हमारे डेस्क-किनारे से और दूर हो जाते हैं।

इनका मतलब है x (हमारे दूरी-दूर) दिए गए x (बाएं छोर से हमारे किनारे के साथ दूरी) की प्रत्याशा का एक सरल गैर-सममितीय प्रतिगमन अनुमानक, अर्थात, (y | x)। विशेष रूप से, यह एक द्विपदीय गैर-सममितीय प्रतिगमन अनुमानक है, जिसे एक प्रतिगामी भी कहा जाता है

यदि उन पट्टी के साधनों में नियमित रूप से वृद्धि हुई है - अर्थात, आम तौर पर समान मात्रा-प्रति-पट्टी के बारे में वृद्धि हो रही थी जैसा कि हम स्ट्रिप्स के पार चले गए - तब हम अपने प्रतिगमन फ़ंक्शन का अनुमान लगाकर बेहतर अनुमान लगा सकते हैं कि y का अपेक्षित मान एक रैखिक था x का कार्य - यानि कि x दिया गया y का अपेक्षित मान एक स्थिर और एक से अधिक x है। यहाँ निरंतर का प्रतिनिधित्व करता है जहाँ नाखून तब होते हैं जब हम x पर शून्य होते हैं (अक्सर हम इसे अत्यधिक बाएं किनारे पर रख सकते हैं, लेकिन यह होना आवश्यक नहीं है), और x के विशेष एकाधिक औसत औसत पर कितनी तेजी से हो रहे हैं जैसे-जैसे हम एक सेंटीमीटर (कहते हैं) दाईं ओर बढ़ते हैं।

लेकिन इस तरह के एक रैखिक फ़ंक्शन को कैसे ढूंढें?

कल्पना करें कि हम प्रत्येक कील-सिर पर एक रबर बैंड को लूप करते हैं, और प्रत्येक को एक लंबी पतली छड़ी से जोड़ते हैं जो डेस्क के ठीक ऊपर, नाखूनों के ऊपर, ताकि यह प्रत्येक पट्टी के "मध्य" के पास कहीं रहता है। के लिये।

हम बैंडों को इस तरह से जोड़ते हैं कि वे केवल दिशा में और हमारी ओर (बाएं या दाएं से नहीं) से दूर की ओर खींचते हैं - खुद के लिए छोड़ दिया जाता है ताकि वे छड़ी के साथ एक समकोण पर खिंचाव की अपनी दिशा बनाने के लिए लेकिन यहां हम इसे रोकते हैं, ताकि उनकी दिशा केवल डेस्क के हमारे किनारे से दूर या दूर की दिशा में बनी रहे। अब हम छड़ी को व्यवस्थित करते हैं क्योंकि बैंड इसे प्रत्येक नाखून की ओर खींचते हैं, अधिक दूर के नाखूनों के साथ (अधिक खींचे हुए रबर बैंड के साथ) छड़ी के करीब के नाखूनों की तुलना में अधिक कठिन खींचते हैं।

फिर स्टिक पर खींचे गए सभी बैंडों का संयुक्त परिणाम (आदर्श रूप से, कम से कम) स्ट्रेच किए गए रबर बैंडों की वर्ग लंबाई के योग को कम करने के लिए स्टिक खींचना होगा; उस दिशा में सीधे टेबल के पार टेबल के हमारे किनारे से किसी भी एक्स पोजीशन पर स्टिक की दूरी हमारे द्वारा दिए गए y के अपेक्षित मान का हमारा अनुमान होगी।

यह अनिवार्य रूप से एक रेखीय प्रतिगमन अनुमान है।

अब, कल्पना करें कि नाखूनों के बजाय, हमारे पास बड़े पेड़ से लटकते हुए कई फल (जैसे छोटे सेब शायद) हैं और हम जमीन के ऊपर फलों की औसत दूरी की तलाश करना चाहते हैं क्योंकि यह जमीन पर स्थिति के साथ बदलता रहता है। कल्पना कीजिए कि इस मामले में जमीन के ऊपर की ऊँचाई बड़ी हो जाती है क्योंकि हम आगे बढ़ते हैं और थोड़ा बड़ा होता है क्योंकि हम सही तरीके से आगे बढ़ते हैं, फिर से एक नियमित रूप से, इसलिए प्रत्येक चरण में आम तौर पर एक ही राशि के बारे में औसत ऊंचाई बदलती है, और प्रत्येक चरण के लिए दायें भी मोटे तौर पर स्थिर राशि से मतलब बदल जाएगा (लेकिन इस बदलाव की सही-सही मात्रा में परिवर्तन के कदम-आगे राशि के लिए अलग है)।

यदि हम यह जानने के लिए कि हम कितनी ऊंचाई तक आगे बढ़ते हैं या दाईं ओर कदम बढ़ाते हैं, तो यह जानने के लिए कि फलों से पतली ऊर्ध्वाधर शीट (शायद बहुत कड़ी प्लास्टिक की पतली शीट) में वर्गीय ऊर्ध्वाधर दूरी की राशि कम से कम हो। एक रेखीय प्रतिगमन दो भविष्यवक्ताओं के साथ - एक एकाधिक प्रतिगमन।

ये केवल दो मामले हैं जो प्लॉट को समझने में मदद कर सकते हैं (वे तेजी से दिखा सकते हैं कि मैंने अभी क्या लंबाई में वर्णित किया है, लेकिन उम्मीद है कि आपको पता है कि एक आधार है, जिसमें समान विचारों की अवधारणा करना है)। उन सरलतम दो मामलों से परे, हम केवल गणित के साथ रह गए हैं।

अब अपने घर की कीमत का उदाहरण लें; आप डेस्क के अपने किनारे के साथ दूरी से हर घर के क्षेत्र का प्रतिनिधित्व कर सकते हैं - सबसे बड़े घर के आकार को दाहिने किनारे के पास स्थिति के रूप में दर्शाते हैं, हर दूसरे घर का आकार बाईं ओर कुछ आगे होगा जहां एक निश्चित संख्या में सेंटीमीटर कुछ का प्रतिनिधित्व करेंगे वर्ग मीटर की संख्या। अब दूरी दूर बिक्री मूल्य का प्रतिनिधित्व करती है। डेस्क के सबसे दूर के किनारे के रूप में कुछ विशेष दूरी के रूप में सबसे महंगे घर का प्रतिनिधित्व करें (हमेशा की तरह, आपकी कुर्सी से किनारा सबसे दूर), और दूर स्थानांतरित हर सेंटीमीटर कुछ संख्या में Rials का प्रतिनिधित्व करेगा।

वर्तमान कल्पना के लिए कि हमने प्रतिनिधित्व को चुना ताकि डेस्क के बाएं किनारे शून्य के एक घर के क्षेत्र से मेल खाते हों और पास के किनारे 0. के घर की कीमत के साथ। हम फिर प्रत्येक घर के लिए एक कील में डालते हैं।

हमारे किनारे के बाएं छोर के पास शायद हमारे पास कोई नाखून नहीं होगा (वे ज्यादातर दाईं ओर और हमसे दूर हो सकते हैं) क्योंकि यह जरूरी पैमाने का एक अच्छा विकल्प नहीं है, लेकिन एक नो-इंटरसेप्ट मॉडल की आपकी पसंद इसे बनाती है इस पर चर्चा करने का एक बेहतर तरीका।

अब आपके मॉडल में आप छड़ी को मेज के पास के किनारे के बाएं कोने में एक लूप ऑफ स्ट्रिंग से गुजरने के लिए मजबूर करते हैं - इस प्रकार फिट किए गए मॉडल को क्षेत्र शून्य के लिए मूल्य शून्य होने के लिए मजबूर करता है, जो स्वाभाविक लग सकता है - लेकिन कल्पना करें कि क्या हैं मूल्य के कुछ काफी निरंतर घटकों ने हर बिक्री को प्रभावित किया। तब यह अंतर को शून्य से अलग रखने के लिए समझ में आता है।

किसी भी मामले में, उस लूप को शामिल करने के साथ, पहले की तरह ही रबर-बैंड व्यायाम लाइन के हमारे कम से कम वर्गों का अनुमान लगाएगा।


वाह, इस लंबे स्थानिक जवाब के लिए धन्यवाद। इसने बहुत समझाया। धन्यवाद।
परम डौस्तदार

2

क्या आपने होटलों में अक्सर टोस्टर का सामना किया है। आप एक छोर पर एक कन्वेयर बेल्ट पर रोटी डालते हैं और यह दूसरे पर टोस्ट के रूप में निकलता है। दुर्भाग्य से, इस सस्ते होटल में टोस्टर में, हीटर सभी को यादृच्छिक ऊँचाइयों और प्रवेश द्वार से टोस्टर की दूरी पर स्थानांतरित कर दिया गया है। आप हीटर को स्थानांतरित नहीं कर सकते हैं या बेल्ट के मार्ग को मोड़ सकते हैं (जो सीधा है, वैसे (यह जहां रैखिक बिट आता है), लेकिन आप बेल्ट के ऊँचाई और टाइल को बदल सकते हैं।

सभी हीटरों की स्थिति को देखते हुए, रैखिक प्रतिगमन आपको बेल्ट को जगह देने के लिए सही ऊँचाई और कोण बताएगा ताकि समग्र गर्मी प्राप्त हो सके। ऐसा इसलिए है क्योंकि रेखीय प्रतिगमन टोस्ट और हीटर के बीच औसत दूरी को कम कर देगा।

मेरी पहली छुट्टी का काम हाथ से रेखीय प्रतिगमन कर रहा था। जिस आदमी ने कहा कि तुम ऐसा नहीं करना चाहते वह सही है !!!


2

रेखीय प्रतिगमन की मेरी पसंदीदा व्याख्या ज्यामितीय है, लेकिन दृश्य नहीं। यह डेटा को उच्च-आयामी अंतरिक्ष में एकल बिंदु के रूप में मानता है, बल्कि इसे दो-आयामी अंतरिक्ष में बिंदुओं के बादल में तोड़ने के बजाय।

ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ

DM(ρ,β)D

DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.
दूसरे शब्दों में, डेटा बिंदु और मॉडल बिंदु के बीच की दूरी मॉडल की कुल चुकता त्रुटि है! किसी मॉडल की कुल चुकता त्रुटि को कम करना, डेटा स्पेस में मॉडल और डेटा के बीच की दूरी को कम करने के समान है।

ρβDM(ρ,β)


1

@ क्रिस Rackauckas और @ EDM के जवाब हाजिर हैं। सरल रेखीय प्रतिगमन के पास पहुंचने के कई तरीके हैं जिन्हें सामान्य से कम से कम वर्गों के आकलन की साजिश या दृश्य स्पष्टीकरण की आवश्यकता नहीं है, और वे बहुत ठोस स्पष्टीकरण देते हैं कि वास्तव में ओएलएस चलने पर क्या होता है।

मैं किसी भी प्रकार की नई मॉडलिंग प्रक्रिया को सीखने के लिए एक निर्देश उपकरण के रूप में स्कैल्पप्लॉट्स का उपयोग कर सकता हूं, चाहे वह पुराने स्कूल पैरामीट्रिक मॉडल, उन्नत मशीन सीखने का सामान, या बायेसियन एल्गोरिदम हो, रेखांकन उस समय को काटने में मदद कर सकता है जो सीखने में लगता है कि कोई विशेष क्या है एल्गोरिथ्म करता है।

जब आप पहली बार एक नए डेटासेट के साथ काम करना शुरू कर रहे हैं, तो खोजपूर्ण डेटा विश्लेषण के लिए रेखांकन भी बहुत महत्वपूर्ण है। मेरे पास ऐसी परिस्थितियां हैं जहां मैंने बहुत सारे डेटा एकत्र किए, सिद्धांत का काम किया, ध्यान से अपने मॉडल की योजना बनाई, और फिर इसे चलाया, केवल उन परिणामों के साथ समाप्त करने के लिए, जिनमें अनिवार्य रूप से कोई पूर्वानुमानित शक्ति नहीं थी। द्विवार्षिक संबंधों को प्लॉट करना कुछ अनुमान लगा सकता है: आपके उदाहरण में, यह संभव है कि घर की कीमत क्षेत्र से रैखिक रूप से संबंधित हो, लेकिन शायद संबंध रैखिक नहीं है। स्कैटरप्लॉट आपको यह तय करने में मदद करते हैं कि आपको अपने रिग्रेशन में उच्च क्रम की शर्तों की आवश्यकता है, या यदि आप रैखिक प्रतिगमन की तुलना में एक अलग विधि का उपयोग करना चाहते हैं, या यदि आप किसी प्रकार के गैर-पैरामीट्रिक विधि का उपयोग करना चाहते हैं।


1

Google Anscombe चौकड़ी के लिए।

यह डेटा के 4 सेट दिखाता है जो संख्यात्मक रूप से निरीक्षण करने पर बहुत अंतर नहीं दिखाता है।

हालांकि, एक दृश्य तितर बितर भूखंड बनाने पर, मतभेद नाटकीय रूप से दिखाई देते हैं।

यह एक बहुत ही स्पष्ट दृष्टिकोण देता है कि आपको हमेशा अपने डेटा, प्रतिगमन या नो रिग्रेशन की साजिश क्यों करनी चाहिए :-)


0

हम एक ऐसा समाधान चाहते हैं जो अनुमानित और वास्तविक मूल्यों के बीच अंतर को कम करता हो।

y=bx+a

yy

यदि हम मानते हैं कि त्रुटियों का वितरण सामान्य रूप से वितरित किया जाता है, तो यह पता चलता है कि इस न्यूनतम समस्या का एक विश्लेषणात्मक समाधान है। अंतर के वर्गों का योग सबसे अच्छा फिट के लिए न्यूनतम करने के लिए सबसे अच्छा मूल्य है। लेकिन सामान्य स्थिति में सामान्यता की आवश्यकता नहीं है।

यह वास्तव में बहुत अधिक नहीं है।

y=bx+a

आजकल इसे समझ की मदद के रूप में अधिक छोड़ दिया गया है, लेकिन वास्तव में रैखिक प्रतिगमन को समझने के लिए आवश्यक नहीं है।

EDIT: त्रुटियों की सामान्यता को एक सही लेकिन कम संक्षिप्त सूची के साथ बदल दिया। सामान्यता को एक विश्लेषणात्मक समाधान की आवश्यकता थी और इसे कई व्यावहारिक मामलों के लिए माना जा सकता है और उस मामले में वर्गों का योग न केवल रैखिक अनुमानक के लिए इष्टतम है और साथ ही संभावना को अधिकतम करता है।

यदि आगे त्रुटि वितरण की सामान्यता की धारणा है, तो वर्गों का योग रैखिक और गैर-रैखिक दोनों अनुमानकों के बीच इष्टतम है और संभावना को अधिकतम कर रहा है।


1
सामान्य वितरण धारणा कुछ भी लिए आवश्यक नहीं है आप का वर्णन किया
Aksakal

Pls इस स्पष्टीकरण की जांच stats.stackexchange.com/a/1516/98469
डिएगो

लिंक का आपके जवाब से कोई लेना-देना नहीं है। यदि आपने छोटे नमूना गुणों या MLE में विस्तार किया है, तो आप सामान्य वितरण धारणा में ला सकते हैं, लेकिन जैसा कि आपके उत्तर में OLS विवरण है, सामान्य वितरण की आवश्यकता नहीं है। वास्तव में वर्गों की न्यूनतम राशि के लिए आपको किसी भी वितरण या आंकड़ों की आवश्यकता नहीं है। यह शुद्ध बीजगणित है।
अक्कल

मुद्दा यह है कि हम वर्गों का योग न्यूनतम क्यों कर रहे हैं और कुछ अन्य मीट्रिक नहीं। वर्गों के योग को कम करने के बारे में नहीं।
डिएगो

वर्गों को न्यूनतम करने का सामान्य वितरण से कोई लेना-देना नहीं है। यह सिर्फ आपका नुकसान कार्य है। इस नुकसान फ़ंक्शन के साथ किसी अन्य त्रुटि वितरण का उपयोग किया जा सकता है। आपको कुछ मामलों में वितरण की आवश्यकता है, उदाहरण के लिए यदि आप छोटे नमूनों आदि में पैरामीटर मानों के बारे में अनुमान लगाना चाहते हैं। इस मामले में भी आप अन्य वितरणों का उपयोग कर सकते हैं, मुझे यकीन नहीं है कि आप सामान्य पर क्यों अटके हुए हैं।
अक्कल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.