रैखिक प्रतिगमन में रैखिक क्या है?


11

आर में, अगर मैं लिखता हूं

lm(a ~ b + c + b*c) 

क्या यह अभी भी एक रेखीय प्रतिगमन होगा?

आर में अन्य प्रकार के प्रतिगमन कैसे करें? मैं पाठ्यपुस्तकों या ट्यूटोरियल के लिए किसी भी सिफारिश की सराहना करूंगा?


मैंने आपके प्रश्न को थोड़ा सा वापस करने की कोशिश की। मुझे डर है कि ऐसा लगता है कि आप दो बहुत अलग सवाल पूछ रहे हैं। दूसरे के लिए, इस साइट पर बहुत सारे संसाधन उपलब्ध हैं, लेकिन सीआरएएन पर भी ।
CHL

@chl, yeap, धन्यवाद, मैं स्पष्ट नहीं था। मेरे प्रश्न वास्तव में यह हैं: यदि मैं आरएम में एलएम लिखता हूं तो क्या आर इसे हमेशा रैखिक या किसी भी मॉडल को फिट करने की कोशिश करता है, जरूरी नहीं कि रैखिक प्रतिगमन लेकिन कोई प्रतिगमन?
२०:०२ पर सुपरवीस

नहीं, lm()एक रेखीय प्रतिगमन के लिए खड़ा है। अपने मॉडल के लिए तीन मापदंडों (ऋण अवरोधन) भी शामिल है b, cऔर उनकी बातचीत b:cहै, जो के लिए खड़ा है b + c + b:cया b*c(आर सांख्यिकीय मॉडल के लिए विल्किनसन के संकेतन इस प्रकार) कम करने के लिए। सामान्यीकृत रैखिक मॉडल (अर्थात, जहां लिंक फ़ंक्शन की पहचान नहीं है, जैसा कि ऊपर व्यक्त रैखिक मॉडल के लिए मामला है) के माध्यम से अनुरोध किया गया है glm()
CHL

जवाबों:


24

रैखिक (जैसे, मानकों के बीच संबंध है कि आप का आकलन कर रहे हैं को संदर्भित करता है ) और परिणाम (जैसे, y मैं )। इसलिए, y = एक्स β + ε है रैखिक है, लेकिन y = β एक्स + ε नहीं है। एक रेखीय मॉडल का मतलब है कि आपके पैरामीटर वेक्टर के अपने अनुमान लिखा जा सकता है β = Σ मैं डब्ल्यू मैं y मैं , जहां { w मैं }βyमैंy=एक्सβ+εy=βएक्स+εβ^=Σमैंwमैंyमैं{wमैं}आपके अनुमान प्रक्रिया द्वारा निर्धारित वजन हैं। रैखिक मॉडल को बंद रूप में बीजगणितीय रूप से हल किया जा सकता है, जबकि कई गैर-रैखिक मॉडल को कंप्यूटर का उपयोग करके संख्यात्मक अधिकतमकरण द्वारा हल करने की आवश्यकता होती है।


6
+1 विशेष रूप से, "रैखिक मॉडल" में, आश्रित चर मापदंडों का एक रैखिक कार्य है, लेकिन डेटा की जरूरी नहीं है। y
whuber

पहले एक रैखिक है? वास्तव में - एक्स की शक्ति के लिए एक?
सुपरविसर

2
हाँ, क्योंकि ब्याज की मात्रा (एक आप के लिए अनुकूलित) नहीं है, लेकिन इसके बजाय β है। इस प्रकार, यह रेखीय है βxββ
बायरज

+1, लेकिन प्रश्न में सूत्र पर टिप्पणी करके इस उत्तर को बेहतर बनाया जा सकता है।
n

1
मैंने देखा, एक दूसरे पढ़ने पर, कि इस उत्तर का दूसरा भाग "रैखिक अनुमानक" के साथ "रैखिक मॉडल" को भ्रमित करता है। दो अवधारणाएँ अलग और अलग हैं। Nonlinear मॉडल में अक्सर रैखिक अनुमानक होते हैं और रैखिक मॉडल में nonlinear अनुमानक हो सकते हैं (उदाहरण के लिए GLM पर विचार करें)।
whuber

5

Minitab.com पर यह पोस्ट बहुत स्पष्ट विवरण प्रदान करती है:

  • एक मॉडल रैखिक है जब इसे इस प्रारूप में लिखा जा सकता है:
    • Response = constant + parameter * predictor + ... + parameter * predictor
      • यही है, जब प्रत्येक शब्द (मॉडल में) या तो एक निरंतर या एक पैरामीटर और भविष्यवक्ता चर का उत्पाद है।
    • तो ये दोनों रैखिक मॉडल हैं:
      • (यह एक सीधी रेखा है)Y=बी0+बी1एक्स1
      • (यह एक वक्र है)Y=बी0+बी1एक्स12
  • यदि मॉडल को उपरोक्त प्रारूप का उपयोग करके व्यक्त नहीं किया जा सकता है, तो यह गैर-रैखिक है।
    • गैर-रेखीय मॉडल के उदाहरण:
      • एक्स बी Y=बी0+एक्स1बी1
      • Y=बी0क्योंकि(बी1एक्स1)

4

मैं इसे "आर रैखिक प्रतिगमन" प्रश्न बनाम "रेखीय प्रतिगमन" प्रश्न के रूप में पूछने में सावधान रहूंगा। R में फ़ार्मुलों में ऐसे नियम होते हैं जिनके बारे में आप जानते हैं या नहीं हो सकते हैं। उदाहरण के लिए:

http://wiener.math.csi.cuny.edu/st/stRmanual/ModelFormula.html

मान लें कि आप पूछ रहे हैं कि निम्न समीकरण रैखिक है:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * (b*c))

उत्तर हाँ है, यदि आप एक नया स्वतंत्र चर इकट्ठा करते हैं जैसे:

newv = b * c

मूल समीकरण में उपरोक्त newv समीकरण को प्रतिस्थापित करने से संभवतः ऐसा लगता है कि आप एक रेखीय समीकरण के लिए क्या उम्मीद कर रहे हैं:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * newv)

जहाँ तक संदर्भ जाते हैं, Google "r प्रतिगमन", या जो कुछ भी आपको लगता है कि आपके लिए काम कर सकता है।


कुछ का नाम बदलने से यह रैखिक कैसे हो जाता है? मुझे समझ में नहीं आता है, अगर पहचान newv = b * c रखती है, तो यह रैखिक नहीं है। मैं उलझन में हूं।
बायरज

@ बायर: न्यूव एक नया वैरिएबल है। नया समीकरण तीन चर (b, c, newv) का एक रैखिक कार्य है, जहां गुणांक एक रैखिक संबंध प्रदान करते हैं। न तो समीकरण सिर्फ दो चर का एक रैखिक संयोजन है।
बिल_080

@ बायर ने @Charlie का जवाब देखें। वर्तमान उदाहरण में, दोनों मॉडल रैखिक हैं (आर उन्हें इस तरह से देखता है या नहीं) क्योंकि दोनों में aचार गुणांक का एक रैखिक कार्य है।
whuber

धन्यवाद, यह समझ में आता है ... क्या मैं डेटाबेस (चिकित्सा) में प्रत्येक मामले के लिए नए चर neww b * c जोड़ सकता हूं और फिर इसे रैखिक प्रतिगमन के रूप में मान सकता हूं?
20

2

आप रेखीय प्रतिगमन को एक (रैखिक) मैट्रिक्स समीकरण के रूप में लिख सकते हैं।

[a1a2a3a4a5...an]=[b1c1b1c1b2c2b2c2b3c3b3c3b4c4b4c4b5c5b5c5...bncnbncn]×[αbαcαbc]+[ϵ1ϵ2ϵ3ϵ4ϵ5...ϵn]

या यदि आप इसे ढहाते हैं:

a=αbb+αcc+αbcbc+ϵ

bcbca

abcbc


y=aect+bedty=u(ec(tv)+ed(tv))ab


मुझे लगता है कि यह सबसे अच्छा जवाब है, क्योंकि यह सवाल का जवाब देता है कि क्यों सिर्फ क्या के बजाय। "क्या" के साथ उत्तर देने से बेहतर अंतर्ज्ञान नहीं होता है।
हेक्साटोनिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.