आर में कारकों के साथ रैखिक प्रतिगमन


10

मैं यह समझने की कोशिश कर रहा हूं कि वास्तव में कारक आर में कैसे काम करते हैं। मान लीजिए कि मैं आर में कुछ नमूना डेटा का उपयोग करके एक प्रतिगमन चलाना चाहता हूं:

> data(CO2)
> colnames(CO2)
[1] "Plant"     "Type"      "Treatment" "conc"      "uptake"   
> levels(CO2$Type)
[1] "Quebec"      "Mississippi"
> levels(CO2$Treatment)
[1] "nonchilled" "chilled"   
> lm(uptake ~ Type + Treatment, data = CO2)

Call:
lm(formula = uptake ~ Type + Treatment, data = CO2)

Coefficients:
 (Intercept)   TypeMississippi  Treatmentchilled  
       36.97            -12.66             -6.86  

मैं समझता हूं कि TypeMississippiऔर Treatmentchilledइसे बूलियन के रूप में माना जाता है: प्रत्येक पंक्ति के लिए, प्रारंभिक तेज है 36.97, और हम घटाते हैं 12.66यदि यह मिसिसिपी का प्रकार है और 6.86यदि यह ठंडा था। मुझे कुछ इस तरह समझने में परेशानी हो रही है:

 > lm(uptake ~ Type * Treatment, data = CO2)

 Call:
 lm(formula = uptake ~ Type * Treatment, data = CO2)

 Coefficients:
                 (Intercept)                   TypeMississippi  
                      35.333                            -9.381  
            Treatmentchilled  TypeMississippi:Treatmentchilled  
                      -3.581                            -6.557  

एक में दो कारकों को एक साथ गुणा करने का क्या मतलब है lm?

जवाबों:


17

@ जॉन के उत्तर पर विस्तृत करने के लिए: आर के सूत्रों में, आपके पास कुछ ऑपरेटर हैं जो आप शर्तों पर लागू कर सकते हैं: "+" बस उन्हें जोड़ता है, ":" का अर्थ है कि आप एक शब्द (या कई शब्द) जोड़ते हैं जो उनकी बातचीत का संदर्भ देते हैं ( नीचे देखें), "*" का अर्थ दोनों है, अर्थात्: "मुख्य प्रभाव" जोड़े जाते हैं, और बातचीत शब्द (ओं) को भी जोड़ा जाता है।

तो इस बातचीत का क्या मतलब है? ठीक है, निरंतर चर के मामले में, यह वास्तव में एक शब्द है जो जोड़ा जाता है जो कि बस दो चर का गुणन है। यदि आपके पास भविष्यवाणियों के रूप में ऊंचाई और वजन है, और out ~ height * weightसूत्र के रूप में उपयोग करते हैं , तो रैखिक मॉडल में इस प्रकार तीन 'चर', अर्थात् वजन, ऊंचाई और उनके उत्पाद शामिल होंगे (इसमें सहभागिता भी शामिल है, लेकिन यहां कम रुचि है)।

यद्यपि मैं ऊपर सुझाव देता हूं: यह श्रेणीबद्ध चर के लिए ठीक उसी तरह से काम करता है, लेकिन अब प्रत्येक श्रेणीगत चर के लिए 'उत्पाद' डमी चर (ओं) पर लागू होता है। मान लीजिए कि आपकी ऊंचाई और वजन अब श्रेणीबद्ध हैं, प्रत्येक तीन श्रेणियों (एस (मॉल), एम (एडियम) और एल (एर्ज)) के साथ है। फिर रैखिक मॉडल में, इनमें से प्रत्येक को दो डमी चर के एक सेट द्वारा दर्शाया जाता है जो या तो 0 या 1 होते हैं (कोडिंग के अन्य तरीके हैं, लेकिन यह आर और डिफ़ॉल्ट रूप से सबसे अधिक उपयोग किया जाता है)। मान लें कि हम S को दोनों के लिए संदर्भ श्रेणी के रूप में उपयोग करते हैं, तो हमारे पास प्रत्येक बार दो डमियां ऊँचाई हैं। और ऊँचाई। (और वजन के समान)।

इसलिए, अब मॉडल out ~ height * weightमें 4 डमीज़ + सभी डमी-संयोजनों के सभी उत्पाद शामिल हैं (मैं यहां स्पष्ट रूप से गुणांक नहीं लिख रहा हूं, वे निहित हैं):

(intercept) + height.M + height.L + weight.M + weight.L + height.M * weight.M + height.L * weight.M + height.M * weight.L + height.L * weight.L.

ऊपर की पंक्ति में, '*' अब फिर से एक साधारण उत्पाद को संदर्भित करता है, लेकिन डमी का यह समय है, इसलिए प्रत्येक उत्पाद स्वयं या तो 1 (जब सभी कारक 1 हैं) या 0 (जब कम से कम एक नहीं है)।

इस मामले में 8 'वेरिएबल्स' दो वेरिएबल्स के सभी संयोजनों में अलग-अलग (माध्य) परिणामों को सक्षम करते हैं: बड़े वजन होने का प्रभाव अब छोटे लोगों के लिए समान नहीं है (उनके लिए यह प्रभाव बस शब्द से बनता है weight.L) बड़े लोगों के लिए (यहाँ, प्रभाव है weight.L + height.L * weight.L)


7

जॉन के उत्तर का पालन करने के लिए, lm में सूत्र अंकगणितीय संकेतन का उपयोग नहीं करते हैं, वे रेखीय मॉडल (विशेष रूप से विल्किंसन-रोजर्स संकेतन का वर्णन करने के लिए एक कॉम्पैक्ट प्रतीकात्मक संकेतन का उपयोग कर रहे हैं, यहाँ एक अच्छा संक्षिप्त सारांश है http: //www.hysiol .ox.ac.uk / ~ raac / R.shtml )।

मूल रूप से, मॉडल फॉर्मूला में A * B सहित इसका मतलब है कि आप A, B, और A: B (A और B का इंटरैक्शन) फिट कर रहे हैं। यदि इंटरैक्शन शब्द सांख्यिकीय रूप से महत्वपूर्ण है, तो यह बताता है कि उपचार का प्रभाव प्रत्येक प्रकार के लिए अलग है।


3

शायद सहायता में 'फार्मूला' देखना सहायता का होगा। आप गुणा नहीं कर रहे हैं, आप कह रहे हैं कि आप दो मुख्य प्रभाव और उनकी बातचीत भी चाहते हैं।


1
(+1) हालांकि यह मुझे एक टिप्पणी की तरह लगता है।
६३:२५ पर पापेल सेलोव
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.