एक प्रतिगमन मॉडल का निर्माण कैसे शुरू करें जब सबसे दृढ़ता से जुड़ा भविष्यवक्ता बाइनरी है


11

मेरे पास तीन वेरिएबल्स के 365 अवलोकन वाले डेटा सेट हैं pm, tempऔर rain। अब मैं pmअन्य दो चर में परिवर्तन के जवाब में व्यवहार की जांच करना चाहता हूं । मेरे चर हैं:

  • pm10 = प्रतिक्रिया (आश्रित)
  • temp = भविष्यवक्ता (स्वतंत्र)
  • rain = भविष्यवक्ता (स्वतंत्र)

मेरे डेटा के लिए सहसंबंध मैट्रिक्स निम्नलिखित है:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

समस्या तब है जब मैं प्रतिगमन मॉडल के निर्माण का अध्ययन कर रहा था, यह लिखा गया था कि योज्य विधि उस चर के साथ शुरू होनी है जो प्रतिक्रिया चर से सबसे अधिक संबंधित है। मेरे डेटा सेट rainमें अत्यधिक सहसंबद्ध है pm(जैसा कि तुलना में temp), लेकिन एक ही समय में यह एक डमी चर (बारिश = 1, कोई बारिश = 0) नहीं है, इसलिए मुझे अब कहां से शुरू करना चाहिए, इसका सुराग है। मैं सवाल के साथ दो छवियों संलग्न किया है: पहला डेटा की एक scatterplot है, और दूसरी छवि के एक scatterplot है pm10बनाम rain, मैं भी की scatterplot व्याख्या करने में असमर्थ हूँ pm10बनाम rain। क्या कोई मुझे शुरू करने में मदद कर सकता है?

यह मेरे डेटा का स्कैटर-प्लॉट है

शाम 10 बजे की बारिश का बिखराव


3
यह एक पूरी तरह से व्यवहार्य प्रश्न है, IMO, भले ही यह गलतफहमी से आगे बढ़े।
गंग -

yमैंएक्समैं1,एक्समैं2,...,एक्समैंपी|आरजे|>0.8

जवाबों:


17

बहुत से लोग मानते हैं कि आपको कुछ रणनीति का उपयोग करना चाहिए जैसे कि सबसे अधिक संबद्ध चर के साथ शुरुआत करना, और तब तक अतिरिक्त चर जोड़ना जब तक कि एक महत्वपूर्ण नहीं है। हालाँकि, कोई तर्क नहीं है जो इस दृष्टिकोण को मजबूर करता है। इसके अलावा, यह एक तरह का 'लालची' वैरिएबल चयन / खोज रणनीति है (cf., मेरा जवाब यहां: स्वचालित मॉडल चयन के लिए एल्गोरिदम )। आपको ऐसा करने की आवश्यकता नहीं है , और वास्तव में, आपको ऐसा नहीं करना चाहिए। यदि आप के बीच के रिश्ते को जानना चाहते हैं pm, tempऔरrain, सभी तीन चर के साथ एक बहु प्रतिगमन मॉडल फिट। आपको अभी भी यह निर्धारित करने के लिए मॉडल का आकलन करने की आवश्यकता होगी कि क्या यह उचित है और मान्यताओं को पूरा किया गया है, लेकिन यह है। यदि आप कुछ-पूर्व-परिकल्पना का परीक्षण करना चाहते हैं, तो आप मॉडल के साथ ऐसा कर सकते हैं। यदि आप मॉडल की आउट ऑफ सैंपल प्रेडिक्टिव सटीकता का आकलन करना चाहते हैं, तो आप इसे क्रॉस-वैलिडेशन के साथ कर सकते हैं।

आप वास्तव में बहुसांस्कृतिकता के बारे में चिंता करने की जरूरत नहीं है। के बीच सहसंबंध tempऔर आपके सहसंबंध मैट्रिक्स के rainरूप 0.044में सूचीबद्ध है । यह एक बहुत ही कम संबंध है और किसी भी समस्या का कारण नहीं होना चाहिए।


1
अपनी तरह के सुझाव के लिए बहुत बहुत धन्यवाद। मैं इस साइट पर नया हूं, इसका उपयोग करना नहीं जानता, क्या आप कुछ अतिरिक्त सुझाव या अध्ययन सामग्री प्रदान कर सकते हैं
सैयद आसिफ अली शाह

1
@SyedAsifAliShah, उस अंग्रेजी के अलावा आपकी मूल भाषा नहीं लगती, मुझे कोई समस्या नहीं दिख रही है कि आप साइट का उपयोग कैसे कर रहे हैं। अध्ययन सामग्री के बारे में, आप इसे या इसे देख सकते हैं , या केवल संदर्भ टैग के साथ हमारे धागे ब्राउज़ कर सकते हैं ।
गूँग - मोनिका

क्या मुझे अपने डेटा के लिए रैखिक मॉडल या GLM की कोशिश करनी चाहिए ??
सैयद आसिफ अली शाह

1
@SyedAsifAliShah, संभवतः एक रेखीय मॉडल आपके डेटा के लिए ठीक है।
गंग -

भाई मुझे आपकी मदद चाहिए
सैयद आसिफ अली शाह

10

हालांकि यह आपके पहले से एकत्रित डेटा सेट को सीधे संबोधित नहीं करता है, दूसरी बार जब आप अगली बार डेटा इकट्ठा कर रहे हैं तो आप इस तरह की कोशिश कर सकते हैं कि "बारिश" को बाइनरी के रूप में रिकॉर्ड करने से बचें। आपका डेटा संभवतः अधिक जानकारीपूर्ण होगा यदि आपने इसके बजाय बारिश की दर (सेमी / घंटा) को मापा था, जो आपको 0 से अधिकतम वितरित एक चर (माप की आपकी सटीकता तक) वितरित करेगा ... max_rainfall।

यह आपको अन्य चर के लिए न केवल "यह बारिश हो रही है", बल्कि "कितनी बारिश हो रही है" यह भी बताएगा।


हाय भाई मैंने आपके सुझाव के अनुसार ऐसा ही किया मैंने बारिश और निर्माण मॉडल का पूरा डेटा एकत्र किया
सैयद आसिफ अली शाह

क्या मैं आपका ईमेल माँग सकता हूँ ??? मैं सिर्फ कुछ सवाल पूछना चाहता हूं
सैयद आसिफ अली शाह

यदि आपके पास अपना मॉडल स्थापित करने के बारे में अतिरिक्त प्रश्न हैं, तो शायद एक नया StackExchange प्रश्न जाने का रास्ता होगा। इस तरह आप अधिक लोगों से प्रतिक्रिया प्राप्त कर सकते हैं, जिनमें से कई आई से अधिक विशेषज्ञ हैं
जेकेरेट

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.