डेटा वैज्ञानिक साक्षात्कार प्रश्न: रैखिक प्रतिगमन कम


10

मुझे एक नौकरी के लिए एक साक्षात्कार प्रश्न का सामना करना पड़ा जहां साक्षात्कारकर्ता ने मुझे मान लिया कि आपका एक मूल्य लोच मॉडल के लिए बहुत कम (5 से 10% के बीच) है। आप इस प्रश्न को कैसे हल करेंगे?R2

मैं इस तथ्य के अलावा और कुछ नहीं सोच सकता था कि मैं यह देखने के लिए प्रतिगमन निदान करूंगा कि क्या गलत हुआ या यदि कोई गैर रेखीय विधि लागू की जानी चाहिए। किसी तरह मुझे लगता है कि साक्षात्कारकर्ता मेरे जवाब से संतुष्ट नहीं थे। क्या कुछ और है जो इस तरह के परिदृश्य में एक मॉडल को फिट करने और इसे कम होने के बावजूद उत्पादन स्तर की भविष्यवाणी के लिए उपयोग करने के लिए किया जाता है ?R2

संपादित करें : बाद के चरण में उन्होंने मुझे साक्षात्कार के दौरान समस्या का मॉडल बनाने के लिए डेटा दिया और मैंने कोशिश की कि इसमें कोई परिवर्तन न हो, यह देखने के लिए कि प्रतियोगी मूल्य, मौसमी डमी के प्रभाव को जोड़ा जाए या नहीं। 17.6 प्रतिशत पर चला गया और होल्डआउट नमूने पर इसका प्रदर्शन खराब था। व्यक्तिगत रूप से मुझे लगता है कि इस तरह के एक मॉडल को लाइव वातावरण में भविष्यवाणी के लिए रखा जाना चाहिए क्योंकि यह गलत परिणाम देगा और ग्राहकों को नुकसान होगा (अपनी कंपनी के राजस्व पर इस तरह के मॉडल से मूल्य निर्धारण की सिफारिश का उपयोग करें!)। क्या ऐसा कुछ और है जो ऐसे परिदृश्यों में किया जाता है जो बहुत स्पष्ट है कि सभी को जानना आवश्यक है? कुछ ऐसा है जिसके बारे में मुझे जानकारी नहीं है, जिसे मैं 'एक चांदी की गोली' कह रहा हूं?R2

इसके अलावा, एक्सोजेनस वैरिएबल जोड़ने की कल्पना करने के बाद आगे 2% सुधार होता है तो इस परिदृश्य में क्या किया जा सकता है? क्या हमें मॉडलिंग प्रोजेक्ट को छोड़ देना चाहिए या उत्पादन स्तर की गुणवत्ता के मॉडल को विकसित करने की अभी भी कुछ उम्मीद है जो कि होल्डआउट नमूना पर प्रदर्शन द्वारा इंगित किया गया है?R2

Edit2 : मैंने इस प्रश्न को अर्थशास्त्र के परिप्रेक्ष्य से इस समस्या को समझने के लिए economics.stackexchange.com फोरम में पोस्ट किया है


12
"मान लें कि आपका एक मूल्य लोच मॉडल के लिए बहुत कम (5 से 10% के बीच) है" एक सवाल नहीं है । " एक मूल्य लोच मॉडल के लिए" (5 से 10% के बीच) आपके को बहुत कम करने के लिए मेरी प्रतिक्रिया "ठीक है, किया जाएगा"। मुझे लगता है कि कोई समस्या नहीं है, इसलिए ऐसा करने के लिए आगे कुछ नहीं है। यदि वे वास्तव में आगामी नहीं थे, तो मुझे पूछना होगा कि वे किस पहलू को हल करने के लिए समस्या के रूप में मानते हैं। उनकी अनुपस्थिति में, आप यहां समस्या के रूप में क्या देखते हैं? आर 2R2R2
Glen_b -Reinstate मोनिका

1
मैंने इसे सेल्फ स्टडी के लिए टैग किया है @Glen_b मुझे बताएं कि क्या मुझे कोई और विवरण जोड़ने की आवश्यकता है। धन्यवाद!
उत्साही

2
धन्यवाद, यह एक अच्छी बात है। लेकिन अधिक विवरण में आपको हल करने के लिए आवश्यक वास्तविक प्रश्न शामिल होगा। "मान लीजिए एक्स" एक स्थिति पेश कर रहा है जो आपको कुछ भी हल करने के लिए नहीं कह रहा है।
Glen_b -Reinstate मोनिका

1
पर पोस्ट की गई economics.stackexchange.com/q/16617 । कृपया एक प्रश्न के लिए सबसे अच्छी साइट तय करने का प्रयास करें: यदि आपको लगता है कि यह विभिन्न साइटों के लिए वैरिएंट के लायक है, तो भी उन्हें लिंक करें।
Scortchi - को पुनः स्थापित मोनिका

1
@Scortchi, मैंने दोनों फोरम में अतिरिक्त एडिट के रूप में लिंक जोड़ा है। धन्यवाद!
उत्साही

जवाबों:


11

क्या होगा अगर हम इस दृष्टिकोण से समस्या को देखते हैं। मूल्य लोच मांग और उत्पाद की कीमत के बीच का संबंध है।

जब इस स्थिति में आर-स्क्वायर कम होता है, तो हम संभवतः यह अनुमान लगा सकते हैं कि उस विशेष उत्पाद की कीमत और मांग के बीच संबंध मजबूत नहीं है।

एक मूल्य निर्धारण बिंदु से इसका मतलब यह हो सकता है कि आपने एक ऐसा उत्पाद ढूंढ लिया है जिसके लिए आप मांग पर बड़े प्रभाव के बिना मनमाने ढंग से कीमत लगा सकते हैं या अंतर मांग मूल्य निर्धारण के बावजूद मांग काफी अनियमित है।

यदि आप वेब्लन के सामान को देखते हैं, तो वे ऐसे उदाहरण हैं जहां लोच उलटा है। जैसे-जैसे कीमत बढ़ती है, मांग बढ़ती है।

यदि दूसरी ओर, आर-स्क्वायर कम है, तो इसका मतलब केवल उत्पाद की एक श्रेणी हो सकती है, जिसके लिए कीमत अपेक्षाकृत महत्वहीन है जब यह मांग आती है। मेरे सिर के शीर्ष पर, कैंसर की दवा कुछ ऐसी हो सकती है जो इस संपत्ति का पालन कर सकती है। जहां दवा का महत्व इसकी कीमत को कम कर देता है और मांग में कोई बदलाव नहीं दिखा सकता है।

और निष्कर्ष में, मैं यह मान रहा हूं कि साक्षात्कारकर्ता का इरादा यह आंकने का हो सकता है कि क्या आपको पता था कि उच्च आर-वर्ग के साथ एक बेहतर मॉडल बनाने के तरीके का पता लगाने के बजाय कम आर-वर्ग का निहितार्थ क्या है।


निष्कर्ष के लिए +1। मैं यह भी सोच रहा हूं कि इस सवाल का उद्देश्य यह देखने की कोशिश कर रहा है कि क्या उम्मीदवार नेत्रहीन रूप से पूरी तरह से समझने के बिना एक मीट्रिक का पीछा कर रहे हैं।
हायतौ डू

5

मुझे यकीन नहीं है कि साक्षात्कारकर्ता के बाद क्या था, लेकिन जब खराब रूप से खराब होने वाले मॉडल का सामना करना पड़ रहा है, तो मैं जिन चीजों पर विचार कर रहा हूं और एक उत्तर मुझे एक साक्षात्कारकर्ता के रूप में सुनना पसंद होगा (अब कुछ वर्षों के लिए साक्षात्कार कर रहा है)।

  1. अधिक डेटा प्राप्त करना : यह हमेशा मदद नहीं कर सकता है लेकिन कुछ चीजें हैं जो आपको इस समाधान के प्रभावों का मूल्यांकन करने में मदद कर सकती हैं:

    • मॉडल को विभिन्न नमूना आकारों के साथ चलाएं - यदि परिणाम अधिक डेटा के साथ सुधार करते हैं तो इसके उचित अनुमान के अनुसार अधिक डेटा प्राप्त करना मॉडल के प्रदर्शन में सुधार जारी रखेगा।
    • नमूना अनुपात की विशेषताएं - आपके द्वारा चयनित सुविधाओं के बाद यह समझने की कोशिश करें कि क्या आपके पास प्रत्येक सुविधा मान के लिए पर्याप्त नमूने हैं। इस विषय पर एक उत्तर दिया गया प्रश्न देखें ।
    • लापता लक्ष्य मान - लोच विभिन्न मूल्य श्रेणियों के बीच समान व्यवहार नहीं कर सकता है। ऐसी स्थिति में जहाँ आप डेटा के नमूने एक विशिष्ट सीमा के पक्षपाती हैं, एक अच्छा मौका है कि आप सामान्यीकरण नहीं कर पाएंगे (उदाहरण के लिए 90% नमूने 0-10 के बीच की कीमतों के लिए हैं और अन्य 10% के बीच की कीमतों के लिए हैं 1000-10000)। अधिक डेटा प्राप्त करने के अलावा इस समस्या से निपटने के तरीके हैं (मॉडल प्रशिक्षण को विभाजित करें, प्रतिगमन का उपयोग न करें)।
  2. बेहतर सुविधा इंजीनियरिंग : यदि आपके पास पर्याप्त डेटा है और आप गहरी शिक्षा के बारे में जानते हैं तो शायद यह एक अप्रासंगिक है। यदि आप उल्लिखित मानदंडों को पूरा नहीं करते हैं, तो इस पर अपने प्रयासों को केंद्रित करें। उपयोगकर्ता-व्यवहार मॉडल में, कई संबंध हैं जो हमारे मानव-अंतर्ज्ञान मशीन प्रशिक्षित मॉडल की तुलना में बेहतर समझ है।
    जैसा कि आपके मामले में जहाँ आपने कुछ और खूबियाँ पेश की हैं और मॉडल के प्रदर्शन में बहुत सुधार किया है। यह कदम त्रुटियों के कारण होता है क्योंकि इसमें आमतौर पर तर्क आधारित कोड (यदि एलाइस / गणितीय सूत्र) शामिल होते हैं।

  3. बेहतर मॉडल का चयन : जैसा कि आपने सुझाव दिया था, शायद एक गैर-रेखीय मॉडल बेहतर काम करेगा। क्या आपका डेटा सजातीय है? क्या आपके पास यह मानने के कारण हैं कि क्रॉस सुविधाएँ मूल्य लोच को बेहतर ढंग से समझाएंगी? (सीज़निटी * प्रतियोगी की कीमत)।

  4. हाइपर पैरामीटर्स ट्यूनिंग : ग्रिड सर्चिंग मॉडल के हाइपर पैरामीटर्स (+ क्रॉस वैलिडिंग रिजल्ट्स) एक अच्छा अभ्यास है लेकिन जहाँ तक मेरे अनुभव के अनुसार यह शायद ही कभी प्रदर्शन में बहुत सुधार करता है (निश्चित रूप से 5% से 90% तक नहीं)।

कुछ और चीजें हैं जो की जा सकती हैं, लेकिन ये बिंदु काफी सामान्य हैं।


1

@DaFanat और @Arun द्वारा सुझाए गए शीर्ष पर, मैं जोड़ना चाहूंगा कि कुछ दृश्य निरीक्षण मदद कर सकते हैं।

R2


डोमेन विशिष्ट इनपुट साझा करने के लिए धन्यवाद, क्योंकि यह वास्तव में एक राजस्व प्रबंधन समस्या है
सरगर्म 16
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.