मॉडल की कीमतें कैसे?


15

मैंने मटमैथिक्स स्टैकएक्सचेंज साइट पर यह सवाल पूछा था और यहां पूछने की सिफारिश की गई थी।

मैं एक शौक परियोजना पर काम कर रहा हूँ और निम्नलिखित समस्या के साथ कुछ मदद की आवश्यकता होगी।

थोड़ा सा संदर्भ

मान लीजिए कि सुविधाओं और कीमत के विवरण के साथ वस्तुओं का एक संग्रह है। कारों और कीमतों की सूची की कल्पना करें। सभी कारों में सुविधाओं की एक सूची होती है, जैसे कि इंजन का आकार, रंग, घोड़े की शक्ति, मॉडल, वर्ष आदि। प्रत्येक बनाने के लिए, कुछ इस तरह से:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

इससे भी आगे जाने पर, कीमतों के साथ कारों की सूची कुछ समय-अंतराल के साथ प्रकाशित होती है, जिसका अर्थ है कि हमारे पास ऐतिहासिक मूल्य डेटा तक पहुंच है। हमेशा हमेशा एक जैसी कारों को शामिल नहीं किया जा सकता है।

मुसीबत

मैं यह समझना चाहूंगा कि इस आधार सूचना के आधार पर किसी भी कार की कीमतें कैसे बढ़ाई जाएंगी, सबसे महत्वपूर्ण बात यह है कि शुरुआती सूची में कारें नहीं हैं।

Ford, v6, red, automatic, 130hp, 2009

उपरोक्त कार के लिए, यह सूची में लगभग एक ही है, घोड़े की शक्ति और वर्ष में थोड़ा अलग है। इसकी कीमत के लिए, क्या जरूरत है?

मैं जिस चीज की तलाश कर रहा हूं वह कुछ व्यावहारिक और सरल है, लेकिन मैं इस बारे में और अधिक जटिल दृष्टिकोणों के बारे में सुनना चाहूंगा कि इस तरह से कुछ कैसे बनाया जाए।

मैंने क्या कोशिश की है

यहाँ मैं अब तक के साथ प्रयोग कर रहा हूँ:

1) कार एक्सप्रेशन देखने के लिए ऐतिहासिक डेटा का उपयोग करना। अगर नहीं मिला, तो कोई कीमत नहीं। यह निश्चित रूप से बहुत सीमित है और कोई केवल समय के साथ ज्ञात कारों के लिए कीमतों में बदलाव के लिए कुछ समय के क्षय के संयोजन में इसका उपयोग कर सकता है।

2) एक कीमत नमूना कार के साथ एक कार सुविधा भार योजना का उपयोग करना। मूल रूप से एक आधार मूल्य है और सुविधाओं में बस कुछ कारक के साथ परिवर्तन होता है। इसके आधार पर किसी भी कार की कीमत प्राप्त की जाती है।

पहला पर्याप्त नहीं साबित हुआ और दूसरा हमेशा सही साबित नहीं हुआ और वज़न का उपयोग करने के लिए मेरे पास सबसे अच्छा तरीका नहीं था। यह भी वजन को बनाए रखने पर थोड़ा भारी लगता है, इसलिए मैंने सोचा कि हो सकता है कि ऐतिहासिक डेटा का उपयोग करने के लिए कुछ तरीके हैं जो किसी तरह से वजन प्राप्त करने के लिए या कुछ और प्राप्त करने के लिए। मैं अभी नहीं जानता कि कहाँ से शुरू करूँ।

अन्य महत्वपूर्ण पहलू

  • मेरे पास मौजूद कुछ सॉफ्टवेयर प्रोजेक्ट में एकीकृत है। या तो मौजूदा पुस्तकालयों का उपयोग करके या स्वयं एल्गोरिथ्म लिखकर।
  • जब नया ऐतिहासिक डेटा आता है तो तेजी से पुनर्गणना होती है।

किसी भी सुझाव कैसे इस तरह की एक समस्या से संपर्क किया जा सकता है? सभी विचार स्वागत से अधिक हैं।

अग्रिम में बहुत धन्यवाद और आपके सुझावों को पढ़ने के लिए तत्पर हैं!

जवाबों:


11

"व्यावहारिक" और "सरल" कम से कम वर्गों के प्रतिगमन का सुझाव देते हैं यह स्थापित करना आसान है, बहुत सारे सॉफ़्टवेयर (आर, एक्सेल, गणितज्ञ, किसी भी आँकड़े पैकेज) के साथ करना आसान है, व्याख्या करना आसान है, और आप कितने सटीक होना चाहते हैं और आप कितने कठिन हैं, इसके आधार पर कई तरीकों से बढ़ाया जा सकता है। कार्य करने की चाह।

यह दृष्टिकोण अनिवार्य रूप से आपकी "वेटिंग स्कीम" (2) है, लेकिन यह आसानी से वज़न पाता है, जितना संभव हो उतनी सटीकता की गारंटी देता है, और अद्यतन करने में आसान और तेज़ है। कर रहे हैं लोड पुस्तकालयों में से कम से कम वर्गों गणना करने के लिए।

यह न केवल आपके द्वारा सूचीबद्ध चर - इंजन प्रकार, शक्ति, आदि को शामिल करने में मदद करेगा - बल्कि कार की उम्र भी । इसके अलावा, मुद्रास्फीति के लिए कीमतों को समायोजित करना सुनिश्चित करें।


बिक! ठीक वही लग रहा है जो मैं देख रहा हूँ! जैसा कि मैं सभी के लिए नया हूं, मुझे सुझावों की तुलना करने में परेशानी हो रही है, इसलिए मैं सोच रहा हूं कि कम से कम वर्गों का प्रतिगमन कई-प्रतिगमन और "हेडोनिक मूल्य निर्धारण" की तुलना में कैसे होगा। ये वे सुझाव हैं जो मुझे गणित की साइट पर मिले जहाँ मैंने शुरुआत में पोस्ट किया था। उदाहरण के लिए कम से कम वर्ग प्रतिगमन का उपयोग करते समय मैं क्या ठीक कर रहा हूं? असल में, क्या इस दृष्टिकोण का उपयोग करते समय मुझे कुछ जानना चाहिए?
मुर्रेकटैट

इस सुझाव के लिए भी धन्यवाद। यह बहुत अच्छा लगता है। मुझे यह जानने के लिए अधिक पढ़ना होगा कि मैं कैसे शुरू कर सकता हूं कि इसका उपयोग कैसे किया जाए।
मुर्रेकट

3
मैं @mpiktas और @dimitrij celov द्वारा पोस्ट किए गए कैविट्स के साथ अपने समझौते को स्वीकार करना और व्यक्त करना चाहता हूं। कीमतों का विश्लेषण हो सकता है - और कई मामलों में होना चाहिए - आर्थिक प्रणालियों के रूप में जटिल, जिनमें से वे एक हिस्सा हैं। हालांकि, उद्देश्यपूर्ण एप्लिकेशन (एक शौक) और सांख्यिकीय मॉडलिंग के लिए ओपी की क्षमताओं में स्पष्ट रूप से संकेतित सीमाओं के कारण, हमें सादगी, उपयोग में आसानी और व्याख्या पर बहुत महत्व देना चाहिए। जाहिर है कि कम से कम वर्गों के साथ बातचीत करने वाला कोई व्यक्ति अभी ठीक से कूदने नहीं जा रहा है और पूर्ण-विकसित अर्थमितीय मॉडल बनाना शुरू कर रहा है।
व्हीबर

5

मैं @whuber से सहमत हूं, कि रैखिक प्रतिगमन एक रास्ता है, लेकिन परिणामों की व्याख्या करते समय ध्यान रखा जाना चाहिए। समस्या यह है कि अर्थशास्त्र में कीमत हमेशा मांग से संबंधित होती है। अगर मांग बढ़ती है, कीमतें बढ़ती हैं, अगर मांग कम होती है, तो कीमतें नीचे जाती हैं। तो कीमत मांग से निर्धारित होती है और बदले में मांग कीमत से निर्धारित होती है। इसलिए अगर हम मांग के बिना कुछ विशेषताओं के प्रतिगमन के रूप में मूल्य निर्धारित करते हैं, तो एक वास्तविक खतरा है कि लोप-चर पूर्वाग्रह के कारण प्रतिगमन अनुमान गलत होगा ।


@mpiktas: धन्यवाद मैं समझता हूं तुम्हारा क्या मतलब है। यह कुछ ऐसा था जिसके बारे में मैं सोच रहा था, लेकिन यह नहीं जानता था कि सवाल कैसे पूछा जाए या कैसे जोड़ा जाए। आप जो समझाते हैं उससे कैसे निपटता है? क्या यह एक समस्या है जो अलग है और जैसा कि आप परिणामों की व्याख्या करते समय ध्यान में रखते हुए लिखते हैं, या क्या यह कुछ अन्य दृष्टिकोणों में एकीकृत है और कम से कम वर्गों के प्रतिगमन का हिस्सा नहीं है? निश्चित नहीं है कि कैसे खुद को तैयार करना है, लेकिन मेरा मतलब है कि क्या ऐसे दृष्टिकोण हैं जो इसे ध्यान में रखते हैं और अन्य जो नहीं करते हैं? जिसका अर्थ है कि "नहीं" के लिए हमें परिणामों की व्याख्या करनी चाहिए?
मुर्रेकट 20

3
@murekatt, यदि आपके पास मांग पर अतिरिक्त डेटा नहीं है, लेकिन आपको कीमत के लिए मॉडल की आवश्यकता है, तो आप अतिरिक्त देखभाल करके इससे निपटते हैं। इसका मतलब है कि गुणांक के सांख्यिकीय महत्व पर कम ध्यान देना, लेकिन पूर्वानुमान के प्रदर्शन पर अधिक ध्यान देना। आवश्यक रूप से इसका मतलब है कि प्रतिगमन को ब्लैक-बॉक्स के रूप में मानना ​​और मॉडल की वैधता के माप के रूप में मॉडल के पूर्वानुमान प्रदर्शन का उपयोग करना। पार सत्यापन, ट्रेन और परीक्षण के नमूने के लिए डेटा विभाजन, आदि का उपयोग कर इस का मतलब है
mpiktas

@mpiktas: "अतिरिक्त डेटा" से आपका क्या तात्पर्य है? क्या आप कार के संदर्भ में इसका उदाहरण दे सकते हैं?
मुर्रेकटैट

1
@ मूर्रेकट, अपडेट किए गए पेयर के जवाब के अंत में देखें। डिमांड डेटा महत्वपूर्ण है, इसलिए यदि आपके पास दी गई कीमत के साथ कितनी कारें बेची गईं तो इससे काफी मदद मिलेगी। यदि आपके पास निर्धारित विशेषताओं के साथ दी गई कार की कीमत में परिवर्तन होता है, तो इसका डेटा आपके मॉडल में भी दिखाई देना चाहिए
mpiktas

1
@ म्योरकट, सिद्धांत में हाँ। मुझे लगता है कि आपको छोटी शुरुआत करने और बाद में अतिरिक्त सुविधाएँ जोड़ने की आवश्यकता है। प्रारंभिक परिणाम आपको बताएंगे कि आगे क्या दिशा लेनी है।

4

मैं जिस चीज की तलाश कर रहा हूं वह कुछ व्यावहारिक और सरल है, लेकिन मैं इस बारे में और अधिक जटिल दृष्टिकोणों के बारे में सुनना चाहूंगा कि इस तरह से कुछ कैसे बनाया जाए।

किसी प्रकार की चर्चा के बाद, यहां चीजों के बारे में मेरा पूरा दृष्टिकोण है

समस्या

उद्देश्य: बेहतर तरीके से कारों की कीमत कैसे समझें

संदर्भ: उनकी निर्णय प्रक्रिया में लोग कई प्रश्नों को हल करते हैं: क्या मुझे एक कार की आवश्यकता है, अगर मैं करता हूं, तो मैं कौन सी विशेषताओं को पसंद करता हूं (कीमत सहित, क्योंकि, तर्कसंगत होने के नाते, मैं सबसे अच्छी गुणवत्ता / मूल्य अनुपात वाली कार लेना चाहता हूं) , विभिन्न कारों के बीच विशेषताओं की संख्या की तुलना करें और उन्हें संयुक्त रूप से मूल्यांकन करना चुनें ।

विक्रेता की स्थिति से, मैं यथासंभव उच्च मूल्य निर्धारित करना चाहता हूं, और कार को जितनी जल्दी हो सके बेच सकता हूं। इसलिए यदि मैं कीमत बहुत अधिक निर्धारित करता हूं और महीनों तक इंतजार कर रहा हूं तो इसे बाजार की मांग नहीं माना जा सकता है और 0 के साथ चिह्नित किया जाना बहुत ही मांग वाले विशेषता सेटों की तुलना में है।

अवलोकन: वास्तविक सौदे जो सौदेबाजी प्रक्रिया के भीतर निर्धारित मूल्य के साथ एक विशेष कार की विशेषताओं से संबंधित हैं (पिछली टिप्पणी के बारे में यह जानना महत्वपूर्ण है कि सौदे को सेट करने में कितना समय लगता है)।

पेशेवरों: आप उन चीजों का निरीक्षण करते हैं जो वास्तव में बाजार पर खरीदे गए थे, इसलिए आप अनुमान नहीं लगा रहे हैं कि क्या कोई ऐसा व्यक्ति है जिसके पास पर्याप्त आरक्षण मूल्य है जो एक विशेष कार खरीदना चाहता है

विपक्ष:

  1. आपकी धारणा यह है कि बाजार कुशल है, जिसका अर्थ है कि आपके द्वारा देखे गए मूल्य संतुलन के करीब हैं
  2. आप उन कार विशेषताओं के वेरिएंट को अनदेखा कर देते हैं, जो सौदे को खरीदने या खरीदने में बहुत समय नहीं लगाते, जिसका अर्थ है कि आपकी अंतर्दृष्टि पक्षपाती है , इसलिए आप वास्तव में अव्यक्त परिवर्तनीय मॉडल के साथ काम करते हैं
  3. लंबे समय तक डेटा का अवलोकन करने से आपको उनका बचाव करने की आवश्यकता होती है, हालांकि कार की उम्र को शामिल करने से आंशिक रूप से इसकी भरपाई हो जाती है।

समाधान के तरीके

पहले एक, जैसा कि व्हीबर द्वारा सुझाया गया है, शास्त्रीय कम से कम वर्ग प्रतिगमन मॉडल है

पेशेवरों:

  1. वास्तव में सबसे सरल समाधान है क्योंकि यह अर्थमिति का कार्य-घोड़ा है

विपक्ष:

  1. उपेक्षा करता है कि आप चीजों का अधूरा निरीक्षण करते हैं ( अव्यक्त चर )
  2. रेजिस्टर के रूप में कार्य एक दूसरे से स्वतंत्र होते हैं, इसलिए मूल मॉडल इस तथ्य की अनदेखी करता है कि आप नीले फोर्ड को नीले मर्सिडीज से अलग पसंद कर सकते हैं , लेकिन यह नीले और फोर्ड से मिलने वाले सीमांत प्रभाव का योग नहीं है

शास्त्रीय प्रतिगमन के मामले में, चूंकि आप स्वतंत्रता की डिग्री में सीमित नहीं हैं, इसलिए अलग-अलग बातचीत की शर्तों को भी आज़माएं।

इसलिए अधिक जटिल समाधान या तो टोबीट या हेक्मैन मॉडल होगा , आप एसी कैमरून और पीके त्रिवेदी माइक्रोइकोमेट्रिक्स से परामर्श करना चाहते हैं : मुख्य विधियों पर अधिक जानकारी के लिए तरीके और अनुप्रयोग

पेशेवरों:

  1. आप इस तथ्य को अलग करते हैं कि लोग कुछ विशेषताओं के सेट को पसंद नहीं कर सकते हैं, या कुछ विशेषताओं को वास्तविक मूल्य सेटिंग से खरीदने की थोड़ी संभावना है
  2. आपके परिणाम पक्षपाती नहीं हैं (या पहले मामले में कम से कम)
  3. हेकमैन के मामले में आप उन कारणों को अलग करते हैं जो इस कार के मूल्य निर्धारण के निर्णय से विशेष कार खरीदने के लिए प्रेरित करते हैं, मैं इस कार के लिए कितना भुगतान करना चाहता हूं: पहला व्यक्ति व्यक्तिगत प्राथमिकताओं से प्रभावित होता है, दूसरा बजट बाधा द्वारा

विपक्ष:

  1. दोनों मॉडल अधिक डेटा लालची हैं , अर्थात हमें पूछने के लिए बोली और बोली के बीच की अवधि को बराबर करने के लिए या तो देखने की आवश्यकता है (यदि यह काफी कम है 1, अन्य 0), या बाजार द्वारा नजरअंदाज किए गए सेटों का निरीक्षण करें।

और, अंत में, यदि आप बस इस बात में रुचि रखते हैं कि किस तरह से खरीदे जाने की संभावना को प्रभावित करता है तो आप किसी प्रकार के लॉजिट के साथ काम कर सकते हैं मॉडल के हैं।

हम सहमत हुए, कि संयोजन विश्लेषण यहाँ उपयुक्त नहीं है, क्योंकि आपके पास अलग-अलग संदर्भ और अवलोकन हैं।

सौभाग्य।


वास्तव में आप एक बहुराष्ट्रीय लॉगिट मॉडल कैसे लागू करेंगे, जिसका आश्रित चर श्रेणीगत है, कीमतों के लिए, जो श्रेणीबद्ध नहीं है?
whuber

@ डमित्रीज सेलोव: आपके सुझाव के लिए धन्यवाद। मैं आपके सवालों का जवाब देने की कोशिश करूंगा। 1) कोई कीमत उपलब्ध नहीं है, यह अज्ञात है जो मैं इसी तरह की कारों को देखकर जवाब देना चाहता हूं। 2) मुझे नहीं पता कि कौन सा चर सबसे अधिक वजन का है - यह मैं प्राप्त करने की उम्मीद कर रहा था। 3) मैं सुविधाओं के साथ कारों की एक सूची के आधार पर करना चाहता हूं और कीमतों में किसी भी फीचर के साथ किसी भी कार को कीमत देने में सक्षम हो सकता हूं।
मुर्रेकटैट

@ वाउचर: श्रेणीगत विशेषताओं के साथ "चाल" डमी चरों को लागू करना है जो अनुरूप हैजे-1जे10पी(yमैं=1|yजे=0)=11+-β'(एक्समैं-एक्सजे)yमैंyजे

@ मरम्रेकट: 1) तो आप सबसे अधिक "मूल्यवान" विशेषताओं की तलाश करते हैं? 2) लॉगिट अनुमानित मापदंडों को अच्छी तरह से व्याख्या की जाती है जैसे कि ऑड्स और ऑड्स अनुपात, लेकिन बहुराष्ट्रीय लॉगिट में एक कमजोर विशेषता है जिसे अप्रासंगिक विकल्पों में से स्वतंत्रता 3 के रूप में जाना जाता है ) क्या आप सुनिश्चित कर सकते हैं कि सूचीबद्ध कीमतें प्रासंगिक हैं, अर्थात कार वास्तव में खरीदी गई थीं? @ शुभकर्ता: साधारण प्रतिगमन यहाँ ठीक काम करता है, यदि आश्रित मूल्य है, लेकिन फिर से क्या मूल्य है? कहाँ प्रकाशित हुआ? या यह एक्टुआल लेनदेन है?
पापेल सेलोव

2
@Dimitrij मूल्य एक स्वतंत्र चर नहीं है: यह आश्रित चर है: "मैं यह समझना चाहूंगा कि इस आधार जानकारी के आधार पर किसी भी कार की कीमतों को कैसे मॉडल किया जाए।" मुझे डर है कि इस गलतफहमी के साथ आप @murrekatt को बहुत दूर तक ले जा सकते हैं।
whuber

4

यह मुझे भी एक रेखीय प्रतिगमन समस्या की तरह दिखता है, लेकिन के निकटतम पड़ोसियों केएनएन के बारे में क्या । आप प्रत्येक कार के बीच एक दूरी के फार्मूले के साथ आ सकते हैं और निकटतम K (3 के बीच) के रूप में कीमत की गणना कर सकते हैं। एक दूरी का फार्मूला यूक्लिडियन हो सकता है, जैसे सिलेंडर में अंतर और दरवाजों में अंतर, अश्वशक्ति में अंतर आदि।

यदि आप रैखिक पुनर्मिलन के साथ जाते हैं तो मैं एक दो चीजों का सुझाव दूंगा:

  • मुद्रास्फीति के लिए खाते में डॉलर के मूल्य को आधुनिक दिन तक बढ़ाएं।
  • अपने डेटा को युगों में विभाजित करें। मुझे यकीन है कि आप पाएंगे कि आपको पूर्व ww2 के लिए एक मॉडल की आवश्यकता होगी और उदाहरण के लिए ww2 पोस्ट करें। यह सिर्फ एक कूबड़ है।
  • क्रॉस फिटिंग से बचने के लिए अपने मॉडल को मान्य करें। अपने डेटा को 5 विखंडू में विभाजित करें। 4 पर ट्रेन करें और 5 वें चंक पर मॉडल को कलश दें। त्रुटियों को समेटें, कुल्ला करें, दूसरे विखंडू के लिए दोहराएं।

एक और विचार मॉडल के बीच एक संकर बनाने के लिए है। दोनों के रूप में regresion और KNN का उपयोग करें और अंतिम औसत भारित औसत या कुछ के रूप में बनाएँ।


3

इसके अलावा जो कहा गया है, और वास्तव में पहले से किए गए कुछ सुझावों से बिल्कुल अलग नहीं है, आप चाहते हैं कि हेजोनिक मूल्य निर्धारण मॉडल पर विशाल साहित्य पर एक नज़र हो सकती है । क्या यह उबलता है एक प्रतिगमन मॉडल इसकी विशेषताओं के एक समारोह के रूप में एक अच्छे की कीमत समझाने की कोशिश कर रहा है।

यह आपको इसकी विशेषताओं (घोड़े की शक्ति, आकार, ब्रांड, आदि) को जानने के लिए एक कार की कीमत देने की अनुमति देगा, भले ही आपके नमूने में बिल्कुल समान विशेषताओं का मिश्रण मौजूद न हो। यह अनिवार्य रूप से गैर-प्रतिकृति संपत्ति के मूल्य के लिए एक बहुत लोकप्रिय दृष्टिकोण है - वास्तविक राज्य संपत्तियों की तरह। यदि आप "हीडोनिक मॉडल" के लिए Google हैं तो आपको कई संदर्भ और उदाहरण मिलेंगे।


@F। टसेल: यह एक अच्छा वर्णन था। मैंने पहले ही अन्य पोस्टों से इसे एक साथ जोड़ लिया, लेकिन इसने मेरे जैसे शुरुआती लोगों के लिए अच्छी तरह से संक्षेप में बताया।
मुर्रेकट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.