जब परीक्षण डेटा में प्रशिक्षण डेटा की तुलना में कम विशेषताएं हैं तो क्या करें?


10

मान लीजिए कि हम किसी दुकान की बिक्री की भविष्यवाणी कर रहे हैं और मेरे प्रशिक्षण डेटा में दो सेट हैं:

  • तारीखों के साथ दुकान की बिक्री के बारे में एक (क्षेत्र "स्टोर" अद्वितीय नहीं है)
  • स्टोर प्रकारों में से एक (फ़ील्ड "स्टोर" यहां अद्वितीय है)

तो मैट्रिक्स कुछ इस तरह दिखेगा:

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

तथा

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

दूसरा मैट्रिक्स स्टोर प्रकार, उनमें से प्रत्येक आइटम के वर्गीकरण समूहों और निकटतम प्रतियोगी स्टोर से दूरी का वर्णन करता है।

लेकिन मेरे परीक्षण डेटा में, मेरे पास केवल पहले मैट्रिक्स में बिना Customersऔर Salesफ़ील्ड के जानकारी है। इसका उद्देश्य बिक्री के क्षेत्र की भविष्यवाणी करना है

  • दुकान
  • सप्ताह के दिन
  • तारीख
  • खुला (चाहे दुकान खुली हो)
  • प्रोमो (क्या दुकान में प्रचार हो रहा है)
  • राज्यहोलीदय (चाहे वह राजकीय अवकाश हो)

मैं आसानी से भविष्यवाणी करने के लिए ऊपर के बुलेटेड फ़ील्ड के आधार पर एक क्लासिफायरियर ट्रेन कर सकता हूंSales लेकिन मैं अपने प्रशिक्षण डेटा में दूसरे मैट्रिक्स का उपयोग कैसे कर सकता हूं जो मुझे टेस्ट डेटा में नहीं मिलेगा?

क्या यह मानना ​​तर्कसंगत है कि स्टोर प्रकारों के बारे में दूसरा मैट्रिक्स स्थिर है और मैं इसे आसानी से परीक्षण डेटा में शामिल कर सकता हूं?

यदि मेरे परीक्षण डेटा सुविधा सेट में छेद होते हैं, तो परीक्षण डेटा में कुछ पंक्तियों के लिए मान लें, मेरे पास "प्रोमो" मान नहीं हैं।


आप जानते हैं कि आप इसे कागल फोरम पर पूछ सकते हैं, और यह पहले से ही उत्तर दिया गया है : kaggle.com/c/rossmann-store-sales/forums/t/17137/… और kaggle.com/c/rossmann-store-ales/forums / टी / १६ Nov३० / ...
नील स्लेटर

ऊओ, मेरे कुबूल करो, क्षमा करो। पहली बार मेरे हाथ पकड़े बिना किसी को भी काटे) =)
१०

1
कोई दिक्कत नहीं है। Customersडेटा प्रतियोगिता के लिए बहुत विशिष्ट है। यदि आप सुनिश्चित नहीं हैं कि एमएल के लिए सामान्य रूप से लापता मूल्यों से कैसे निपटें (जैसे कि खाली Promoमान), तो यह सवाल केवल उस मुद्दे के बारे में होने के लिए बदलने के लायक हो सकता है। इस साइट पर इसके बारे में पहले से ही कुछ उत्तर दिए गए हैं, जैसे datascience.stackexchange.com/questions/8322/…
नील स्लेटर

जवाबों:


6

अप्रशिक्षित सीखने के लिए अतिरिक्त सुविधाओं का उपयोग करें। आप एसवीएम के संदर्भ में व्लादिमीर वापनिक का आनंद ले सकते हैं, जिसे वे विशेषाधिकार प्राप्त शिक्षा कहते हैं: लर्निंग विद इंटेलिजेंट टीचर: समानता नियंत्रण और ज्ञान हस्तांतरण


2

मुझे लगता है कि जिस तरह से आप समस्या बता रहे हैं उसमें कोई समस्या हो सकती है। आप कहते हैं कि आपके पास डेटा का परीक्षण करने के लिए दो फ़ील्ड नहीं हैं, लेकिन यह सही नहीं हो सकता है।

आपको अपना सारा डेटा लेना होगा और इसे 2 समूहों में विभाजित करना होगा, प्रशिक्षण सेट और परीक्षण सेट। 80% -20% या 70% -30% के अनुपात में। फिर आप प्रशिक्षण सेट में डेटा के साथ अपने एल्गोरिथ्म को प्रशिक्षित करते हैं, और परीक्षण सेट में डेटा के साथ मॉडल की सटीकता का परीक्षण करते हैं।

आपके द्वारा प्राप्त सटीकता की संभावना है कि आपका मॉडल सही है। या किसी अन्य तरीके से कहा, अगली बार जब आप किसी बिक्री की भविष्यवाणी करने के लिए अपने मॉडल का उपयोग करते हैं, तो सटीकता की संभावना है कि आपकी भविष्यवाणी वास्तविक है


मुझे लगता है कि आप ओपी द्वारा "परीक्षण डेटा" शब्द के उपयोग और सवाल का सार पूरी तरह से गायब हो रहे हैं ...
पैट्रिक कूलोमबे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.