मान लीजिए कि हम किसी दुकान की बिक्री की भविष्यवाणी कर रहे हैं और मेरे प्रशिक्षण डेटा में दो सेट हैं:
- तारीखों के साथ दुकान की बिक्री के बारे में एक (क्षेत्र "स्टोर" अद्वितीय नहीं है)
- स्टोर प्रकारों में से एक (फ़ील्ड "स्टोर" यहां अद्वितीय है)
तो मैट्रिक्स कुछ इस तरह दिखेगा:
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
तथा
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
दूसरा मैट्रिक्स स्टोर प्रकार, उनमें से प्रत्येक आइटम के वर्गीकरण समूहों और निकटतम प्रतियोगी स्टोर से दूरी का वर्णन करता है।
लेकिन मेरे परीक्षण डेटा में, मेरे पास केवल पहले मैट्रिक्स में बिना Customers
और Sales
फ़ील्ड के जानकारी है। इसका उद्देश्य बिक्री के क्षेत्र की भविष्यवाणी करना है
- दुकान
- सप्ताह के दिन
- तारीख
- खुला (चाहे दुकान खुली हो)
- प्रोमो (क्या दुकान में प्रचार हो रहा है)
- राज्यहोलीदय (चाहे वह राजकीय अवकाश हो)
मैं आसानी से भविष्यवाणी करने के लिए ऊपर के बुलेटेड फ़ील्ड के आधार पर एक क्लासिफायरियर ट्रेन कर सकता हूंSales
लेकिन मैं अपने प्रशिक्षण डेटा में दूसरे मैट्रिक्स का उपयोग कैसे कर सकता हूं जो मुझे टेस्ट डेटा में नहीं मिलेगा?
क्या यह मानना तर्कसंगत है कि स्टोर प्रकारों के बारे में दूसरा मैट्रिक्स स्थिर है और मैं इसे आसानी से परीक्षण डेटा में शामिल कर सकता हूं?
यदि मेरे परीक्षण डेटा सुविधा सेट में छेद होते हैं, तो परीक्षण डेटा में कुछ पंक्तियों के लिए मान लें, मेरे पास "प्रोमो" मान नहीं हैं।
Customers
डेटा प्रतियोगिता के लिए बहुत विशिष्ट है। यदि आप सुनिश्चित नहीं हैं कि एमएल के लिए सामान्य रूप से लापता मूल्यों से कैसे निपटें (जैसे कि खाली Promo
मान), तो यह सवाल केवल उस मुद्दे के बारे में होने के लिए बदलने के लायक हो सकता है। इस साइट पर इसके बारे में पहले से ही कुछ उत्तर दिए गए हैं, जैसे datascience.stackexchange.com/questions/8322/…