Python के साथ एनालिटिक्स करने के लिए नौसिखिया कृपया सौम्य रहें :-) मुझे इस सवाल का जवाब नहीं मिला - माफी अगर यह पहले से ही एक अलग प्रारूप में कहीं और उत्तर दिया गया है।
मेरे पास रिटेल आउटलेट के लिए लेनदेन डेटा का डेटासेट है। स्पष्टीकरण के साथ चर हैं:
- अनुभाग: स्टोर का अनुभाग, एक str;
- prod_name: उत्पाद का नाम, एक str;
- रसीद: चालान की संख्या, एक इंट;
- खजांची, खजांची की संख्या, एक इंट;
- लागत: आइटम की लागत, एक फ्लोट;
- दिनांक, प्रारूप MM / DD / YY, एक str में;
- समय, प्रारूप में HH: MM: SS, a str;
एकल लेन-देन में खरीदे गए सभी उत्पादों के लिए रसीद का मूल्य समान है, इस प्रकार इसका उपयोग एकल लेनदेन में की गई खरीद की औसत संख्या निर्धारित करने के लिए किया जा सकता है।
इस के बारे में जाने के लिए सबसे अच्छा तरीका क्या है? मैं अनिवार्य रूप groupby()
से रसीद चर को अपने समान घटनाओं द्वारा समूह में उपयोग करना चाहता हूं ताकि मैं एक हिस्टोग्राम बना सकूं।
डेटा के साथ एक पांडा में काम करना DataFrame।
संपादित करें:
हेडर के साथ कुछ नमूना डेटा यहाँ है (prod_name वास्तव में एक हेक्स संख्या है):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
इस सैम्पल सेट से मैं रसीद के हिस्टोग्राम की उम्मीद करूँगा जो रसीद की दो घटनाओं को दर्शाता है 102857 (क्योंकि उस व्यक्ति ने एक लेन-देन में दो आइटम खरीदे थे) और एक घटना क्रमशः रसीद 102856 और रसीद 102858 की है। नोट: मेरा डेटासेट बड़ा नहीं है, के बारे में 1 मिलियन पंक्तियाँ।