क्या किसी ने कोई बेंचमार्क किया है?
हां, आपने अपने प्रश्न में जो बेंचमार्क जोड़ा है, वह हाल ही में डेटाटेबल और पांडा के हालिया संस्करण के लिए अपडेट किया गया है। इसके अतिरिक्त अन्य सॉफ्टवेयर जोड़े गए हैं। आप https://h2oai.github.io/db-benchmark पर अपडेट किया गया बेंचमार्क पा सकते हैं
दुर्भाग्य से यह 125GB मेमोरी मशीन (मूल 424 जीबी के रूप में नहीं) पर निर्धारित है। परिणामस्वरूप पांडा और डैस्क groupby
1e9 पंक्तियों (50GB csv) डेटा पर प्रयास करने में असमर्थ हैं क्योंकि वे डेटा पढ़ते समय मेमोरी से बाहर निकल जाते हैं। तो पंडों बनाम data.table के लिए आपको 1e8 पंक्तियों (5GB) डेटा को देखना होगा।
केवल उन सामग्रियों को लिंक करने के लिए जिन्हें आप पूछ रहे हैं मैं उन समाधानों के लिए हाल के समय को चिपका रहा हूं।
कृपया ध्यान दें कि उन समय पुराने हो गए हैं
यात्रा https://h2oai.github.io/db-benchmark अद्यतन समय के लिए
| in_rows|question | data.table| pandas|
|-------:|:---------------------|----------:|------:|
| 1e+07|sum v1 by id1 | 0.140| 0.414|
| 1e+07|sum v1 by id1:id2 | 0.411| 1.171|
| 1e+07|sum v1 mean v3 by id3 | 0.574| 1.327|
| 1e+07|mean v1:v3 by id4 | 0.252| 0.189|
| 1e+07|sum v1:v3 by id6 | 0.595| 0.893|
| 1e+08|sum v1 by id1 | 1.551| 4.091|
| 1e+08|sum v1 by id1:id2 | 4.200| 11.557|
| 1e+08|sum v1 mean v3 by id3 | 10.634| 24.590|
| 1e+08|mean v1:v3 by id4 | 2.683| 2.133|
| 1e+08|sum v1:v3 by id6 | 6.963| 16.451|
| 1e+09|sum v1 by id1 | 15.063| NA|
| 1e+09|sum v1 by id1:id2 | 44.240| NA|
| 1e+09|sum v1 mean v3 by id3 | 157.430| NA|
| 1e+09|mean v1:v3 by id4 | 26.855| NA|
| 1e+09|sum v1:v3 by id6 | 120.376| NA|
5 में से 4 प्रश्नों में डेटाटेबल तेज है, और हम इसे बेहतर तरीके से देख सकते हैं।
बस ध्यान दें कि यह समय अभी के अनुसार है , जहाँ id1
, id2
और id3
चरित्र क्षेत्र हैं। इन्हें जल्द ही श्रेणीबद्ध DONE में बदल दिया जाएगा । इसके अलावा अन्य कारक भी हैं जो निकट भविष्य में उन समयावधि को प्रभावित करने की संभावना रखते हैं (जैसे समानांतर DONE में समूह बनाना )। हम यह भी के लिए अलग मानदंड जोड़ने के लिए जा रहे हैं NAS होने डेटा , और विभिन्न cardinalities किया ।
अन्य कार्यों यह निरंतर बेंच मार्किंग परियोजना के लिए आ रहे हैं, इसलिए यदि आप में रुचि कर रहे हैं join
, sort
, read
और दूसरों को यकीन है कि बाद में यह जांच करने के लिए किया जाना है।
और निश्चित रूप से परियोजना रेपो में प्रतिक्रिया प्रदान करने के लिए आपका स्वागत है!