क्या किसी ने कोई बेंचमार्क किया है?
हां, आपने अपने प्रश्न में जो बेंचमार्क जोड़ा है, वह हाल ही में डेटाटेबल और पांडा के हालिया संस्करण के लिए अपडेट किया गया है। इसके अतिरिक्त अन्य सॉफ्टवेयर जोड़े गए हैं। आप https://h2oai.github.io/db-benchmark पर अपडेट किया गया बेंचमार्क पा सकते हैं
दुर्भाग्य से यह 125GB मेमोरी मशीन (मूल 424 जीबी के रूप में नहीं) पर निर्धारित है। परिणामस्वरूप पांडा और डैस्क groupby1e9 पंक्तियों (50GB csv) डेटा पर प्रयास करने में असमर्थ हैं क्योंकि वे डेटा पढ़ते समय मेमोरी से बाहर निकल जाते हैं। तो पंडों बनाम data.table के लिए आपको 1e8 पंक्तियों (5GB) डेटा को देखना होगा।
केवल उन सामग्रियों को लिंक करने के लिए जिन्हें आप पूछ रहे हैं मैं उन समाधानों के लिए हाल के समय को चिपका रहा हूं।
कृपया ध्यान दें कि उन समय पुराने हो गए हैं
यात्रा https://h2oai.github.io/db-benchmark अद्यतन समय के लिए
| in_rows|question | data.table| pandas|
|-------:|:---------------------|----------:|------:|
| 1e+07|sum v1 by id1 | 0.140| 0.414|
| 1e+07|sum v1 by id1:id2 | 0.411| 1.171|
| 1e+07|sum v1 mean v3 by id3 | 0.574| 1.327|
| 1e+07|mean v1:v3 by id4 | 0.252| 0.189|
| 1e+07|sum v1:v3 by id6 | 0.595| 0.893|
| 1e+08|sum v1 by id1 | 1.551| 4.091|
| 1e+08|sum v1 by id1:id2 | 4.200| 11.557|
| 1e+08|sum v1 mean v3 by id3 | 10.634| 24.590|
| 1e+08|mean v1:v3 by id4 | 2.683| 2.133|
| 1e+08|sum v1:v3 by id6 | 6.963| 16.451|
| 1e+09|sum v1 by id1 | 15.063| NA|
| 1e+09|sum v1 by id1:id2 | 44.240| NA|
| 1e+09|sum v1 mean v3 by id3 | 157.430| NA|
| 1e+09|mean v1:v3 by id4 | 26.855| NA|
| 1e+09|sum v1:v3 by id6 | 120.376| NA|
5 में से 4 प्रश्नों में डेटाटेबल तेज है, और हम इसे बेहतर तरीके से देख सकते हैं।
बस ध्यान दें कि यह समय अभी के अनुसार है , जहाँ id1, id2और id3चरित्र क्षेत्र हैं। इन्हें जल्द ही श्रेणीबद्ध DONE में बदल दिया जाएगा । इसके अलावा अन्य कारक भी हैं जो निकट भविष्य में उन समयावधि को प्रभावित करने की संभावना रखते हैं (जैसे समानांतर DONE में समूह बनाना )। हम यह भी के लिए अलग मानदंड जोड़ने के लिए जा रहे हैं NAS होने डेटा , और विभिन्न cardinalities किया ।
अन्य कार्यों यह निरंतर बेंच मार्किंग परियोजना के लिए आ रहे हैं, इसलिए यदि आप में रुचि कर रहे हैं join, sort, readऔर दूसरों को यकीन है कि बाद में यह जांच करने के लिए किया जाना है।
और निश्चित रूप से परियोजना रेपो में प्रतिक्रिया प्रदान करने के लिए आपका स्वागत है!