मैं हाइव के साथ उपलब्ध भंडारण प्रारूपों पर कुछ परीक्षण चला रहा हूं और प्रमुख विकल्पों के रूप में Parquet और ORC का उपयोग कर रहा हूं। मैंने ORC को एक बार डिफ़ॉल्ट संपीड़न के साथ और एक बार स्नैपी के साथ शामिल किया।
मैंने कई दस्तावेजों को पढ़ा है कि ओआरसी की तुलना में समय / स्थान की जटिलता में बेहतर होने के लिए राज्य की लकड़ी की छत बेहतर है, लेकिन मेरे परीक्षण उन दस्तावेजों के विपरीत हैं जिनसे मैं गुजरा था।
मेरे डेटा के कुछ विवरण का अनुसरण करता है।
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
जहां तक मेरी मेज के लिए संपीड़न का संबंध है, तब तक लकड़ी की छत सबसे खराब थी।
उपरोक्त सारणियों के साथ मेरे परीक्षणों के बाद परिणाम मिले।
पंक्ति गणना ऑपरेशन
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
एक कॉलम ऑपरेशन का योग
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
एक कॉलम ऑपरेशन का औसत
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
क्लॉज का उपयोग करके किसी दिए गए रेंज से 4 कॉलम का चयन करना
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
क्या इसका मतलब है कि ORC तेज है और फिर Parquet? या ऐसा कुछ है जो मैं क्वेरी प्रतिक्रिया समय और संपीड़न अनुपात के साथ इसे बेहतर बनाने के लिए कर सकता हूं?
धन्यवाद!