लिनक्स पर पाठ फ़ाइलों को संपीड़ित करने के लिए कौन सा संग्रह विधि बेहतर है?


17

मेरे आवेदन में मुझे पाठ फ़ाइलों वाली लॉग्स को संपीड़ित करने की आवश्यकता है।

लगता है कि bzip2और gzipएक ही संपीड़न अनुपात है।

क्या वो सही है?


xz (xz-tools से या 7z p7zip से, यह बहुत पसंद है lzma) सबसे अच्छा है। bzip2 gzip से बेहतर है।
ओसगक्स

जवाबों:


5

आमतौर पर, bz2 में एक बेहतर संपीड़न अनुपात होता है, जो बेहतर पुनर्प्राप्ति सुविधाओं के साथ संयुक्त होता है।

OTOH, gz तेज है।

xz को bz2 से भी बेहतर कहा जाता है, लेकिन मुझे समय के व्यवहार की जानकारी नहीं है।


xz bzip2 की तुलना में धीमा है।
ऑग्सक्स

xz सिर्फ धीमा नहीं है, बल्कि बहुत धीमा है, 300 mb फाइल को सेक करने के लिए bzip2 के लिए लगभग 30 सेकंड का समय लगता है। मैंने xz को 5 मिनट से अधिक समय तक सेक करने के बाद मार डाला था
Tebe

@ Копать_Шо_я_нашел मुझे लगता है कि यह आपके द्वारा चुने गए संपीड़न स्तर पर बहुत अधिक निर्भर करता है। के साथ -1, यह इतना धीमा नहीं है, लेकिन डिफ़ॉल्ट सेटिंग्स के साथ, यह काफी धीमा हो जाता है।
ग्लोगल

7

Maxcompression.com का अंतिम अपडेट जून -2018 (अक्टूबर -2015 में अपडेट किया गया उत्तर) है,
इसलिए इस वेबसाइट में दुनिया भर
में वर्तमान चैंपियन पाठ कंप्रेसर का उल्लेख नहीं है :

      cmix

प्रतियोगिताएं / मानक:

विवरण:
बायरन Knoll सक्रिय रूप से developping है cmixपुस्तक पर आधारित 2013 के बाद से Libre सॉफ्टवेयर (GPL) के रूप में डेटा संपीड़न समझाया द्वारा मैट Mahoney । मैट महोनी भी उपरोक्त कुछ बेंचमार्क बनाए रखते हैं और एक कमांड लाइन वृद्धिशील अभिलेखागार ZPAQ ( WP ) का प्रस्ताव करते हैं


यदि आप एक अधिक मानक उपकरण पसंद करते हैं (कम रैम की आवश्यकता होती है) तो मेरी सलाह है:

      lrzip

lrzipका विकास है rzipद्वारा कॉन कोलिवस
lrzipदो नामों के लिए खड़ा है: लंबी दूरी की ज़िप और Lzma RZIP
lrzipअक्सर xz(एक अन्य लोकप्रिय संपीड़न उपकरण) से बेहतर होता है ।
अलेक्जेंडर रिकसिओ भी सिफारिश करते हैं lrzip


मेरी पसंदीदा है:

      zpaq

"Archiver विशेषज्ञ" , मैट Mahoney , गहराई पर काम किया है PAQ दस साल के लिए एल्गोरिदम और सीपीयू / स्मृति संसाधनों और संपीड़न स्तर के बीच सर्वश्रेष्ठ संतुलन प्रदान करते हैं।

हालाँकि, अंतिम zpaqसंस्करण अक्सर हाल के डिस्ट्रो पर पैक / उपलब्ध नहीं होता है :-(
मैं हमेशा इसे स्रोतों से संकलित करता हूं जब मेरे पास एक नई मशीन होती है और मुझे एक बहुत अच्छे कंप्रेसर की आवश्यकता होती है: https://github.com/zpaq/zpaq

clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq


1

मैंने निम्नलिखित को संक्षिप्त करने के लिए परीक्षण करने के लिए एक बेंचमार्क बनाया है:
204MB फ़ोल्डर (1,600 HTML फ़ाइलों के साथ)
परिणाम

7zip =>     2.38 MB
winrar =>   49.5 MB
zip =>      50.8 MB
gzip =>     51.9 MB

तो 7zip उनमें से सबसे अच्छा है आप इसे यहाँ से प्राप्त कर सकते हैं
http://www.7-zip.org/


0

bz2 में तंग संपीड़न है, एल्गोरिथ्म में संपीड़ित करने के लिए अतिरेक देखने के लिए अधिक विकल्प हैं।

gzip बहुत अधिक टूल में है, और अधिक क्रॉस प्लेटफ़ॉर्म है। अधिक विंडोज टूल .gz फाइलों से निपट सकते हैं। यह http का हिस्सा है, इसलिए वेब ब्राउज़र भी इसे समझ सकते हैं।

लिनक्स पर, ऐसे उपकरण हैं जो आपको सीधे संपीड़ित फ़ाइलों पर काम करने देते हैं। zgrep और bzgrep संपीड़ित फ़ाइलों में खोज कर सकते हैं।

अगर सिर्फ लिनक्स पर, मैं थोड़ा बेहतर संपीड़न अनुपात के लिए bzip2 का उपयोग करूंगा।


0

xz bz2 की तुलना में बहुत बेहतर है, लेकिन इसमें अधिक समय लगता है। इसलिए, यदि अधिकतम संपीड़न आपका लक्ष्य है और आपकी हार्ड ड्राइव पर जगह एक प्रीमियम पर है (जो कि 98% पर एक ड्राइव के साथ मेरा मामला है - जबकि मैं अपनी फाइल सिस्टम को पुनर्गठित करता हूं), और आप काम करने के लिए एक स्क्रिप्ट को फायर कर सकते हैं। - एक ब्रेक लें और 5 मिनट में वापस आएं।

unxz मेरे अनुभव को अनसुना करने के लिए बहुत तेज़ है - जो मेरे लिए दैनिक आधार पर एक अच्छी बात है।

bz2 xz की तुलना में तेजी से कम होता है, लेकिन xz के संपीड़न परिणामों को प्राप्त करने के लिए प्रकट नहीं होता है।

इन आकलन करने का एकमात्र तरीका यह है कि आप सामान्य फ़ाइलों के मिश्रण के खिलाफ बेंचमार्क चलाएं, जो सामान्य रूप से संपीड़ित / विघटित होगा, और यह देखने के लिए पैरामीटर अलग-अलग हो सकते हैं जो शीर्ष पर निकलते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.