फ़ाइलों के लिए उच्चतम संपीड़न (वेब ​​स्थानांतरण के लिए)?


14

मैंने आसपास कुछ अत्यधिक संकुचित फ़ाइलें देखी हैं, जैसे कि 700MB डेटा लगभग 30-50MB तक संकुचित।

लेकिन आपको ऐसी संपीड़ित फाइलें कैसे मिलती हैं? मैंने WinRAR और 7Zip जैसे सॉफ़्टवेयर का उपयोग करने की कोशिश की है, लेकिन कभी भी इस तरह के उच्च संपीड़न को प्राप्त नहीं किया है।

ऐसी कौन सी तकनीकें / सॉफ्टवेयर हैं जो आपको फाइलों को इतनी अच्छी तरह से कंप्रेस करने की अनुमति देते हैं।

(PS मैं Windows XP का उपयोग कर रहा हूं)


अच्छा विचार है ... लेकिन आप वैसे भी इस तरह की फाइलें कहां से प्राप्त करते हैं?
रॉबिनक्स

3
मैंने अपने मूल आकार के लगभग 1% नीचे 7zip सेक सर्वर लॉग फाइल (मुख्य रूप से टेक्स्ट) देखी है।
Umber Ferrule

2
नोटपैड खोलें। टाइप 1 बिलियन बार "ए"। सहेजें, तब संपीड़ित करें। वाह! एक ऐसा ऐप बनाएं, जो किसी फ़ाइल में 1 बिलियन (ट्रू) रैंडम नंबर लिखे। उसको कंप्रेस करें। ओह?
igrimpe

igrimpe: कई संपीड़न एल्गोरिदम सूचकांक पैटर्न। एक अरब एक एक एक अरब बार है। आप इसे [A] {1, 1000000000} पर संपीड़ित कर सकते हैं। यदि आपके पास एक बिलियन रैंडम संख्या है, तो पैटर्न को मैच करना मुश्किल हो जाता है क्योंकि किसी दिए गए सब्मिट में प्रत्येक लगातार संख्या के मिलान की संभावना कम हो जाती है।
आरोनएफ

जवाबों:


11

यदि डेटा को संपीड़ित करने के लिए लिया गया समय कोई समस्या नहीं है, तो आप एक साथ कई विभिन्न उपकरणों का उपयोग करके संपीड़ित आकार को अनुकूलित कर सकते हैं।

7zip, winrar (zip के लिए) और bjwflate जैसे विभिन्न उपकरणों का उपयोग करके कई बार डेटा को संपीड़ित करें।

(ध्यान दें कि इसका मतलब यह नहीं है कि ज़िप फ़ाइल को बार-बार संकुचित करें, बल्कि विभिन्न उपकरणों का उपयोग करके कई वैकल्पिक ज़िप फ़ाइलों का निर्माण करें)

अगला, प्रत्येक संग्रह को थोड़ा और कम करने के लिए प्रत्येक संग्रह पर डिफॉल्ट को चलाएं ।

अंत में, अभिलेखागार के संग्रह पर zipmix चलाएं । चूँकि अलग-अलग फाइलों पर अलग-अलग ज़िप उपकरण बेहतर होते हैं, ज़िप्पीक्स प्रत्येक संग्रह से प्रत्येक फ़ाइल का सबसे अच्छा संपीड़ित संस्करण चुनता है और एक आउटपुट उत्पन्न करता है जो कि किसी भी ज़िप उपकरण से व्यक्तिगत रूप से उत्पन्न हो सकता है।

आपको इस बात पर ध्यान देना चाहिए कि आपकी फ़ाइलों पर किसी भी तरह का जादू काम करने की गारंटी नहीं है। कुछ प्रकार के डेटा केवल बहुत अच्छी तरह से संपीड़ित नहीं होते हैं, जैसे जेपीईजी और एमपी 3। ये फ़ाइलें पहले से ही आंतरिक रूप से संपीड़ित हैं।


4
JPEG और MP3s ज़िप नहीं किए गए हैं। वे संकुचित हैं, लेकिन ज़िपित नहीं हैं।
कोवल

यह अविश्वसनीय रूप से खराब सलाह है, कई संपीड़न एल्गोरिदम का क्रमिक रूप से उपयोग करने की कोशिश करना एक बहुत बुरा विचार है। प्रत्येक एल्गोरिथ्म एक संपीड़ित फ़ाइल + ओवरहेड बनाता है, इसलिए एकाधिक का उपयोग करके आप वास्तव में उस डेटा में डेटा जोड़ रहे हैं जिसे आप संपीड़ित करने का प्रयास कर रहे हैं - यह रेत में एक छेद खोदने की कोशिश करने जैसा है, जितना गहरा आप अधिक रेत में अंदर जाते हैं आप। आप अधिकतम संपीड़न सेटिंग्स में एक एकल अच्छे एल्गोरिथ्म का उपयोग करके बहुत बेहतर हैं।
टैक्रॉय

मुझे लगता है कि आप गलत समझ रहे हैं .. एक ही डेटा को बार-बार recompressed नहीं किया जा रहा है। बल्कि आप प्रति संग्रह के बजाय प्रति फ़ाइल आधार पर सबसे अच्छा एकल एल्गोरिदम चुन रहे हैं।
izb

6
डेटा को कई बार संपीड़ित करना बहुत भ्रामक है।
ta.speot.is

12

यह पूरी तरह से संकुचित होने वाले डेटा पर निर्भर करता है।

पाठ बहुत अच्छी तरह से संपीड़ित करता है, द्विआधारी प्रारूप इतना अच्छा नहीं है और संकुचित डेटा (एमपी 3, जेपीजी, एमपीईजी) बिल्कुल नहीं।

यहाँ विकिपीडिया से एक अच्छा संपीड़न तुलना तालिका है।


मुझे पता है कि संपीड़न डेटा के प्रकार पर निर्भर करता है, लेकिन क्या कोई विशिष्ट तकनीकें हैं जो आपको फ़ाइलों को आगे संपीड़ित करने में मदद करती हैं?
rzlines

3
एक बार जब आप कुछ संकुचित कर लेते हैं तो आमतौर पर इसे औसत रूप से छोटा करना असंभव होता है। आपको बस अपने डेटा के लिए उपयुक्त संपीड़न विधि का चयन करना होगा।
निफले

पाठ को आसानी से 90% तक संपीड़ित किया जा सकता है।
जॉर्ज शॉली

@ GeorgSchölly: यह उत्कृष्ट है। क्योंकि मैं किसी भी डेटा को टेक्स्ट में बदल सकता हूं, उदाहरण के लिए प्रत्येक बाइनरी बाइट को टेक्स्ट में प्रदर्शित दो हेक्साडेसिमल अंकों में परिवर्तित करें। यह मेरे आकार को दोगुना कर देगा, लेकिन फिर 90% के आकार को बचाने से कुल मिलाकर 80% की बचत होगी। (या, मैं पाठ रूपांतरण में बाइनरी में थोड़ी अधिक दक्षता के लिए बेस 64 का उपयोग कर सकता हूं।) यह आश्चर्यजनक रूप से बहुत अच्छी खबर है! :)
TOOGAM

8

पिछले उत्तर परिमाण के एक आदेश द्वारा गलत हैं!

सबसे अच्छा संपीड़न एल्गोरिथ्म जो मेरे पास व्यक्तिगत अनुभव है, वह है paq8o10t ( zpaq पृष्ठ और पीडीएफ देखें )।

संकेत: files_or_folders को संपीड़ित करने के लिए आदेश निम्नानुसार होगा:

paq8o10t -5 archive files_or_folders

संग्रह आकार बनाम समय और एक अधिकतम USB हार्ड ड्राइव पर 10 जीबी (79,431 फाइलें) को डिफॉल्ट अक्षांश E6510 लैपटॉप पर डिफ़ॉल्ट और अधिकतम सेटिंग्स (कोर i7 M620, 2 + 2 हाइपरथ्रेड्स, 2.66 गीगाहर्ट्ज, 4 जीबी, उबंटू लिनक्स पर निकालने और निकालने के लिए) , शराब 1.6)।  10 जीबी बेंचमार्क (सिस्टम 4) से डेटा।

स्रोत: वृद्धिशील जर्नलिंग बैकअप उपयोगिता और अभिलेखागार

आप GitHub पर स्रोत कोड का दर्पण पा सकते हैं ।


थोड़ी बेहतर संपीड़न एल्गोरिथ्म, और हटर प्राइज़ के विजेता , डिकम्पो 8 (पुरस्कार पृष्ठ पर लिंक देखें) है। हालांकि, कोई कंप्रेसर प्रोग्राम नहीं है जिसे आप वास्तव में उपयोग कर सकते हैं।


के लिए वास्तव में बड़ी फ़ाइलों lrzip संपीड़न अनुपात कि बस रहे हैं प्राप्त कर सकते हैं अनोखा

README.benchmark से एक उदाहरण:


आइए छह कर्नेल पेड़ों को एक संस्करण के रूप में अलग करें एक टारबॉल के रूप में, linux-2.6.31 से linux-2.6.36। ये बहुत सारी बेमानी सूचनाएँ दिखाएंगे, लेकिन सैकड़ों मेगाबाइट अलग-अलग होंगे, जो कंप्रेस करने पर बहुत अच्छा होगा। सादगी के लिए, केवल 7z की तुलना की जाएगी क्योंकि यह अब तक का सबसे अच्छा सामान्य प्रयोजन कंप्रेसर है:

ये 2.53Ghz के दोहरे कोर Intel Core2 में 4GB रैम के साथ lrzip v0.5.1 का उपयोग करते हुए बेंचमार्क हैं। ध्यान दें कि यह 32 बिट उपयोगकर्ता के साथ चल रहा था, इसलिए केवल 2GB एड्रेसिंग पॉसिबल था। हालाँकि बेंचमार्क -U विकल्प के साथ चलाया गया था जिससे पूरी फाइल को एक बड़ी कम्प्रेशन विंडो के रूप में माना जा सकता है।

6 लगातार कर्नेल पेड़ों का टारबॉल।

Compression    Size                 Percentage      Compress    Decompress
None           2373713920           100             [n/a]       [n/a]
7z             344088002            14.5            17m26s      1m22s
lrzip          104874109            4.4             11m37s      56s
lrzip -l       223130711            9.4             05m21s      1m01s
lrzip -U       73356070             3.1             08m53s      43s
lrzip -Ul      158851141            6.7             04m31s      35s
lrzip -Uz      62614573             2.6             24m42s      25m30s

यह अधिकतम संपीड़न अनुपात प्रदान करने के लिए अनुकूलित है, लेकिन निकट-दावेदारों की तुलना में काफी धीमा है।
एरिक जे।

2
@ एरिक जे। हाँ, लेकिन प्रश्न ने संपीड़न / विघटन की गति को निर्दिष्ट नहीं किया;)
अलेक्जेंडर रिकसिओ

3

Squeezechart.com में विभिन्न संपीड़न दरों की तुलना होती है। यद्यपि, जैसा कि निफ़ले के उत्तर द्वारा कहा गया है - आपको द्विआधारी प्रारूपों के लिए इस तरह की उच्च संपीड़न दर प्राप्त होने की संभावना नहीं है।


2

अधिकांश कम्प्रेशन टूल्स में सेटिंग्स होती हैं जो आपको धीमी संपीड़न / विघटन समय और अधिक रैम उपयोग के एक समझौता पर उच्च संपीड़न दर प्राप्त करने की अनुमति देती हैं।

7-जिप के लिए, अधिक विवरण के लिए अंतर्निहित सहायता में "पुरालेख डायलॉग बॉक्स में जोड़ें" खोजें।


2

आप निम्न अल्ट्रा सेटिंग्स के साथ 7zip की कोशिश कर सकते हैं:

7z a -t7z -m0=lzma -mx=9 -mfb=64 -md=32m -ms=on big_file.mysql.7z big_file.mysql

2

बस कई फ़ाइल संपीड़न बेंचमार्क परीक्षणों के सारांश की जांच करें जिसमें सबसे अच्छा संपीड़न सूची है जिसमें पूर्ण संपीड़न बेंचमार्क शामिल है।

शीर्ष 30

यहां छवि विवरण दर्ज करें

इस टेस्ट में टॉप परफॉर्मर्स (कम्प्रेशन पर आधारित) PAQ8 और WinRK (PWCM) हैं। वे 62 एमबी (आकार में 80% कमी) के तहत 300+ एमबी टेस्टसेट को संपीड़ित करने में सक्षम हैं, लेकिन परीक्षण को पूरा करने के लिए न्यूनतम 8,5 घंटे लगते हैं। टेस्ट को पूरा करने के लिए नंबर एक कार्यक्रम (PAQ8P) को लगभग 12 घंटे और नंबर चार (PAQAR) 17 घंटे लगते हैं। WinRK, दूसरा सबसे अच्छा संपीड़न (79.7%) के साथ कार्यक्रम में लगभग 8,5 घंटे लगते हैं। आश्चर्यजनक रूप से सभी उल्लेखित कार्यक्रम संपीड़न के लिए एक PAQ (जैसे-जैसे) इंजन का उपयोग नहीं करते हैं। यदि आपके पास एम्बेडेड चित्र वाली फाइलें हैं (जैसे वर्ड DOC फाइलें) PAQ8 का उपयोग करें, तो यह उन्हें पहचान लेगा और अलग से उन्हें संपीड़ित करेगा, संपीड़न को काफी बढ़ाएगा। सभी उल्लिखित कार्यक्रम (WinRK को छोड़कर) नि: शुल्क हैं।


1

यहां आपका सबसे अच्छा दांव ट्रायल और एरर लगता है। प्रत्येक फ़ाइल पर अपने सभी उपलब्ध संपीड़न तकनीकों का प्रयास करें और अपनी वेबसाइट पर डालने के लिए सर्वोत्तम चुनें। सौभाग्य से कंप्यूटर इस तरह की चीजों को बहुत तेजी से करते हैं और ऊब नहीं पाते हैं। आप प्रक्रिया को स्वचालित करने के लिए एक सरल स्क्रिप्ट लिख सकते हैं ताकि यह "अपेक्षाकृत दर्द रहित" हो।

बस चमत्कार की उम्मीद मत करो - 700 mb से 30 mb तक नीचे बस ऐसा नहीं होता है। ऊपर बताई गई फाइलों को लॉग करें - हाँ। "आपकी औसत फ़ाइल" - कोई रास्ता नहीं।


0

Nanozip को FreeArc के साथ एक साथ उच्चतम संपीड़न लगता है। लेकिन यह अभी अंतिम संस्करण में नहीं है। नहीं है कितना अच्छा संपीड़न Nanozip को प्राप्त होता है । इसमें बहुत उच्च संपीड़न है और इसमें बहुत अधिक समय नहीं लगता है, कई फ़ाइल संपीड़न बेंचमार्क परीक्षणों के सारांश की जांच करें , लेकिन FreeArc तेज है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.