प्राइम नंबरों का उपयोग करके डेटा संपीड़न


22

मैंने हाल ही में निम्नलिखित दिलचस्प लेख पर ठोकर खाई है जो डेटा के प्रकार और प्रारूप पर ध्यान दिए बिना यादृच्छिक डेटा सेट को हमेशा 50% से अधिक कुशलता से संपीड़ित करने का दावा करता है।

मूल रूप से यह 4-बाइट डेटा चैंक्स के प्रतिनिधित्व को विशिष्ट रूप से निर्मित करने के लिए प्राइम नंबरों का उपयोग करता है जो कि दिए गए डिकम्प्रेसन के लिए आसान है कि हर नंबर प्राइम का एक अनूठा उत्पाद है। इन अनुक्रमों को primes के साथ जोड़ने के लिए यह एक शब्दकोश का उपयोग करता है।

मेरा सवाल यह है कि:

  • क्या यह वास्तव में संभव है क्योंकि लेखक इसे सुझाते हैं? कागज के अनुसार, उनके परिणाम बहुत कुशल होते हैं और हमेशा डेटा को एक छोटे आकार में संपीड़ित करते हैं। शब्दकोश का आकार बड़ा नहीं होगा?
  • इसे पुन: संपीड़ित करने के लिए एक ही एल्गोरिथ्म का उपयोग करके संपीड़ित डेटा को पुन: संपीड़ित करने के लिए इस्तेमाल नहीं किया जा सकता है? यह स्पष्ट है, और यह प्रदर्शित किया गया है, कि इस तरह की तकनीकें (जहां संपीड़ित डेटा संभव के रूप में कई बार पुन: संपीड़ित होता है, नाटकीय रूप से फ़ाइल का आकार कम करना) असंभव है; वास्तव में, सभी यादृच्छिक डेटा और संपीड़ित डेटा के सेट के बीच कोई आपत्ति नहीं होगी। तो ऐसा क्यों लगता है कि यह संभव होगा?
  • भले ही तकनीक अभी तक सही नहीं है, लेकिन यह स्पष्ट रूप से अनुकूलित और दृढ़ता से सुधार किया जा सकता है। यह अधिक व्यापक रूप से ज्ञात / अध्ययन क्यों नहीं है? यदि वास्तव में ये दावे और प्रायोगिक परिणाम सही हैं, तो क्या यह पुनरावर्तन कम्प्यूटिंग नहीं कर सकता है?

5
जैसा कि आपने देखा, कागज वास्तव में मजबूत दावे कर रहा है। हमेशा इस तरह के दावों पर बहुत संदेह होता है, खासकर अगर पेपर एक विषम स्थान (अद्भुत कागजात "कंप्यूटिंग में क्रांति") में प्रकाशित होता है, जिसे सम्मानित प्रसिद्ध स्थानों में प्रकट होना चाहिए?)।
जुहो

2
kolmogorov जटिलता सिद्धांत पर आधारित "हमेशा यादृच्छिक डेटा को संपीड़ित करना" असंभव है । और एक अव्यवस्था के समान है कि आप कैसे बाहर निकले हैं। सुनिश्चित नहीं है कि यह कागज की गलत व्याख्या है या मूल पेपर में। आप क्यों नहीं उजागर करते हैं कि वह विशेष दावा कहां आता है?
vzn

6
"क्या यह एक ही एल्गोरिथ्म का उपयोग करके संपीड़ित डेटा को पुन: संपीड़ित करने के लिए उपयोग नहीं किया जा सकता है?" - हाँ। कोई भी एल्गोरिथ्म जो सभी मनमाने डेटा को संपीड़ित करने में सक्षम होने का दावा करता है, उसे पुन: अपने स्वयं के आउटपुट पर लागू किया जा सकता है जैसे कि कोई भी डेटा 0 बिट्स तक संपीड़ित होता है। इस प्रकार, यह दावा असंभव है।
जोर्ग डब्ल्यू मित्तग

1
@ JörgWMittag मेरे पास एक एल्गोरिथ्म है जो आपको एक फ़ाइल को बिट्स की एक छोटी संख्या में बार-बार संपीड़ित करने देता है, लेकिन यह बेहद अव्यवहारिक है। इसके अलावा केवल 1 बिट से शुरू होने वाली फ़ाइलों के साथ काम करता है: पूरी फ़ाइल को एक बड़ी बाइनरी संख्या के रूप में समझें, इसे घटाएं, फिर 0 के प्रमुख को छोड़ दें। विघटित करने के लिए, इसे बढ़ाएं, यदि आवश्यक हो तो एक अग्रणी 1 जोड़ना।
user253751

3
स्वयं पर ध्यान दें: कभी भी किसी भी एल्सेवियर पत्रिकाओं को कोई भी कागजात जमा करने से परेशान न हों।
500 - आंतरिक सर्वर त्रुटि

जवाबों:


34

हमेशा 50% से अधिक यादृच्छिक डेटा सेट को संपीड़ित करें

यह असंभव है। आप यादृच्छिक डेटा को संपीड़ित नहीं कर सकते हैं , जिसका लाभ लेने के लिए आपको कुछ संरचना की आवश्यकता होती है। संपीड़न, उलटने योग्य होना चाहिए ताकि आप संभवतः संपीड़ित नहीं कर सकते हैं सब कुछ 50% तक की लंबाई की अब तक कम तार देखते हैं क्योंकि वहाँ लंबाई के होते हैं की तुलना में एनn/2n

कागज के साथ कुछ प्रमुख मुद्दे हैं:

  • वे अपनी सामग्री के किसी भी संकेत के बिना 10 परीक्षण फ़ाइलों का उपयोग करते हैं। क्या डेटा वास्तव में यादृच्छिक है? वे कैसे उत्पन्न हुए थे?

  • वे कम से कम 50% के संपीड़न अनुपात को प्राप्त करने का दावा करते हैं, जबकि उनके परीक्षण डेटा से पता चलता है कि वे अधिकतम 50% प्राप्त करते हैं ।

यह एल्गोरिथ्म एक दोषरहित रणनीति को परिभाषित करता है जो दशमलव संख्या प्रणाली में मौजूद प्रमुख संख्याओं का उपयोग करता है

  • क्या? आधार की परवाह किए बिना अभाज्य संख्याएँ अभाज्य संख्याएँ हैं।

  • विघटन के साथ अंक # 1: प्रधान कारक एक कठिन समस्या है, वे इसे कुशलता से कैसे करते हैं?

  • 25=10=52

मुझे नहीं लगता कि यह पेपर बहुत अच्छा है।


मैंने जो कुछ भी समझा, उससे वे शब्दकोष में समान गुणन के साथ तार के क्रम को संग्रहीत करते हैं। लेकिन यादृच्छिक डेटा सेटों में, यह एक बहुत बड़ा शब्दकोष नहीं होना चाहिए, यह देखते हुए कि मल्टीप्लेटी 1 (या समान गुणता) के साथ कई 4-बाइट स्ट्रिंग्स हैं?
क्लेनजेन

@Pickle उनके उदाहरण में, स्ट्रिंग "@THE" की बहुलता है 2. मैं नहीं देखता कि वे कैसे पुनर्निर्माण कर सकते हैं जिसमें दो शब्द "the" को जाना चाहिए।
टॉम वैन डेर ज़ैंडन

1
ओह समझा। अच्छा अवलोकन। दरअसल, यह एक बड़ी समस्या है। इस पत्र को पत्रिका में छपने के लिए कैसे स्वीकार किया गया? वहाँ अधिक कठोर सहकर्मी की समीक्षा नहीं होनी चाहिए?
क्लैंगन

4
@ विकल हां, अधिक कठोर समीक्षा होनी चाहिए। यह हमेशा मामला नहीं है, हालांकि कभी-कभी अनुभवहीन / आलसी / अक्षम सम्मेलन के आयोजक समय में सहकर्मी समीक्षकों को खोजने के लिए प्रबंधन नहीं करते हैं। बेतरतीब ढंग से उत्पन्न किए गए कागजों की कई घटनाएं होती हैं जिन्हें स्वीकार किया जाता है, और एक पत्रिका ने "मुझे अपनी कमबख्त मेलिंग सूची से हटाएं" शीर्षक से एक पत्र भी प्रकाशित किया ।
टॉम वैन डेर ज़ैंडन

हाहाहा ये कमाल है। लेकिन उसी समय उदास।
क्लेंगेन

15

मैं टॉम वैन डेर ज़ैंडन को टालने जा रहा हूं, जिन्हें लगता है कि उन्होंने पेपर पढ़ा और विधि में कमजोरी की खोज की। जबकि मैंने पेपर को विस्तार से नहीं पढ़ा, अमूर्त और परिणाम तालिका से, यह मोटे तौर पर विश्वसनीय दावे की तरह लगता है।

वे जो दावा करते हैं वह पाठ फ़ाइलों (न कि "सभी फाइलें") पर एक सुसंगत 50% संपीड़न अनुपात है , जो वे नोट करते हैं कि एलजेडडब्ल्यू के समान है और हफ़मैन कोडिंग (संभवतः शून्य-क्रम) से लगभग 10% बदतर है। 50% से पाठ फ़ाइलों को संपीड़ित करना काफी सरल तरीकों का उपयोग करके प्राप्त करना मुश्किल नहीं है; यह कई कंप्यूटर विज्ञान पाठ्यक्रमों में एक स्नातक काम है।

मैं इस बात से सहमत हूं कि प्रकाशित शोध के अनुसार पेपर बहुत अच्छा नहीं है, और मुझे नहीं लगता कि यह समीक्षकों की अच्छी बात है कि इसे स्वीकार किया गया। स्पष्ट लापता विवरणों के अलावा, जो परिणाम को पुन: उत्पन्न करना असंभव बनाता है (जैसे कि पाठ फ़ाइलें क्या थीं), और इसे संपीड़न के क्षेत्र में बाँधने का कोई प्रयास नहीं है, कोई मतलब नहीं है कि वे वास्तव में समझते हैं कि उनका एल्गोरिथ्म क्या कर रहा है।

सम्मेलन वेब साइट 1: 4 स्वीकृति अनुपात का दावा करती है, जो आपको आश्चर्यचकित करता है कि उन्होंने क्या अस्वीकार कर दिया।


12

तुम पूछो:

  • क्या यह वास्तव में संभव है क्योंकि लेखक इसे सुझाते हैं? कागज के अनुसार, उनके परिणाम बहुत कुशल होते हैं और हमेशा डेटा को एक छोटे आकार में संपीड़ित करते हैं। शब्दकोश का आकार बड़ा नहीं होगा?

हां बिल्कुल। यहां तक ​​कि उनके हाथ से उठाए गए उदाहरण के लिए ("क्विक सिल्वर फॉक्स जुम्ब्स द लॉजी डॉग"), वे संपीड़न हासिल नहीं करते हैं, क्योंकि शब्दकोश में पाठ के हर 4-बाइट विकल्प (शून्य से 4 बाइट्स के एक पुनरावृत्ति के लिए) होता है। ") ... और पाठ के" संपीड़ित "संस्करण में पूरे शब्दकोश के साथ-साथ यह सभी अभाज्य संख्या शामिल है।

  • इसे पुन: संपीड़ित करने के लिए एक ही एल्गोरिथ्म का उपयोग करके संपीड़ित डेटा को पुन: संपीड़ित करने के लिए इस्तेमाल नहीं किया जा सकता है? यह स्पष्ट है, और यह प्रदर्शित किया गया है, कि इस तरह की तकनीक (जहां संपीड़ित डेटा संभव के रूप में कई बार पुन: संपीड़ित होता है, नाटकीय रूप से फ़ाइल का आकार कम करना) असंभव है; वास्तव में, सभी यादृच्छिक डेटा और संपीड़ित डेटा के सेट के बीच कोई आपत्ति नहीं होगी। तो ऐसा क्यों लगता है कि यह संभव होगा?

फिर से आप स्थिति का एक अच्छा सहज ज्ञान युक्त समझ रहे हैं। आपने सहज रूप से महसूस किया है कि कोई भी कंप्रेशन स्कीम कभी भी सभी इनपुट्स पर प्रभावी नहीं हो सकती है, क्योंकि अगर ऐसा होता है, तो हम इसे लागू कर सकते हैं और किसी भी इनपुट को एक ही बिट पर सेक करने के लिए - और फिर कुछ भी नहीं!

इसे दूसरे तरीके से रखने के लिए: एक बार जब आप अपनी सभी .wav फ़ाइलों को .mp3 पर संपीड़ित कर लेते हैं, तो आपको फ़ाइल आकार में सुधार नहीं करना होगा। यदि आपके एमपी 3 कंप्रेसर ने अपना काम किया है, तो ज़िप कंप्रेसर के दोहन के लिए कोई पैटर्न नहीं बचा होगा।

(यही बात एन्क्रिप्शन पर लागू होती है: यदि मैं शून्य की फाइल लेता हूं और अपनी पसंद के क्रिप्टोग्राफ़िक एल्गोरिथम के अनुसार इसे एन्क्रिप्ट करता हूं, तो परिणामी फ़ाइल बेहतर रूप से संपीड़ित नहीं होती है , या फिर मेरा एन्क्रिप्शन एल्गोरिदम इसके आउटपुट में "पैटर्न" लीक कर रहा है!)

  • भले ही तकनीक अभी तक सही नहीं है, लेकिन यह स्पष्ट रूप से अनुकूलित और दृढ़ता से सुधार किया जा सकता है। यह अधिक व्यापक रूप से ज्ञात / अध्ययन क्यों नहीं है? यदि वास्तव में ये दावे और प्रायोगिक परिणाम सही हैं, तो क्या यह पुनरावर्तन कम्प्यूटिंग नहीं कर सकता है?

ये दावे और प्रायोगिक परिणाम सत्य नहीं हैं।

जैसा कि टॉम वैन डेर ज़ैंडेन ने पहले ही नोट किया था, चक्रवर्ती, कर और गुचैत के "कम्प्रेशन एल्गोरिथ्म" में त्रुटिपूर्ण है कि यह न केवल किसी भी संपीड़न अनुपात को प्राप्त नहीं करता है, बल्कि यह अपरिवर्तनीय भी है (गणित में, "विशेषण नहीं"): ग्रंथों की एक भीड़ जो सभी को एक ही छवि में "संपीड़ित" करती है, क्योंकि उनका एल्गोरिथ्म मूल रूप से गुणन और गुणन है।

आपको अच्छा महसूस होना चाहिए कि इन अवधारणाओं की आपकी सहज समझ आपको तुरंत सही निष्कर्ष पर ले गई। और, यदि आप समय को खाली कर सकते हैं, तो आपको कागज के लेखकों के लिए दया आनी चाहिए, जिन्होंने स्पष्ट रूप से इस विषय को समझने के बिना बहुत समय बिताया ।

आपके द्वारा पोस्ट किए गए URL के ऊपर एक फ़ाइल निर्देशिका में एक ही गुणवत्ता के 139 "पेपर" होते हैं, सभी को स्पष्ट रूप से "कंप्यूटिंग, सूचना, संचार और अनुप्रयोगों में उभरते अनुसंधान पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही" में स्वीकार किया जाता है। यह सामान्य प्रकार का दिखावा सम्मेलन प्रतीत होता है। इस तरह के सम्मेलनों का उद्देश्य फर्जी शिक्षाविदों को "एक पत्रिका में प्रकाशन" का दावा करने की अनुमति देना है, जबकि बेईमान आयोजकों को एक टन पैसा बनाने की अनुमति भी देता है। (नकली सम्मेलनों पर अधिक जानकारी के लिए, इस रेडिट थ्रेड या इस विषय पर विभिन्न StackExchange पदों की जाँच करें ।) शाम सम्मेलनों हर क्षेत्र में मौजूद हैं। बस अपनी प्रवृत्ति पर भरोसा करना सीखें और विश्वास न करें कि आप जो कुछ भी "कॉन्फ्रेंस कार्यवाही" में पढ़ते हैं, और आप ठीक करेंगे।


स्पष्ट रूप से यह बताने के लिए धन्यवाद कि यह पेपर सादा बकवास क्यों है, और बताएं कि यह कैसे संभव है कि यह पहली जगह में लिखा गया था और यह किसी भी प्रकार की समीक्षा के माध्यम से जाने में कामयाब रहा।
वाब

आपके संक्षिप्त उत्तर के लिए धन्यवाद। यह वास्तव में दुखद है जब आप जर्नल प्रविष्टियों पर भरोसा नहीं कर सकते हैं कम से कम किसी प्रकार के सहकर्मी द्वारा समीक्षा की जाए। यह वास्तव में इस तथ्य पर बहुत प्रकाश डालता है कि वैज्ञानिक पत्रिका प्रकाशनों को "माना" पढ़ते समय भी सतर्क रहना चाहिए। ऐसा लगता है कि इस तरह के लेख न केवल "समीक्षा", बल्कि एक न्यूनतम सहकर्मी "विश्लेषण" के भी विषय हैं, जैसे कि ऐसे क्षेत्रों में प्रथागत होगा। मुझे उम्मीद है कि यह कई लोगों के लिए एक आंख खोलने वाला बन जाएगा।
क्लैंगन

मैंने आज सीखा कि समान "अनंत संपीड़न एल्गोरिदम" पर कम से कम दो अमेरिकी पेटेंट मौजूद हैं। देखें gailly.net/05533051.html
Quuxplusone

5

एन्ट्रॉपी प्रभावी रूप से सबसे मजबूत दोषरहित संपीड़न के प्रदर्शन को संभव रूप से प्रभावित करता है। इस प्रकार वहाँ कोई एल्गोरिथ्म मौजूद नहीं है जो यादृच्छिक डेटा सेटों को हमेशा 50% से अधिक संकुचित कर सकता है।


8
वहाँ भी एक एल्गोरिथ्म मौजूद नहीं है जो यादृच्छिक डेटासेट को हमेशा 0.0000001% से अधिक तक संपीड़ित कर सकता है।
डेविड रिचरबी

1

संपीड़न के तरीके, जो कि सामान्य हैं, सामान्य रूप से एक पैटर्न ढूंढते हैं और इसे सरलीकृत तरीके से फिर से व्यक्त करते हैं। कुछ बहुत चालाक होते हैं, कुछ बहुत ही सरल। कुछ बिंदु पर कोई पैटर्न नहीं है। प्रक्रिया (तों) के पास 'उबला हुआ' डेटा है जो इसके लिए सबसे सरल अद्वितीय पैटर्न निर्धारित करता है। उस बिंदु से संपीड़न का कोई भी प्रयास एक बड़े डेटा सेट में परिणाम को आगे बढ़ाता है, या विशिष्टता को पतला करता है। मैजिक नंबर कम्प्रेशन स्कीमों में हमेशा एक दोष, या हाथ का हल्का या नुकसान होता है। किसी भी प्रक्रिया से सावधान रहें जो नवीनतम WinZip या RAR करने का दावा करती है।


2
रोंरोंरों

1
@DavidRicherby, तब आपके द्वारा रिक्त स्ट्रिंग का संपीड़न एक बड़ा डेटा सेट पैदा करता है, जैसा कि SkipBerne द्वारा दावा किया गया है। फिर भी, मुझे लगता है कि उनके उत्तर को स्पष्ट करना चाहिए कि वह पिछले एल्गोरिदम को उसी एल्गोरिदम का उपयोग करके पुन: उपयोग करने के बारे में बता रहा है
.ngel

2
@ Thatngel SkipBerne का दावा है कि ऐसे तार मौजूद हैं जो किसी भी एल्गोरिथ्म द्वारा संपीड़ित नहीं किए जा सकते हैं (" उस बिंदु से संपीड़न पर कोई भी प्रयास", मेरा जोर)। यह मेरे द्वारा दिए गए कारण के लिए गलत है: प्रत्येक स्ट्रिंग के लिए, एक एल्गोरिथ्म मौजूद है जो उस स्ट्रिंग को संपीड़ित करता है।
डेविड रिचरबी

जिस तरह से मैं इसे व्याख्या करता हूं स्किपबर्न दावा कर रहा है कि प्रत्येक संपीड़न एल्गोरिथ्म के लिए एक स्ट्रिंग है जिसे कंप्रेस नहीं किया जा सकता है। कौन सा सही है। यह अलग-अलग स्ट्रिंग अलग-अलग एल्गोरिदम के लिए अलग-अलग होगा, ज़ाहिर है।
जोस एंटोनियो ने मोनिका

@DavidRicherby आप क्वांटिफायर का गलत उपयोग कर रहे हैं - यह काफी हद तक स्पष्ट है कि स्किपबर्न ने लिखा है कि (किसी भी संपीड़न विधि के लिए, एक बिंदु है जिसके बाद कोई संपीड़न नहीं होता है), ऐसा नहीं है (ऐसा कोई बिंदु है जिसके बाद किसी भी अन्य विधि के लिए, वहाँ है) कोई संपीड़न नहीं)। यह उत्तर तथ्यात्मक रूप से सही है, लेकिन पुराने, बेहतर लिखित उत्तरों में कुछ भी नहीं जोड़ता है।
गिल्स एसओ- बुराई को रोकना '
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.