वैश्विक और सार्वभौमिक संपीड़न विधियों के बीच अंतर क्या है?


12

मैं समझता हूं कि संपीड़न विधियों को दो मुख्य सेटों में विभाजित किया जा सकता है:

  1. वैश्विक
  2. स्थानीय

पहला सेट काम करता है, भले ही डेटा संसाधित किया जा रहा हो, अर्थात, वे डेटा की किसी भी विशेषता पर निर्भर नहीं होते हैं, और इस प्रकार डेटासेट के किसी भी हिस्से पर कोई भी प्रीप्रोसेसिंग करने की आवश्यकता नहीं होती है (संपीड़न से पहले)। दूसरी ओर, स्थानीय विधियाँ डेटा का विश्लेषण करती हैं, जो आमतौर पर संपीडन दर में सुधार करती है।

इनमें से कुछ तरीकों के बारे में पढ़ते हुए, मैंने देखा कि एकात्मक विधि सार्वभौमिक नहीं है , जिसने मुझे आश्चर्यचकित किया क्योंकि मैंने सोचा था कि "वैश्विकता" और "सार्वभौमिकता" एक ही चीज को संदर्भित करती है। यूनीरी विधि अपने एन्कोडिंग (यानी, यह एक वैश्विक विधि है) को प्राप्त करने के लिए डेटा की विशेषताओं पर निर्भर नहीं करती है, और इसलिए इसे वैश्विक / सार्वभौमिक होना चाहिए, क्या नहीं?

मेरे प्राथमिक प्रश्न:

  • सार्वभौमिक और वैश्विक तरीकों में क्या अंतर है?
  • क्या ये वर्गीकरण पर्यायवाची नहीं हैं?

2
क्या आप उस संदर्भ / संदर्भ से जुड़ सकते हैं जहाँ आप पढ़ते हैं कि एकात्मक विधि सार्वभौमिक नहीं है? प्रसंग मदद कर सकता है।
एयर

3
I ... यकीन नहीं है कि यह डेटा विज्ञान से कैसे संबंधित है। यह स्टैक एक्सचेंज के लिए ऑफ टॉपिक लगता है। क्या आप संभवतः इस डेटा विज्ञान से संबंधित हो सकते हैं?
स्लाटर विक्टोरॉफ

@SlaterTyranus I ... मुझे भी यकीन नहीं है (और इसने मुझे कुछ दो अन्य सवालों के बारे में सोचा है जो मैंने पोस्ट किए हैं)। मेरा विचार इस प्रश्न को जोड़ना था क्योंकि संपीड़न विधियों का उपयोग सूचना पुनर्प्राप्ति (मुख्यतः अनुक्रमण के दौरान) में बड़े पैमाने पर किया जाता है। सामान्य तौर पर, मुझे यह दक्षता से संबंधित लगता है, और इसे इस वेन आरेख के हैकिंग कौशल क्षेत्र में रखा जा सकता है । वैसे भी, मुझे लगता है कि इस तरह के सवाल विषय पर चर्चा करना अच्छा होगा।
रुबेंस

@ रुबेंस जो एक उचित चर्चा की तरह लगता है, मेरी दिमाग की दक्षता में स्पष्ट हैकिंग कौशल की तुलना में सैद्धांतिक सीएस की तरह कुछ अधिक फिट बैठता है । मेरे दिमाग में, हैकिंग कौशल डेटाबेस, तैनाती और उपकरणों के ज्ञान जैसी चीजों से बहुत अधिक संबंधित हैं।
स्लाटर विक्टोरॉफ

1
@SvanBalen दो प्रमुख बिंदु: 1. सूचना सिद्धांत डेटा विज्ञान के कुछ दृष्टिकोणों में महत्वपूर्ण है, लेकिन कई अन्य में अप्रासंगिक है। 2. मूल तत्व विषय से अलग हैं, सांख्यिकी या रैखिक बीजगणित के बारे में एक विस्तृत प्रश्न पूछना इसी तरह विषय से दूर होगा, हालांकि उन दोनों को उपयोगी डेटा विज्ञान के लिए कड़ाई से आवश्यक है।
स्लाटर विक्टोरॉफ़

जवाबों:


3

निम्नलिखित आंकड़ों पर विचार करें:

1010010110100101

यूनिवर्सल - ये जेनेरिक कंप्रेशन एल्गोरिदम हैं जो डेटा अज्ञेयवादी हैं। रन लंबाई एन्कोडिंग का एक कच्चा संस्करण इस श्रेणी में आएगा। लाभ यह है कि यह संपीड़ित और विघटित करने के लिए बहुत तेज़ है। नकारात्मक पक्ष यह है कि यह संकुचित होने के लिए डेटा के आधार पर बेहद अप्रभावी हो सकता है।

1111111111111111 -> 16 1 (भाग्यशाली मामला)

1010010110100101 -> 1010010110100101 (अशुभ स्थिति)

स्थानीय - यह विधि एक निश्चित लंबाई के छोटे खंडों पर विचार करेगी, 4 का कहना है, पैटर्न देखें और उन्हें संपीड़ित करें। उदाहरण के लिए। इस डेटा में केवल ये दो प्रकार के पैटर्न होते हैं - 1010 और 0101। इन पैटर्नों को 0s और 1s के रूप में दर्शाया जा सकता है और समग्र डेटा मैपिंग का प्रतिनिधित्व करने वाला एक टेबल होगा, और 0101 जैसा कुछ। यह बहुत छोटे परिणाम देने की क्षमता रखता है। संकुचित आकार।

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

ग्लोबल - यह विधि पूरे डेटा को देखेगा और डेटा को संपीड़ित करने के लिए इष्टतम / बहुत बेहतर पैटर्न ढूंढेगा। उदाहरण डेटा में केवल एक पैटर्न 10100101 है और इसे मैपिंग टेबल के साथ 00 के रूप में दर्शाते हैं। यह सबसे छोटा संभव संकुचित आकार प्राप्त करने की क्षमता है, लेकिन कम्प्यूटेशनल रूप से सबसे भारी भी है।

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.