MS Word से PDF क्यों इतने बड़े होते हैं?


70

मैंने एक साधारण एमएस वर्ड डॉक्यूमेंट बनाया है जिसमें सिर्फ यह वाक्य है:

यह एक छोटा दस्तावेज है।

और कुछ नहीं। फिर मैंने इस दस्तावेज़ को DOCX और PDF के रूप में सहेजा है। यहाँ फ़ाइल आकार हैं:

DOCX: 12 kB
PDF: 89 kB

यह अंतर बहुत बड़ा है , तकनीकी रूप से, और यह वास्तव में मुझे परेशान करने लगता है जब ज्यादातर पाठ्य दस्तावेज जो DOCX में दसियों kB होते हैं, PDF को उत्पन्न करना शुरू कर देते हैं जो सैकड़ों kB बड़े होते हैं। पीडीएफ प्रारूप के बारे में इतना अक्षम क्या है? या सिर्फ वर्ड कुछ भयानक आउटपुट एल्गोरिदम का उपयोग कर रहा है?

BTW, पीडीएफ आउटपुट सेटिंग्स संभव सबसे छोटी फ़ाइल बनाने के लिए सेट की गई थीं:

पीडीएफ आउटपुट विकल्प


28
मेरा अनुमान है कि पीडीएफ फ़ॉन्ट को एम्बेड करता है, जो आवश्यक है यदि कोई दस्तावेज़ वास्तव में पोर्टेबल होना है।
AFH

2
हाँ, फ़ॉन्ट सबसेट एम्बेडेड है। वह यह हो सकता है। मैंने एक ही वाक्य को कुछ सौ बार दोहराने की कोशिश की है और पीडीएफ फाइल का आकार केवल 4 kB से बढ़ा है जो कि लगभग सही है। (DOCX 12kB पर रहा जो कोई आश्चर्य की बात नहीं है क्योंकि यह एक ज़िप्ड प्रारूप है और दोहराया पाठ शायद ही नए नए बाइट्स लेगा।)
बोरेक बर्नार्ड

1
@AFH यह एरियल को एम्बेड नहीं करता है। i.stack.imgur.com/aUZgt.png
मंकीज़ेउस

1
एक कोलमोगोरोव जटिलता दृष्टिकोण से इसके बारे में सोचना, माइक्रोसॉफ्ट वर्ड आपके औसत पीडीएफ दर्शक से कुछ सौ केबी से अधिक है।
हॉब्स

8
मुझे लगता है कि असली सवाल यह है कि आपके वर्डप्रोसेसिंग प्रारूप बराबर लाटेक्स से इतना बड़ा क्यों है ...:
टोबी स्पाइट

जवाबों:


104

यदि आप नोटपैड ++ में पीडीएफ खोलते हैं तो आप पाएंगे:

9 0 obj
<</Filter/FlateDecode/Length 79100/Length1 171804>>
stream
xœì}    XTGºvÕ9½/t7Ðl
..... many more bytes  ...   ëH|  
endstream
endobj
10 0 obj

और उस ऑब्जेक्ट को / FontFile2 निर्देश के अंत में यहां संदर्भित किया गया है:

6 0 obj
<</Type/FontDescriptor/FontName/ABCDEE+Calibri/Flags 32/ItalicAngle 0/Ascent 750/Descent -250/CapHeight 750/AvgWidth 521/MaxWidth 1743/FontWeight 400/XHeight 250/StemV 52/FontBBox[ -503 -250 1240 750] /FontFile2 9 0 R>>
endobj

वर्ड डॉक्यूमेंट द्वारा उपयोग किए जाने वाले फॉन्ट पीडीएफ में एम्बेडेड हो जाते हैं इसलिए पीडीएफ स्व-निहित है।

मैंने पीडीएफ निर्देशों को डिक्रिप्ट करने के लिए इस स्लाइड-डेक का उपयोग किया ।

यदि आप पीडीएफ फाइल में फोंट को रोकना चाहते हैं, तो सुनिश्चित करें कि आपका वर्ड डॉक्यूमेंट पीडीएफ दर्शकों में उपलब्ध 14 मानक टाइपफेस में से एक का उपयोग करता है, (स्रोत विकिपीडिया )

  • टाइम्स न्यू रोमन> टाइम्स (v3) (नियमित रूप से, इटैलिक, बोल्ड और बोल्ड इटैलिक)
  • कूरियर न्यू> कूरियर (नियमित, तिरछा, बोल्ड और बोल्ड तिरछा में)
  • एरियल> हेल्वेटिका (v3) (नियमित, तिरछी, बोल्ड और बोल्ड तिरछा में)
  • प्रतीक> प्रतीक
  • विंग्स> जैफ डिंगबैट्स


2
सिडेनोट: लिंक किए गए स्लाइड डेक (एक पॉवर्सशेल प्रस्तुति) इसे पढ़ने लायक है। अधिक विस्तृत। उन टिप्पणियों को याद न करें जहां वह एक पीडीएफ की संरचना की व्याख्या करती है
nixda

3

Microsoft Word में PDF के लिए एक सरल पांडुलिपि निर्यात करने की कोशिश करते समय मेरे साथ ऐसा कई बार हुआ है। ५- 5 पेज का वर्ड डॉक्यूमेंट, ~ ५० केबी आकार, १०+ एमबी की पीडीएफ फाइल के रूप में समाप्त हो जाएगा, जो किसी को भी ईमेल करने के लिए बहुत बड़ा है।

रेने का जवाब सही रास्ते पर है - समस्या यह है कि फ़ॉन्ट दस्तावेज़ में एम्बेडेड हो जाते हैं - लेकिन मानक टाइपफेस में से किसी एक का उपयोग करने से समस्या का समाधान नहीं होगा।

मेरे सभी दस्तावेज़ टाइम्स न्यू रोमन में थे, बोल्ड और इटैलिक्स के अलावा किसी भी प्रशंसक का उपयोग नहीं किया। या इसलिए मैंने सोचा। यह पता चला है कि मैं अपने डिफ़ॉल्ट टेम्पलेट ( स्पष्ट कारणों के लिए ) में स्वत: कर्नेल सक्षम है । पीडीएफ को निर्यात करते समय, वर्ड वास्तव में दस्तावेज़ में एक अलग फ़ॉन्ट ऑब्जेक्ट के रूप में उन सभी लिगमेंट्स को एम्बेड कर रहा था, जो सभी विश्वासों से परे था।

फिक्स सरल है, आपको बस इसे हर बार करना याद रखना होगा:

  1. दस्तावेज़ में सभी पाठ का चयन करें।
  2. प्रारूप → फ़ॉन्ट → उन्नत
  3. "फोंट के लिए केरिंग" को अनचेक करें

दिलचस्प बात यह है कि आप लिगुरेट्स, प्रासंगिक विकल्प, और अन्य उन्नत टाइपोग्राफी सुविधाओं को सक्षम छोड़ सकते हैं; परिणामी पीडीएफ के आकार पर उनका कोई बोधगम्य प्रभाव नहीं है।

एक पीडीएफ के रूप में दस्तावेज़ को फिर से निर्यात करें, और यह सौ या तो केबी तक नीचे है। दुर्भाग्य से, कर्लिंग उप-समरूप है, इसलिए मैं इस तरह से मुद्रण की अनुशंसा नहीं करूंगा, लेकिन यह किसी दस्तावेज़ को ईमेल करने के लिए ठीक काम करता है।


-3

एक कम तकनीकी उत्तर देने में जो मदद कर सकता है, वह यह है कि पीडीएफ आपके द्वारा देखे जाने वाले हर चीज़ का वर्णन करने के लिए वैक्टर (यानी: गणितीय समीकरण) का उपयोग करता है। सभी वक्रों और रेखाओं को गणितीय समीकरणों द्वारा परिभाषित किया गया है, और इसलिए आवश्यक रूप से धारण करने के लिए बहुत सारी जानकारी होगी, खासकर जब आपके दस्तावेजों में चित्र हों।

इसका लाभ यह है कि आप सैद्धांतिक रूप से किसी भी संकल्प या विवरण को खोए बिना असीम रूप से ज़ूम इन कर सकते हैं, क्योंकि लाइनों और वक्रों की कोई चौड़ाई नहीं है, इसलिए वे आपके ज़ूम के साथ स्केल कर सकते हैं।

ठीक उसी तरह जैसे Google के हालिया फ़ॉन्ट ने लोगो के आकार को ~ 14KB से ~ 300B तक कम कर दिया है, वैसे ही सरल फ़ॉन्ट संभवतः आपके फ़ाइल आकार को कम करने में मदद करेंगे।


4
वह सादृश्य काम नहीं करता है। बिल्कुल भी। Google का लोगो परिवर्तन केवल फ़ॉन्ट नहीं था, बल्कि ग्रेडिएंट से लेकर फ़्लैट तक भी था, जिससे आकार में अंतर आता है। इसके अलावा, एक दस्तावेज़ को एक बड़े बिटमैप पर निर्यात करना एक फ़ॉन्ट + पाठ से बहुत बड़ा होगा। गणितीय समीकरण, जैसा कि आप भ्रामक रूप से कहते हैं, ये पूर्णांक समन्वित जोड़े हैं, जिनमें से शायद प्रति दर्जन प्रति कुछ दर्जन हैं। और चूंकि यह एक फ़ॉन्ट है इसलिए इसे हर अक्षर के लिए दोहराने की आवश्यकता नहीं है।
जॉय
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.