क्या खोज इंजन पीडीएफ क्रॉल करते हैं और यदि ऐसा है तो उन्हें बनाते समय पालन करने के लिए कोई नियम हैं


22

मैं जिस वेबसाइट पर काम कर रहा हूं, उसमें कुछ सौ पीडीएफ हैं। मुझे नहीं लगता कि मैंने कभी उनमें से किसी को खोज में वापस आते देखा है, लेकिन सीधे साइट से जुड़े हुए हैं। वे कीवर्ड से भी भरे हुए हैं क्योंकि वे उत्पाद दस्तावेज हैं।

क्या Google या अन्य खोज इंजनों को क्रॉल करने के लिए हमें कुछ विशेष करने की आवश्यकता है?

क्या Google को उनकी तरह अधिक मदद करने के लिए PDF बनाने के लिए कोई कठिन और तेज़ नियम हैं? उदाहरण के लिए, क्या मुझे टूटी हुई पीडीएफ टैग्स को साफ करने के लिए उन्हें भूत के माध्यम से चलाना चाहिए जो एडोब पीढ़ी के दौरान बनाता है?


यह सुनिश्चित करने के लिए अपने xml साइटमैप में जोड़ें कि वे उनके बारे में जानते हों?
आर्टुलुंग

जवाबों:


17

Google निश्चित रूप से पीडीएफ फाइलों को अनुक्रमित करता है और आप filetype:pdfअपनी खोज क्वेरी ( उदाहरण ) में जोड़कर बस पीडीएफ फाइलों को खोज सकते हैं ।

मैं एक पीडीएफ को अनुकूलित करने के लिए मुख्य बातें कहूंगा ताकि यह आसानी से अनुक्रमित हो जाए:

  • इसे एक सार्थक नाम दें
  • सभी दस्तावेज़ मेटाडेटा गुण (शीर्षक, लेखक, कीवर्ड आदि) को पूरा करें
  • सुनिश्चित करें कि आपका पीडीएफ वास्तविक पाठ से बना है और स्कैन की गई छवियाँ नहीं है
  • सुनिश्चित करें कि आपके पास शीर्षकों के सही उपयोग के साथ अच्छी सामग्री है, जैसे कि आप एक HTML दस्तावेज़ करेंगे

अधिक सुझावों के लिए पीडीएफ दस्तावेजों को अनुकूलित करना और खोज इंजन के लिए पीडीएफ को अनुकूलित करने के लिए ग्यारह युक्तियां पढ़ें


लिंक labs.justsearching.co.uk/optimizing-pdf-documents-621.html अब काम नहीं करता

@Christofian धन्यवाद - मैंने लिंक अपडेट किया है। मैं बिना किसी 301 पुनर्निर्देश के उनके लिंक का नाम बदलने वाली एक एसईओ कंपनी की विडंबना की सराहना करने के लिए इसे पाठक पर छोड़ता हूँ!
दान डिपलो

पीडीएफ फाइलों के एसईओ के संबंध में @DanDiplo मैं लागू होने पर सामग्री में एक लिंक जोड़ने का सुझाव दूंगा।
अंगियो

1

मैं अन्य खोज इंजनों के बारे में निश्चित नहीं हूं, लेकिन जहां तक ​​Google का सवाल है मुख्य नियम यह होगा कि उन्हें robots.txt के माध्यम से बाहर न किया जाए

यह पीडीएफ खोज का समर्थन करने की उनकी प्रारंभिक घोषणा थी।


1

जैसे वेबसाइट कंप्लेंट करने से आपके SEO को कोई नुकसान नहीं पहुँच सकता है, वैसे ही आपके PDF को एक्सेस करना नुकसान नहीं पहुँचा सकता है। एडोब बिल्ट-इन एक्सेसिबिलिटी चेकर एकदम सही है, लेकिन कम से कम उन क्षेत्रों को ठीक करने से आप शुरू हो जाएंगे।

मैं शायद प्रत्येक 4 या 5 पर 5 मिनट बिताता हूं, ज्यादातर पाठ पीडीएफ हम ऑनलाइन डालते हैं। समय पृष्ठों की संख्या और उन पृष्ठों को कितना जटिल है, इस पर निर्भर करता है।

मान लें कि आपके पास अपना संपादन करने के लिए Adobe Acrobat Pro है:

  • एक्सेसिबिलिटी फुल चेक चलाएं। (त्वरित जांच मेरे लिए बहुत व्यर्थ है)
  • दस्तावेज़ गुण (कीवर्ड, विषय, भाषा, आदि) में मेटा जानकारी अपडेट करें
  • सुनिश्चित करें कि टैग जोड़े गए हैं
  • सुनिश्चित करें कि पाठ को पाठ के रूप में चिह्नित किया गया है, चित्र को छवियों के रूप में, पृष्ठभूमि के रूप में पृष्ठभूमि सामग्री
  • पृष्ठभूमि के रूप में बेकार फुलाना (सजावट या डिजाइन की तरह) टैग करें
  • छवियों के लिए अच्छा ऑल्ट टेक्स्ट जोड़ें
  • रीडिंग ऑर्डर में सुनिश्चित करें, टेक्स्ट ठीक से ऑर्डर किया गया है
  • सामग्री टूलबार में, सुनिश्चित करें कि पाठ डुप्लिकेट या स्थूल रूप से गलत नहीं है
  • स्कैन किए गए पृष्ठों पर OCR स्कैनर का उपयोग करें

तालिकाओं और वास्तव में ऑडबॉल त्रुटियों जैसे अधिक उन्नत संपादन के लिए, हम कॉमनलूक नामक एक प्लगइन का उपयोग करते हैं। कॉमनलुक को काम मिल जाता है, लेकिन मुझे उससे उतना ही नफरत है, जितना मुझे एडोब टूल्स से नफरत है।

टच अप रीडिंग ऑर्डर टूल, टैग टूलबार, रीडिंग ऑर्डर टूलबार और कंटेंट टूलबार से परिचित हों। वेब पर बाहर जाने से पहले मेरी नौकरी के लिए पूरी तरह से आवश्यक दस्तावेजों की आवश्यकता होती है, लेकिन कोई भी कुछ सरल टैगिंग और दस्तावेज़ गुणों से लाभ उठा सकता है।


हमारी साइट में 5,000 से अधिक PDF थे जिन्हें हमें वापस जाना था और पूर्ण 508 अनुपालन तक लाना था। इसे सीखने में थोड़ा समय लगा, Adobe ने सुझाव दिया कि ट्रेनर को कोई मदद नहीं मिली है, लेकिन एक बार जब आप इसे सीख लेते हैं तो आप वास्तव में उन्हें बाहर निकाल सकते हैं।
मिस्टर क्रिसस्टर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.