खोज इंजन द्वारा एक पीडीएफ फाइल को अनुक्रमित होने से कैसे रोकें?


27

मेरे पास एक सार्वजनिक वेब-पेज पर पीडीएफ दस्तावेज़ का लिंक है। मैं इस लिंक और पीडीएफ दस्तावेज़ को अनुक्रमित करने से खोज इंजन को कैसे रोकूं?

एकमात्र विचार जो मैंने सोचा था कि कैप्चा का उपयोग करना है। हालांकि, मुझे आश्चर्य है कि क्या कोई जादू शब्द है जो एक खोज इंजन को लिंक और पीडीएफ दस्तावेज़ को अनुक्रमित नहीं करने के लिए कहता है? PHP या जावास्क्रिप्ट का उपयोग करने वाले विकल्प भी ठीक हैं।

बस इसे स्पष्ट करने के लिए। मैं पीडीएफ एन्क्रिप्ट नहीं करना चाहता और इसे पासवर्ड से सुरक्षित रखना चाहता हूं। मैं इसे केवल खोज इंजन के लिए अदृश्य बनाना चाहता हूं, लेकिन उपयोगकर्ताओं के लिए नहीं।

जवाबों:


32

आपकी पीडीएफ फाइल (या किसी गैर HTML फ़ाइल) को खोज परिणामों में सूचीबद्ध होने से रोकने के लिए, HTTP X-Robots-Tagप्रतिक्रिया हेडर का उपयोग करने का एकमात्र तरीका है , जैसे:

X-Robots-Tag: noindex

आप साइट की रूट .htaccess फ़ाइल या httpd.conf फ़ाइल में निम्न स्निपेट जोड़कर ऐसा कर सकते हैं:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

ध्यान दें कि ऊपर काम करने के लिए, आपको प्रश्न में फ़ाइल के HTTP हेडर को संशोधित करने में सक्षम होना चाहिए। इस प्रकार आप ऐसा करने में सक्षम नहीं हो सकते हैं, उदाहरण के लिए, GitHub Pages पर

इसके अलावा ध्यान दें कि robots.txt करता नहीं खोज परिणामों में सूचीबद्ध किया जा रहा से अपने रोक सकता है।

क्या यह करता है अपने पृष्ठ को क्रॉल करने से बॉट रोक है, लेकिन अगर से अपने पीडीएफ फाइल करने के लिए एक तीसरी पार्टी लिंक उनकी वेबसाइट, तब भी आपका पेज सूचीबद्ध किया जाएगा।

यदि आप robots.txt का उपयोग करके अपने पृष्ठ को क्रॉल करने से बॉट को रोकते हैं , तो उसे X-Robots-Tag: noindexप्रतिक्रिया टैग देखने का मौका नहीं मिलेगा । इसलिए, कभी भी हेडर को रोजगार देने पर कभी भी robots.txt में एक पेज को न हटाएंX-Robots-Tag । अधिक जानकारी Google डेवलपर्स पर पाई जा सकती है : रोबोट मेटा टैग


मैं इस बात का पालन नहीं करता कि पेज के लिए एक प्रविष्टि के साथ robots.txt कैसे एक्स-रोबोट-टैग को रोक सकता है, यदि उस एक्स-रोबोट-टैग के साथ पृष्ठ को भविष्य में अनुरोध किया गया था, तो उसका सम्मान / पालन किया जाएगा।
डॉन चीडल

1
मैंने सोचा था कि जब पृष्ठ का अनुरोध किया जाता है, तो यह ("Google") एक्स-रोबोट-टैग हेडर को देखेगा, और फिर इसे इंडेक्स करना नहीं जानता ... लेकिन ऐसा लगता है कि एक्स-रोबोट-टैग केवल क्रॉलर के लिए उपयोगी है जो तब पता नहीं अनुक्रमणिका से developers.google.com/webmasters/control-crawl-index/docs/...
डॉन चीडल

चूंकि आप रेगेक्स सक्षम Filesनिर्देश का उपयोग कर रहे हैं , इसलिए आपको इसके FilesMatchबजाय उपयोग करने पर विचार करना चाहिए , जैसा कि यहां बताया गया है stackoverflow.com/q/14792381/1262357
ग्रुबर

15

ऐसा करने के कई तरीके हैं (उन्हें पूरा करना स्पष्ट रूप से इसे पूरा करने का एक निश्चित तरीका है):

1) खोज इंजन क्रॉलर से फ़ाइलों को ब्लॉक करने के लिए robots.txt का उपयोग करें :

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf  # Block pdf files. Non-standard but works for major search engines.

2) rel="nofollow"उन पीडीएफ के लिंक पर उपयोग करें

<a href="something.pdf" rel="nofollow">Download PDF</a>

3) x-robots-tag: noindexक्रॉलरों को अनुक्रमित करने से रोकने के लिए HTTP हेडर का उपयोग करें। इस कोड को अपनी .htaccess फ़ाइल में रखें :

<FilesMatch "\.pdf$">
  header set x-robots-tag: noindex
</FilesMatch>

2
दोनों के साथ x-robots-tagऔर robots.txtएक ही समय में , काउंटरिंटुइवीली का उपयोग करना एक अच्छा विचार नहीं है और इससे सामग्री को किसी भी तरह अनुक्रमित किया जा सकता है। यदि आप दोनों का उपयोग करते हैं robots.txtऔर x-robots-tag: noindexक्रॉलर कभी भी क्रॉल नहीं करेगा या नहीं देख सकता है x-robots-tagक्योंकि यह पहली बार सम्मानित करता है robots.txtrobots.txtकेवल क्रॉल होने से संसाधनों को अनुक्रमित होने से नहीं रोकता है, इसलिए सबसे अच्छा समाधान x-robots-tagहैडर का उपयोग करना , फिर भी खोज इंजनों को क्रॉल करने और अपने robots.txtअकेले को छोड़कर उस हेडर को खोजने की अनुमति दें ।
मैक्सिमिलियन लॉमिस्टर

1

आप robots.txt फ़ाइल का उपयोग कर सकते हैं । आप यहाँ और पढ़ सकते हैं ।


3
Robots.txt का उपयोग करना अनुक्रमण को नहीं रोकता है । यह केवल क्रॉलिंग को रोकता है । सही समाधान के लिए पेसियर का जवाब देखें ।
विषयांतर

1

निश्चित नहीं है कि यदि यह सेल किसी के लिए कुछ मूल्य ला सकती है, लेकिन हमें हाल ही में एक समस्या का सामना करना पड़ा है कि हमारा ऑन-प्रिमाइसेस GSA बॉक्स पीडीएफ फाइल को इंडेक्स करने के लिए तैयार नहीं है।

Google समर्थन ने समस्या के साथ काम किया और उनकी प्रतिक्रिया यह है कि यह इस तथ्य से संबंधित है कि इस पीडीएफ दस्तावेज़ में एक कस्टम संपत्ति सेट है (फ़ाइल -> दस्तावेज़ गुण -> कस्टम (टैब))

name: robots
value: noindex

जिसने इसे जीएसए द्वारा ठीक से अनुक्रमित होने से रोका।

यदि आपके पास दस्तावेज़ तक पहुँच है और यह संशोधित कर सकता है तो यह गुण काम कर सकता है ... जीएसए के लिए पट्टे पर।


1

यदि आप नग्नेक्स संचालित विकास उदाहरणों को Google खोज परिणामों में दिखा रहे हैं, तो खोज इंजन को अपनी साइट पर क्रॉल करने से रोकने का एक त्वरित और आसान तरीका है। निम्न पंक्ति को अपनी वर्चुअलहोस्ट कॉन्फ़िगरेशन फ़ाइल के स्थान ब्लॉक में उस ब्लॉक के लिए जोड़ें जिसे आप क्रॉलिंग को रोकना चाहते हैं।

add_header  X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

-2

आप robots.txt फ़ाइल का उपयोग कर सकते हैं। खोज इंजन जो उस फ़ाइल को सम्मानित करते हैं वह पीडीएफ को इंडेक्स नहीं करेगा । बस किसी फ़ाइल के अनुक्रमण को रोकने के लिए कमांड का उपयोग करें और खोज करें कि कौन सा फ़ोल्डर या पीडीएफ फाइल आप नहीं चाहते कि खोज इंजन इंडेक्स करें।


4
Robots.txt का उपयोग करना अनुक्रमण को नहीं रोकता है । यह केवल क्रॉलिंग को रोकता है । सही समाधान के लिए पेसियर का जवाब देखें । मैंने हाल ही में robots.txt फ़ाइल के अंदर एक noindex निर्देश (अस्वीकार करने के बजाय) का उपयोग करने के बारे में पढ़ा था, लेकिन यह अनिर्दिष्ट और गैर-मानक है। और अब मुझे यह नहीं मिल रहा है कि मैंने इसे कहाँ पढ़ा है।
टॉक्सालॉट

हमारे पास इसके बारे में एक सवाल है: रोबॉट्स में “Noindex:” कैसे काम करता है?
स्टीफन Ostermiller
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.