क्या robots.txt सर्वर की उप-निर्देशिका में हो सकता है?


16

मेरे पास एक उप-निर्देशिका है जिसे मैं खोज इंजन वेब क्रॉलर से छिपाना चाहूंगा।

ऐसा करने का एक तरीका robots.txtसर्वर की रूट निर्देशिका (मानक तरीका) में उपयोग करना है। हालाँकि, कोई भी व्यक्ति जो वेबसाइट URL जानता है और कुछ बुनियादी वेब ज्ञान रखता है, वह robots.txt सामग्री का उपयोग कर सकता है और अस्वीकृत निर्देशिकाओं को देख सकता है।

मैंने इससे बचने का एक तरीका सोचा, लेकिन मुझे यकीन नहीं है कि काम करेगा।

आज्ञा देना Xउप-निर्देशिका का नाम है जिसे मैं बाहर करना चाहता हूं। वेब क्रॉलर को Xनिर्देशिका को अनुक्रमित करने से रोकने के लिए एक ही समय और किसी को Xरूट से निर्देशिका की पहचान करने के लिए कठिन बनाने के लिए robots.txt, रूट निर्देशिका के बजाय निर्देशिका robots.txtमें जोड़ना है X

यदि मैं इस समाधान का पालन करता हूं तो मेरे पास निम्नलिखित प्रश्न हैं:

  1. क्या वेब क्रॉलर robots.txtउप-निर्देशिका में मिलेंगे ? (दिया गया कि, robots.txtपहले से मौजूद है और रूट डायरेक्टरी में भी)
  2. अगर robots.txtमें है Xसब-निर्देशिका, तो मैं रिश्तेदार या पूर्ण पथ का उपयोग करना चाहिए ?:

    User-agent: *
    Disallow: /X/
    

    या

    User-agent: *
    Disallow: /
    

2
मुझे यकीन नहीं है कि आप अपनी अस्वीकृत निर्देशिकाओं को पढ़ने वाले लोगों से बचना चाहते हैं, लेकिन यदि संवेदनशील डेटा है तो इसे केवल रोबोट से अवरुद्ध नहीं किया जाना चाहिए, बल्कि लॉगिन या कुछ अन्य सुरक्षा द्वारा भी प्रतिबंधित किया जाना चाहिए।
एंड्रयू लोट

ऐसी बात नहीं है, मैं चाहूंगा कि एक विशिष्ट उपयोगकर्ता इसे एक्सेस कर सके (डेटा के मामले में कुछ भी संवेदनशील नहीं है, सिर्फ गोपनीयता के लिए) और मैं चाहूंगा कि निर्देशिका को लॉक न करें।
राफेल

5
यदि आपके पास गोपनीयता की चिंता है, तो आपको डेटा को किसी अन्य तरीके से सुरक्षित करना चाहिए। वो नहीं है जो robots.txt के लिए है।
एंड्रयू लोट

जवाबों:


18

नहीं, वेब क्रॉलर एक उपनिर्देशिका में robots.txt फ़ाइल को नहीं पढ़ेंगे या उसका पालन नहीं करेंगे। जैसा कि अर्ध-आधिकारिक robotstxt.org साइट पर वर्णित है :

इसे कहां लगाना है

संक्षिप्त उत्तर: आपके वेब सर्वर की शीर्ष-स्तरीय निर्देशिका में।

या Google के सहायता पृष्ठ ( जोर मेरा) पर:

आपकी साइट के मूल में एक robots.txtफ़ाइल एक फ़ाइल है जो आपकी साइट के उन हिस्सों को इंगित करती है जिन्हें आप खोज इंजन क्रॉलर द्वारा एक्सेस नहीं करना चाहते हैं।

किसी भी स्थिति में, खोज परिणामों से संवेदनशील पृष्ठों को छिपाने के लिए robots.txt का उपयोग करना वैसे भी एक बुरा विचार है, क्योंकि खोज इंजन robots.txt में अस्वीकृत पृष्ठों को अनुक्रमित कर सकते हैं यदि अन्य पृष्ठ उनसे लिंक करते हैं। या, जैसा कि ऊपर दिए गए Google सहायता पृष्ठ पर वर्णित है:

Google खोज परिणामों से अपने वेब पृष्ठों को छिपाने के लिए आपको रोबोट्स का उपयोग नहीं करना चाहिए। ऐसा इसलिए है क्योंकि अन्य पृष्ठ आपके पृष्ठ की ओर इशारा कर सकते हैं, और आपका पृष्ठ उस तरह से अनुक्रमित हो सकता है, जो robots.txt फ़ाइल से बच रहा है।

तो इसके बजाय आपको क्या करना चाहिए?

  • आप खोज इंजन को पृष्ठों को क्रॉल कर सकते हैं (यदि वे उन्हें ढूंढते हैं), लेकिन सामग्री के साथ एक रोबोट मेटा टैग शामिल करें noindex,nofollow। यह खोज इंजनों को उन पृष्ठों को अनुक्रमित न करने के बारे में बताएगा, भले ही वे उनसे लिंक न खोजते हों, और उन पृष्ठों से आगे के लिंक का पालन न करने के लिए। (बेशक, यह केवल HTML वेब पेज के लिए काम करेगा।)

  • गैर-HTML संसाधनों के लिए, आप उसी सामग्री के साथ एक्स-रोबोट-टैग HTTP हेडर.htaccess भेजने के लिए अपने वेब सर्वर (जैसे फ़ाइल का उपयोग करके ) को कॉन्फ़िगर कर सकते हैं ।

  • आप संवेदनशील पृष्ठों की सुरक्षा के लिए पासवर्ड प्रमाणीकरण सेट कर सकते हैं। अनधिकृत मानव आगंतुकों से पृष्ठों की रक्षा करने के अलावा, यह प्रभावी रूप से वेब क्रॉलर को भी दूर रखेगा।


शानदार, एक स्थिर HTML पृष्ठ है, जो मेटा टैग जोड़कर चाल करेगा। धन्यवाद।
राफेल

5

आपका robots.txtरूट डायरेक्टरी में होना चाहिए और कोई अन्य नाम नहीं होना चाहिए। मानक विनिर्देश के अनुसार :

यह फ़ाइल स्थानीय URL "/robots.txt" पर HTTP के माध्यम से सुलभ होनी चाहिए।


उस ने कहा, वेब क्रॉलर robots.txt के लिए कोई अन्य निर्देशिका नहीं देखेंगे?
राफेल

1
ऐसा नहीं कि मैंने कभी देखा है। /robots.txtमानक है, इसलिए खोज इंजन को यह भी पता होगा कि अन्यथा कहां देखना है?
एंड्रयू लोट

0

आप वास्तव में उप-निर्देशिका में robots.txt का उपयोग कर सकते हैं। वर्तमान में यह है कि हम अपनी भाषा उप-डोमेन के साथ कैसे व्यवहार करते हैं। हम 301 पुनर्निर्देशित फ़ॉर्म / /robots.txt का उपयोग / alang/robots.txt (प्रति उप डोमेन) के लिए करते हैं और इसे सही तरीके से उठाया जा रहा है।

यह भी सरल जड़ स्लैश का उपयोग करते समय सही संरचना के रूप में फ़ोल्डर संरचना उठा रहा है। जैसे। अस्वीकार करें: /

को सब कुछ न मानने के रूप में माना जाता है और न केवल वर्तमान उपनिर्देशिका {redirected} robots.txt फ़ाइल में रहता है।

लेकिन फिर, हम एक 301 के साथ पुनर्निर्देशित करते हैं और उस स्थान पर होते हैं, इसलिए 301 के बिना, मुझे संदेह है कि यह कभी भी मिल जाएगा ...

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.