Robots.txt का पालन इसके अलावा, का पालन करना nofollow
और noindex
में <meta>
तत्वों और लिंक हैं:
कई लोग हैं जो मानते हैं कि robots.txt इंडेक्सिंग को ब्लॉक करने का उचित तरीका नहीं है और उस दृष्टिकोण के कारण, कई साइट मालिकों को <meta name="robots" content="noindex">
टैग पर भरोसा करने के लिए निर्देश दिए हैं कि वे वेब क्रॉलरों को एक पृष्ठ अनुक्रमित न करने के लिए कहें।
यदि आप वेबसाइटों (पेजरैंक के समान कुछ भी) के बीच कनेक्शन का ग्राफ बनाने की कोशिश कर रहे हैं,
(और <meta name="robots" content="nofollow">
) स्रोत साइट को इंगित करने के लिए माना जाता है कि वह गंतव्य साइट पर भरोसा नहीं करता है तो उसे एक उचित समर्थन देने के लिए पर्याप्त है। इसलिए जब आप गंतव्य स्थल को अनुक्रमित कर सकते हैं, तो आपको दोनों साइटों के बीच संबंध नहीं रखना चाहिए।
एसईओ एक वास्तविक विज्ञान की तुलना में एक कला है, और यह बहुत से लोगों द्वारा अभ्यास किया जाता है जो जानते हैं कि वे क्या कर रहे हैं, और बहुत से लोग जो उन लोगों की कार्यकारी सारांश पढ़ते हैं जो जानते हैं कि वे क्या कर रहे हैं। आप उन मुद्दों में भाग लेने जा रहे हैं जहाँ आप उन चीज़ों को करने के लिए साइटों से अवरुद्ध हो जाएँगे जो अन्य साइटों को किसी नियम के कारण पूरी तरह से स्वीकार्य लगती हैं या कोई व्यक्ति SEOmoz पर एक ब्लॉग पोस्ट में पढ़ा जाता है जिसकी सही व्याख्या नहीं की जा सकती है।
उस मानवीय तत्व के कारण, जब तक कि आप Google, Microsoft, या Yahoo !, आप दुर्भावनापूर्ण नहीं हैं जब तक कि अन्यथा सिद्ध नहीं किया जाता है। आपको कार्य करने के लिए अतिरिक्त सावधानी बरतने की ज़रूरत है क्योंकि आप किसी वेब साइट के मालिक के लिए कोई ख़तरा नहीं हैं, और इसके अनुसार कार्य करें कि आप कैसे संभावित रूप से दुर्भावनापूर्ण (लेकिन उम्मीद है कि सौम्य) क्रॉलर को कार्य करना चाहते हैं:
- एक साइट को रोकना बंद कर दें जब आप पता लगा लें कि आप अवरुद्ध हो रहे हैं: आपके द्वारा काम किए जाने वाले पृष्ठों पर 403/401, थ्रॉटलिंग, टाइम-आउट, आदि।
- अपेक्षाकृत कम समय में थकावट वाले क्रॉल से बचें: साइट के एक हिस्से को क्रॉल करें, और दूसरे हिस्से को क्रॉल करने के लिए (कुछ दिनों बाद) वापस आएं। समानांतर अनुरोध न करें।
- संभावित संवेदनशील क्षेत्रों को रेंगने से बचें:
/admin/
उदाहरण के लिए, उनके साथ URL ।
तब भी, यह एक अप-हिल लड़ाई होने जा रही है जब तक कि आप यूए स्पूफिंग या जानबूझकर अपने रेंगने वाले पैटर्न को मास्किंग जैसी ब्लैक-हैट तकनीक का सहारा नहीं लेते हैं: कई साइट मालिक, उपरोक्त समान कारणों के लिए, एक अज्ञात क्रॉलर को देखने के बजाय देखने पर रोक देंगे मौका है कि कोई "उनकी साइट को हैक करने" की कोशिश नहीं कर रहा है। बहुत असफलता के लिए तैयार रहें।
एक चीज़ जो आप किसी अनजान क्रॉलर की नकारात्मक छवि से निपटने के लिए कर सकते हैं, वह यह है कि आप अपने उपयोगकर्ता-एजेंट स्ट्रिंग में इसे स्पष्ट करें:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
यह http://example.com/aarobot.html
बताता है कि आप क्या हासिल करने की कोशिश कर रहे हैं और आपको कोई खतरा क्यों नहीं है। उस पृष्ठ में कुछ चीजें होनी चाहिए:
- सीधे संपर्क करने के तरीके के बारे में जानकारी
- क्रॉलर क्या इकट्ठा करता है और इसे क्यों इकट्ठा कर रहा है, इसके बारे में जानकारी
- ऑप्ट-आउट करने और हटाए गए किसी भी डेटा को एकत्रित करने की जानकारी
वह अंतिम एक कुंजी है: एक अच्छा ऑप्ट-आउट एक मनी बैक गारंटी ™ की तरह है और एक अच्छाई की अनुचित राशि स्कोर करता है। यह मानवीय होना चाहिए: एक सरल चरण (या तो एक ईमेल पता या, आदर्श रूप, एक रूप) और व्यापक (कोई "गोचैस नहीं होना चाहिए": ऑप्ट-आउट का मतलब है कि आप अपवाद के बिना क्रॉल करना बंद कर देते हैं)।