मैं प्राथमिक डिजाइनर और काफी बड़े पैमाने पर वेब क्रॉलर का लेखक हूं ( मेटाडेटालब्स / एमएलबॉट (संग्रहीत लिंक) देखें )। आप जिस विषय पर स्पर्श कर रहे हैं, वह हमारे लिए बहुत महत्वपूर्ण है - शायद क्रॉलर को चलाने का सबसे महत्वपूर्ण हिस्सा: राजनीति का।
पहला: "मोज़िला" चीज़ का कारण साइट को यह बताना है कि आपकी ब्राउज़र क्षमताएं क्या हैं। यदि आपका बॉट एक ब्राउज़र की तरह काम करने की कोशिश नहीं कर रहा है, तो कोई विशेष कारण नहीं है कि आपको "मोज़िला" चीज़ को शामिल करने की आवश्यकता हो।
आपके उपयोगकर्ता एजेंट स्ट्रिंग और अन्य राजनीति से संबंधित वस्तुओं के लिए:
ऐसा नाम चुनें जिसे आप जानते हों कि कोई और उपयोग नहीं कर रहा है। मुझे संदेह है कि यदि आप "Goofybot" का उपयोग करते हैं, तो आप ठीक हो जाएंगे। लेकिन मैं यह सुनिश्चित करने के लिए जाँच करूँगा।
आपके उपयोगकर्ता एजेंट स्ट्रिंग में बॉट के बारे में अधिक जानकारी के लिए एक लिंक शामिल होना चाहिए। उदाहरण के लिए, हमारा स्ट्रिंग "MLBot (www.metadatalabs.com/mlbot)" पढ़ता है।
सुनिश्चित करें कि यदि कोई "Goofybot" खोजता है, तो खोज परिणामों में वह पृष्ठ उच्च (अधिमानतः पहले) है।
बॉट के बारे में आपके पृष्ठ को कहना चाहिए कि आप किस जानकारी के लिए उपयोग कर रहे हैं, आप किस आईपी पते से क्रॉल करते हैं और इसमें बॉट के साथ समस्याओं के बारे में लोगों से संपर्क करने का एक तरीका शामिल है।
आपको "ग्राहक हमेशा सही है" दर्शन का उपयोग करते हुए, किसी भी प्रश्न या शिकायतों का तुरंत जवाब देना चाहिए। याद रखें, यदि आपके बॉट ने एक समस्या पैदा की है, जिसके बारे में यह व्यक्ति शिकायत कर रहा है, तो संभवत: उसने एक दर्जन अन्य साइटों पर समस्याएं पैदा कीं जिनके बारे में किसी ने शिकायत नहीं की थी। उन्होंने या तो समस्याओं को नहीं देखा या उन्होंने आपके आईपी पते पर एक ब्लॉक लगा दिया।
आपको अपने बॉट को किसी विशेष डोमेन नाम तक पहुंचने से रोकने के लिए सुविधा में निर्माण करना चाहिए। कुछ लोग नहीं चाहेंगे कि आप बिल्कुल क्रॉल करें और एक रोबोट बनाने के लिए पहुंच या तकनीकी क्षमता न हो। हमने पाया कि यह क्षमता हमें किसी को बताने की अनुमति देती है, "हमें खेद है कि MLBot एक समस्या का कारण बना। हमने निर्देश दिया है कि अपनी जगह को फिर से क्रॉल न करें।" शायद आश्चर्य नहीं, कि लोगों को बहुत जल्दी शांत करता है।
यदि आप पहले से robots.txt का सम्मान नहीं करते हैं, तो करें। कुछ भी नहीं आप robots.txt की अनदेखी की तुलना में एक बुरा प्रतिष्ठा प्राप्त करेंगे।
वाह। मैं उम्मीद से अधिक समय तक चला। पिछले चार वर्षों में, मैंने उन सभी गलतियों में से एक बनायीं हैं जिन्हें मैं उपरोक्त सभी के लिए, और दूसरों के अलावा। हालाँकि, हमने पाया कि हम जो कर रहे हैं उसके बारे में खुले हैं और ईमानदारी से संवाद करते हैं (शिकायतें मिलने से पहले गलतियों के बारे में जानकारी पोस्ट करने सहित), अधिकांश वेबमास्टर्स हमें एक अच्छे इंटरनेट नागरिक के रूप में देखते हैं।