मुझे किस उपयोगकर्ता एजेंट को सेट करना चाहिए?


18

आस्क बॉट है, जो इस हेडर को सेट करता है:

Mozilla/2.0 (compatible; Ask Jeeves/Teoma) 

इसे ध्यान में रखते हुए, मेरे पास निम्नलिखित प्रश्न हैं:

  • अगर मैं नासमझ नाम का एक वेब क्रॉलर लिख रहा हूं, तो मुझे किस उपयोगकर्ता एजेंट का उपयोग करना चाहिए?
  • अगर मैं लगाऊं Mozilla/2.0या क्या फर्क पड़ता है Mozilla/5.0?

मौजूदा मानकों का पालन करने के लिए मुझे अपने उपयोगकर्ता एजेंट को कैसे प्रारूपित करना चाहिए, इसके बारे में कोई अन्य सुझाव स्वागत से अधिक है।

जवाबों:


32

मैं प्राथमिक डिजाइनर और काफी बड़े पैमाने पर वेब क्रॉलर का लेखक हूं ( मेटाडेटालब्‍स / एमएलबॉट (संग्रहीत लिंक) देखें )। आप जिस विषय पर स्पर्श कर रहे हैं, वह हमारे लिए बहुत महत्वपूर्ण है - शायद क्रॉलर को चलाने का सबसे महत्वपूर्ण हिस्सा: राजनीति का।

पहला: "मोज़िला" चीज़ का कारण साइट को यह बताना है कि आपकी ब्राउज़र क्षमताएं क्या हैं। यदि आपका बॉट एक ब्राउज़र की तरह काम करने की कोशिश नहीं कर रहा है, तो कोई विशेष कारण नहीं है कि आपको "मोज़िला" चीज़ को शामिल करने की आवश्यकता हो।

आपके उपयोगकर्ता एजेंट स्ट्रिंग और अन्य राजनीति से संबंधित वस्तुओं के लिए:

  1. ऐसा नाम चुनें जिसे आप जानते हों कि कोई और उपयोग नहीं कर रहा है। मुझे संदेह है कि यदि आप "Goofybot" का उपयोग करते हैं, तो आप ठीक हो जाएंगे। लेकिन मैं यह सुनिश्चित करने के लिए जाँच करूँगा।

  2. आपके उपयोगकर्ता एजेंट स्ट्रिंग में बॉट के बारे में अधिक जानकारी के लिए एक लिंक शामिल होना चाहिए। उदाहरण के लिए, हमारा स्ट्रिंग "MLBot (www.metadatalabs.com/mlbot)" पढ़ता है।

  3. सुनिश्चित करें कि यदि कोई "Goofybot" खोजता है, तो खोज परिणामों में वह पृष्ठ उच्च (अधिमानतः पहले) है।

  4. बॉट के बारे में आपके पृष्ठ को कहना चाहिए कि आप किस जानकारी के लिए उपयोग कर रहे हैं, आप किस आईपी पते से क्रॉल करते हैं और इसमें बॉट के साथ समस्याओं के बारे में लोगों से संपर्क करने का एक तरीका शामिल है।

  5. आपको "ग्राहक हमेशा सही है" दर्शन का उपयोग करते हुए, किसी भी प्रश्न या शिकायतों का तुरंत जवाब देना चाहिए। याद रखें, यदि आपके बॉट ने एक समस्या पैदा की है, जिसके बारे में यह व्यक्ति शिकायत कर रहा है, तो संभवत: उसने एक दर्जन अन्य साइटों पर समस्याएं पैदा कीं जिनके बारे में किसी ने शिकायत नहीं की थी। उन्होंने या तो समस्याओं को नहीं देखा या उन्होंने आपके आईपी पते पर एक ब्लॉक लगा दिया।

  6. आपको अपने बॉट को किसी विशेष डोमेन नाम तक पहुंचने से रोकने के लिए सुविधा में निर्माण करना चाहिए। कुछ लोग नहीं चाहेंगे कि आप बिल्कुल क्रॉल करें और एक रोबोट बनाने के लिए पहुंच या तकनीकी क्षमता न हो। हमने पाया कि यह क्षमता हमें किसी को बताने की अनुमति देती है, "हमें खेद है कि MLBot एक समस्या का कारण बना। हमने निर्देश दिया है कि अपनी जगह को फिर से क्रॉल न करें।" शायद आश्चर्य नहीं, कि लोगों को बहुत जल्दी शांत करता है।

  7. यदि आप पहले से robots.txt का सम्मान नहीं करते हैं, तो करें। कुछ भी नहीं आप robots.txt की अनदेखी की तुलना में एक बुरा प्रतिष्ठा प्राप्त करेंगे।

वाह। मैं उम्मीद से अधिक समय तक चला। पिछले चार वर्षों में, मैंने उन सभी गलतियों में से एक बनायीं हैं जिन्हें मैं उपरोक्त सभी के लिए, और दूसरों के अलावा। हालाँकि, हमने पाया कि हम जो कर रहे हैं उसके बारे में खुले हैं और ईमानदारी से संवाद करते हैं (शिकायतें मिलने से पहले गलतियों के बारे में जानकारी पोस्ट करने सहित), अधिकांश वेबमास्टर्स हमें एक अच्छे इंटरनेट नागरिक के रूप में देखते हैं।


इसके बाद के संस्करण (यह उदाहरण लिंक metadatalabs.com/mlbot ) बस से पता चलता है ( "निर्माणाधीन") ....
starbeamrainbowlabs

2
@starbeamrainbowlabs यह उत्तर 2010 में लिखा गया था। मेटाडाटा लैब्स 2012 में बंद हो गई।
जिम मेंथेल

हालांकि वहाँ एक विकल्प है?
at

@starbeamrainbowlabs क्या करने के लिए वैकल्पिक?
जिम मेंथल

जो कुछ भी उस मेटाडेटा प्रयोगशाला पृष्ठ पर जुड़ा हुआ था, प्रदर्शित किया गया। जैसा कि मैं इसे नहीं देख सकता, मैं एक विकल्प का सुझाव नहीं दे सकता: पी
स्टारबिम्रेनबोलाब्स

8

मोज़िला / 2.0 और मोज़िला / 5.0 दोनों मोज़िला ब्राउज़र के संदर्भ हैं। यह काफी हद तक अर्थहीन हो गया है, कई क्रॉलर इसका उपयोग कर रहे हैं, लेकिन साइट को अपने क्रॉलर के साथ व्यवहार करने के लिए कहना चाहिए क्योंकि यह एक नियमित ब्राउज़र के साथ किसी भी यादृच्छिक उपयोगकर्ता को ब्राउज़ करेगा।

हालाँकि यह एक अच्छा शिष्टाचार है कि URL को किसी पृष्ठ से जोड़ने के बारे में कि आप कौन हैं और निम्न अनुभाग में आप क्यों रेंग रहे हैं। पूछें कि जीव्स सिर्फ नाम के साथ दूर हो सकते हैं, लेकिन आपको एक यूआरएल शामिल करना चाहिए।

उदाहरण के लिए

Mozilla/5.0 (compatible; http://example.org/)

यह वेब व्यवस्थापक को यह पता लगाने की अनुमति देगा कि आप उनकी साइट को क्यों क्रॉल कर रहे हैं और आपसे संपर्क करने के लिए भी कि आपके क्रॉलर के साथ कैसा व्यवहार हो रहा है।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.