क्या बैडस्पीडर क्रॉल आवृत्ति को धीमा करना संभव है?


18

बहुत कुछ Baidu मकड़ी क्रॉल आवृत्ति से बना है। यह सच है: "बैडस्पीडर पागल की तरह रेंगता है।"

मैंने उन साइटों पर इस घटना का अनुभव किया है जिनके साथ मैं काम करता हूं। कम से कम एक उदाहरण में, मैंने पाया है कि बैडस्पीडर Googlebot के समान आवृत्ति के बारे में क्रॉल करता है, इस तथ्य के बावजूद कि Baidu Baidu को Google के रूप में लगभग .1% ट्रैफ़िक बचाता है।

मैं उन यात्राओं को अपनी साइट पर रखना चाहूंगा, जितने वे हैं (शायद एक दिन वे बड़े होंगे?), लेकिन मैं अपने सर्वर पर इस तरह के भारी भार को अनुमति देने का औचित्य नहीं बना सकता।

ऊपर दिए गए प्रश्न के स्वीकृत उत्तर से पता चलता है कि Baidu वेबमास्टर टूल क्रॉल दर को सीमित करने का अवसर प्रदान करता है, लेकिन मैं इसे (चीनी-केवल) कीड़े के लिए खोलने में संकोच कर रहा हूं।

क्या किसी को भी BWT के साथ बैडस्पीडर क्रॉल दर को सीमित करने का कोई अनुभव है? क्या इस लोड को सीमित करने का एक और तरीका है?

जवाबों:


11

महान सवाल है, और एक कई वेबमास्टर्स रुचि हो सकती है क्योंकि Baidu मकड़ी बेहद आक्रामक है और सर्वर से संसाधनों को झपकी ले सकता है ...

जैसा कि Baidu की वेब खोज समाचार में संकेत दिया गया है, Baidu मकड़ी क्रॉल-देरी अधिसूचना सेटिंग का समर्थन नहीं करती है , और इसके बजाय आपको अपनी साइट पर अपने Baidu वेबमास्टर टूल प्लेटफ़ॉर्म के साथ पंजीकृत और सत्यापित करने की आवश्यकता होती है, जैसा कि यहां बताया गया है । यह सीधे Baidu के साथ क्रॉलिंग आवृत्ति को नियंत्रित करने का एकमात्र विकल्प प्रतीत होता है।

समस्या यह है कि अन्य स्पैम बॉट Baidu के उपयोगकर्ता के एजेंट (सूचीबद्ध का उपयोग है यहाँ , नंबर 2 के अंतर्गत) अपनी साइट मकड़ी में अपने अकसर किये गए सवाल है संकेत के रूप में यहाँ संख्या 4. तहत तो Baidu के साथ एक धीमा क्रॉल दर का अनुरोध सब कुछ हल नहीं कर सकता है।

इसलिए, यदि आप Baidu के वेबमास्टर टूल का उपयोग करने का निर्णय लेते हैं, तो यह बॉट बनाम ब्राउजर डेटाबेस जैसे संसाधन का उपयोग करके या रिवर्स डीएनएस लुकअप का उपयोग करके आईपी ​​के साथ ज्ञात अपने उपयोगकर्ता-एजेंटों की तुलना करना भी बुद्धिमान हो सकता है।

केवल अन्य विकल्प या तो सभी Baidu उपयोगकर्ता-एजेंटों को ब्लॉक करने के लिए हैं, और इस प्रकार Baidu से संभावित ट्रैफ़िक का त्याग करते हैं, या Apache के लिए mod_qos जैसे कुछ का उपयोग करके अत्यधिक अनुरोधों को सीमित करने का प्रयास करते हैं , जो प्रबंधन करने का दावा करता है:

  • किसी स्थान / संसाधन (URL) या वर्चुअल होस्ट के समवर्ती अनुरोधों की अधिकतम संख्या।
  • बैंडविड्थ की सीमा जैसे किसी URL के लिए प्रति सेकंड अधिकतम अनुमत संख्या या डाउनलोड किए गए kbytes की अधिकतम / न्यूनतम सीमा।
  • प्रति सेकंड अनुरोध घटनाओं की संख्या (विशेष अनुरोध की स्थिति) को सीमित करता है।
  • यह बहुत महत्वपूर्ण व्यक्तियों (वीआईपी) का भी "पता लगा सकता है" जो कम प्रतिबंधों के बिना या बिना वेब सर्वर तक पहुंच सकता है।
  • जेनेरिक अनुरोध लाइन और हेडर फिल्टर अनधिकृत संचालन से इनकार करने के लिए। शरीर डेटा सीमा और फ़िल्टरिंग का अनुरोध करें (mod_parp की आवश्यकता है)।
  • टीसीपी कनेक्शन स्तर पर सीमाएं, उदाहरण के लिए, एकल आईपी स्रोत पते या डायनामिक कीपिंग-कंट्रोल से अधिकतम अनुमत कनेक्शन की संख्या।
  • जब ज्ञात सर्वर मुफ्त टीसीपी कनेक्शन से बाहर निकलता है, तो ज्ञात आईपी पते को प्राथमिकता देता है।

मुझे Baidu वेबमास्टर टूल के साथ रिपोर्ट किए गए अनुभव नहीं मिले हैं, जो लोड करने में धीमा है और इसमें अनुवाद के मुद्दे (कोई भी अंग्रेज़ी संस्करण नहीं है)। यह मददगार हो सकता है, लेकिन राय-आधारित जरूर हो सकता है।


1
यह वास्तव में @Dan सहायक है। इनमें से कुछ समाधानों की कोशिश करना (Baidu वेबमास्टर टूल्स एक वास्तविक दर्द है।) वापस रिपोर्ट करेंगे।
15

1
धन्यवाद! यदि मैं कोई अन्य विकल्प भी ढूँढता हूँ, तो मैं इसे अपडेट करूँगा। यह प्रश्न बहुत से वेबमास्टरों के आक्रामक बॉट्स, और उनके साथ बातचीत करने की चिंताओं को दर्शाता है (उदाहरण के लिए, Baidu वेबमास्टर)। उम्मीद है कि वैध बॉट इसे ध्यान में रखेंगे, और बेहतर उपकरण / विकल्प उपलब्ध हो जाएंगे।
दान

@samthebrand और dan - कृपया रिपोर्ट वापस करें! क्या आपने कोई अन्य समाधान पाया है जिसे आप सुझा सकते हैं?
lazysoundsystem

5

इस पर बहुत शोध और प्रयोग करने के बाद, मैंने आखिरकार बुलेट को बिट किया और एक Baidu वेबमास्टर टूल खाता स्थापित किया। जब Google किसी दूसरी विंडो में Google Translate के साथ सशस्त्र रूप से उपयोग करने के लिए इसका बिल्कुल सीधा है। आपके पास सामान्य ब्राउज़र मोड से कैप्चर नहीं किए जा सकने वाले बटनों से चीनी पाठ को कॉपी और पेस्ट करने में सक्षम होने के लिए आपको फायरबग सक्रिय करने की आवश्यकता हो सकती है।

आपके पास सेटअप होने के बाद, आपको क्रॉलिंग डेटा दिखाई देने के लिए कुछ दिन इंतजार करना होगा और फिर आप क्रॉल दर को कस्टमाइज़ कर सकते हैं। यह "दबाव" नामक एक अनुभाग में दिखाई देता है जिसे आपको इस URL के साथ प्राप्त करने में सक्षम होना चाहिए:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2F%2Fwww.yourURL2%2F
ध्यान दें कि आप केवल इस URL का उपयोग करने में सक्षम होंगे यदि आपके पास Baidu वेबमास्टर टूल खाता सेटअप है और आपने अपने वेबसाइट के URL को अपने खाते से संबंधित वेबसाइट के लिए संबद्ध कर दिया है)। यहां आपको केंद्र में आपकी वर्तमान क्रॉल दर के साथ एक स्लाइडर दिखाई देगा (मेरे मामले में प्रति दिन 12676 अनुरोध) क्रॉल दर को कम करने के लिए इसे बाईं ओर स्लाइड करें।

मुझे अभी तक कोई पता नहीं है अगर यह वास्तव में आपके अनुरोध का सम्मान करता है। यह आपको एक चेतावनी देता है जो ऐसा कुछ कहता है। "हम अनुशंसा करते हैं कि आप डिफ़ॉल्ट साइट Baidu क्रॉल दर का उपयोग करें। केवल अगर आपकी वेबसाइट को हमारे क्रॉलिंग की समस्या है, तो इसे समायोजित करने के लिए इसका उपयोग करें। अपनी साइट के सामान्य क्रॉलिंग को बनाए रखने के लिए, Baidu वास्तविक के साथ क्रॉल दर के आपके समायोजन को ले जाएगा। साइट की स्थिति और इसलिए आपके अनुरोध के अनुसार समायोजित करने की गारंटी नहीं दी जा सकती है। "


1
मुझे यकीन है कि मैं केवल एक ही नहीं हूं जो इस पर एक अपडेट की सराहना करेगा - क्या यह अनुरोध का सम्मान करता है? क्या आप खाता बनाने की सलाह देंगे?
लाजिस्सोइड सिस्टम

क्रॉल फ़्रीक्वेंसी एडजस्टमेंट पेज पर सीधे यूआरएल को अपडेट करें, क्योंकि यह अब वेबमास्टर टूल्स में अधिक गहराई से दब गया है (अब मेनू में नहीं)। Google अनुवादों को भ्रमित करने वाले अनुवादों के कारण ढूंढना बहुत कठिन हो जाता है ;-)
odony

-1

हां, आप उसी सर्वर पर क्रमिक अनुरोधों के बीच प्रतीक्षा करने के लिए robots.txtCrawl-delay में पैरामीटर का उपयोग कर सकते हैं ।

User-agent: Baiduspider
Crawl-delay: 100

पहली पंक्ति कमांड को सम्मानित करने के लिए केवल Baidu वेब क्रॉलर को बताती है। दूसरी पंक्ति सर्वर के अनुरोधों के बीच सेकंड में प्रतीक्षा करने का समय है। आप अपनी आवश्यकताओं के लिए क्या कभी समय की देरी जोड़ सकते हैं।

आपको इन आदेशों को अपनी मौजूदा robots.txt फ़ाइल में जोड़ना होगा । यदि आपके पास पहले से एक robots.txt फ़ाइल नहीं है, तो एक टेक्स्ट फ़ाइल के ऊपर कोड जोड़ें, फ़ाइल को robots.txt के रूप में सहेजें और इसे अपनी वेबसाइट का रूट फ़ोल्डर अपलोड करें, इसलिए यह नीचे दिए गए पते पर दिखाई देता है:

www.examplesite.com/robots.txt

2
Baiduspider क्रॉल-देरी का समर्थन नहीं करता है। देखें यहाँ
समथेब्रैंड

वूप्स, यह कुछ साइटों में देखा था robots.txt फ़ाइल तो यह मान लिया! कैसे कह रही है कि जाना है ?!
मैक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.