Google मेरी वेब साइट से बायनेरिज़ क्यों डाउनलोड कर रहा है और बैंडविड्थ का उपयोग कर रहा है?


9

मध्य अगस्त 2014 के बाद से, कई Google सर्वर मेरी वेब साइट पर सप्ताह में लगभग एक बार सभी (बहुत) बड़ी बाइनरी फ़ाइलों को डाउनलोड कर रहे हैं। IPs सभी Google के स्वामित्व के अनुसार दिखाई देते हैं, और इस तरह दिखते हैं: google-proxy-66-249-88-199.google.com। ये GET अनुरोध हैं, और वे मेरे सर्वर ट्रैफ़िक को बहुत प्रभावित कर रहे हैं।

इससे पहले, मैंने इन Google प्रॉक्सी आईपी से कोई ट्रैफ़िक नहीं देखा था, इसलिए यह कुछ नया प्रतीत होता है। मुझे अन्य Google IP से सभी प्रकार के ट्रैफ़िक दिखाई देते हैं, उनमें से सभी Googlebot और HEAD अनुरोध ही हैं।

मुझे इस बात की चिंता नहीं होगी कि सिवाय इसके कि ये सभी फाइलें हर हफ्ते या तो गूगल द्वारा डाउनलोड की जा रही हैं। उपयोग की जाने वाली बैंडविड्थ अत्यधिक होने लगी है।

मैंने अनुमान लगाया है कि चूंकि इन फ़ाइलों में से कई विंडोज निष्पादन योग्य हैं, शायद Google उन्हें मैलवेयर स्कैन करने के लिए डाउनलोड कर रहा है। यहां तक ​​कि अगर यह सच है, तो क्या वास्तव में हर हफ्ते होने की जरूरत है?

नवंबर में अब तक Google प्रॉक्सी आईपी से उदाहरण ट्रैफ़िक:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

अद्यतन # 1: मैं यह उल्लेख करना भूल गया कि प्रश्न की फाइलें पहले से ही साइट के robots.txt फ़ाइल में हैं। मुकदमा करने के लिए robots.txt कॉन्फ़िगरेशन ठीक से काम कर रहा है, मैंने Google वेबमास्टर टूल्स में robots.txt परीक्षक का भी उपयोग किया, जो दर्शाता है कि सभी Google बॉट्स के लिए फ़ाइलें निश्चित रूप से अवरुद्ध की जा रही हैं, एक अपवाद: Adsbot-Google। मुझे यकीन नहीं है कि इसके बारे में क्या है। और मैंने कुछ फ़ाइलों के लिए Google को खोजा, और वे खोज परिणामों में दिखाई नहीं देते हैं।

अद्यतन # 2: उदाहरण: 17 नवंबर को सुबह 5:12 बजे से 5:18 बजे के बीच, लगभग आधा दर्जन आईपी (सभी Google-प्रॉक्सी) ने बाइनरी फ़ाइलों के सभी पर GETs किया, कुल में 27। 4 नवंबर को 2:09 बजे और 2:15 बजे पीएसटी के बीच, उन्हीं आईपी ने मूल रूप से एक ही काम किया।

अपडेट # 3: इस बिंदु पर यह स्पष्ट लगता है कि हालांकि ये वैध Google IP हैं, वे Google की प्रॉक्सी सेवा का हिस्सा हैं, न कि Google के वेब क्रॉलिंग सिस्टम का हिस्सा हैं। क्योंकि ये प्रॉक्सी पते हैं, यह निर्धारित करने का कोई तरीका नहीं है कि वास्तव में जीईटी अनुरोध कहां से उत्पन्न हो रहे हैं, या क्या वे एक जगह या कई से आ रहे हैं। GETs की छिटपुट प्रकृति के आधार पर, यह प्रकट नहीं होता है कि कुछ भी चल रहा है; यह संभव है कि कोई व्यक्ति Google की प्रॉक्सी सेवा का उपयोग करते समय सभी बायनेरिज़ को डाउनलोड करने का निर्णय ले। दुर्भाग्यवश, यह सेवा पूरी तरह से अनिर्दिष्ट है, जो मदद नहीं करती है। एक साइट व्यवस्थापक के दृष्टिकोण से, परदे के पीछे कष्टप्रद हैं। मैं उन्हें ब्लॉक नहीं करना चाहता, क्योंकि उनके पास वैध उपयोग हैं। लेकिन उनका दुरुपयोग भी हो सकता है।


अच्छा प्रश्न। मैंने इसे वोट दिया! आप यकीन के लिए robots.txt का उपयोग करके इन्हें ब्लॉक करना चाहेंगे। Google निष्पादन योग्य क्यों डाउनलोड कर रहा है, यह मेरे से परे है। आपको सिद्धांत एक अच्छा लगता है, लेकिन किसी भी तरह, आवृत्ति के कारण मुझे यकीन नहीं है। बल्कि अजीब लगता है। ये Googlebot IP पते प्रतीत होते हैं, हालांकि मेरी सूची में google-proxy-66-102-6-104.google.com नहीं है।
क्लोजेटनोक

मैं यह उल्लेख करना भूल गया कि प्रश्न की फाइलें पहले से ही साइट के robots.txt फ़ाइल में हैं। ऊपर # 1 अद्यतन देखें।
बूट 13

तुमने मुझे उलझन में डाल दिया। मुझे अब किसी भी समय एक ठेकेदार की उम्मीद है, इसलिए मुझे इस बारे में सोचना होगा। Google अपने डोमेन नाम और आईपी पते के आवंटन के साथ अजीब बातें कर रहा है और होस्टिंग और अन्य लोगों सहित विभिन्न Google सेवाओं के साथ कुछ ओवरलैप किया गया है जहां लोग Google आईपी पते के स्थान पर दिखाई दे सकते हैं, हालांकि, मैंने उन्हें Googlebot आईपी पते का उपयोग करके नहीं देखा है अंतरिक्ष। मैं चाहता हूं कि Google विभिन्न खोज प्रक्रियाओं के लिए स्पष्ट स्थान आवंटित करेगा जिसमें कोई या थोड़ा ओवरलैप नहीं होगा ताकि सुरक्षा प्रणालियां इन आईपी पते पर ठीक से भरोसा कर सकें।
क्लोसेट्नोक

जवाबों:


3

मैंने इस प्रश्न के लिए कुछ शोध किए और कुछ दिलचस्प थिंक पाए, जैसे:

1. क्या यह एक नकली क्रॉलर है? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

उपयोगकर्ता से निष्कर्ष:

ये 'क्रॉलर' क्रॉलर नहीं हैं, लेकिन Google खोज इंजन में उपयोग की जाने वाली लाइव वेबसाइट पूर्वावलोकन का हिस्सा हैं।

मैंने यह कोशिश की है, अपनी एक वेबसाइट को पूर्वावलोकन में दिखाने के लिए और हाँ, वहाँ है, एक अवरुद्ध संदेश प्राप्त किया।

यदि आप चाहते हैं कि उपयोगकर्ता आपकी वेबसाइट का पूर्वावलोकन देख सकें, तो आपको इन 'क्रॉलर' को स्वीकार करना होगा।

दूसरों ने कहा: "उस URL का रूट डोमेन google.com है और इसे आसानी से ख़राब नहीं किया जा सकता है"।

निष्कर्ष: आप इन बॉट या क्रॉलर पर भरोसा कर सकते हैं और इसका उपयोग Google खोज में पूर्वावलोकन दिखाने के लिए किया जाता है।

हम जानते हैं कि लाइव पूर्वावलोकन आपकी फ़ाइलों को डाउनलोड नहीं कर रहा है, तो चलिए प्रश्न 2 पर जाएं।

2. क्या यह Google सेवाओं का हिस्सा है? -> क्या यह Google प्रॉक्सी एक नकली क्रॉलर है: google-proxy-66-249-81-131.google.com?

निष्कर्ष:

मुझे लगता है, कुछ लोग Google (जैसे Google अनुवाद, Google मोबाइल, आदि) वेबसाइटों (स्कूलों में आदि) तक पहुँचने के लिए (DOS के हमलों के लिए) और इसी तरह की गतिविधि के लिए उपयोग कर रहे हैं।

इस पर मेरा अनुमान उपरोक्त के समान है। कोई व्यक्ति आपकी फ़ाइलों का उपयोग करने के लिए Google सेवा का उपयोग करने की कोशिश कर रहा है, जैसे कि अनुवादक।

यदि, जैसा कि आप कहते हैं, पहले से ही फ़ाइलें robots.txt द्वारा अवरुद्ध की जा रही हैं, यह केवल एक मैनुअल अनुरोध हो सकता है।

संपादित करें: ओपी टिप्पणी को बड़े पैमाने पर संबोधित करने के लिए:

क्या क्रॉलर रोबो.नेट को अनदेखा कर सकते हैं? हाँ। यहां एक सूची है जो मुझे नहीं लगता कि Google ऐसा करता है, जिसका अर्थ है कि यह Google प्रॉक्सी का उपयोग करके अन्य बॉट हो सकता है।

क्या यह एक खराब बॉट हो सकता है? हां, और इसके लिए मैं अनुशंसा करता हूं:

.htaccess प्रतिबंध:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

यह कोड IP या उपयोगकर्ता एजेंट को प्रतिबंधित कर सकता है।

या यहाँ चित्रित स्पाइडर ट्रैप का उपयोग करें

मैं अपनी राय रखता हूं कि यह एक मैनुअल अनुरोध है।


मैंने उन उत्तरों को भी देखा, लेकिन वे मेरे विशिष्ट मुद्दे को संबोधित नहीं करते थे। आप सही हो सकते हैं कि Google प्रॉक्सी का किसी भी तरह से दुरुपयोग किया जा रहा है, इस मामले में मैं सबसे अधिक संभावना है कि इसे पूरी तरह से अवरुद्ध कर दूंगा, जो कि लंगड़ा है। Robots.txt की मेरी समझ यह है कि क्रॉलर सॉफ़्टवेयर इसे अनदेखा करना चुन सकता है। दोस्ताना बॉट इसे सम्मान देने वाले हैं, और अधिकांश करते हैं, लेकिन परदे के पीछे (मुझे लगता है) अलग हैं।
बूट 13

1
@ boot13 हालांकि सावधान रहें। ये मान्य Googlebot IP पते हैं। इसलिए यदि आप इसे ब्लॉक करते हैं, तो इसे केवल इन फ़ाइलों के लिए ब्लॉक करें। यह मानते हुए कि आप अपाचे का उपयोग करते हैं, आपको .htaccess के साथ ऐसा करने में सक्षम होना चाहिए। लेकिन इससे अन्य समस्याएं हो सकती हैं, इसलिए सुनिश्चित करें कि आप संदेशों के लिए Google वेबमास्टर टूल पर ध्यान दें।
क्लोजिटेनोक

@ boot13 मैंने अपना उत्तर अपडेट कर दिया है। क्या आप देख सकते हैं कि एक्सेस एक ही दिन / घंटे में किए जाते हैं या रैंडम हैं?
nunorbatista

@nunorbatista: वे यादृच्छिक लगते हैं। मैंने कुछ समय के साथ अपना प्रश्न अपडेट किया है।
बूट 13

@nunorbatista: अपडेट # 3 ऊपर देखें। यह Googlebot या कोई अन्य क्रॉलर नहीं है, यह Google की प्रॉक्सी सेवा है। यह Google की लाइव साइट पूर्वावलोकन से संबंधित नहीं है। ऐसा लगता है कि एक या एक से अधिक लोगों ने Google प्रॉक्सी के माध्यम से बस बायनेरिज़ को डाउनलोड किया, शायद एक स्थानीय ब्लॉक या प्रतिबंध के आसपास पाने के लिए। स्पाइडर ट्रैप सुझाव मदद करने की संभावना नहीं है क्योंकि यातायात स्पष्ट रूप से एक बॉट नहीं है। मैं बायनेरिज़ वाले फ़ोल्डर तक पहुँचने से Google प्रॉक्सी आईपी को ब्लॉक करना चाहूंगा; मैं htaccess कोड का उपयोग करने की कोशिश करूँगा, लेकिन निश्चित रूप से डाउनलोडर हमेशा दूसरे प्रॉक्सी पर जा सकता है, इसलिए यह बेकार हो सकता है।
बूट 13
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.