यह तेजी से बदलती घटना है जिसका अभी तक कोई जवाब नहीं है।
कृपया अपने निष्कर्ष या मान्यताओं को उत्तर के रूप में पोस्ट न करें; जब आपके पास वास्तव में उत्तर हो, तो उत्तर फ़ील्ड को आरक्षित करें।
यदि आपके पास जोड़ने के लिए कुछ नया है, तो कृपया इसे सीधे प्रश्न में संपादित करें।
वर्ष की शुरुआत के बाद से, मुझे उपयोगकर्ता एजेंट के साथ बहुत अधिक ट्रैफ़िक मिल रहा है:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
मेरी पहुंच लॉग उस उपयोगकर्ता एजेंट से 40% - 60% दिखाती है। यह अजीब है क्योंकि उपयोगकर्ता एजेंट फ़ायरफ़ॉक्स 3.0.10 ब्राउज़र बताता है (2012 में उस ब्राउज़र का उपयोग करने वाला कोई है? निश्चित रूप से सामान्य वेबसाइट पर 40% -60% विज़िटर नहीं हैं)।
इसके अलावा, लॉग दिखाते हैं कि इस उपयोगकर्ता एजेंट ने केवल HTML दस्तावेज़ और छवियों, सीएसएस, जेएस फ़ाइलों जैसी कोई संदर्भित संपत्ति का अनुरोध किया है।
मैंने उन अनुरोधों के आईपी (उस यूए के साथ) की जांच की। यह दुनिया भर से आ रहा है। मैंने माना कि उन IP में कभी-कभी एक मोबाइल उपयोगकर्ता एजेंट होता है।
इसलिए मेरा संदेह एक मोबाइल ऐप है जो बहुत सारे "स्पाइडर अनुरोध" कर रहा है। उस उपयोगकर्ता एजेंट से यातायात का मूल कारण जानना अच्छा होगा।
क्या कोई मूल कारण की पहचान कर सकता है?
पिछले कुछ हफ्तों में, हमने माना कि उस UA से ट्रैफ़िक गिरा और अन्य ट्रैफ़िक में वृद्धि हुई। ऐसा लगता है कि बॉट / क्रॉलर अब एक अधिक सामान्य यूए का उपयोग कर रहे हैं और इसलिए ब्लॉक करना अधिक कठिन है। मैंने किसी और को यह कहते हुए देखा कि इस प्रश्न के उत्तर में, लेकिन इसे हटा दिया गया जब सर्वरफॉल्ट ने इस प्रश्न को फिर से व्यवस्थित करने का निर्णय लिया।
संदर्भ के रूप में OLD उत्तर
डी से अद्यतन करें
मैं अपनी बहुत उच्च तस्करी वाली वेबसाइट चलाता हूं और पिछले महीने या उसके बाद के अपाचे लॉग्स में बिल्कुल वही चीज देख रहा हूं (मुझे अभी तक वापस जांच करने का मौका नहीं मिला है)। सभी अनुरोधों में से 40% वह प्रतिशत है जो मैं देख रहा हूं, जो कि पागल है, जाहिर है।
और मैंने यह भी देखा कि अनुरोधों को हमेशा लगता है कि अनुरोध करने वाला ब्राउज़र gzip संपीड़न का समर्थन नहीं करता है - जिसके परिणामस्वरूप सभी वेबपेज अनुरोधों को असम्पीडित किया जा रहा है और हमारे बैंडविड्थ का उपयोग छत के माध्यम से हो रहा है!
लेकिन अब तक मैं यह निर्धारित करने में असमर्थ रहा हूं कि वास्तव में क्या चल रहा है - मुझे अब तक संदेह है कि यह किसी प्रकार का प्रॉक्सी सर्वर या मोबाइल डिवाइस के लिए हो सकता है जो एक नकली उपयोगकर्ता स्ट्रिंग भेज रहा है।
EDD TO ADD: बस कुछ और शोध किया था और ऐसा लगता है कि यह एंटीवायरस सॉफ़्टवेयर हो सकता है: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
हां, हमने कई साइटों पर समान ट्रैफ़िक देखा है।
हम अभी भी मूल कारण की तलाश कर रहे हैं, लेकिन हमारे कुछ निष्कर्षों में शामिल हैं:
यदि यह एक मकड़ी है, तो यह बहुत खराब काम कर रही है। यह प्रति डोमेन केवल एक या दो URL को कुछ समय के लिए (शायद कुछ घंटों के लिए) लगता है, जब तक कि यह किसी अन्य URL पर न चला जाए। सामग्री हमेशा अपेक्षाकृत "चालू" होती है, हालांकि, जो Google समाचार को एक कारक होने का श्रेय देता है, जैसा कि उसके जवाब में पोस्ट किए गए लिंक डी में प्रस्तुत किया गया है (हमारी सभी साइट समाचार साइट हैं)।
जबकि आईपी भौगोलिक रूप से फैले हुए हैं, हमारे लिए उनमें से ज्यादातर मूल साइट के पास स्थित हैं (हमारी अधिकांश साइटें स्थानीय समाचार आउटलेट हैं, इसलिए उन्हें बहुत सारे राष्ट्रीय ट्रैफ़िक नहीं मिलते हैं)। लगभग कोई भी अनुरोध संयुक्त राज्य अमेरिका के बाहर से नहीं आता है। फिर से, यह Google समाचारों से स्कर्पित हो रहे URL पर विश्वास करता है (मैं अनुमान लगा रहा हूं कि जिन लोगों ने ज़िप कोड द्वारा Google समाचार का स्थानीयकरण किया है वे हमारी सामग्री देखेंगे)।
अधिकांश समय, अनुरोधों को पृष्ठभूमि शोर के रूप में लिखा जा सकता है (हालांकि एक विशेष रूप से शोर एक), लेकिन एक दिन में दो बार हम स्पाइक लेंगे और यह यूए लगभग 15-30 मिनट के लिए ~ 100mbps यातायात के लिए जिम्मेदार होगा।
दुर्भाग्य से, जबकि Google समाचार इन URL की खोज के लिए एक संभावित वेक्टर की तरह लगता है, हमने जो कुछ भी देखा है वह परिस्थितिजन्य है और हमारे पास अभी भी इन URLs को कैसे या क्यों इसके लिए कोई धूम्रपान बंदूक नहीं है।
Bannow बे से अपडेट करें
हमारे पास बड़ी समाचार साइटें हैं - हमारी कहानियाँ सप्ताह में कई बार Google समाचार द्वारा उठाई जाती हैं। हम नवंबर के अंत से इस स्रोत से यातायात प्राप्त कर रहे हैं - और यह सप्ताह दर सप्ताह बढ़ रहा है - शायद फरवरी में 30 मिलियन imps।
Google समाचार यूएस के सामने पृष्ठ पर उपस्थिति इस ट्रैफ़िक के लिए एक ट्रिगर है - यूएस IP से होने वाले लगभग 75 प्रतिशत उद्देश्य। लेकिन जो भी है वह खुद को अस्पष्ट करने के लिए बहुत प्रयास कर रहा है। और वह अनुकूल नहीं है।
हमें या तो धूम्रपान बंदूक नहीं मिली है, लेकिन एक प्रमुख सुरक्षा विक्रेता ने कृपया हमारी ओर से आगे की जांच के लिए सहमति व्यक्त की है।
Artem Russakovskii से अपडेट करें
बस एक ही बात एक समाचार साइट (AndroidPolice.com) के लिए पहली बार हुआ था। इन यादृच्छिक अनुरोधों के बारे में 10 मिनट जो कि QPS को 5000% से अधिक हमारे औसत (5000qps, जो कि Linode's NodeBalancer की सीमा है) पर फैलाते हैं। सीपीयू ने निष्क्रिय करना शुरू कर दिया क्योंकि अनुरोध I / O और नेटवर्क खा रहे थे - यह एक वास्तविक DDOS था।
मैं वास्तव में इस की तह तक जाना चाहता हूं, लेकिन फिलहाल यह पूरी तरह से हैरान करने वाला है।
मार्क से अपडेट करें
बस एक +1 जोड़ना। हम अपनी साइट पर समान व्यवहार देख रहे हैं। यहां जोड़ने के लिए नई जानकारी का एक टन नहीं, लेकिन यहां हमारे यातायात का सामान्य आकार है:
- यातायात अत्यधिक वितरित किया जाता है। ट्रैफ़िक ~ 60k से अधिक अद्वितीय IP से आ रहा है।
- ट्रैफ़िक का विशाल बहुमत एकल URL मार रहा है, आमतौर पर हाल ही में Google समाचार पर सूचीबद्ध URL (हालाँकि Google समाचार हमेशा वेक्टर नहीं दिखता है)
- यह ट्रैफ़िक उसी फ़ायरफ़ॉक्स / 3.0.10 उपयोगकर्ता एजेंट से आ रहा है जैसा कि इस धागे में बताया गया है, हालांकि हमने कुछ विषम मोबाइल एजेंटों को यहाँ और वहाँ देखा है।
- इस एजेंट से आने वाले सभी ट्रैफ़िक में कोई संदर्भ डेटा नहीं है।
- सप्ताह में एक या दो बार 30-60 मिनट तक फट जाता है और फिर चला जाता है।
डॉन आयरलैंड से अपडेट
पिछली पोस्ट 13 अप्रैल थी लेकिन यातायात निश्चित रूप से समाप्त नहीं हुआ है। इसका सबसे अजीब हिस्सा यह तथ्य हो सकता है कि उनके नमक के लायक कोई भी मैलवेयर लेखक निश्चित रूप से (निश्चित रूप से) एक आधुनिक ब्राउज़र से उपयोगकर्ता-एजेंट स्ट्रिंग का उपयोग करेगा, जिससे ब्लॉक-यूज़र-एजेंट रक्षा बेकार हो जाएगी। यह तथ्य ऐसा प्रतीत होता है जैसे कि 'हानिरहित' समाचार एग्रीगेटर या कोई अन्य अनुप्रयोग स्रोत है। अब तक, हालांकि, मैं भी किसी वास्तविक निष्कर्ष तक पहुंचने में असमर्थ रहा हूं और आशा है कि जानकारी वाला कोई भी व्यक्ति इसे यहां पोस्ट करेगा।
हम उसी पैटर्न को देख रहे हैं, जिसमें Google समाचार द्वारा ली गई कहानी के बाद ट्रैफ़िक का बहुत उच्च स्थान होता है, जो कहानी का अनुरोध करता है (लेकिन छवियों जैसी सहायक फाइलें नहीं)। आउटबाउंड प्रतिक्रिया ट्रैफ़िक स्पाइक्स का कारण बनता है जो नेटवर्क को संतृप्त कर सकता है (या किया, जब तक कि हम केवल 503 त्रुटि के साथ जवाब देना शुरू नहीं करते)। ये हमले (हम उन्हें और क्या कह सकते हैं?) औसतन लगभग 30 मिनट तक चलते हैं, लेकिन बहुत लोकप्रिय कहानियों में एक घंटे या उससे अधिक समय तक उच्च ट्रैफ़िक हो सकता है (मैं फ़ायरफ़ॉक्स 3.0.10 ट्रैफ़िक की बात कर रहा हूं, निश्चित रूप से सामान्य ट्रैफ़िक भी उच्च रहता है कुछ समय के लिए)।
एक घंटे की अवधि में (एक लोड संतुलित समूह में एकल सर्वर के लिए) हमने 200,000 अनुरोधों को देखा, जिनमें से 97,000 फ़ायरफ़ॉक्स 3.0.10 अनुरोध थे, सभी अनुरोधों का लगभग 50%। और जब आप मानते हैं कि आम तौर पर एक पेज मुख्य फ़ाइल के लिए 10 या अधिक अनुरोध उत्पन्न करता है और एक्सेसरी फाइल 97,000 करघे बहुत बड़ा होता है। मैं ध्यान देता हूं कि 97,000 में 51,000 अद्वितीय आईपी पते थे। और मैं एक घंटे के बारे में बात कर रहा हूं (वास्तव में यह 45 मिनट के करीब था)। जो भी कारण है यह काफी व्यापक है।
हम एक विशाल फ्रेंच उच्च तकनीक समाचार वेबसाइट पर एक ही मुद्दा है।
जब भी कोई समाचार प्रकाशित होता है और Google समाचार पर देखा जा सकता है, तो आईपी और उपयोगकर्ता एजेंट "मोज़िला / 5.0 (विंडोज; यू; विंडोज़ एनटी 5.1; एन-यूएस; rv): 1.9.0.10; ) गेको / 2009042316 फ़ायरफ़ॉक्स / 3.0.10 (.NET CLR 3.5.30729) "।
सभी आईपी एड्रेसेस फ्रांस या फ्रेंच देशों में स्थित हैं और इनका कोई संदर्भ नहीं है। यह एक बॉट लगता है लेकिन एक ही रिमोट एड्रेस को कुछ ही मिनटों के दौरान एक ही खबर पर 50 या 100 बार वापस क्यों आना पड़ता है? क्या यह संक्रमित कंप्यूटर हो सकता है? Google समाचार पर समाचार दिखाई देने पर घटना क्यों दिखाई देती है? क्या Google इस अजीब ट्रैफ़िक के लिए ज़िम्मेदार है?
यदि इस विषय में किसी ने अन्वेषण पाया है, तो मुझे लगता है कि यह कई मध्यम या बड़ी वेबसाइटों को अपने यातायात को नियंत्रित करने में मदद करेगा!
संपादित करें: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html यदि यह वास्तव में संक्रमित कंप्यूटर है, तो इसमें शामिल पतों की संख्या को देखते हुए बहुत चिंता होती है। हम सभी ट्रैफ़िक को अवरुद्ध करने के लिए अपाचे के लिए इस स्क्रिप्ट को लागू करेंगे:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
अर्नेस्टो से अपडेट करें
मध्यम स्पेनिश सामान्य समाचार साइट, कुछ दिनों के बाद से कुछ अप्रासंगिक समाचारों में उच्च यातायात को देखा।
जो कोई भी है, वह संपूर्ण HTML को लोड करता है, जैसा कि हम "पेज व्यू" के कारण यह नोट करते हैं कि पेज लोड होने के बाद हम डेटाबेस अपडेट के माध्यम से वेतन वृद्धि करते हैं।
हम केवल प्रत्येक दिन लक्षित एक या दो URL नोटिस करते हैं।
कुछ ही सेकंड में एक ही URL पर बहुत सारे अनुरोध (7000-12000), विभिन्न IP से दिन भर में वितरित किए जाते हैं। अगले दिन अन्य URL को लक्षित किया गया।
कोई रेफर नहीं करता।
लक्षित लेख Google समाचार पर दिखाई दिए, लेकिन हम यह आश्वासन नहीं दे सकते कि यह संबंधित है।
Google Analytics इसे वैध ट्रैफ़िक के रूप में नहीं पहचानता है। हमारे पास 8000 से अधिक हिट और जीए के साथ केवल 25 या तो रिपोर्ट हैं (मुझे लगता है कि जावास्क्रिप्ट यह व्याख्या नहीं की गई है)।
पुराने प्रो से अपडेट करें
आपके लिए कुछ डेटा बिंदुओं को जोड़ना।
बॉट्स बनाम ब्राउजर इस यूए को बॉट (अभी तक) नहीं मानते हैं।
सबसे अत्यधिक ट्रैफ़िक वाली साइट पर जिसके लिए मेरे पास लॉग हैं, मई 2012 की तारीख तक उपयोग इस यूए को 1% से कम ट्रैफ़िक दिखाता है। यूए अनुरोधों का एक महत्वपूर्ण हिस्सा वैध दिखाई देता है (उदाहरण के लिए, सभी अपेक्षित संसाधनों को लोड करना)। यह मूल रूप से फरवरी 2012 की तरह ही है।
इस साइट का मुख पृष्ठ शायद ही कभी अपडेट किया गया हो और सभी गतिशील सामग्री robots.txt द्वारा अवरुद्ध हो।
यह जिनीओ से संभावना है। उन्होंने एक नए उपयोगकर्ता एजेंट का उपयोग करने के लिए अपने आवेदन को अपडेट किया है: मोज़िला / 5.0 + (संगत; + जिनीओ / 1.0 + http://www.genieo.com/webfilter.html )। यह मूल उपयोगकर्ता एजेंट के समान पैटर्न के साथ हिट करता है लेकिन अब वे खुद को पहचानने लगते हैं। यदि आप अपने उपयोगकर्ता एजेंट में URL को देखते हैं तो वे भी स्वीकार करते हैं कि वे कुछ वेब साइटों पर बहुत अधिक ट्रैफ़िक उत्पन्न कर रहे हैं या हो सकते हैं। - dflaw
माइक फगन से अद्यतन
हम लड़ रहे हैं जो हमने माना था कि अब हफ्तों के लिए डीडीओएस हमले थे। हमने अभी इन हमलों के लिए जिओनी को उपयोगकर्ता के रूप में देखना शुरू किया। इससे पहले हमने "मोज़िला / 5.0 (विंडोज; यू? विंडोज एनटी 5.1; एन-यूएस; आरवी: 1.9.0.10) गेको / 2009042316 फ़ायरफ़ॉक्स / 3.0.10 (.NET सीएलआर 3.5.30729)" और अनुरोधों का एक टन देखा। मोज़िला / 5.0 (विंडोज़ एनटी 6.1; आरवी: 11.0) गेको / 20100101 फ़ायरफ़ॉक्स / 11.0 "। 10k + अलग-अलग आईपी, प्रति दिन 1 मिलियन अनुरोध केवल 3 या 4 पृष्ठों पर जहां एक ही आईपी 100+ बार पृष्ठों का अनुरोध कर रहा था और किसी भी अतिरिक्त संपत्ति या विज्ञापन को नहीं खींच रहा था। मेरी खोज यह है कि इनमें से कोई भी आईपी वास्तव में हमारी साइट पर किसी अन्य पेज पर नहीं गया है।
मैंने जिन्नियो से संपर्क किया और यह उनकी प्रतिक्रिया है:
"हमसे संपर्क करने के लिए धन्यवाद।
जेनियो का पुराना संस्करण आपके द्वारा वर्णित ट्रैफ़िक लोड का कारण हो सकता है। जिस वजह से यह हुआ हमें उस असुविधा के लिए खेद है। हमने कल जारी किया और अपडेट किया कि यह पता है, हमारे आवेदन से डेटा लोड अगले 24 घंटों में दूर हो जाना चाहिए। हमें विश्वास था कि हम नए उपयोगकर्ताओं के लिए इसे शुरू करके आपकी साइट के लिए एक अच्छी सेवा कर रहे हैं। हमने ठीक से आकलन नहीं किया है कि जैसे-जैसे हमारा इंस्टॉलेशन बढ़ रहा है, यह कुछ सीट्स पर ओवरलोड को प्रेरित कर सकता है।
जिनीओ एक व्यक्तिगत अखबार या एक स्मार्ट आरएसएस रीडर है। यह स्मार्ट अर्थ वैयक्तिकरण फ़िल्टरिंग के साथ एक ग्राहक पक्ष RSS रीडर है। जिनीओ एप्लिकेशन उपयोगकर्ता की पसंदीदा साइटों से आरएसएस डेटा का अनुसरण करते हैं और सिमेंटिक विश्लेषण करके लेखों को पढ़ते हैं और उपयोगकर्ताओं के हित के क्षेत्रों के संबंध में उन्हें फ़िल्टर करते हैं। यदि लेख उपयोगकर्ता के हितों से मेल खाता है, तो एप्लिकेशन उपयोगकर्ता शीर्षक में लेख का शीर्षक और स्निपेट प्रदर्शित करता है। शीर्षक पर क्लिक करने से लेख की साइट - आपकी साइट बन जाएगी। जिनीओ एजेंट स्वायत्त है (गोपनीयता कारणों से); यह अंतिम उपयोगकर्ता मशीन पर चलता है, यही कारण है कि आप एजेंट को अपनी साइट को कई अलग-अलग आईपी से एक्सेस करते देखते हैं।
जिनीओ का अधिकांश डेटा उपयोगकर्ता के सामान्य आरएसएस फीड से आता है, लेकिन जिनीओ नई समाचार साइटों से कुछ सामग्री भी जोड़ता है जो पहले उपयोगकर्ताओं द्वारा दर्ज नहीं की गई थीं (गंभीरता और विविधता के लिए)। जिनीओ एल्गोरिदम "हॉट" लेखों, ट्विटर के शीर्ष हिट्स, YouTube को सबसे अधिक देखा जाता है, और Google समाचार हाइलाइट करता है और जांचता है कि क्या वे उपयोगकर्ता की रुचि से मेल खाते हैं
हमें पता नहीं था कि यह कुछ साइट के लिए लोड समस्या पैदा कर रहा है। एक बार जब यह हमारे ध्यान में लाया जाता है तो हम वर्तमान उपयोगकर्ताओं को एक नए संस्करण के साथ अपडेट करते हैं जो लोड स्पाइक्स को रोकता है।
सादर,
-Dotan