क्या एक संदेश शरीर की शीर्ष रेखाओं को अधिक भारी रूप से स्कोर करने के लिए स्पैमस्समैन प्राप्त करने का एक तरीका है?


9

मेल सर्वर पर फ़िल्टर के माध्यम से बहुत सी स्पैम मिल रही हैं, जो कि (अविश्वसनीय रूप से स्पष्ट) वजन घटाने या शीर्ष पर अन्य स्कैम टेक्स्ट की कुछ पंक्तियों के साथ शुरू करने की अपेक्षाकृत सरल चाल के साथ चलती हैं, इसके बाद प्रोग्रामिंग प्रलेखन से पाठ का एक बड़ा निकाय है। - या, सभी की सबसे बुरी, स्टैक एक्सचेंज से पाठ स्क्रैप किया गया । सबसे अच्छे रूप में, स्पैमास हत्यारे इसे BAYES_50 के रूप में मानते हैं, और ऐसा होता है कि बाकी संदेशों का निर्माण सावधानीपूर्वक किया जाता है ताकि वे अन्य ट्रिगर्स को न मारें। (उदाहरण के लिए, हेडर न्यूनतम और सही हैं।) अक्सर, शामिल अंशों को मेरे वैध हितों के साथ पर्याप्त रूप से संरेखित किया जाता है कि कुल मिलाकर संदेश BAYES_00 के रूप में स्कोर किया जाता है, क्योंकि बहुत ही अनचाहा टोकन केवल sysadmin समस्या को हल करने के रसदार बजट से अभिभूत हैं।

शीर्ष भाग स्पष्ट रूप से स्पैमी है (और वास्तव में पहले से प्राप्त और स्पैम संदेशों के रूप में प्रशिक्षित होने के समान है) कि मैं इस तरह से चकित हो रहा हूँ - लेकिन स्पष्ट रूप से यह है। यह एक अलग पास की तरह लगता है जिसने संदेश के शीर्ष 25 (या तो) लाइनों को स्कोर किया और वजन किया जो समस्या को हल करेगा। क्या इसे करने का कोई तरीका है?


कई लोगों ने कस्टम रेगुलर एक्सप्रेशन लिखने का सुझाव दिया है। मैं इसमें शामिल नहीं होना चाहता, क्योंकि यह लगातार हारने वाली लड़ाई है। बेइज़ियन स्पैम छँटाई के व्यापक उपयोग में आने से पहले लोगों ने ऐसा किया था, और यह आमतौर पर भयानक था। कोई भी इंसान नहीं रख सकता । यह केवल प्रत्येक स्पैम संदेश के लिए कुंजी को हटाने से अधिक प्रभावी नहीं है, और मेरी ओर से बहुत अधिक काम करता है।

बायेसियन स्पैम फ़िल्टरिंग काम करता है। यह इस स्पैम पर भी काम करता है, अगर मैं " फोल्ड ऊपर " भाग को विभाजित करता हूं और सिर्फ उस हिस्से का विश्लेषण करता हूं , जिसमें डिकॉय / चैफ हटा दिया गया है। सवाल यह है: मैं ऐसा करने के लिए स्पैमाससिन कैसे प्राप्त कर सकता हूं?


क्या बायेसियन फ़िल्टर सक्षम है?
कोंडायबस

@ कोंडायबास हां। और यह समस्या का एक हिस्सा है, क्योंकि पैडिंग टेक्स्ट शीयर मात्रा के द्वारा स्पैमी भाग से आगे निकल जाता है।
Mattdm

आपने किस MTA का उपयोग किया है?
कोंडायबस

आपने इन स्पैम्स पर कितना बाइसियन प्रशिक्षण लिया है? मुझे उम्मीद है कि बायेसियन एल्गोरिथम इसे लंबे समय से पहले काम करेगा।
mc0e

@ mc0e यह नहीं हो सकता। यह सिर्फ जादुई रूप से स्मार्ट नहीं है। एक अधिक परिष्कृत मशीन-लर्निंग सिस्टम शायद यह कर सकता था, लेकिन मुझे लगता है कि उम, "एक सरल चाल" जो मैं यहां पूछ रहा हूं वह भी होगा।
mattdm

जवाबों:


1

मैं खुद एक (छोटे) ज्वलंत विरोधी स्पैम सेनानी हूँ। और कई समस्याओं के कारण जैसा कि आप मुठभेड़ करते हैं, मैंने खुद को गंदे काम करना समाप्त कर दिया, सालों पहले।

अब, यह आपके विशेष प्रश्न का उत्तर नहीं है, बल्कि आपकी विशेष समस्या का है। तो कृपया इसकी वजह से निराश न हों।

मैंने इस समस्या को कैसे हल किया, यह sa_filter-post.pl स्क्रिप्ट को संशोधित करने के लिए किया गया था, जिसका उपयोग XMail सर्वर द्वारा किया गया था, जो ईमेल फ़ाइल पर स्पैमक को कॉल करता है और वहां कुछ मामूली सामान करता है, पूरी फाइल को संसाधित करने के लिए नहीं, बल्कि इसके आधार पर विशिष्ट भागों पर आधारित होता है। कुछ विशिष्ट नियम (मेरे द्वारा हार्डकोड)। हाँ, regex'es लेकिन अब तक वे मेरे लिए काम करते हैं (मेरे पास इससे पहले और बाद में अन्य लिपियों का एक गुच्छा है ताकि एक भूमिका निभा सकें)

उदाहरण के लिए, मेरे पास एक रेगेक्स है जो फोनेनस को निकालता है। स्पैमर ने उसे पूर्ण रूप से छोड़ दिया, ताकि वह सीधे फ़ाइल के मध्य 400 वर्णों को संसाधित करने के लिए निकल जाए (मुझे परीक्षण और त्रुटि से 400 मिला, वास्तव में 200 से शुरू हुआ)। ध्यान दें कि फ़ाइल में जो है, उसकी तुलना में आप जो देखते हैं, उसके बीच से बाहर निकालना बहुत कठिन है।

एक और एक है जिसमें "उत्पादों", एक डमी हैडर और उपयोग करने योग्य पाद लेख के साथ html तालिका की समान संरचना है, इसलिए मैं उन लोगों को बाहर निकालता हूं, मैं "उत्पादों" टिप्पणियों के कॉलम को बाहर निकालता हूं और फिर स्पैम पर पास करता हूं।

और इसी तरह, आप चित्र प्राप्त करें।

लेकिन सभी नियम सही नहीं हैं, इसलिए मैं यहां प्रत्येक नियम के लिए एक निजी स्कोर प्रदान करके थोड़ा जादू करता हूं, जिसे मैं हार्डकोड करता हूं और जब जरूरत होती है, तो नियम के आधार पर व्यवहार करता है (और कभी-कभी मैं सभी नियमों को हटाने के लिए समाप्त होता है) )। मैं फिर एसए स्कोर को निजी स्कोर से संशोधित करता हूं। मैंने ऐसा इसलिए किया क्योंकि किसी कारणवश SA ने केवल 4 अंक दिए थे। 4. नियमों पर स्पष्ट रूप से स्पैम करने के लिए कुछ ऐसा जो मेरे पास सही पकड़ के लिए मजबूत भावनाएं थीं। इसलिए मैंने उन्हें केवल 5.0 से ऊपर जाने के लिए थोड़ा बढ़ावा दिया, कुछ पोस्ट-प्रोसेसिंग स्क्रिप्ट के साथ मिलकर जो कुछ अन्य चर को ध्यान में रखते हैं (ईमेल का स्रोत, ईमेल का लक्ष्य, हेडर की संरचना, आदि), यह स्पैम को कम या ज्यादा मारता है बाहर।

अब मुझे एहसास हुआ कि आप जो चाहते थे, वह नहीं है, लेकिन मेरे मामले में यह मुझे पूरी शक्ति देता है कि क्या स्कैन किया जाता है, यह सिर्फ इतना है कि मुझे चीजों को मैन्युअल रूप से सेट करने की जरूरत है और फिर हर बार और फिर थोड़ा स्पर्श करें- मूल्यों / regex'es पर अप।

लेकिन आपके मामले में चीजें बहुत आसान हैं क्योंकि आपको बस इतना करना है कि एक साधारण बैश स्क्रिप्ट का उपयोग करें जिसे स्पैम के बजाय आपके एमएक्स द्वारा बुलाया जाएगा और यह है कि स्क्रिप्ट का उपयोग हेड कमांड केवल पहले बाइट की संख्या को प्राप्त करने के लिए करें जो आप चाहते हैं और स्पैम के लिए उस अस्थायी फ़ाइल को पास करें।

स्क्रिप्ट की सामग्री आपके मेल सर्वर पर थोड़ी निर्भर करेगी, लेकिन यह पता लगाना मुश्किल नहीं होना चाहिए।

(ध्यान दें कि मैंने केवल अपने सेटअप के बारे में बात की है ताकि आप इस विकल्प की संभावनाओं को देख सकें)

पुनश्च: मुझे व्यक्तिगत रूप से इस तरह के स्पैम ईमेल (प्रोग्रामिंग से संबंधित अच्छाइयों के साथ) कभी नहीं मिले, इसलिए मुझे आश्चर्य है कि अगर आपने किसी को पेशाब नहीं किया है और अब आप लक्षित हैं। यह विशेष रूप से तैयार किए गए ईमेल की व्याख्या करेगा। इस संभावना के बारे में सोचने का कारण यह है कि वर्षों पहले, जब मैं विभिन्न आईटी मंचों और समूहों पर बहुत सक्रिय था, तो मैंने कुछ लोगों को हर बार पेशाब किया और फिर मुझे ईमेल स्पैमिंग सहित अपने सर्वर पर विभिन्न प्रकार के हमले हुए। । लेकिन वापस तो बेवकूफ यह स्मार्ट नहीं थे :)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.