मेरे पास एक सॉकेट सर्वर है जिसे क्लाइंट से UTF-8 वैध वर्ण प्राप्त करना है।
समस्या कुछ क्लाइंट्स (मुख्य रूप से हैकर्स) के ऊपर गलत डेटा भेजने की है।
मैं आसानी से वास्तविक ग्राहक को अलग कर सकता हूं, लेकिन मैं भेजे गए सभी डेटा को फाइलों में लॉग कर रहा हूं ताकि बाद में इसका विश्लेषण कर सकूं।
कभी-कभी मुझे ऐसे पात्र मिलते œ
हैं जो UnicodeDecodeError
त्रुटि का कारण बनते हैं ।
मुझे उन वर्णों के साथ या उसके बिना स्ट्रिंग UTF-8 बनाने में सक्षम होने की आवश्यकता है।
अपडेट करें:
मेरे विशेष मामले के लिए सॉकेट सेवा एक एमटीए थी और इस प्रकार मुझे केवल ASCII कमांड प्राप्त करने की उम्मीद है जैसे:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
मैं JSON में यह सब लॉग कर रहा था।
तब कुछ लोगों ने अच्छे इरादों के बिना सभी प्रकार के कबाड़ को बेचने का फैसला किया।
यही कारण है कि मेरे विशिष्ट मामले के लिए गैर ASCII वर्णों को छीनना पूरी तरह से ठीक है।