ऊपरी बनाम निचला मामला

Question 1

केस-असंवेदनशील तुलना करते समय, स्ट्रिंग को ऊपरी मामले या निचले मामले में बदलना अधिक कुशल है? क्या इससे भी फर्क पड़ता है?

इस SO पोस्ट में यह सुझाव दिया गया है कि C # ToUpper के साथ अधिक कुशल है क्योंकि "Microsoft ने इसे इस तरह से अनुकूलित किया है।" लेकिन मैंने यह तर्क भी पढ़ा है कि ToLower बनाम ToUpper को परिवर्तित करना इस बात पर निर्भर करता है कि आपके स्ट्रिंग्स में से किसमें अधिक है, और आमतौर पर स्ट्रिंग्स में अधिक कम केस वर्ण होते हैं जो ToLower को अधिक कुशल बनाता है।

विशेष रूप से, मैं जानना चाहूंगा:

क्या ToUpper या ToLower को ऑप्टिमाइज़ करने का एक तरीका है कि एक दूसरे से तेज़ हो?
क्या ऊपरी या निचले मामले के तार के बीच केस-असंवेदनशील तुलना करना तेजी से है, और क्यों?
क्या कोई प्रोग्रामिंग वातावरण हैं (उदाहरण। C, C #, पायथन, जो भी हो) जहां एक मामला स्पष्ट रूप से दूसरे से बेहतर है, और क्यों?

Question 2

केस-असंवेदनशील तुलना करने के लिए ऊपरी मामले या निचले मामले में परिवर्तित करना, कुछ संस्कृतियों, विशेष रूप से तुर्की की "दिलचस्प" विशेषताओं के कारण गलत है। इसके बजाय, उचित विकल्पों के साथ एक StringComparer का उपयोग करें।

MSDN के पास स्ट्रिंग हैंडलिंग पर कुछ महान दिशानिर्देश हैं । आप यह भी जांचना चाहेंगे कि आपका कोड तुर्की परीक्षण पास करता है या नहीं ।

EDIT: अध्यादेश के मामले-असंवेदनशील तुलना के आसपास नील की टिप्पणी पर ध्यान दें । यह पूरा क्षेत्र बहुत सुंदर है :(

Question 3

MSDN पर Microsoft से :

.NET फ्रेमवर्क में स्ट्रिंग्स का उपयोग करने के लिए सर्वोत्तम अभ्यास

स्ट्रिंग उपयोग के लिए सिफारिशें

का प्रयोग करें String.ToUpperInvariant के बजाय विधि String.ToLowerInvariant विधि जब आप तुलना के लिए तार सामान्य बनाते हैं।

क्यों? से माइक्रोसॉफ्ट :

अपरकेस को सामान्य करें

वर्णों का एक छोटा समूह है जिसे लोअरकेस में बदलने पर गोल यात्रा नहीं की जा सकती है।

ऐसे चरित्र का उदाहरण क्या है जो गोल यात्रा नहीं कर सकता है?

प्रारंभ : ग्रीक रो प्रतीक (U + 03f1) Sym
अपरकेस: राजधानी ग्रीक Rho (U + 03a1) Capital
लोअरकेस: स्मॉल ग्रीक Rho (U + 03c1) ρ

Ρ, Ρ , ρ

.NET फेल्ड

Original: ϱ
ToUpper: Ρ
ToLower: ρ

इसीलिए, यदि आपका केस असंवेदनशील तुलना करना चाहता है तो आप स्ट्रिंग्स को अपरकेस में परिवर्तित करते हैं, न कि लोअरकेस को।

इसलिए अगर आपको किसी एक को चुनना है, तो अपरकेस चुनें ।

Question 4

MSDN के अनुसार स्ट्रिंग्स में पास होना और केस को अनदेखा करने के लिए तुलना करना अधिक कुशल है:

String.Compare (strA, strB, StringComparison.OrdinalIgnoreCase ) कॉल करने के बराबर ( लेकिन इससे भी तेज ) है

String.Compare (ToUpperInvariant (strA), ToUpperInvariant (strB), StringComparison.Ordinal)।

ये तुलना अभी भी बहुत तेज है।

बेशक, यदि आप एक स्ट्रिंग की बार-बार तुलना कर रहे हैं तो यह पकड़ नहीं हो सकता है।

Question 5

अधिक लोअरकेस प्रविष्टियाँ करने के लिए रुझान वाले स्ट्रिंग्स के आधार पर, टॉलर को सैद्धांतिक रूप से तेज़ होना चाहिए (तुलना के बहुत सारे, लेकिन कुछ असाइनमेंट)।

C में, या प्रत्येक स्ट्रिंग के व्यक्तिगत-सुलभ तत्वों (जैसे C स्ट्रिंग या CL में STL के स्ट्रिंग प्रकार) का उपयोग करते समय, यह वास्तव में एक बाइट तुलना है - इसलिए तुलना UPPERकरना अलग नहीं है lower।

यदि आप डरपोक थे और longइसके बजाय अपने तारों को सरणियों में लोड किया था, तो आपको पूरे स्ट्रिंग पर बहुत तेज़ तुलना मिलेगी क्योंकि यह एक बार में 4 बाइट्स की तुलना कर सकता है। हालाँकि, लोड समय इसे सार्थक नहीं बना सकता है।

आपको यह जानने की आवश्यकता क्यों है कि कौन सा तेज़ है? जब तक आप तुलनात्मक रूप से मीट्रिक बटलोड नहीं कर रहे हैं, तब तक एक जोड़ी साइकिल चलाना तेजी से पूरा निष्पादन की गति के लिए अप्रासंगिक है, और समय से पहले अनुकूलन की तरह लगता है :)

Question 6

Microsoft ने अनुकूलित किया है ToUpperInvariant(), नहीं ToUpper()। अंतर यह है कि आक्रमणकारी अधिक संस्कृति के अनुकूल है। यदि आपको स्ट्रिंग्स पर केस-असंवेदनशील तुलना करने की आवश्यकता है, जो संस्कृति में भिन्न हो सकती है, तो Invariant का उपयोग करें, अन्यथा अपरिवर्तनीय रूपांतरण का प्रदर्शन मायने नहीं रखना चाहिए।

मैं नहीं कह सकता कि क्या ToUpper () या ToLower () तेज़ है। मैंने कभी इसकी कोशिश नहीं की, क्योंकि मेरे पास कभी ऐसी स्थिति नहीं थी जहां प्रदर्शन इतना मायने रखता था।

Question 7

यदि आप C # में स्ट्रिंग की तुलना कर रहे हैं तो इसका उपयोग करना काफी तेज है। दोनों स्ट्रिंग को ऊपरी या निचले मामले में परिवर्तित करने के बजाय ()। उपयोग करने के लिए एक और बड़ा प्लस .quals () यह है कि 2 नए ऊपरी / निचले केस स्ट्रिंग्स के लिए अधिक मेमोरी आवंटित नहीं की गई है।

Question 8

यह वास्तव में कभी बात नहीं करना चाहिए। ASCII वर्णों के साथ, यह निश्चित रूप से मायने नहीं रखता है - यह केवल कुछ तुलनाओं और दिशा के लिए थोड़ा फ्लिप है। यूनिकोड थोड़ा और अधिक जटिल हो सकता है, क्योंकि कुछ ऐसे पात्र हैं जो अजीब तरीकों से मामले को बदलते हैं, लेकिन वास्तव में कोई अंतर नहीं होना चाहिए जब तक कि आपका पाठ उन विशेष वर्णों से भरा न हो।

Question 9

इसे सही करते हुए, एक छोटा, तुच्छ गति लाभ होना चाहिए यदि आप निचले मामले में परिवर्तित करते हैं, लेकिन यह है, जैसा कि कई ने संकेत दिया है, संस्कृति निर्भर है और फ़ंक्शन में इनहेरिट नहीं की गई है, लेकिन स्ट्रिंग्स में आप परिवर्तित करते हैं (बहुत कम अक्षर अक्षर) मेमोरी के लिए कुछ असाइनमेंट का मतलब है) - यदि आपके पास ऊपरी मामले के बहुत सारे अक्षरों के साथ एक स्ट्रिंग है, तो ऊपरी मामले में परिवर्तित करना तेज है।

Question 10

निर्भर करता है। जैसा कि ऊपर कहा गया है, केवल समान ASCII, इसका समान है। .NET में, स्ट्रिंग के बारे में पढ़ें और उपयोग करें । i18n सामान (भाषा संस्कृतियों और यूनिकोड) के लिए इसका सही उपयोग करें । यदि आप इनपुट की संभावना के बारे में कुछ भी जानते हैं, तो अधिक सामान्य मामले का उपयोग करें।

याद रखें, यदि आप कई स्ट्रिंग कर रहे हैं तो लंबाई की तुलना करना एक उत्कृष्ट पहला भेदभाव है।

Question 11

यदि आप शुद्ध ASCII में काम कर रहे हैं, तो इससे कोई फर्क नहीं पड़ता। यह सिर्फ एक OR x, 32 बनाम a और x, 224 है। यूनिकोड, मुझे कोई पता नहीं है ...