SQL सर्वर में ये अक्षर समान क्यों हैं?


20

मुझे यह बिलकुल समझ में नहीं आया। इस SQL ​​क्वेरी को देखें:

select nchar(65217) -- ﻁ
select nchar(65218) -- ﻂ
select nchar(65219) -- ﻃ
select nchar(65220) -- ﻄ
if nchar(65217) = nchar(65218)
    print 'equal'
if nchar(65217) = nchar(65219)
    print 'equal'
if nchar(65217) = nchar(65220)
    print 'equal'

सकर्मक संबंध के आधार पर , इसका मतलब है कि SQL सर्वर उन सभी को समान चरित्र मानता है।

हालाँकि, अन्य वातावरण में, उदाहरण के लिए C # कहते हैं, वे समान नहीं हैं।

मैं किस उलझन में हूं:

  1. SQL सर्वर में स्ट्रिंग तुलना कैसे काम करती है
  2. क्यों तुलना एक मशीन, और एक मंच पर एक ही व्यवहार नहीं करता है, लेकिन विभिन्न वातावरण
  3. ये 4 वर्ण एक मानव-समझने योग्य चरित्र का प्रतिनिधित्व करते हैं। वे यूनिकोड चरित्र मानचित्र में इतने प्रचुर क्यों हैं?

यह निश्चित रूप से जबरदस्त समस्याओं का परिणाम है, क्योंकि मैं एक टेक्स्ट-प्रोसेसिंग एप्लिकेशन पर काम कर रहा हूं और डेटा लगभग हर जगह से आता है और इसे प्रोसेस करने से पहले मुझे टेक्स्ट को सामान्य करने की आवश्यकता है।

अगर मुझे अंतर का कारण पता है, तो मुझे इसे संभालने के लिए एक समाधान मिल सकता है। धन्यवाद।

जवाबों:


28

SQL सर्वर में सभी वर्ण डेटा एक कोलाजेशन से जुड़े होते हैं, जो वर्णों के डोमेन को निर्धारित करता है जिसे संग्रहीत किया जा सकता है और साथ ही डेटा की तुलना और सॉर्ट करने के लिए उपयोग किए जाने वाले नियम भी। Collic Unicode और Non-Unicode दोनों डेटा पर लागू होता है।

SQL सर्वर में कोलाज की 3 व्यापक श्रेणियां शामिल हैं: बाइनरी, विरासत और विंडोज। बाइनरी श्रेणी ( _BINप्रत्यय) में विभाजन अंतर्निहित कोड बिंदुओं का उपयोग करते हैं ताकि समानता अंक की तुलना न हो, यदि कोड अंक चरित्र की परवाह किए बिना भिन्न होते हैं। विरासत ( SQL_उपसर्ग) और विंडोज टकराव अधिक प्राकृतिक शब्दकोश नियमों के लिए छंटाई और तुलना शब्दार्थ प्रदान करते हैं। यह तुलनाओं को मामले, लहजे, चौड़ाई और काना पर विचार करने की अनुमति देता है। विंडोज कोलाजेशन अधिक मजबूत word-sortनियम प्रदान करता है जो विंडोज ओएस के साथ निकटता से संरेखित करते हैं जबकि विरासत टकराव केवल एकल वर्णों पर विचार करते हैं।

नीचे दिया गया उदाहरण, टेथ चरित्र के साथ विंडोज और बाइनरी कोलेशन के बीच के अंतर को दिखाता है:

CREATE TABLE dbo.WindowsColationExample
    (
      Character1 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character2 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character3 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character4 nchar(1) COLLATE Arabic_100_CI_AS_SC
    );

CREATE TABLE dbo.BinaryColationExample
    (
      Character1 nchar(1) COLLATE Arabic_100_BIN
    , Character2 nchar(1) COLLATE Arabic_100_BIN
    , Character3 nchar(1) COLLATE Arabic_100_BIN
    , Character4 nchar(1) COLLATE Arabic_100_BIN
    );

INSERT  INTO dbo.BinaryColationExample
VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
INSERT  INTO dbo.WindowsColationExample
VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );

--all characters compare not equal
SELECT *
FROM dbo.BinaryColationExample
WHERE
    character1 = character2
    OR character1 = character3
    OR character1 = character4
    OR character2 = character3
    OR character2 = character4
    OR character3 = character4;

--all characters compare equal
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character2;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character3 = character4;

यूनिकोड में समान ग्लिफ़ के लिए अलग कोड बिंदु क्यों हो सकते हैं, इसके कारण http://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode में उल्लिखित हैं । मैं संक्षेप में कहता हूं कि यह विरासत की अनुकूलता के लिए हो सकता है या वर्ण विहित रूप से समतुल्य नहीं हैं। ध्यान दें कि विभिन्न भाषाओं में टेथ चरित्र का उपयोग किया जाता है ( http://en.wikipedia.org/wiki/Teth )।


15

इससे कुछ लेना-देना है COLLATION आपके डेटाबेस ( BOL में अधिक जानकारी ) के ।

मैं पूरी तरह से उस विशिष्ट चरित्र की भाषा के बारे में निश्चित नहीं हूं, जिस पर आपको समस्या हो रही है (मैं इस धागे के आधार पर फारसी का अनुमान लगा रहा हूं ), लेकिन यदि आप समानता ऑपरेटर में सही टकराव को निर्दिष्ट करते हैं, तो आपको सटीक परिणाम मिलते हैं।

if nchar(65217) COLLATE Persian_100_BIN = nchar(65218) COLLATE Persian_100_BIN 
    print 'equal'; -- nothing returned
if nchar(65217)  COLLATE Persian_100_BIN  = nchar(65217)  COLLATE Persian_100_BIN 
    print 'equal'; -- prints 'equal'
if nchar(65217) COLLATE Latin1_General_CI_AI = nchar(65220) COLLATE Latin1_General_CI_AI
    print 'equal'; -- prints 'equal'
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.