एक स्ट्रिंग के माध्यम से एक गोल-यात्रा रूपांतरण एक डबल के लिए सुरक्षित क्यों नहीं है?


185

हाल ही में मुझे एक डबल पाठ में धारावाहिक बनाना पड़ा है, और फिर इसे वापस लेना है। मूल्य के बराबर नहीं लगता है:

double d1 = 0.84551240822557006;
string s = d1.ToString("R");
double d2 = double.Parse(s);
bool s1 = d1 == d2;
// -> s1 is False

लेकिन MSDN: Standard न्यूमेरिक फॉर्मेट स्ट्रिंग्स के अनुसार , "R" विकल्प को राउंड-ट्रिप सुरक्षा की गारंटी देने वाला है।

राउंड-ट्रिप ("आर") प्रारूप निर्दिष्टक का उपयोग यह सुनिश्चित करने के लिए किया जाता है कि एक संख्यात्मक मान जो एक स्ट्रिंग में परिवर्तित हो जाता है, उसी संख्यात्मक मूल्य में वापस पार्स किया जाएगा

ऐसा क्यों हुआ?


6
मैंने अपने वीएस और इसके वापस लौटने की सच्ची
चर्चा की

19
मैंने इसे झूठे बताकर पुन: पेश किया है। बहुत ही रोचक सवाल।
जॉन स्कीट

40
.net 4.0 x86 - सच, .net 4.0 x64 - गलत
उलुगबेक उम्मिरोव

25
.Net में इस तरह के एक प्रभावशाली बग को खोजने के लिए बधाई।
एरन

14
@ कैस्पर राउंड ट्रिप का मतलब विशेष रूप से फ्लोटिंग पॉइंट असंगतियों से बचने के लिए है
Gusdor

जवाबों:


178

मैं बग पाया।

.NET निम्न कार्य करता है clr\src\vm\comnumber.cpp:

DoubleToNumber(value, DOUBLE_PRECISION, &number);

if (number.scale == (int) SCALE_NAN) {
    gc.refRetVal = gc.numfmt->sNaN;
    goto lExit;
}

if (number.scale == SCALE_INF) {
    gc.refRetVal = (number.sign? gc.numfmt->sNegativeInfinity: gc.numfmt->sPositiveInfinity);
    goto lExit;
}

NumberToDouble(&number, &dTest);

if (dTest == value) {
    gc.refRetVal = NumberToString(&number, 'G', DOUBLE_PRECISION, gc.numfmt);
    goto lExit;
}

DoubleToNumber(value, 17, &number);

DoubleToNumberबहुत सरल है - यह सिर्फ कॉल करता है _ecvt, जो कि सी रनटाइम में है:

void DoubleToNumber(double value, int precision, NUMBER* number)
{
    WRAPPER_CONTRACT
    _ASSERTE(number != NULL);

    number->precision = precision;
    if (((FPDOUBLE*)&value)->exp == 0x7FF) {
        number->scale = (((FPDOUBLE*)&value)->mantLo || ((FPDOUBLE*)&value)->mantHi) ? SCALE_NAN: SCALE_INF;
        number->sign = ((FPDOUBLE*)&value)->sign;
        number->digits[0] = 0;
    }
    else {
        char* src = _ecvt(value, precision, &number->scale, &number->sign);
        wchar* dst = number->digits;
        if (*src != '0') {
            while (*src) *dst++ = *src++;
        }
        *dst = 0;
    }
}

यह पता चला है कि _ecvtस्ट्रिंग लौटाता है 845512408225570

अनुगामी शून्य को नोटिस करें? यह पता चला है कि सभी फर्क पड़ता है!
जब शून्य मौजूद होता है, तो परिणाम वास्तव में वापस आता है0.84551240822557006, जो कि आपकी मूल संख्या है - इसलिए यह बराबर की तुलना करता है, और इसलिए केवल 15 अंक वापस आ जाते हैं।

हालांकि, अगर मैं करने के लिए है कि शून्य पर स्ट्रिंग को काटना 84551240822557, तो मैं वापस पाने के 0.84551240822556994जो है, अपने मूल संख्या, और इसलिए यह 17 अंक हो जाएंगे।

प्रमाण: अपने डिबगर में निम्नलिखित 64-बिट कोड (जिनमें से अधिकांश मैंने Microsoft साझा स्रोत CLI 2.0 से निकाले हैं) चलाएं और vअंत में देखें main:

#include <stdlib.h>
#include <string.h>
#include <math.h>

#define min(a, b) (((a) < (b)) ? (a) : (b))

struct NUMBER {
    int precision;
    int scale;
    int sign;
    wchar_t digits[20 + 1];
    NUMBER() : precision(0), scale(0), sign(0) {}
};


#define I64(x) x##LL
static const unsigned long long rgval64Power10[] = {
    // powers of 10
    /*1*/ I64(0xa000000000000000),
    /*2*/ I64(0xc800000000000000),
    /*3*/ I64(0xfa00000000000000),
    /*4*/ I64(0x9c40000000000000),
    /*5*/ I64(0xc350000000000000),
    /*6*/ I64(0xf424000000000000),
    /*7*/ I64(0x9896800000000000),
    /*8*/ I64(0xbebc200000000000),
    /*9*/ I64(0xee6b280000000000),
    /*10*/ I64(0x9502f90000000000),
    /*11*/ I64(0xba43b74000000000),
    /*12*/ I64(0xe8d4a51000000000),
    /*13*/ I64(0x9184e72a00000000),
    /*14*/ I64(0xb5e620f480000000),
    /*15*/ I64(0xe35fa931a0000000),

    // powers of 0.1
    /*1*/ I64(0xcccccccccccccccd),
    /*2*/ I64(0xa3d70a3d70a3d70b),
    /*3*/ I64(0x83126e978d4fdf3c),
    /*4*/ I64(0xd1b71758e219652e),
    /*5*/ I64(0xa7c5ac471b478425),
    /*6*/ I64(0x8637bd05af6c69b7),
    /*7*/ I64(0xd6bf94d5e57a42be),
    /*8*/ I64(0xabcc77118461ceff),
    /*9*/ I64(0x89705f4136b4a599),
    /*10*/ I64(0xdbe6fecebdedd5c2),
    /*11*/ I64(0xafebff0bcb24ab02),
    /*12*/ I64(0x8cbccc096f5088cf),
    /*13*/ I64(0xe12e13424bb40e18),
    /*14*/ I64(0xb424dc35095cd813),
    /*15*/ I64(0x901d7cf73ab0acdc),
};

static const signed char rgexp64Power10[] = {
    // exponents for both powers of 10 and 0.1
    /*1*/ 4,
    /*2*/ 7,
    /*3*/ 10,
    /*4*/ 14,
    /*5*/ 17,
    /*6*/ 20,
    /*7*/ 24,
    /*8*/ 27,
    /*9*/ 30,
    /*10*/ 34,
    /*11*/ 37,
    /*12*/ 40,
    /*13*/ 44,
    /*14*/ 47,
    /*15*/ 50,
};

static const unsigned long long rgval64Power10By16[] = {
    // powers of 10^16
    /*1*/ I64(0x8e1bc9bf04000000),
    /*2*/ I64(0x9dc5ada82b70b59e),
    /*3*/ I64(0xaf298d050e4395d6),
    /*4*/ I64(0xc2781f49ffcfa6d4),
    /*5*/ I64(0xd7e77a8f87daf7fa),
    /*6*/ I64(0xefb3ab16c59b14a0),
    /*7*/ I64(0x850fadc09923329c),
    /*8*/ I64(0x93ba47c980e98cde),
    /*9*/ I64(0xa402b9c5a8d3a6e6),
    /*10*/ I64(0xb616a12b7fe617a8),
    /*11*/ I64(0xca28a291859bbf90),
    /*12*/ I64(0xe070f78d39275566),
    /*13*/ I64(0xf92e0c3537826140),
    /*14*/ I64(0x8a5296ffe33cc92c),
    /*15*/ I64(0x9991a6f3d6bf1762),
    /*16*/ I64(0xaa7eebfb9df9de8a),
    /*17*/ I64(0xbd49d14aa79dbc7e),
    /*18*/ I64(0xd226fc195c6a2f88),
    /*19*/ I64(0xe950df20247c83f8),
    /*20*/ I64(0x81842f29f2cce373),
    /*21*/ I64(0x8fcac257558ee4e2),

    // powers of 0.1^16
    /*1*/ I64(0xe69594bec44de160),
    /*2*/ I64(0xcfb11ead453994c3),
    /*3*/ I64(0xbb127c53b17ec165),
    /*4*/ I64(0xa87fea27a539e9b3),
    /*5*/ I64(0x97c560ba6b0919b5),
    /*6*/ I64(0x88b402f7fd7553ab),
    /*7*/ I64(0xf64335bcf065d3a0),
    /*8*/ I64(0xddd0467c64bce4c4),
    /*9*/ I64(0xc7caba6e7c5382ed),
    /*10*/ I64(0xb3f4e093db73a0b7),
    /*11*/ I64(0xa21727db38cb0053),
    /*12*/ I64(0x91ff83775423cc29),
    /*13*/ I64(0x8380dea93da4bc82),
    /*14*/ I64(0xece53cec4a314f00),
    /*15*/ I64(0xd5605fcdcf32e217),
    /*16*/ I64(0xc0314325637a1978),
    /*17*/ I64(0xad1c8eab5ee43ba2),
    /*18*/ I64(0x9becce62836ac5b0),
    /*19*/ I64(0x8c71dcd9ba0b495c),
    /*20*/ I64(0xfd00b89747823938),
    /*21*/ I64(0xe3e27a444d8d991a),
};

static const signed short rgexp64Power10By16[] = {
    // exponents for both powers of 10^16 and 0.1^16
    /*1*/ 54,
    /*2*/ 107,
    /*3*/ 160,
    /*4*/ 213,
    /*5*/ 266,
    /*6*/ 319,
    /*7*/ 373,
    /*8*/ 426,
    /*9*/ 479,
    /*10*/ 532,
    /*11*/ 585,
    /*12*/ 638,
    /*13*/ 691,
    /*14*/ 745,
    /*15*/ 798,
    /*16*/ 851,
    /*17*/ 904,
    /*18*/ 957,
    /*19*/ 1010,
    /*20*/ 1064,
    /*21*/ 1117,
};

static unsigned DigitsToInt(wchar_t* p, int count)
{
    wchar_t* end = p + count;
    unsigned res = *p - '0';
    for ( p = p + 1; p < end; p++) {
        res = 10 * res + *p - '0';
    }
    return res;
}
#define Mul32x32To64(a, b) ((unsigned long long)((unsigned long)(a)) * (unsigned long long)((unsigned long)(b)))

static unsigned long long Mul64Lossy(unsigned long long a, unsigned long long b, int* pexp)
{
    // it's ok to losse some precision here - Mul64 will be called
    // at most twice during the conversion, so the error won't propagate
    // to any of the 53 significant bits of the result
    unsigned long long val = Mul32x32To64(a >> 32, b >> 32) +
        (Mul32x32To64(a >> 32, b) >> 32) +
        (Mul32x32To64(a, b >> 32) >> 32);

    // normalize
    if ((val & I64(0x8000000000000000)) == 0) { val <<= 1; *pexp -= 1; }

    return val;
}

void NumberToDouble(NUMBER* number, double* value)
{
    unsigned long long val;
    int exp;
    wchar_t* src = number->digits;
    int remaining;
    int total;
    int count;
    int scale;
    int absscale;
    int index;

    total = (int)wcslen(src);
    remaining = total;

    // skip the leading zeros
    while (*src == '0') {
        remaining--;
        src++;
    }

    if (remaining == 0) {
        *value = 0;
        goto done;
    }

    count = min(remaining, 9);
    remaining -= count;
    val = DigitsToInt(src, count);

    if (remaining > 0) {
        count = min(remaining, 9);
        remaining -= count;

        // get the denormalized power of 10
        unsigned long mult = (unsigned long)(rgval64Power10[count-1] >> (64 - rgexp64Power10[count-1]));
        val = Mul32x32To64(val, mult) + DigitsToInt(src+9, count);
    }

    scale = number->scale - (total - remaining);
    absscale = abs(scale);
    if (absscale >= 22 * 16) {
        // overflow / underflow
        *(unsigned long long*)value = (scale > 0) ? I64(0x7FF0000000000000) : 0;
        goto done;
    }

    exp = 64;

    // normalize the mantisa
    if ((val & I64(0xFFFFFFFF00000000)) == 0) { val <<= 32; exp -= 32; }
    if ((val & I64(0xFFFF000000000000)) == 0) { val <<= 16; exp -= 16; }
    if ((val & I64(0xFF00000000000000)) == 0) { val <<= 8; exp -= 8; }
    if ((val & I64(0xF000000000000000)) == 0) { val <<= 4; exp -= 4; }
    if ((val & I64(0xC000000000000000)) == 0) { val <<= 2; exp -= 2; }
    if ((val & I64(0x8000000000000000)) == 0) { val <<= 1; exp -= 1; }

    index = absscale & 15;
    if (index) {
        int multexp = rgexp64Power10[index-1];
        // the exponents are shared between the inverted and regular table
        exp += (scale < 0) ? (-multexp + 1) : multexp;

        unsigned long long multval = rgval64Power10[index + ((scale < 0) ? 15 : 0) - 1];
        val = Mul64Lossy(val, multval, &exp);
    }

    index = absscale >> 4;
    if (index) {
        int multexp = rgexp64Power10By16[index-1];
        // the exponents are shared between the inverted and regular table
        exp += (scale < 0) ? (-multexp + 1) : multexp;

        unsigned long long multval = rgval64Power10By16[index + ((scale < 0) ? 21 : 0) - 1];
        val = Mul64Lossy(val, multval, &exp);
    }

    // round & scale down
    if ((unsigned long)val & (1 << 10))
    {
        // IEEE round to even
        unsigned long long tmp = val + ((1 << 10) - 1) + (((unsigned long)val >> 11) & 1);
        if (tmp < val) {
            // overflow
            tmp = (tmp >> 1) | I64(0x8000000000000000);
            exp += 1;
        }
        val = tmp;
    }
    val >>= 11;

    exp += 0x3FE;

    if (exp <= 0) {
        if (exp <= -52) {
            // underflow
            val = 0;
        }
        else {
            // denormalized
            val >>= (-exp+1);
        }
    }
    else
        if (exp >= 0x7FF) {
            // overflow
            val = I64(0x7FF0000000000000);
        }
        else {
            val = ((unsigned long long)exp << 52) + (val & I64(0x000FFFFFFFFFFFFF));
        }

        *(unsigned long long*)value = val;

done:
        if (number->sign) *(unsigned long long*)value |= I64(0x8000000000000000);
}

int main()
{
    NUMBER number;
    number.precision = 15;
    double v = 0.84551240822557006;
    char *src = _ecvt(v, number.precision, &number.scale, &number.sign);
    int truncate = 0;  // change to 1 if you want to truncate
    if (truncate)
    {
        while (*src && src[strlen(src) - 1] == '0')
        {
            src[strlen(src) - 1] = 0;
        }
    }
    wchar_t* dst = number.digits;
    if (*src != '0') {
        while (*src) *dst++ = *src++;
    }
    *dst++ = 0;
    NumberToDouble(&number, &v);
    return 0;
}

4
अच्छी व्याख्या +1। यह कोड साझा-स्रोत-क्ली-2.0 सही से है? यही एकमात्र ऐसा विचार है जो मैंने पाया।
सोनार ग्नूएल

10
मुझे कहना होगा कि बल्कि दयनीय है। स्ट्रिंग्स जो गणितीय रूप से समान हैं (जैसे कि एक अनुगामी शून्य के साथ, या मान लें कि 2.1e-1 बनाम 0.21) को हमेशा समान परिणाम देना चाहिए, और गणितीय रूप से ऑर्डर किए गए स्ट्रिंग्स को आदेश के अनुरूप परिणाम देना चाहिए।
gnasher729

4
@ मिस्टरिस्टर: "2.1E-1 को 0.21 जैसा क्यों नहीं होना चाहिए?"
user541686

9
@ gnasher729: मैं कुछ हद तक "2.1e-1" और "0.21" पर सहमत हूं ... लेकिन एक अनुगामी शून्य वाला एक तार बिना एक के बराबर नहीं है - पूर्व में, शून्य एक महत्वपूर्ण अंक है और जोड़ता है परिशुद्धता।
cHao

4
@cHao: एर ... यह सटीक जोड़ता है, लेकिन यह केवल तभी प्रभावित करता है जब आप अंतिम उत्तर को गोल करने का निर्णय लेते हैं यदि आपके लिए सिगफिग मायने रखता है, न कि कैसे कंप्यूटर को पहले स्थान पर अंतिम उत्तर की गणना करनी चाहिए। कंप्यूटर का काम संख्याओं के वास्तविक माप की परवाह किए बिना उच्चतम परिशुद्धता पर सब कुछ गणना करना है ; यदि वह अंतिम परिणाम प्राप्त करना चाहता है तो यह प्रोग्रामर की समस्या है।
user541686

107

यह मुझे लगता है कि यह केवल एक बग है। आपकी अपेक्षाएँ पूरी तरह से उचित हैं। मैंने .NET 4.5.1 (x64) का उपयोग करके इसे फिर से तैयार किया है, जो निम्न कंसोल ऐप चला रहा है जो मेरी DoubleConverterकक्षा का उपयोग करता है । DoubleConverter.ToExactStringपता चलता सटीक मूल्य एक का प्रतिनिधित्व करती double:

using System;

class Test
{
    static void Main()
    {
        double d1 = 0.84551240822557006;
        string s = d1.ToString("r");
        double d2 = double.Parse(s);
        Console.WriteLine(s);
        Console.WriteLine(DoubleConverter.ToExactString(d1));
        Console.WriteLine(DoubleConverter.ToExactString(d2));
        Console.WriteLine(d1 == d2);
    }
}

.NET में परिणाम:

0.84551240822557
0.845512408225570055719799711368978023529052734375
0.84551240822556994469749724885332398116588592529296875
False

मोनो 3.3.0 में परिणाम:

0.84551240822557006
0.845512408225570055719799711368978023529052734375
0.845512408225570055719799711368978023529052734375
True

यदि आप मैन्युअल रूप से मोनो से स्ट्रिंग निर्दिष्ट करते हैं (जिसमें अंत में "006" शामिल है), .NET उस मूल मूल्य पर वापस पार्स करेगा। ऐसा लगता है कि समस्या ToString("R")पार्सिंग के बजाय हैंडलिंग में है ।

जैसा कि अन्य टिप्पणियों में कहा गया है, ऐसा लगता है कि यह x64 सीएलआर के तहत चलने के लिए विशिष्ट है। यदि आप उपरोक्त कोड को x86 को लक्षित और संकलित करते हैं, तो यह ठीक है:

csc /platform:x86 Test.cs DoubleConverter.cs

... आपको मोनो के समान परिणाम मिलते हैं। यह जानना दिलचस्प होगा कि क्या बग रयुजिट के तहत दिखाता है - मेरे पास इस समय स्वयं स्थापित नहीं है। विशेष रूप से, मैं यह संभवतः एक JIT बग होने की कल्पना कर सकता हूं , या यह काफी संभव है कि double.ToStringवास्तुकला के आधार पर आंतरिक के पूरे अलग-अलग कार्यान्वयन हैं ।

मेरा सुझाव है कि आप http://connect.microsoft.com पर एक बग दर्ज करें


1
तो जॉन? पुष्टि करने के लिए, क्या यह JITer में एक बग है, inlining ToString()? जैसा कि मैंने हार्ड कोडित मूल्य को बदलने की कोशिश की rand.NextDouble()और कोई समस्या नहीं थी।
एरन

1
हाँ, यह ToString("R")रूपांतरण में निश्चित रूप से है । कोशिश करो ToString("G32")और नोटिस यह सही मूल्य प्रिंट करता है।
user541686

1
@ एरन: मैं यह नहीं बता सकता कि यह JITTER में बग है या BCL के एक x64- विशिष्ट कार्यान्वयन में। मुझे बहुत संदेह है कि यह हालांकि उतना ही सरल है जितना कि इनलाइनिंग। यादृच्छिक मूल्यों के साथ परीक्षण वास्तव में बहुत मदद नहीं करता है, IMO ... मुझे यकीन नहीं है कि आप क्या प्रदर्शित करने की उम्मीद करते हैं।
जॉन स्कीट

2
मुझे लगता है कि यह हो रहा है कि "राउंड ट्रिप" प्रारूप एक मूल्य का उत्पादन कर रहा है, जो 0.498ulp से बड़ा होना चाहिए, और तर्क को पार्स करना कभी-कभी गलत तरीके से इसे एक ulp के अंतिम छोटे अंश तक गोल कर देता है। मुझे यकीन नहीं है कि मैं किस कोड को अधिक दोष देता हूं, क्योंकि मुझे लगता है कि "गोल-यात्रा" प्रारूप को संख्यात्मक मान का उत्पादन करना चाहिए जो संख्यात्मक रूप से सही होने के एक चौथाई-यूएलपी के भीतर है; पार्सिंग लॉजिक जो कि निर्दिष्ट मूल्य के 0.75ulp के भीतर एक मान देता है, तर्क की तुलना में बहुत आसान है जो कि निर्दिष्ट किए गए 0.502ulp के भीतर परिणाम प्राप्त करना चाहिए।
सुपरकैट

1
जॉन स्कीट की वेबसाइट नीचे है? मुझे लगता है कि इतनी संभावना नहीं है कि मैं यहाँ सभी विश्वास खो रहा हूँ।
पैट्रिक एम

2

हाल ही में, मैं इस मुद्दे को हल करने की कोशिश कर रहा हूं । जैसा कि कोड के माध्यम से बताया गया है , डबल। स्ट्रिंग ("आर") में निम्नलिखित तर्क हैं:

  1. 15 की परिशुद्धता में डबल को स्ट्रिंग में बदलने की कोशिश करें।
  2. स्ट्रिंग को वापस डबल में बदलें और मूल डबल की तुलना करें। यदि वे समान हैं, तो हम परिवर्तित स्ट्रिंग लौटाते हैं जिसकी परिशुद्धता 15 है।
  3. अन्यथा, 17 की परिशुद्धता में डबल को स्ट्रिंग में परिवर्तित करें।

इस मामले में, double.ToString ("R") ने गलत तरीके से 15 की परिशुद्धता में परिणाम को चुना इसलिए बग होता है। MSDN दस्तावेज़ में एक आधिकारिक समाधान है:

कुछ मामलों में, "R" मानक संख्यात्मक प्रारूप स्ट्रिंग के साथ स्वरूपित डबल मान सफलतापूर्वक राउंड-ट्रिप नहीं करते हैं यदि / प्लेटफॉर्म: x64 या / प्लेटफॉर्म का उपयोग करके संकलित किया जाता है: anycpu स्विच और 64-बिट सिस्टम पर चलता है। इस समस्या को हल करने के लिए, आप "G17" मानक संख्यात्मक प्रारूप स्ट्रिंग का उपयोग करके डबल मानों को प्रारूपित कर सकते हैं। निम्न उदाहरण डबल मान के साथ "R" प्रारूप स्ट्रिंग का उपयोग करता है जो सफलतापूर्वक राउंड-ट्रिप नहीं करता है, और मूल मान को सफलतापूर्वक राउंड-ट्रिप करने के लिए "G17" प्रारूप स्ट्रिंग का भी उपयोग करता है।

इसलिए जब तक इस मुद्दे को हल नहीं किया जाता है, आपको राउंड-ट्रिपिंग के लिए डबल.ट्रोस्ट्रिंग ("जी 17") का उपयोग करना होगा।

अद्यतन : अब इस बग को ट्रैक करने के लिए एक विशिष्ट मुद्दा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.