जावा 8 बार तेजी से std की तुलना में सरणियों के साथ :: C ++ में वेक्टर। मैंने गलत क्या किया?

Question 1

मेरे पास कई बड़े सरणियों के साथ निम्नलिखित जावा कोड है जो कभी भी अपना आकार नहीं बदलते हैं। यह मेरे कंप्यूटर पर 1100 ms में चलता है।

मैंने C ++ में समान कोड लागू किया और उपयोग किया std::vector।

C ++ कार्यान्वयन का समय जो ठीक उसी कोड को चलाता है, मेरे कंप्यूटर पर 8800 ms है। मैंने क्या गलत किया, ताकि यह धीरे-धीरे चले?

मूल रूप से कोड निम्नलिखित करता है:

for (int i = 0; i < numberOfCells; ++i) {
        h[i] =  h[i] + 1;
        floodedCells[i] =  !floodedCells[i];
        floodedCellsTimeInterval[i] =  !floodedCellsTimeInterval[i];
        qInflow[i] =  qInflow[i] + 1;
}

यह लगभग 20000 के आकार के साथ विभिन्न सरणियों के माध्यम से पुनरावृत्त करता है।

आप निम्नलिखित लिंक के तहत दोनों कार्यान्वयन पा सकते हैं:

जावा: https://ideone.com/R8KqjT
C ++: https://ideone.com/Lu7RpE

(ऑनडोन पर मैं समय सीमा के कारण केवल 2000 बार के बजाय लूप को 400 बार चला सकता था। लेकिन यहां भी तीन बार का अंतर है)

Question 2

यहाँ C ++ संस्करण प्रति-नोड डेटा के साथ एक संरचना में इकट्ठा किया गया है, और उस संरचना का एक एकल वेक्टर उपयोग किया गया है:

#include <vector>
#include <cmath>
#include <iostream>



class FloodIsolation {
public:
  FloodIsolation() :
      numberOfCells(20000),
      data(numberOfCells)
  {
  }
  ~FloodIsolation(){
  }

  void isUpdateNeeded() {
    for (int i = 0; i < numberOfCells; ++i) {
       data[i].h = data[i].h + 1;
       data[i].floodedCells = !data[i].floodedCells;
       data[i].floodedCellsTimeInterval = !data[i].floodedCellsTimeInterval;
       data[i].qInflow = data[i].qInflow + 1;
       data[i].qStartTime = data[i].qStartTime + 1;
       data[i].qEndTime = data[i].qEndTime + 1;
       data[i].lowerFloorCells = data[i].lowerFloorCells + 1;
       data[i].cellLocationX = data[i].cellLocationX + 1;
       data[i].cellLocationY = data[i].cellLocationY + 1;
       data[i].cellLocationZ = data[i].cellLocationZ + 1;
       data[i].levelOfCell = data[i].levelOfCell + 1;
       data[i].valueOfCellIds = data[i].valueOfCellIds + 1;
       data[i].h0 = data[i].h0 + 1;
       data[i].vU = data[i].vU + 1;
       data[i].vV = data[i].vV + 1;
       data[i].vUh = data[i].vUh + 1;
       data[i].vVh = data[i].vVh + 1;
       data[i].vUh0 = data[i].vUh0 + 1;
       data[i].vVh0 = data[i].vVh0 + 1;
       data[i].ghh = data[i].ghh + 1;
       data[i].sfx = data[i].sfx + 1;
       data[i].sfy = data[i].sfy + 1;
       data[i].qIn = data[i].qIn + 1;


      for(int j = 0; j < nEdges; ++j) {
        data[i].flagInterface[j] = !data[i].flagInterface[j];
        data[i].typeInterface[j] = data[i].typeInterface[j] + 1;
        data[i].neighborIds[j] = data[i].neighborIds[j] + 1;
      }
    }

  }

private:

  const int numberOfCells;
  static const int nEdges = 6;
  struct data_t {
    bool floodedCells = 0;
    bool floodedCellsTimeInterval = 0;

    double valueOfCellIds = 0;
    double h = 0;

    double h0 = 0;
    double vU = 0;
    double vV = 0;
    double vUh = 0;
    double vVh = 0;
    double vUh0 = 0;
    double vVh0 = 0;
    double ghh = 0;
    double sfx = 0;
    double sfy = 0;
    double qInflow = 0;
    double qStartTime = 0;
    double qEndTime = 0;
    double qIn = 0;
    double nx = 0;
    double ny = 0;
    double floorLevels = 0;
    int lowerFloorCells = 0;
    bool floorCompleteleyFilled = 0;
    double cellLocationX = 0;
    double cellLocationY = 0;
    double cellLocationZ = 0;
    int levelOfCell = 0;
    bool flagInterface[nEdges] = {};
    int typeInterface[nEdges] = {};
    int neighborIds[nEdges] = {};
  };
  std::vector<data_t> data;

};

int main() {
  std::ios_base::sync_with_stdio(false);
  FloodIsolation isolation;
  clock_t start = clock();
  for (int i = 0; i < 400; ++i) {
    if(i % 100 == 0) {
      std::cout << i << "\n";
    }
    isolation.isUpdateNeeded();
  }
  clock_t stop = clock();
  std::cout << "Time: " << difftime(stop, start) / 1000 << "\n";
}

जीवंत उदाहरण

समय अब जावा संस्करण की गति 2x है। (846 बनाम 1631)।

बाधाओं को जेआईटी ने देखा है कि सभी जगहों पर डेटा तक पहुँचने का कैश जल रहा है, और आपके कोड को तार्किक रूप से समान लेकिन कुशल आदेश में बदल दिया है।

मैं भी stdio तुल्यकालन बंद कर दिया, के रूप में है कि केवल यदि आप मिश्रण की जरूरत है printf/ scanfसी ++ के साथ std::coutऔर std::cin। जैसा कि होता है, आप केवल कुछ मानों को ही प्रिंट करते हैं, लेकिन मुद्रण के लिए C ++ का डिफ़ॉल्ट व्यवहार अतिरेक और अक्षम है।

यदि nEdgesवास्तविक स्थिर मूल्य नहीं है, तो 3 "सरणी" मानों को छीनना होगा struct। यह एक बहुत बड़ा प्रदर्शन हिट नहीं होना चाहिए।

आप structआकार को कम करके, इस प्रकार मेमोरी फ़ुटप्रिंट को कम करके (और इससे कोई फर्क नहीं पड़ता जब तक पहुंच को छांट कर) एक और प्रदर्शन बढ़ाने में सक्षम हो सकता है । लेकिन मैं अनिश्चित हूं।

अंगूठे का एक नियम यह है कि एक एकल कैश मिस एक निर्देश से 100 गुना अधिक महंगा है। आपके डेटा को कैश सुसंगतता के लिए व्यवस्थित करने का बहुत मूल्य है।

यदि डेटा को पुन: व्यवस्थित करना संभव नहीं structहै, तो आप बदले में प्रत्येक कंटेनर के ऊपर अपनी पुनरावृत्ति को बदल सकते हैं।

एक तरफ के रूप में, ध्यान दें कि जावा और सी ++ संस्करणों में कुछ सूक्ष्म अंतर थे। जो मैंने देखा था वह यह था कि जावा संस्करण में "प्रत्येक किनारे के लिए" लूप में 3 चर हैं, जबकि C ++ एक में केवल 2 थे। मैंने अपना जावा से मिलान किया। मुझे नहीं पता कि क्या अन्य हैं।

Question 3

हां, सी ++ संस्करण में कैश एक हथौड़ा लेता है। ऐसा लगता है कि जेआईटी इसे संभालने के लिए बेहतर तरीके से सुसज्जित है।

यदि आप बाहरी परिवर्तन करते हैं for छोटे स्निपेट में isUpdateNeeded () में । अंतर दूर हो जाता है।

नीचे का नमूना 4x स्पीडअप का उत्पादन करता है।

void isUpdateNeeded() {
    for (int i = 0; i < numberOfCells; ++i) {
        h[i] =  h[i] + 1;
        floodedCells[i] =  !floodedCells[i];
        floodedCellsTimeInterval[i] =  !floodedCellsTimeInterval[i];
        qInflow[i] =  qInflow[i] + 1;
        qStartTime[i] =  qStartTime[i] + 1;
        qEndTime[i] =  qEndTime[i] + 1;
    }

    for (int i = 0; i < numberOfCells; ++i) {
        lowerFloorCells[i] =  lowerFloorCells[i] + 1;
        cellLocationX[i] =  cellLocationX[i] + 1;
        cellLocationY[i] =  cellLocationY[i] + 1;
        cellLocationZ[i] =  cellLocationZ[i] + 1;
        levelOfCell[i] =  levelOfCell[i] + 1;
        valueOfCellIds[i] =  valueOfCellIds[i] + 1;
        h0[i] =  h0[i] + 1;
        vU[i] =  vU[i] + 1;
        vV[i] =  vV[i] + 1;
        vUh[i] =  vUh[i] + 1;
        vVh[i] =  vVh[i] + 1;
    }
    for (int i = 0; i < numberOfCells; ++i) {
        vUh0[i] =  vUh0[i] + 1;
        vVh0[i] =  vVh0[i] + 1;
        ghh[i] =  ghh[i] + 1;
        sfx[i] =  sfx[i] + 1;
        sfy[i] =  sfy[i] + 1;
        qIn[i] =  qIn[i] + 1;
        for(int j = 0; j < nEdges; ++j) {
            neighborIds[i * nEdges + j] = neighborIds[i * nEdges + j] + 1;
        }
        for(int j = 0; j < nEdges; ++j) {
            typeInterface[i * nEdges + j] = typeInterface[i * nEdges + j] + 1;
        }
    }

}

यह एक उचित डिग्री को दर्शाता है कि कैश की कमी मंदी का कारण है। यह भी ध्यान रखना महत्वपूर्ण है कि चर निर्भर नहीं हैं इसलिए एक थ्रेडेड समाधान आसानी से बनाया जाता है।

आदेश बहाल हुआ

जैसा कि स्टीफ़न की टिप्पणी के अनुसार मैंने मूल आकारों का उपयोग करके उन्हें एक संरचना में समूहीकृत करने की कोशिश की। यह इसी तरह से तत्काल कैश दबाव को दूर करता है। परिणाम यह है कि c ++ (CCFLAG -O3) संस्करण जावा संस्करण की तुलना में लगभग 15% तेज है।

न तो कम और न ही अधिक।

#include <vector>
#include <cmath>
#include <iostream>
 
 
 
class FloodIsolation {
    struct item{
      char floodedCells;
      char floodedCellsTimeInterval;
      double valueOfCellIds;
      double h;
      double h0;
      double vU;
      double vV;
      double vUh;
      double vVh;
      double vUh0;
      double vVh0;
      double sfx;
      double sfy;
      double qInflow;
      double qStartTime;
      double qEndTime;
      double qIn;
      double nx;
      double ny;
      double ghh;
      double floorLevels;
      int lowerFloorCells;
      char flagInterface;
      char floorCompletelyFilled;
      double cellLocationX;
      double cellLocationY;
      double cellLocationZ;
      int levelOfCell;
    };
    struct inner_item{
      int typeInterface;
      int neighborIds;
    };

    std::vector<inner_item> inner_data;
    std::vector<item> data;

public:
    FloodIsolation() :
            numberOfCells(20000), inner_data(numberOfCells * nEdges), data(numberOfCells)
   {

    }
    ~FloodIsolation(){
    }
 
    void isUpdateNeeded() {
        for (int i = 0; i < numberOfCells; ++i) {
            data[i].h = data[i].h + 1;
            data[i].floodedCells = !data[i].floodedCells;
            data[i].floodedCellsTimeInterval = !data[i].floodedCellsTimeInterval;
            data[i].qInflow = data[i].qInflow + 1;
            data[i].qStartTime = data[i].qStartTime + 1;
            data[i].qEndTime = data[i].qEndTime + 1;
            data[i].lowerFloorCells = data[i].lowerFloorCells + 1;
            data[i].cellLocationX = data[i].cellLocationX + 1;
            data[i].cellLocationY = data[i].cellLocationY + 1;
            data[i].cellLocationZ = data[i].cellLocationZ + 1;
            data[i].levelOfCell = data[i].levelOfCell + 1;
            data[i].valueOfCellIds = data[i].valueOfCellIds + 1;
            data[i].h0 = data[i].h0 + 1;
            data[i].vU = data[i].vU + 1;
            data[i].vV = data[i].vV + 1;
            data[i].vUh = data[i].vUh + 1;
            data[i].vVh = data[i].vVh + 1;
            data[i].vUh0 = data[i].vUh0 + 1;
            data[i].vVh0 = data[i].vVh0 + 1;
            data[i].ghh = data[i].ghh + 1;
            data[i].sfx = data[i].sfx + 1;
            data[i].sfy = data[i].sfy + 1;
            data[i].qIn = data[i].qIn + 1;
            for(int j = 0; j < nEdges; ++j) {
                inner_data[i * nEdges + j].neighborIds = inner_data[i * nEdges + j].neighborIds + 1;
                inner_data[i * nEdges + j].typeInterface = inner_data[i * nEdges + j].typeInterface + 1;
            }
        }
 
    }
 
    static const int nEdges;
private:
 
    const int numberOfCells;

};
 
const int FloodIsolation::nEdges = 6;

int main() {
    FloodIsolation isolation;
    clock_t start = clock();
    for (int i = 0; i < 4400; ++i) {
        if(i % 100 == 0) {
            std::cout << i << "\n";
        }
        isolation.isUpdateNeeded();
    }

    clock_t stop = clock();
    std::cout << "Time: " << difftime(stop, start) / 1000 << "\n";
}

मेरा परिणाम मूल आकारों के लिए जेरी कॉफिन्स से थोड़ा अलग है। मेरे लिए मतभेद बने हुए हैं। यह अच्छी तरह से मेरा जावा संस्करण हो सकता है, 1.7.0_75।

Question 4

जैसा कि @Stefan ने @ CaptainGiraffe के उत्तर पर एक टिप्पणी में अनुमान लगाया है, आप वैक्टर की एक संरचना के बजाय एक वेक्टर के पैटर्न का उपयोग करके काफी लाभ प्राप्त करते हैं। सही कोड इस तरह दिखता है:

#include <vector>
#include <cmath>
#include <iostream>
#include <time.h>

class FloodIsolation {
public:
    FloodIsolation() :
            h(0),
            floodedCells(0),
            floodedCellsTimeInterval(0),
            qInflow(0),
            qStartTime(0),
            qEndTime(0),
            lowerFloorCells(0),
            cellLocationX(0),
            cellLocationY(0),
            cellLocationZ(0),
            levelOfCell(0),
            valueOfCellIds(0),
            h0(0),
            vU(0),
            vV(0),
            vUh(0),
            vVh(0),
            vUh0(0),
            vVh0(0),
            ghh(0),
            sfx(0),
            sfy(0),
            qIn(0),
            typeInterface(nEdges, 0),
            neighborIds(nEdges, 0)
    {
    }

    ~FloodIsolation(){
    }

    void Update() {
        h =  h + 1;
        floodedCells =  !floodedCells;
        floodedCellsTimeInterval =  !floodedCellsTimeInterval;
        qInflow =  qInflow + 1;
        qStartTime =  qStartTime + 1;
        qEndTime =  qEndTime + 1;
        lowerFloorCells =  lowerFloorCells + 1;
        cellLocationX =  cellLocationX + 1;
        cellLocationY =  cellLocationY + 1;
        cellLocationZ =  cellLocationZ + 1;
        levelOfCell =  levelOfCell + 1;
        valueOfCellIds =  valueOfCellIds + 1;
        h0 =  h0 + 1;
        vU =  vU + 1;
        vV =  vV + 1;
        vUh =  vUh + 1;
        vVh =  vVh + 1;
        vUh0 =  vUh0 + 1;
        vVh0 =  vVh0 + 1;
        ghh =  ghh + 1;
        sfx =  sfx + 1;
        sfy =  sfy + 1;
        qIn =  qIn + 1;
        for(int j = 0; j < nEdges; ++j) {
            ++typeInterface[j];
            ++neighborIds[j];
        }       
    }

private:

    static const int nEdges = 6;
    bool floodedCells;
    bool floodedCellsTimeInterval;

    std::vector<int> neighborIds;
    double valueOfCellIds;
    double h;
    double h0;
    double vU;
    double vV;
    double vUh;
    double vVh;
    double vUh0;
    double vVh0;
    double ghh;
    double sfx;
    double sfy;
    double qInflow;
    double qStartTime;
    double qEndTime;
    double qIn;
    double nx;
    double ny;
    double floorLevels;
    int lowerFloorCells;
    bool flagInterface;
    std::vector<int> typeInterface;
    bool floorCompleteleyFilled;
    double cellLocationX;
    double cellLocationY;
    double cellLocationZ;
    int levelOfCell;
};

int main() {
    std::vector<FloodIsolation> isolation(20000);
    clock_t start = clock();
    for (int i = 0; i < 400; ++i) {
        if(i % 100 == 0) {
            std::cout << i << "\n";
        }

        for (auto &f : isolation)
            f.Update();
    }
    clock_t stop = clock();
    std::cout << "Time: " << difftime(stop, start) / 1000 << "\n";
}

VC ++ 2015 CTP से संकलक के साथ संकलित, का उपयोग करके -EHsc -O2b2 -GL -Qpar, मुझे इस तरह के परिणाम मिलते हैं:

0
100
200
300
Time: 0.135

जी ++ के साथ संकलन एक परिणाम है जो थोड़ा धीमा है:

0
100
200
300
Time: 0.156

उसी हार्डवेयर पर, जावा 8u45 से कंपाइलर / जेवीएम का उपयोग करने पर मुझे परिणाम मिलते हैं:

0
100
200
300
Time: 181

यह VC ++ से संस्करण की तुलना में लगभग 35% धीमा है, और जी ++ से संस्करण की तुलना में लगभग 16% धीमा है।

यदि हम पुनरावृत्तियों की संख्या को वांछित 2000 तक बढ़ा देते हैं, तो अंतर केवल 3% तक गिर जाता है, यह सुझाव देता है कि इस मामले में C ++ के लाभ का एक हिस्सा केवल तेजी से लोड हो रहा है (जावा के साथ एक बारहमासी समस्या), वास्तव में निष्पादन में ही नहीं। यह मुझे इस मामले में आश्चर्यचकित नहीं करता है - गणना (पोस्ट किए गए कोड में) की गणना इतनी तुच्छ है कि मुझे संदेह है कि अधिकांश कंपाइलर इसे अनुकूलित करने के लिए पूरी तरह से कर सकते हैं।

Question 5

मुझे संदेह है कि यह मेमोरी के आवंटन के बारे में है।

मैं सोच रहा हूं कि Javaप्रोग्राम स्टार्टअप पर एक बड़ा सन्निहित ब्लॉक पकड़ लेता हैC++ बिट्स और टुकड़ों के लिए ओएस पूछता है क्योंकि यह साथ जाता है।

परीक्षण में उस सिद्धांत को डालने के लिए मैंने C++संस्करण में एक संशोधन किया और यह अचानक Javaसंस्करण की तुलना में थोड़ा तेज चलने लगा :

int main() {
    {
        // grab a large chunk of contiguous memory and liberate it
        std::vector<double> alloc(20000 * 20);
    }
    FloodIsolation isolation;
    clock_t start = clock();
    for (int i = 0; i < 400; ++i) {
        if(i % 100 == 0) {
            std::cout << i << "\n";
        }
        isolation.isUpdateNeeded();
    }
    clock_t stop = clock();
    std::cout << "Time: " << (1000 * difftime(stop, start) / CLOCKS_PER_SEC) << "\n";
}

उपदेश वेक्टर के बिना रनटाइम :

0
100
200
300
Time: 1250.31

उपदेश वेक्टर के साथ रनटाइम :

0
100
200
300
Time: 331.214

Javaसंस्करण के लिए रनटाइम :

0
100
200
300
Time: 407