हम से लेकर आकारों के साथ गणना सहप्रसरण मैट्रिक्स की जरूरत को । हमारे पास GPU और क्लस्टर तक पहुंच है, हमें आश्चर्य है कि इन संगणनाओं को तेज करने के लिए सबसे अच्छा समानांतर दृष्टिकोण क्या है।
हम से लेकर आकारों के साथ गणना सहप्रसरण मैट्रिक्स की जरूरत को । हमारे पास GPU और क्लस्टर तक पहुंच है, हमें आश्चर्य है कि इन संगणनाओं को तेज करने के लिए सबसे अच्छा समानांतर दृष्टिकोण क्या है।
जवाबों:
पहली बात यह है कि आप BLAS का उपयोग करके ऐसा कर सकते हैं। यदि आप डेटा मैट्रिक्स है (से प्रत्येक एक माप के अनुरूप एक कॉलम वेक्टर है; पंक्तियाँ ट्रायल हैं), फिर आप कोविर्सिअस को इस प्रकार लिख सकते हैं:
आपका डेटा और परिणाम मैट्रिसेस लगभग 64GB हो सकता है, इसलिए आप एक नोड या एक नोड के GPU के लायक नहीं होंगे। एक गैर-GPU क्लस्टर के लिए, आप PBLAS को देखना चाहते हैं , जो स्केलपैक की तरह महसूस करता है। जीपीयू के लिए, बहु-नोड लाइब्रेरी अभी तक वहां नहीं हैं। मैग्मा में अंतर्निहित समानांतर BLAS कार्यान्वयन के कुछ प्रकार हैं, लेकिन यह उपयोगकर्ता के अनुकूल नहीं हो सकता है। मुझे नहीं लगता कि CULA मल्टी-नोड अभी तक नहीं करता है, लेकिन इसकी नज़र रखने के लिए कुछ है। CUBLAS एकल-नोड है।
मेरा यह भी सुझाव है कि आप अपने आप को समानांतर रूप से लागू करने पर दृढ़ता से विचार करें, खासकर यदि आप MPI से परिचित हैं और इसे मौजूदा कोड-बेस में हुक करना है। इस तरह, आप आसानी से सीपीयू और जीपीएल बीएलएएस के बीच स्विच कर सकते हैं और शुरू कर सकते हैं और डेटा के साथ समाप्त कर सकते हैं। आपको कुछ MPI_ALLREDUCE कॉल से अधिक की आवश्यकता नहीं होनी चाहिए ।
मैंने CUBlas और Cuda Thrust के साथ @Max Hutchinson द्वारा दिए गए फार्मूले को लागू किया और ऑनलाइन सह विचरण गणना उपकरणों के साथ तुलना की। ऐसा लगता है कि मेरा अच्छा परिणाम है। नीचे दिया गया कोड QDA Bayes के लिए योजनाबद्ध है। इसलिए दिए गए मैट्रिक्स में एक से अधिक वर्ग हो सकते हैं। तो कई सह प्रसरण matrices की गणना की जाती है। मुझे उम्मीद है कि यह किसी के लिए उपयोगी होगा।
//! Calculates one or more than one coVarianceMatrix given data.
// There can be many classes since many covariance matrixes.
/*!
\param inMatrix This vector contains matrix data in major storage.
Forexample if inMatrix=[1 2 3 4 5 6] and trialSizes=[2] this means matrix we will work on a matrix like :
|1 4 |
|2 5 |
|3 6 | -> 2 Trials, 3 Features. Columns contains feature rows contains trials (samples)
\param trialSizes There can be many classes since many covariance matrixes. Samples from all classes will be given with inMatrix.
But we need to know how many trials(samples) we have for each class.
For example if inMatrix=[1 2 3 4 5 6 7 8 9 10 11 12] and trialSizes=[2,2]
this means matrix we will work on a matrix like :
|1 4 | |7 10 |
|2 5 | |8 11 |
|3 6 | |9 12 | --> Total number of trials(samples which is total rowCount) 2 + 2 = 4 ,
So colSize = inMatrix.size()/4 = 3(feature vector size)
--> There is two element in trialSize vec so each vector has to samples
*/
void multiQDACovianceCalculator(std::vector<float>& inMatrix, std::vector<int>& trialSizes)
{
cublasHandle_t handle; // CUBLAS context
int classCount = trialSizes.size();
int rowSize = std::accumulate(trialSizes.begin(), trialSizes.end(), 0);
int dimensionSize = inMatrix.size() / rowSize;
float alpha = 1.0f;
float beta = 0.0f; // bet =1
thrust::device_vector<float> d_cov1(dimensionSize * dimensionSize);
thrust::device_vector<float> d_cov2(dimensionSize * dimensionSize);
thrust::device_vector<float> d_covResult(dimensionSize * dimensionSize);
thrust::device_vector<float> d_wholeMatrix(inMatrix);
thrust::device_vector<float> d_meansVec(dimensionSize); // rowVec of means of trials
float *meanVecPtr = thrust::raw_pointer_cast(d_meansVec.data());
float *device2DMatrixPtr = thrust::raw_pointer_cast(d_wholeMatrix.data());
auto maxTrialNumber = *std::max_element(trialSizes.begin(), trialSizes.end());
thrust::device_vector<float> deviceVector(maxTrialNumber, 1.0f);
cublasCreate(&handle);
// Inside of for loop one covariance matrix calculated each time
for (int i = 0; i < trialSizes.size(); i++)
{
// X*transpose(X) / N
alpha = 1.0f / trialSizes[i];
cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_T, dimensionSize, dimensionSize, trialSizes[i], &alpha,
device2DMatrixPtr, dimensionSize, device2DMatrixPtr, dimensionSize, &beta,
thrust::raw_pointer_cast(d_cov1.data()), dimensionSize);
// Mean vector of each column
alpha = 1.0f;
cublasSgemv(handle, CUBLAS_OP_N, dimensionSize, trialSizes[i], &alpha, device2DMatrixPtr,
dimensionSize, thrust::raw_pointer_cast(deviceVector.data()), 1, &beta, meanVecPtr, 1);
// MeanVec * transpose(MeanVec) / N*N
alpha = 1.0f / (trialSizes[i] * trialSizes[i]);
cublasSgemm(handle, CUBLAS_OP_T, CUBLAS_OP_N, dimensionSize, dimensionSize, 1, &alpha,
meanVecPtr, 1, meanVecPtr, 1, &beta,
thrust::raw_pointer_cast(d_cov2.data()), dimensionSize);
alpha = 1.0f;
beta = -1.0f;
// (X*transpose(X) / N) - (MeanVec * transpose(MeanVec) / N*N)
cublasSgeam(handle, CUBLAS_OP_N, CUBLAS_OP_N, dimensionSize, dimensionSize, &alpha,
thrust::raw_pointer_cast(d_cov1.data()), dimensionSize, &beta, thrust::raw_pointer_cast(d_cov2.data()),
dimensionSize, thrust::raw_pointer_cast(d_covResult.data()), dimensionSize);
// Go to other class and calculate its covarianceMatrix
device2DMatrixPtr += trialSizes[i] * dimensionSize;
}
printVector(d_covResult);
cublasDestroy(handle);
}