कार्यात्मक प्रोग्रामिंग (विशेष रूप से स्काला और स्काला एपीआई) में कमी और तह / मोड़ के बीच अंतर?

Question 1

स्पार्क और स्केलिंग जैसे स्काला और रूपरेखा दोनों क्यों हैं reduceऔर foldLeft? तो फिर क्या अंतर है reduceऔर fold?

Question 2

बनाम तह कम करें

इस विषय से संबंधित किसी भी अन्य स्टैकओवरफ्लो उत्तर में स्पष्ट रूप से उल्लेख नहीं किया गया एक बड़ा अंतर यह है कि reduceएक कम्यूटेटिव मोनॉइड दिया जाना चाहिए , यानी एक ऑपरेशन जो कम्यूटेटिव और एसोसिएटिव दोनों है। इसका मतलब है कि ऑपरेशन को समानांतर किया जा सकता है।

यह अंतर बिग डेटा / एमपीपी / वितरित कंप्यूटिंग के लिए बहुत महत्वपूर्ण है, और पूरे कारण reduceभी मौजूद है। संग्रह को कटा हुआ किया जा सकता है और reduceप्रत्येक कबाड़ पर काम कर सकता है, फिर प्रत्येक भाग reduceके परिणामों पर काम कर सकता है - वास्तव में मंथन के स्तर को एक स्तर गहरा रोकने की आवश्यकता नहीं है। हम प्रत्येक चंक को भी काट सकते थे। यही कारण है कि एक सूची में पूर्णांकों को समाहित करने पर O (log N) होता है, यदि उसे अनंत संख्या में CPU दिया जाता है।

तुम सिर्फ हस्ताक्षर को देखें, तो के लिए कोई कारण नहीं है reduceअस्तित्व के लिए है क्योंकि आप के साथ सब कुछ आप कर सकते हैं प्राप्त कर सकते हैं reduceएक साथ foldLeft। की कार्यक्षमता foldLeftसे अधिक की कार्यक्षमता है reduce।

लेकिन आप एक को समानांतर नहीं कर सकते हैं foldLeft, इसलिए इसका रनटाइम हमेशा O (N) होता है (भले ही आप कम्यूटेटिव मोनॉइड में फीड करें)। ऐसा इसलिए है क्योंकि यह माना जाता है कि ऑपरेशन एक कम्यूटेटिव मोनॉइड नहीं है और इसलिए संचयी मूल्य की गणना अनुक्रमिक एकत्रीकरण की एक श्रृंखला द्वारा की जाएगी।

foldLeftकम्यूटेटिविटी को नहीं मानता और न ही एसोसिएटिविटी को। यह सहानुभूति है जो संग्रह को काट देने की क्षमता देता है, और यह कम्यूटेटिविटी है जो संचयी को आसान बनाता है क्योंकि ऑर्डर महत्वपूर्ण नहीं है (इसलिए यह महत्वपूर्ण नहीं है कि प्रत्येक विखंडू से प्रत्येक परिणाम को एकत्रित करने का कौन सा क्रम है)। समानांतर रूप से वितरण के लिए कड़ाई से बोलना कम्यूटेटिविटी आवश्यक नहीं है, उदाहरण के लिए छँटाई गई एल्गोरिदम वितरित, यह सिर्फ तर्क को आसान बनाता है क्योंकि आपको अपने विखंडू को ऑर्डर देने की आवश्यकता नहीं है।

यदि आप reduceविशेष रूप से इसके लिए स्पार्क प्रलेखन पर एक नज़र है "... कम्यूटेटिव और साहचर्य बाइनरी ऑपरेटर"

http://spark.apache.org/docs/1.0.0/api/scala/index.html#org.apache.spark.rdd.RDD

यहाँ सबूत है कि reduceसिर्फ एक विशेष मामला नहीं हैfoldLeft

scala> val intParList: ParSeq[Int] = (1 to 100000).map(_ => scala.util.Random.nextInt()).par

scala> timeMany(1000, intParList.reduce(_ + _))
Took 462.395867 milli seconds

scala> timeMany(1000, intParList.foldLeft(0)(_ + _))
Took 2589.363031 milli seconds

बनाम गुना कम करें

अब यह वह जगह है जहां यह एफपी / गणितीय जड़ों के करीब है, और समझाने के लिए थोड़ा पेचीदा है। कम करें को औपचारिक रूप से MapReduce प्रतिमान के भाग के रूप में परिभाषित किया गया है, जो ऑर्डरलेस संग्रह (मल्टीसेट) के साथ संबंधित है, फोल्ड को औपचारिक रूप से पुनरावर्तन के संदर्भ में परिभाषित किया गया है (कैटमोर्फिज़्म देखें) और इस प्रकार संग्रह के लिए एक संरचना या अनुक्रम को मानता है।

foldस्केलिंग में कोई विधि नहीं है क्योंकि (सख्त) मानचित्र प्रोग्रामिंग मॉडल के तहत हम परिभाषित नहीं कर सकते हैं foldक्योंकि विखंडू में ऑर्डर नहीं होता है और foldकेवल समरूपता की आवश्यकता होती है, कम्यूटेटिविटी की नहीं।

सीधे शब्दों में कहें, reduceसंचयन के एक आदेश के बिना काम करता है , संचयी के एक आदेश की foldआवश्यकता है और यह संचयन का क्रम है जो शून्य मान की आवश्यकता है शून्य मान का अस्तित्व नहीं है जो उन्हें अलग करता है। कड़ाई से बोलना एक खाली संग्रह पर काम reduce करना चाहिए , क्योंकि इसका शून्य मान एक मनमाना मूल्य लेने xऔर फिर हल करने के द्वारा घटाया जा सकता है x op y = x, लेकिन यह एक गैर-कम्यूटेटिव ऑपरेशन के साथ काम नहीं करता है क्योंकि एक बाएँ और दाएँ शून्य मान मौजूद हो सकते हैं जो अलग-अलग हैं (यानी x op y != y op x)। बेशक स्काला इस बात को समझने की जहमत नहीं उठाती कि यह शून्य मान क्या है क्योंकि इसके लिए कुछ गणित करने की आवश्यकता होगी (जो कि शायद अविश्वसनीय हैं), इसलिए सिर्फ एक अपवाद फेंकता है।

ऐसा लगता है (जैसा कि अक्सर व्युत्पत्ति में मामला होता है) कि यह मूल गणितीय अर्थ खो गया है, क्योंकि प्रोग्रामिंग में एकमात्र स्पष्ट अंतर हस्ताक्षर है। नतीजा यह है कि MapReduce से मूल अर्थ को संरक्षित करने के बजाय reduceइसका एक पर्याय बन गया है fold। अब इन शर्तों को अक्सर विनिमेय रूप से उपयोग किया जाता है और अधिकांश कार्यान्वयनों (खाली संग्रहों की अनदेखी) में समान व्यवहार करते हैं। स्पार्क की तरह अजीबोगरीब चीज़ों से अजीबता खत्म हो जाती है, जिसे हम अब संबोधित करेंगे।

तो स्पार्क में एक होता है fold, लेकिन वह क्रम जिसमें उप परिणाम (प्रत्येक विभाजन के लिए एक) संयुक्त होते हैं (लेखन के समय) वही क्रम होता है जिसमें कार्य पूर्ण होते हैं - और इस प्रकार गैर-निर्धारक। उस foldउपयोग को इंगित करने के लिए @CafeFeed को धन्यवाद runJob, जो कोड के माध्यम से पढ़ने के बाद मुझे एहसास हुआ कि यह गैर-नियतात्मक है। स्पार्क द्वारा आगे भ्रम पैदा किया जाता है, treeReduceलेकिन नहीं treeFold।

निष्कर्ष

गैर-खाली अनुक्रमों पर लागू होने पर भी reduceऔर उनमें अंतर foldहोता है। पूर्व को मनमाने ढंग से ऑर्डर ( http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf ) के साथ संग्रह पर MapReduce प्रोग्रामिंग प्रतिमान के हिस्से के रूप में परिभाषित किया गया है और ऑपरेटरों के मानने के लिए एक होना चाहिए नियतात्मक परिणाम देने के लिए सहयोगी। उत्तरार्द्ध को कैटोमोर्फिम्स के संदर्भ में परिभाषित किया गया है और इसके लिए आवश्यक है कि संग्रह में अनुक्रम की धारणा हो (या पुनरावर्ती रूप से परिभाषित की गई हो, जैसे कि लिंक की गई सूचियाँ), इस प्रकार कम्यूटेटिव ऑपरेटरों की आवश्यकता नहीं होती है।

प्रोग्रामिंग की अदम्य प्रकृति के कारण व्यवहार में है , reduceऔर foldउसी तरह से व्यवहार करते हैं, या तो सही ढंग से (जैसे स्काला में) या गलत तरीके से (स्पार्क की तरह)।

अतिरिक्त: स्पार्क एपीआई पर मेरी राय

मेरी राय है कि अगर foldस्पार्क में इस शब्द का इस्तेमाल पूरी तरह से छोड़ दिया गया तो भ्रम से बचा जा सकेगा । कम से कम स्पार्क उनके प्रलेखन में एक नोट है:

यह स्कैला जैसी कार्यात्मक भाषाओं में गैर-वितरित संग्रहों के लिए कार्यान्वित गुना संचालन से कुछ अलग व्यवहार करता है।

Question 3

अगर मैं गलत नहीं हूं, भले ही स्पार्क एपीआई को इसकी आवश्यकता नहीं है, फिर भी एफ को कम्यूटेटिव होने के लिए फोल्ड की आवश्यकता होती है। क्योंकि जिस क्रम में विभाजन एकत्र किए जाएंगे, वह सुनिश्चित नहीं है। निम्न कोड में उदाहरण के लिए केवल पहला प्रिंट आउट छाँटा गया है:

import org.apache.spark.{SparkConf, SparkContext}

object FoldExample extends App{

  val conf = new SparkConf()
    .setMaster("local[*]")
    .setAppName("Simple Application")
  implicit val sc = new SparkContext(conf)

  val range = ('a' to 'z').map(_.toString)
  val rdd = sc.parallelize(range)

  println(range.reduce(_ + _))
  println(rdd.reduce(_ + _))
  println(rdd.fold("")(_ + _))
}

प्रिंट आउट:

abcdefghijklmnopqrstuvwxyz

abcghituvjklmwxyzqrsdefnop

defghinopjklmqrstuvabcwxyz

Question 4

foldअपाचे स्पार्क में समान नहीं है, foldबल्कि वितरित संग्रह पर। वास्तव में यह नियतात्मक परिणाम उत्पन्न करने के लिए सराहनीय कार्य की आवश्यकता है :

यह स्कैला जैसी कार्यात्मक भाषाओं में गैर-वितरित संग्रहों के लिए कार्यान्वित गुना संचालन से कुछ अलग व्यवहार करता है। यह गुना ऑपरेशन व्यक्तिगत रूप से विभाजन पर लागू किया जा सकता है, और फिर उन परिणामों को अंतिम परिणाम में मोड़ सकता है, बजाय कुछ परिभाषित क्रम में क्रमिक रूप से प्रत्येक तत्व को गुना लागू करने के लिए। ऐसे फ़ंक्शंस के लिए, जो कम्यूटेटिव नहीं हैं, परिणाम गैर-वितरित संग्रह पर लागू गुना से भिन्न हो सकते हैं।

यह दिखाया गया है द्वारा मीशाएल Rosenthal और ने सुझाव दिया Make42 में उसकी टिप्पणी ।

यह सुझाव दिया गया है कि देखा गया व्यवहार HashPartitionerतब से संबंधित है जब वास्तव parallelizeमें कोई फेरबदल नहीं करता है और उपयोग नहीं करता है HashPartitioner।

import org.apache.spark.sql.SparkSession

/* Note: standalone (non-local) mode */
val master = "spark://...:7077"  

val spark = SparkSession.builder.master(master).getOrCreate()

/* Note: deterministic order */
val rdd = sc.parallelize(Seq("a", "b", "c", "d"), 4).sortBy(identity[String])
require(rdd.collect.sliding(2).forall { case Array(x, y) => x < y })

/* Note: all posible permutations */
require(Seq.fill(1000)(rdd.fold("")(_ + _)).toSet.size == 24)

व्याख्या की:

आरडीडी केfold लिए संरचना

def fold(zeroValue: T)(op: (T, T) => T): T = withScope {
  var jobResult: T
  val cleanOp: (T, T) => T
  val foldPartition = Iterator[T] => T
  val mergeResult: (Int, T) => Unit
  sc.runJob(this, foldPartition, mergeResult)
  jobResult
}

RDD की संरचना केreduce समान है :

def reduce(f: (T, T) => T): T = withScope {
  val cleanF: (T, T) => T
  val reducePartition: Iterator[T] => Option[T]
  var jobResult: Option[T]
  val mergeResult =  (Int, Option[T]) => Unit
  sc.runJob(this, reducePartition, mergeResult)
  jobResult.getOrElse(throw new UnsupportedOperationException("empty collection"))
}

जहां runJobविभाजन के आदेश की अवहेलना की जाती है और कम्यूटेटिव फ़ंक्शन की आवश्यकता होती है।

foldPartitionऔर reducePartitionप्रसंस्करण के आदेश के संदर्भ और प्रभावी ढंग से (विरासत और प्रतिनिधिमंडल द्वारा) द्वारा कार्यान्वित में बराबर हैं reduceLeftऔर foldLeftपर TraversableOnce।

निष्कर्ष: foldRDD पर विखंडू के आदेश पर निर्भर नहीं किया जा सकता है और कम्यूटिटी और एसोसिएटिविटी की आवश्यकता है ।

Question 5

स्कैडिंग के लिए एक अन्य अंतर हैडोप में कॉम्बीनेर्स का उपयोग है।

कल्पना करें कि आपका ऑपरेशन कम्यूटेटिव मोनॉइड है, इसे कम करने के साथ मैप डेटा पर भी फेरबदल करने के बजाय सभी डेटा को रिड्यूस करने के लिए लागू किया जाएगा। फोल्डेफ्ट के साथ ऐसा नहीं है।

pipe.groupBy('product) {
   _.reduce('price -> 'total){ (sum: Double, price: Double) => sum + price }
   // reduce is .mapReduceMap in disguise
}

pipe.groupBy('product) {
   _.foldLeft('price -> 'total)(0.0){ (sum: Double, price: Double) => sum + price }
}

स्कैलिंग में अपने संचालन को मोनॉयड के रूप में परिभाषित करने के लिए हमेशा अच्छा अभ्यास है।