स्पार्क स्ट्रीमिंग डेटा सफाई तंत्र
(आई) डीस्ट्रीम और आरडीडी
जैसा कि हम जानते हैं, स्पार्क स्ट्रीमिंग गणना स्पार्क कोर पर आधारित है, और स्पार्क कोर का मूल आरडीडी है, इसलिए स्पार्क स्ट्रीमिंग को आरडीडी से भी संबंधित होना चाहिए।हालाँकि, स्पार्क स्ट्रीमिंग उपयोगकर्ताओं को सीधे RDD का उपयोग नहीं करने देती है, लेकिन DStream अवधारणाओं के एक सेट को अमूर्त कर देती है, DStream और RDD समावेशी संबंध हैं, आप इसे जावा में सजावट पैटर्न के रूप में समझ सकते हैं, अर्थात, DStream RDD का एक संवर्द्धन है, लेकिन व्यवहार RDD के समान है।
डीस्ट्रीम और आरडीडी दोनों में कई शर्तें हैं।
(1) समान परिवर्तन क्रियाएँ हैं, जैसे कि मानचित्र, कमबायकी, आदि, लेकिन कुछ अद्वितीय भी हैं, जैसे कि विंडो, मैपविथस्टेड, आदि।
(2) सभी में एक्शन क्रियाएं हैं, जैसे कि foreachRDD, गिनती, आदि।
प्रोग्रामिंग मॉडल सुसंगत है.
(बी) स्पार्क स्ट्रीमिंग में डीस्ट्रीम का परिचय
डीस्ट्रीम में कई कक्षाएं शामिल हैं।
(1) डेटा स्रोत वर्ग, जैसे इनपुटडीस्ट्रीम, डायरेक्टकाफ्काइनपुटस्ट्रीम आदि जैसे विशिष्ट।
(2) रूपांतरण कक्षाएं, आमतौर पर मैप्डडीस्ट्रीम, शफ़ल्डडीस्ट्रीम
(3) आउटपुट क्लास, आमतौर पर जैसे ForEachDStream
उपरोक्त से, आरंभ (इनपुट) से अंत (आउटपुट) तक का डेटा DStream सिस्टम द्वारा किया जाता है, जिसका अर्थ है कि उपयोगकर्ता सामान्य रूप से सीधे RDD उत्पन्न और हेरफेर नहीं कर सकता है, जिसका अर्थ है कि DStream के पास अवसर और दायित्व है RDDs के जीवन चक्र के लिए जिम्मेदार।
दूसरे शब्दों में, स्पार्क स्ट्रीमिंग में एक हैस्वचालित सफ़ाईसमारोह।
(iii) स्पार्क स्ट्रीमिंग में आरडीडी जेनरेशन की प्रक्रिया
स्पार्क स्ट्रीमिंग में आरडीडी का जीवन प्रवाह इस प्रकार कठिन है।
(1) InputDStream में, प्राप्त डेटा को RDD में बदल दिया जाता है, जैसे DirectKafkaInputStream, जो KafkaRDD उत्पन्न करता है।
(2) फिर मैप्डडीस्ट्रीम और अन्य डेटा रूपांतरण के माध्यम से, इस समय को रूपांतरण के लिए मानचित्र विधि के अनुरूप सीधे आरडीडी कहा जाता है
(3) आउटपुट क्लास ऑपरेशन में, केवल जब आरडीडी उजागर होता है, तो आप उपयोगकर्ता को संबंधित स्टोरेज, अन्य गणना और अन्य ऑपरेशन करने दे सकते हैं।