• банер_вести

Услуга

Механизам за чишћење података Spark Streaming-а
(I) DStream и RDD
Као што знамо, израчунавање Spark Streaming-а је засновано на Spark Core-у, а језгро Spark Core-а је RDD, тако да Spark Streaming такође мора бити повезан са RDD-ом. Међутим, Spark Streaming не дозвољава корисницима да директно користе RDD, већ апстрахује скуп DStream концепата, DStream и RDD су инклузивни односи, можете то схватити као образац декорације у Јави, односно, DStream је побољшање RDD-а, али понашање је слично RDD-у.
DStream и RDD имају неколико услова.
(1) имају сличне акције трансформације, као што су map, reduceByKey итд., али и неке јединствене, као што су Window, mapWithStated итд.
(2) све имају акције, као што су foreachRDD, count итд.
Програмски модел је конзистентан.
(Б) Увођење DStream-а у Spark Streaming
DStream садржи неколико класа.
(1) Класе извора података, као што је InputDStream, специфичне као DirectKafkaInputStream, итд.
(2) Класе конверзије, обично MappedDStream, ShuffledDStream
(3) излазне класе, обично као што су ForEachDStream
Из наведеног, податке од почетка (улаза) до краја (излаза) обрађује DStream систем, што значи да корисник обично не може директно генерисати и манипулисати RDD-овима, што значи да DStream има могућност и обавезу да буде одговоран за животни циклус RDD-ова.
Другим речима, Спарк Стриминг имааутоматско чишћењефункција.
(iii) Процес генерисања RDD-а у Spark Streaming-у
Животни ток RDD-ова у Spark Streaming-у је груб на следећи начин.
(1) У InputDStream-у, примљени подаци се трансформишу у RDD, као што је DirectKafkaInputStream, који генерише KafkaRDD.
(2) затим путем MappedDStream и других конверзија података, ово време се директно назива RDD што одговара методи мапирања за конверзију
(3) У операцији излазне класе, само када је RDD изложен, можете дозволити кориснику да изврши одговарајуће складиштење, друге прорачуне и друге операције.