博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark记录
阅读量:5309 次
发布时间:2019-06-14

本文共 699 字,大约阅读时间需要 2 分钟。

版本 spark2.0

疑问:

1.按照理解,sparksession.sql()是不会立即执行的,只有后面的collect等方法执行的时候才会触发,那为什么执行insert...select的时候不需要再执行acrion方法就可以生效 

2.如何在遍历spark Streaming的过程中使用sparkSession

 

结论:

1.在SparkSession类里存在变量SparkContext,而一个spark任务只能有一个SparkContext且只能存在driver里,更改参数可以设置允许存在多个SparkContext但只能有一个是激活状态。因此,不能在foreachPartition这种需要在Executor里运行的方法里使用SparkSession操作数据库,sparSession本身可以序列化传过去,但在executor里sparSession的SparkContext为null,会报空指针异常。

2.spark每次获取kafka的数量可以通过配置参数“spark.streaming.kafka.maxRatePerPartition”设置(kafka的每个分区每秒获取数据的最大数量),间隔时间可以通过JavaStreamingContext初始化的时候设置,spark每次获取kafka的数量最大数量是 spark获取kafka间隔时间 x 参数“spark.streaming.kafka.maxRatePerPartition” x kafka分区数量

转载于:https://www.cnblogs.com/zhuzhixijiang/p/8514648.html

你可能感兴趣的文章
java基础入门-建立能够多client链接的ServerSocket
查看>>
刨根问底Objective-C Runtime(4)- 成员变量与属性
查看>>
hdu4734 数位dp + 小技巧
查看>>
mouseover和mouseenter的区别
查看>>
索引字段的宽度降下来?
查看>>
js 唤起APP
查看>>
专车降价滴滴快车使命终结?
查看>>
Java for LeetCode 098 Validate Binary Search Tree
查看>>
Java for LeetCode 108 Convert Sorted Array to Binary Search Tree
查看>>
改变UITextField placeHolder 字体 颜色
查看>>
关于asp下gridview的一些问题
查看>>
《微信朋友圈,这么玩才赚钱》读书笔记-刘焱飞
查看>>
Factorial(hdu 1124)
查看>>
eclipse控制台中文乱码解决方法
查看>>
ASP.NET加载应用程序域
查看>>
StackExchange.Redis 管道 批量 高性能插入数据
查看>>
201506081340_《JavaScript秘密花园》
查看>>
web前端面试题合集 (HTML相关)
查看>>
泛型去重复项
查看>>
NpoI
查看>>