Chai's Blog

Dig deeper

Spark 应用分片介绍

引言 分布式计算的基本思路是将数据分为多个部分,将同样的数据操作方式在数据的不同部分上执行,分别获得结果,然后通过“汇聚处理”的方式得到结果。如何将数据分为多个部分(也就是“分片”)便是其中的一个重要组成部分。Spark框架同样对使用分片的操作,将数据分片(partition)处理。本文对Spark框架中的数据分片作简单介绍。 输入数据的分片 对于读取批数据生成rdd的操作,数据的分片都是...

KafkaLeader选举时机和选举策略

Kakfa的集中leader选举过程 Kafka是分布式的消息分发系统,通过引入topic的概念来区分消息类型,引入partition的概念来增加消息的吞吐量,引入replica的概念来提高消息的可靠性。在多replica的场景下,消息的读写都是通过leader来完成,其他replica则是通过从leader读取数据来完成消息的同步以保证leader异常时消息的完善性。 然而在多个r...

Spark-on--hdp-Yarn-Cluster-踩坑(timeline-service)

部署方案 spark官网下载基于hdp的Hadoop版本的pre-built的spark安装包 在机器上解压,并在spark-env中配置HADOOP_CONF_DIR,SPARK_CONF_DIR,spark-defaults中添加相关配置 1 为方便使用,设置HADOOP_CONF_DIR指向目录为/usr/hdp/current/hadoop-clie...

Spark-on--hdp-Yarn-Cluster-踩坑(hdp-version)

### 开源Spark运行在hdp的yarn集群失败分析: ### 部署方案 spark官网下载基于hdp的Hadoop版本的pre-built的spark安装包 在机器上解压,并在spark-env中配置HADOOP_CONF_DIR,SPARK_CONF_DIR,spark-defaults中添加相关配置 测试情况: 1 2 a ) : local模式运行spark...

mvn编译异常“was-cached-in-the-local-repository,-resolution-will-not-be-rea

问题 最近编译livy-release工程,各种异常,加入hdp的relase库之后,出现了找不到jetty-ssslengine,jetty-util,jetty的1.26.1.hwxjar包和pom文件异常。从其他机器的mvn仓库copy一份放入本地仓库后,编译出现上述异常。 尝试解决方案: 根据网上搜索的解决方案有如下: 1 2 3 4 删除lastupdate”为后缀的临时文件 ...

Kafka沟通机制

Kafka不同进程“沟通机制” Kafka服务的定位是一种高吞吐量的分布式消息订阅系统。服务再运行过程中,不同的进程(broker和controller之间,客户端和集群)之间需要进行“沟通”来保证功能的可用性。 Kafka主要通过两种方式进行“沟通”,以保证自身状态或需求被感知: 通过nio方式完成“沟通” controller通过ControllerChannelManager发送...

找出进程消失的“案发现场

问题来源: Kafka服务出现访问异常 问题分析: 查看Broker日志,JVM进程在没有任何异常的情况下,直接被调用shutdownhook,退出应用。 从Kafka服务来看,无法确诊问题。 通常此类状态是由于OS中运行的监控管理进程或者其他服务发送kill信号将进程杀掉。如果能够找出发送信号的进程,就可以进 一步分析...

大数据爬坑收录

爬出过的坑 大数据运维过程就是一个踩坑的过程。如下分享一些踩过的坑,以供参考,此文不定期更新,敬请关注。 Hive 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 * hive的udf使用全名如select mydatabase.myfun(id) from mytable * hive.hadoop.supports.splittable.com...

Spark 配置

配置方法 1 2 3 4 a)spark-defaults.conf配置文件 b)--conf制定 c)new SparkConf().set("key","value") d) --properties 指定配置文件用来替代spark-defaults.conf 配置注意事项 1 2 3 4 5 6 7 1: 优先级: a < b < c 2: 使用4)制定配置文件后...

Spark metrics

Spark Metric/restapi 服务运行时将服务信息展示出来方便用户查看时服务易用性的重要组成部分。特别时对于分布式集群服务。 spark服务本身有提供获取应用信息对方法,方便用户查看应用信息。Spark服务提供对master,worker,driver,executor,Historyserver进程对运行展示。对于应用(driver/executor)进程,主要提供metri...