Chai's Blog

Dig deeper

Zeppelin on Flink小试牛刀

Zepplin 从0.9 版本(当前该版本还未release,只有预览版)开始支持Flink最新版本1.10,鉴于Flink1.10版本全面合入了Blink能力,在sql使用上展现出强大实力,笔者决定使用其预览版尝鲜。 下载安装 在Zeppelin官网下载页面可以下载到当前zeppelin-0.9预览版 放置在节点,并解压后查看到目录结构如下: ...

Flink on yarn setup Guide

版本 组件 版本 包名 Flink版本 1.8.2 flink-1.8.2-bin-scala_2.11.tgz Hadoop-shade 2.7.5 flink-shaded-hadoop2-uber-2.7.5...

Flink Configuration Guide

Flink重要配置: Flink重要的配置类 配置类 说明 备注 ResourceManagerOptions.java The set of configuration options relating to the ResourceManager   ...

Flink 用户自定义函数实现

鉴于自定义函数函数在SQL中的强大语义,在SQL中有十分广泛的应用。Flink在其Table/SQL API中同样支持自定义函数,且根据Flink Forward Asia 2019的规划,在后续flink版本中,自定义函数将支持python语言以及兼容Hive的自定义函数. 本文简要介绍Flink中的UDF支持及实现。 自定义函数支持类型 Flink支持的自定义函数包括UDF,UDTF...

Flink Async-IO 源码分析

Async IO的设计 Flink 基于事件的消息驱动流处理引擎,对于每条消息都会触发一次全流程的处理,因此在与外部存储系统交互时,对于每条消息都需要一次外部请求,对于性能的损耗较大,严重制约了flink的吞吐量。 Flink 1.2中引入了Async IO(异步IO)来加快flink与外部系统的交互性能,提升吞吐量。[FLIP-12: Asynchronous I/O Design an...

Flink checkpoint流程源码分析

Checkpoint在分布式流处理框架的准确性具有重要意义。Flink实现了基于Chandy-Lamport算法的checkpoint机制。在消息可靠性保障,集群升级等场景具有重大意义。Flink中checkpoint的调度管理由Jobmanager测下发checkpoint指令,并由各TaskManager执行,在Flink的框架中,对消息的读取,处理,输出等逻辑都是由Task执行,因此执...

Kafka事务

Kafka 幂等性 Kafka幂等性含义 幂等性起初是在HTTP协议中定义,是指一次和多次请求同一个资源对资源本身应当具有同样的效果。从Kafka的角度来说,客户端多次发送同一条消息与发送一次消息,kafka服务只应当保存一次该消息。 kafka幂等性 问题 在生...

Flink-Kafka-Exactly-Once 测试

测试场景 Flink 从kafka读消息处理后写入kafka样例(Consume-Processing-Produce) 测试环境 组件 版本 Flink 1.8.0 Kafka client 2.0.1 kakf...

Json4s 版本不兼容问题分析

问题现象: 应用基于Spark2.3编译,在编译时添加了依赖json4s的包,指定版本为3.2.10,在提交spark作业后,抛出如下 1 java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.render(Lorg/json4s/JsonAST$JValue;)Lorg/json4s/JsonAST$JValue...

多线程相关梳理

##常用函数: Wait : object的方法,所有类/对象都可以调用,调用wait方法的线程需要持有锁,通过notify,notifyAll唤醒,调用此方法的线程处于Waiting状态 1 java.lang.Thread.State: TIMED_WAITING (sleeping) Sleep : ...