apache-flink相关内容
我有以下方法来计算DataSet中某个值的概率: /** * Compute the probabilities of each value on the given [[DataSet]] * * @param x single colum [[DataSet]] * @return Sequence of probabilites for each value
..
问题 我正在将微服务实现为事件源集合,然后将其实现为Flink FlatMapFunction.在基本设置中,聚合从两个kafka主题中读取事件和命令.然后,它将新事件写入该第一个主题,并在第三个主题中处理结果.因此,Kafka充当事件存储.希望此图对您有所帮助: RPC Request RPC Result |
..
我启动了本地flink服务器(./bin/start-cluster.sh),并提交了一份工作.我有以下代码来定义自定义指标: .map(new RichMapFunction() { private transient Counter counter; @Override public void open(C
..
通过阅读文档,我了解到使用Apache Flink 1.3,我应该能够使用Elasticsearch5.x. 但是,在我的pom.xml中: org.apache.flink flink-connector-elasticsearch5_2.10
..
我正在使用Flink学习Map-Reduce,并且对如何有效地计算数据集中的元素有疑问.到目前为止,我的情况是这样: DataSet ds = ...; long num = ds.count(); 执行此操作时,在我的flink日志中说 12/03/2016 19:47:27 DataSink(count())(1/1)切换为RUNNING 所以只使用了一
..
我正在为Flink(0.10-SNAPSHOT)运行示例多元线性回归.我无法弄清楚如何提取权重(例如,斜率和截距,beta0-beta1,以及您想称呼的权重).我在Scala中经验不足,这可能是我问题的一半. 感谢任何人可以提供的任何帮助. object Job { def main(args: Array[String]) { // set up the execution
..
我为Apache Flink编写了一个非常简单的Java程序,现在我对测量统计量感兴趣,例如吞吐量(每秒处理的元组数)和等待时间(程序需要处理每个输入元组的时间). StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.readTextFile("/home/L
..
我使用Flink 1.7仪表板并选择一个流作业.这应该向我显示一些指标,但仍然需要加载. 我在Flink 1.5集群中部署了相同的作业,并且可以观察指标. Flink在docker swarm中运行,但是如果我在docker-compose(不在swarm中)中运行Flink 1.7,则它可以正常工作 我可以做到,删除docker-compose.yaml文件中的主机名 vers
..
我想使用(持久)状态后端在kubernetes上运行flink作业,看来崩溃的任务管理器没有问题,因为如果我理解正确的话,他们可以询问作业管理器他们需要从哪个检查点恢复. 崩溃的工作经理似乎要困难一些.在此翻转6页我读到动物园管理员需要能够知道工作经理需要使用哪个检查点进行恢复和领导者选举. 看到kubernetes会在崩溃时重新启动jobmanager,是否有办法让新的jobmana
..
我有一个独立的Flink安装,我想在其上运行一个将数据写入HDFS安装的流作业. HDFS安装是Cloudera部署的一部分,并且需要Kerberos身份验证才能读取和写入HDFS.由于我没有找到有关如何使Flink与受Kerberos保护的HDFS连接的文档,因此我不得不对该过程进行一些有根据的猜测.这是我到目前为止所做的: 我为用户创建了一个密钥表文件. 在Flink工作中,我添加
..
我正在尝试为Flink流作业创建JUnit测试,该作业将数据写入kafka主题,并分别使用FlinkKafkaProducer09和FlinkKafkaConsumer09从同一kafka主题读取数据.我正在农产品中传递测试数据: DataStream stream = env.fromElements("tom", "jerry", "bill"); 并检查是否来自消费
..
我有两个要合并的数据流.问题在于,一个数据流的频率比另一个数据流的频率高得多,并且有时一个数据流根本不接收事件.是否可以使用一个流中的最后一个事件,并在即将发生的每个事件中将其与另一个流一起加入? 我发现的唯一解决方案是使用join函数,但是您必须指定一个公共窗口,可以在其中应用join函数.当一个流未接收到任何事件时,这是未到达窗口. 是否有可能将连接函数应用于来自一个流或另一个流的
..
我有以下代码来计算来自socketTextStream的单词。需要累计单词计数和时间窗口单词计数。该程序存在一个问题,即cumulateCounts始终与窗口计数相同。为什么会出现此问题?根据窗口计数计算累积计数的正确方法是什么? StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironm
..
我想从FLINK中的多个KAFKA群集中读取数据。 但结果是 kafkaMessageStream 只能从第一个Kafka读取。 只有当Kafka 分别有 2个流时,才能从两个Kafka集群中读取,这不是我想要的。 是否可以将多个来源连接到单个阅读器。 示例代码 公共类KafkaReader实现Reader { private StreamExe
..
我已将以下行添加到flink-conf.yaml: env.java.opts:“ - Ddy.props.path = / PATH / TO / PROPS / FILE“ 启动jobmanager时(jobmanager.sh启动集群)我在日志中看到jvm选项确实已被识别 2017-02-20 12:19:23,536 INFO org.apache.flink.runt
..
我正在使用Flink 1.4.1和Beam 2.3.0,并且想知道是否可以在Flink WebUI(或任何地方)中提供指标,如Dataflow WebUI? 我使用的计数器如下: import org.apache.beam.sdk.metrics 。计数器; import org.apache.beam.sdk.metrics.Metrics; ... Counter
..
在Apache Flink中,我有一个元组流。让我们假设一个非常简单的 Tuple1 。元组可以在其值字段中具有任意值(例如,“P1”,“P2”等)。可能值的集合是有限的,但我事先并不知道全集(因此可能存在'P362')。我想根据元组内部的值将该元组写入某个输出位置。所以例如我想拥有以下文件结构: / output / P1 / output / P2 在文档中我只
..
我使用Flink(最新的git)从kafka流到cassandra。为了简化单元测试我通过Dagger添加依赖注入。 ObjectGraph似乎正在正确设置自己,但是'内部对象'被Flink标记为“不可序列化”。如果我直接包含这些对象,那么它们有用吗?那么有什么区别? 有问题的类实现 MapFunction 和 @Inject 一个用于cassandra的模块和一个用于读取配置文件的模
..
kafka的文档给出了以下描述的方法: 每个线程一个消费者:一个简单的选择是给每个线程它自己的消费者>实例。 我的代码: 公共类KafkaConsumerRunner实现Runnable { private final AtomicBoolean closed = new AtomicBoolean(false); 私人最终CloudKafkaConsumer消费者;
..
我尝试使用以下方法读取文件: final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); DataSet line = env.readTextFile(“file:///pathtofile/myfile.txt”); 我收到以下错误:
..