关于Join方法和作业运行的问题 [英] questions about Join method and job running

查看:63
本文介绍了关于Join方法和作业运行的问题的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

1)关于加入

连接方法可以应用于两个文件集。喜欢:

The join method can be applied to two fileset.Like:

  IQueryable< LineRecord> strtable1 = context.FromDsc< LineRecord>(" Join_geoip");

  IQueryable< LineRecord> strtable2 = context.FromDsc< LineRecord>(" Join_log");

 IQueryable<LineRecord> strtable1 = context.FromDsc<LineRecord>("Join_geoip");
 IQueryable<LineRecord> strtable2 = context.FromDsc<LineRecord>("Join_log");

IQueryable< LineRecord> joined = strtable2.Join(strtable1,  l1 => l1.Line.Split('')。first(),  l2 => l2.Line.Split('')。first(),(l1 ,l2)=> l2);

IQueryable<LineRecord> joined = strtable2.Join(strtable1, l1 => l1.Line.Split(' ').First(), l2 => l2.Line.Split(' ').First(),(l1, l2) =>l2);

问题是,连接方法可以同时应用于两个以上的文件集吗?想想,我想加入三个文件集, AB和CI不希望首先加入两个文件集,比如A和B,然后加入带有文件集C的输出。最好在同一个连接操作中加入
A,B和C.可以我实现了这个目标吗?

The quesion is,can the join method be applied to more than two filesets at the same time?Think that ,i want to join three filesets,A B and C.I do not want to join two filesets ,like A and B,first, then join the output with fileset C.It`s better to join A ,B and C at the same join operation.Can i achieve this?

2)在HPC平台上,如果有一个作业正在运行,那么后面的作业必须等待。这是可以使用的,第一个作业没有完成,第二份工作开始运作?

2)On the HPC paltform,if there is a job running,then the later jobs must wait.Can this be avilable,that the first job is not completed and the second job starts to run?

期待你的帮助。

推荐答案

1) Join()运算符不支持加入两个以上的文件集,就像它对应的SQL JOIN一样。

1) The Join() operator does not support joining more than two file sets, just like it's corresponding SQL JOIN.

<小时ef ="http://msdn.microsoft.com/en-us/vcsharp/aa336746ls"> http://msdn.microsoft.com/en-us/vcsharp/aa336746 ls

 

http://msdn.microsoft.com/en-us /library/bb534650.aspx

如果您想加入两个以上的文件集,您可以通过将连接应用于文件集对来实现此目的。

If you want to join more than two file sets yoou can do this by applying joins to pairs of file sets.

2)HPC Scheduler对此进行控制。如果Dryad作业有足够的可用节点,它们将运行。您可以使用HpcLinqConfiguration上的JobMinNodes和JobMaxNodes属性指定查询所需的节点数。 Dryad作业按每节点
a计划,因此任何时候一个节点上只能运行一个顶点。

2) The HPC Scheduler controls this. Dryad jobs will run if their are sufficient nodes available. You can specify the number of nodes a query requires using the JobMinNodes and JobMaxNodes properties on the HpcLinqConfiguration. Dryad jobs are scheduled on a per node basis so only one vertex can run on a node at any one time.

 

这篇关于关于Join方法和作业运行的问题的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆