Amazon Elastic MapReduce的容量调度器
我完全是Amazon Elastic MapReduce的新手。我需要使用基于Hadoop容量调度程序实现的自定义调度程序来安排Amazon Elastic MapReduce中的作业。Amazon Elastic MapReduce的容量调度器
根据我目前的理解,为了实现这一点,我只能在作业流程中定义一个阶段,并通过SSH连接将我的自定义jar文件提交给主节点。但是,我找不到如何编辑xml配置文件,例如主节点中的capacity-scheduler.xml。任何人都知道如何做到这一点?
此外,如果我想将动态调整大小属性添加到它上面,当作业当前正在运行时,是否可以动态调整群集中任务节点的数量?或者在每个阶段,群集的大小应该保持不变?非常感谢。
您应该使用引导操作来更改Hadoop配置。
以下AWS doc可以引用Hadoop configuratio引导操作。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#PredefinedbootstrapActions_ConfigureHadoop
这个博客文章,我书签也有一些信息。 http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/
对于动态更改群集大小,一个选项是使用AWS开发工具包。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html
使用以下界面可以修改实例组的实例数量。 http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html
对于第一个链接,似乎“capacity-scheduler.xml”不在xml文件的可编辑范围内。而且,下面的文档似乎没有提到我们是否可以在作业运行时添加备注。如果Amazon EMR可以完成上述操作,我仍然感到困惑。 – jyxlcd 2014-09-02 11:10:26