• 注册
  • BBS 大数据 关注:2 内容:74

    mapreducer 编程,任务工作链高级运行方法

  • 查看作者
  • 打赏作者
  • 拉黑名单
  • 当前位置: 字节脉搏 > 大数据 > 正文
    VIP
    字节脉搏运营

    mapreducer 编程,任务工作链高级运行方法

    1. 项目工具类#

    项目的工具类要统一放到util中,命名方式要以Util结尾,这样别人看到类名就知道这是一个通用的工具类
    mapreducer 编程,任务工作链高级运行方法

    编写通用判断为空工具类
    mapreducer 编程,任务工作链高级运行方法

    以下内容回帖刷新可见………………#

    2. 定义任务工作链运行返回结果,并封装成通用对象#

    该类包含运行结果
    运行时间
    任务链中所有任务对应的counters
    mapreducer 编程,任务工作链高级运行方法
    mapreducer 编程,任务工作链高级运行方法
    mapreducer 编程,任务工作链高级运行方法

    3. 自定义任务工作链提交方法#

    使用java并发库阻塞队列的方法控制任务的结束
    mapreducer 编程,任务工作链高级运行方法
    mapreducer 编程,任务工作链高级运行方法

    使用方法
    mapreducer 编程,任务工作链高级运行方法

    4. 集群运行#

    修改job改成继承baseMR基类
    梳理任务依赖关系
    mapreducer 编程,任务工作链高级运行方法

    配置好job依赖关系
    mapreducer 编程,任务工作链高级运行方法

    注册到driver类中
    mapreducer 编程,任务工作链高级运行方法

    然后导出jar包
    mapreducer 编程,任务工作链高级运行方法
    上传到操作机
    mapreducer 编程,任务工作链高级运行方法

    使用输入地址
    /user/hainiu/data/input wordCount使用
    /user/hainiu/data/input2 分组排序使用

    在操作机上提交任务
    mapreducer 编程,任务工作链高级运行方法
    可以看到所有任务根据依赖关系运行起来了
    mapreducer 编程,任务工作链高级运行方法
    操作机打印日志,可以看到任务运行成功,运行时间为9分26秒
    mapreducer 编程,任务工作链高级运行方法
    观察结果,每个任务都生成了数据
    mapreducer 编程,任务工作链高级运行方法

    来自海牛部落-青牛,http://hainiubl.com/topics/99

    请登录之后再进行评论

    登录
  • 做任务
  • 帖子间隔 侧栏位置: