中台-国网信息运行

在大数据计算服务中，使用MapReduce开发一个分词程序，即输入为保存在表中的多篇文章（每篇文章一行记录），参考一个字典文件（该文件会经常更新）进行分词。简而言之，在执行该程序的时候，既需要输入待分词的文章（已经保存在表中了），又需要输入字典（为经常变动的本地文件），以下最合理的解决方案为？

发布于 2021-03-04 15:49:21

【单选题】
A 将字典文件保存在本地，在MR中通过访问本地最新的字典文件实现
B 将这个字典与源代码一起进行打包，直接执行即可
C 将字典达成jar包，使用jar命令执行MR程序时，通过resource参数指定该jar包
D 每次都将字典文件作为资源上传到大数据计算服务上，然后MR中通过资源的方式来访问

关注者

0

被浏览

73

新年 2023-03-04

这家伙很懒，什么也没写！

此回答被采纳为最佳答案，开通VIP会员可查看

1 个回答

撰写答案

请登录后再发布答案，点击登录

关于作者

🐬旭洋

这家伙很懒，什么也没写！

提问

回答

708

被采纳

646

关注TA

发私信

相关问题

1

40. 以下哪一种计算模式是适合Spark编程模型处理的？

2

某BI系统构建在大数据计算服务MaxCompute上，某数据分析员在分析订单的地域分布时，需要把订单表order(占用存储空间约10G)与地域维表region(占用存储空间100M)关联起来，两张表的结构如下:create table order(order_id string,region_id string,order_amt bigint);create table region(region_id string,region_name string)在运行时发现由于订单大量集中在上海地区,数据的倾斜导致整体运行时间较长,运行的SQL语句如下:select region_name,sum(order_amt)amt from order t1 join region t2 on t1.region_id =t2.region_id;此时可以考虑通过优化SQL的运行效率。

3

41. 关于docker inspect命令可获取内容的解释，错误的是？

4

42. 以下哪一项属于承担医院及其所属各部门人流、物流、财流综合管理的核心系统？

5

未遵守属地疫情防控要求，被属地集中管控影响上班的人员，考核（）

6

43. 运营商切入智慧水务行业有多种商业模式，如当前业务运营资金充裕，需尽快扩大市场，以下哪种商业模式比较好？

7

44. 品牌自建电商要做到独立自主，主要体现在哪个方面？

8

单选题会导致变压器瓦斯保护动作的故障是（）。

9

从优化角度来看，大数据计算服务的MapReduce对于哪个节点处理哪个分片这个问题，采用了策略。

10

45. 不同主机之间传递docker镜像，建议最好使用如下哪种方式？

发布
问题

手机
浏览

扫码手机浏览

在线
客服