首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的
搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的
admin
2019-05-11
32
问题
搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的10个查询串,且要求使用的内存不能超过1GB。以下各方法中,可行且效率最高的方法是____________。
选项
A、将一千万个查询串存入数组并进行快速排序,再统计其中每个查询串重复的次数
B、将一千万个查询串存入数组并进行堆排序,再统计其中每个查询串重复的次数
C、利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用小根堆选出重复次数最多的10个查询串
D、利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用大根堆选出重复次数最多的10个查询串
答案
C
解析
本题考查数据结构应用知识。
快速排序和堆排序都属于内部排序方法,要求待排序的元素序列都放在内存。按最坏情况考虑,一千万个查询串需要的存储空间为225千万字节,也就是2.25×10
10
字节,远超过1GB(约等于10
9
)的存储容量限制,所以选项A和B是不可行的。另外,即便不考虑存储容量限制,在只要求找出最大的10个元素时快速排序也是不适用的。
选项C和D的区别是利用大顶堆还是小顶堆。设想需要在1000个元素中找出10个最大元素,用小顶堆的思路是:先用前10个元素建个小顶堆(堆顶是最小元素),此后从第11个元素开始,顺序地将每个元素与堆顶元素比较,若小于或等于堆顶元素就舍弃之,若大于堆顶元素,则用该元素替换堆顶元素,并再次调整为小顶堆。重复该过程直到最后一个元素处理完,那么,在小顶堆中留下的10个元素实际上就是这1000个元素中的前10大元素。
本问题中需要在三百万个元素中按照重复次数找最大的10个元素,由于10个元素构成的小顶堆建立和调整时所花费的时间是个很小的常数c0,因此,采用这种方式在n为三百万个元素时找出10个最大者的运算时间是线性阶的(大约为n+e0,c0是小整数)。反之,如果采用大顶堆,一种情况是建立10个元素构成的大项堆,则在顺序地处理后面元素时,无法简单地确定需要替换该大顶堆中的哪个元素;另一种情况是建立由三百万个元素构成的大顶堆,在该数据量情况下,哈希表和大项堆都在内存存储,可能会突破1GB的存储容量限制,而且建立初始大顶堆的运算时间(有可能是达到4n)以及后面9次调整大顶堆的时间(9logn)的时间都远多于前面的小顶堆方案。
转载请注明原文地址:https://jikaoti.com/ti/y9L7FFFM
本试题收录于:
程序员上午基础知识考试题库软考初级分类
0
程序员上午基础知识考试
软考初级
相关试题推荐
CPU从内存中读取指令时,需要先将程序计数器(PC)的内容输送到______总线上。A.数据B.地址C.控制D.接口
某计算机采用48×48数字化点阵字模表示一个汉字,字模中的每一个点在存储器中用一个二进制位存储。那么,现有1024个汉字需要在计算机中存储,则要求的存储空间应为______K字节。A.196B.244C.288D.312
有3台交换机分别安装在办公楼的1~3层,同属于财务部门的6台PC机分别连接在这3台交换机的端口上,为了提高网络安全性和易管理性,最好的解决方案是______。A.改变物理连接,将6台PC机全部移动到同一层B.使用路由器,并用访问控制列表(ACL)控制主
交换表的内容主要有______。A.目的MAC地址B.所对应的交换机端口号C.所在的虚拟子网D.以上全部
传统电话网采用的交换方式是(23),帧中继网采用的交换方式是(24)。(23)
一项网络工程的建设流程通常由①对现有网络的体系结构进行分析,②网络需求分析,③确定网络物理结构,④确定网络逻辑结构,⑤安装、测试和维护等5阶段组成,根据网络开发设计的过程,对这5个阶段的先后排序正确的是(36)。
我国国家标准分为强制性国家标准和推荐性国家标准,强制性国家标准的代号为(25)。
知识产权权利人是指__________。
在局域网交换机中,交换机只要接收并检测到目的地址字段就立即将该帧转发出去,帧出错检测任务由结点主机完成,这种交换方法叫做______。
计算机软件知识产权包括著作权、专利权、商标权和制止不正当竞争的权利等。如果某公司购买了一个工具软件,在销售该公司开发的软件(需使用该工具软件)的同时,向客户提供此工具软件的复制品,这种行为(1)。如果某公司购买了一个应用软件的源程序,他们将源程序中的所有标
随机试题
历史的车轮已经进入21世纪,人们对于领导本质的研究始终未曾停止,理论上的推陈出新仍在继续。有人认为领导是率领和引导群众前进;有人认为领导是群众利益和意志的体现;有人认为领导是建立在发展基础上的权威;有人认为领导是为他性与开拓性的统一;有人认为领导是一种影响
在LAN中,网卡的作用是将计算机数据转换为能够通过______传输的信号。
患者,男,46岁。两耳轰鸣,按之不减,听力减退,兼见烦躁易怒,咽干,便秘,脉弦。治疗应首选( )。
不符合心源性水肿描述的是()。
背景资料:《公路工程国内招标文件范本》指出:投标人必须通过资格预审并取得投标资格;投标人一般应独自参与投标,如以联合体形式投标,必须遵守相关规定;投标人编写的投标文件,应包括必须的内容;分标段招标的,招标人应合理划分标段。问题:投标
证券投资基金起源于美国的投资信托公司。()
某上市公司20×7年财务会计报告批准报出日为20×8年4月10日。公司在20×8年1月1日至4月10日发生的下列事项中,属于资产负债表日后调整事项的是( )。
甲公司是一家国有控股上市公司,其股票在上海证券交易所A股挂牌交易。公司拟投资新项目A,所需资金30000万元全部从外部筹措。甲公司计划通过发行债券等方式筹集。2015年6月,甲公司管理层提出了筹集A项目所需资金的方案:方案1:于2015年7月1日发行5年
资本充足率的信息披露主要包括哪些内容?
磁盘上的磁道是(5)。
最新回复
(
0
)