首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。 [说明] 指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。 [说明] 指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页
admin
2016-03-25
10
问题
阅读以下说明和流程图,填补流程图中的空缺(1)~(5),将解答填入答题纸的对应栏内。
[说明]
指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组公共的关键词。因此,每个新闻网页都存在一组词频,称为该新闻网页的特征向量。
设两个新闻网页的特征向量分别为:甲(a
1
,a
2
,…,a
k
)、乙(b
1
,b
2
…,b
k
),则计算这两个网页的相似度时需要先计算它们的内积S=a
1
b
1
+a
2
b
2
+…+a
k
b
k
。一般情况下,新闻网页特征向量的维数是巨大的,但每个特征向量中非零元素却并不多。为了节省存储空间和计算时间,我们依次用特征向量中非零元素的序号及相应的词频值来简化特征向量。为此,我们用(NA(i),A(i)|i=1,2,…,m)和(NB(j),B(i)…j=1,2,…,n)来简化两个网页的特征向量。
其中:NA(i)从前到后描述了特征向量甲中非零元素A(i)的序号(NA(1)<NA(2)<…),
NB(j)从前到后描述了特征向量乙中非零元素B(j)的序号(NB(1)<NB(2)<…)。
下面的流程图描述了计算这两个特征向量内积S的过程。
(5)
选项
答案
i>m or j>n或i=m+1 or j=n+1或等价表示
解析
本题是简化了的一个大数据算法应用之例。世界上每天都有大量的新闻网页,门户网站需要将其自动进行分类,并传送给搜索的用户。为了分类,需要建立网页相似度的衡量方法。流行的算法是,先按统一的关键词组计算各个关键词的词频,形成网页的特征向量,这样,两个网页特征向量的夹角余弦(内积/两个向量模的乘积),就可以衡量两个网页的相似度。因此,计算两个网页特征向量的内积就是分类计算中的关键。对于存在大量零元素的稀疏向量来说,用题中所说的简化表示方法是很有效的。这样,求两个向量的内积只需要在分别从左到右扫描两个简化向量时,计算对应序号相同 (NA(i)=NB(j))时的A(i)*B(j)之和(其他情况两个向量对应元素之乘积都是0)。因此,流程图中(2)处应填S+A(i)*B(j),而累计的初始值S应该为0,即(1)处应填0。
流程图中,NA(i)<NB(j)时,下一步应再比较NA(i+1)<NB(j),除非i+1已经越界。
因此,应先执行i+1→i,再判断是否i>m或i=m+1(如果成立,则扫描结束)。因此(3)处应填i>m或i=m+1。
流程图中,NA(i)>NB(j)时,下一步应再比较NA(i)<NB(j+1),除非j+1已经越界。
因此,应先执行j+1→j,再判断是否j>n或j=n+1(如果成立,则扫描结束)。因此(4)处应填j>n或j=n+1。
(5)处应填扫描结束的条件,i>m or j>n或i=m+1 or j=11+1,即两个简化向量之一扫描结束时,整个扫描就结束了。
转载请注明原文地址:https://jikaoti.com/ti/BHW7FFFM
本试题收录于:
程序员下午应用技术考试题库软考初级分类
0
程序员下午应用技术考试
软考初级
相关试题推荐
在Excel2007中,(43)________________不是计算从A1到A6单元格中数据之和的公式。
某个字段的数据是原始数据计算的结果,该字段的宽度和小数位数对数据的精度有影响。一般来说,小数位数的确定需要考虑______。
在Windows XP中,可用来改变窗口大小的光标是(37)。
据某地区统计,今年中小学生中肥胖学生约占10%,而且,肥胖学生人数正在以8%的速度增长。假设近年中小学生的总量变化不大,据此我们可以推算出,明年该地区中小学生中肥胖学生的比例约为(64)。
某企业的大数据工程项目包括如下四个阶段的工作:①数据获取,②数据清洗与整理,③数据分析,④数据展现。一般来说,工作量较大、花费时间较长的阶段是______(1),技术含量最高的阶段是______(2),准备向有关部门递交成果的阶段是______(3)。
在计算机网络的数据通信中广泛使用的校验方式是(15)。
以下关于操作系统中回收站的叙述,不正确的是____________。
某企业对各部门有5个量化考核指标,每个指标都有达标要求。每个部门的考核结果宜用(67)来展现,既能反映各个指标的达标情况,又能反映该部门整体达标状况。
解决网络安全问题的技术分为主动防御保护技术和被动防御保护技术两大类,__________属于被动防御保护技术。
防火墙包过滤规则的默认策略为拒绝,下表给出防火墙的包过滤规则配置界面。若要求内部所有主机能使用IE浏览器访问外部IP地址为202.117.118.23的Web服务器,为图中(1)~(4)空缺处选择正确答案。(1)A.允许B.拒绝(2)A.192
随机试题
甲、乙在火车上相识,甲怕自己到站时未醒,请求乙在A站唤醒自己下车,乙欣然同意。火车到达A站时,甲沉睡,乙也未醒,甲未能在A站及时下车,为此支出了额外费用。甲要求乙赔偿损失。对此应()
诊断早期肺心病的主要根据是
对国家税务局和地方税务局共同作出的具体行政行为不服的,向()申请复议。
可能在组织中形成裙带关系的员工招聘方法是()
下列哪部作品不是安徒生童话?()
下列关于过渡时期对农业的社会主义改造的说法中,正确的是()
数据库系统的核心是【】。
AtwhattimedidthebasketballmatchstartlastSaturday?
Youwillhearfiveshortpiecesofspeech.Foreachpiecedecidewhoistalking.Writeoneletter(A—H)nexttothenumberofth
A—AirpollutionB—AirqualityC—AlternativeenergysourcesD—CarbonemissionsE—CarbonfootprintF—ClimatechangeG—Electricveh
最新回复
(
0
)