/ 1
现代信息检索导论2020/01/08回忆
[复制链接] 分享:
<ASCIIArt>
1楼
孙斌老师的课。BBS上的资料太少了。。
平时作业每周大概2-3h?有一个比较随性的小组作业
个人觉得每节课先看最后一张ppt上的习题作为重点,然后自己快速翻ppt,不懂的看原版书比较高效。
大四上结束啦!
一、概念题
5*5=25
正确率 召回率 插值正确率 11点插值 MAP
二、posting
10
posting的概念,doc-level posting list和positional posting list的区别,用C语言设计一个positional posting list的数据结构 ;布尔查询 NOT abc的时空复杂度,为什么大型检索系统不支持 OR NOT
三、SPIMI
10
描述SPIMI算法和时空复杂度
基于SPIMI的思想,设计一个可以“边索引边搜索”的实时新闻搜索系统
四、g(d)
10
g(d)为什么降序,linear merge怎么做
基于g(d) 设计一个能够搜索最热门文章(按照历史点击次数)的检索系统
五、概率
10
推导P(d|q) ,并且说明各个概率是如何估计的(大概就是MLE的过程
六、超链分析
10
超链分析有两个内容:pagerank和锚文本,这两个如何弥补传统tfidf的缺点的?
基于超链分析给网页内容设计一个语言模型Md
七、网页去重
15
大规模网页内容去重的方法,着重说明下如何避免所有文档两两之间的比较
八、推荐系统
5
信息推荐系统和信息检索系统的差别,简述一个常见的信息推荐算法
九、可检索问题
5
“可检索问题”是啥,解决它的一般的步骤是啥
/ 1