WBIA第一次作业
[复制链接] 浏览该主题帖http://net.pku.edu.cn/~wbia/WBIA_homework_1.pdf
WBIA第一次作业
2007-9-22
1. 目标:
a. 巩固crawling和web graph &link analysis所学
b. 为课程project做准备
2. 基本要求是:
a. 每个人独立完成,作业截至日期2007-10-14 23:59:59。
b. 实现crawler基本流程,能对一个site全面搜集。
具体做法是按学号模5, 抓取以下网站数据:
4 http://162.105.5.252 (红旗在线)
c. 结果数据进行graph的pagerank计算。
3. 编程要求
语言:c/c++,java或其他不限(但由于要为课程project做准备,所以最好统一标准)
库 :我们提供一个Linux平台的 C++实现的http库,也可以使用第三方http库。
4. 作业提交:
一、 作业报告(1-2 page), 包括以下内容:
a. 运行结果:运行时间,url的统计数据,包括多少动态页、多少静态页等
b. 作业总体情况介绍
c. 实现中遇到的问题和解决问题的办法(重要)
d. 心得体会
二、结果文件
a. 原代码及相应的说明文档,
b. 按pagerank排序url数据文件
作业提交时会通知大家提交办法,请留意课程网站和未名bbs WBIA版。
5. 评分标准:100制
a. 没有抄袭(抄袭算0分)
b. 结果合理性(40%)
c. 代码可读性(30%)
d. 报告可读性(20%)
e. 其他(10%)。另: 如果思路或者程序上有亮点会适当加分(封顶至100分)。
任何问题请发信给助教涂启琛(tqc@net.pku.edu.cn)、徐冬奇(xdq@net.pku.edu.cn)。