毕业设计(论文)题目:网络爬虫设计与实现 一.毕业设计(论文)内容及要求(包括原始数据、技术要求、达到的指标和应做的实验等) :
1。 理解网络爬虫的原理;86165
2。 设计实现一个简易网络爬虫。
二.完成后应交的作业(包括各种说明书、图纸等) :
1。 网络爬虫源代码;
2。 本科毕业论文;
三.完成日期及进度 :
2。 4。4~5。4 完成软件环境的搭建与部分仿真,中期检查;
3。 5。5~5。15 完成课题规定的全部任务;
4。 5。16~5。25 完成论文写作,准备答辩。
四.主要参考资料(包括书刊名称、出版年月等) :
[1] 周德懋, 李舟军。 高性能网络爬虫:研究综述,计算机科学,2009(8)。
[2] 万源,万方,王大震。 一种并行Crawler系统中的URL分配算法设计。 计算机工程与应用。 2006(S1)。
[3] 李晓明,凤旺森。 两种对URL的散列效果很好的函数。 软件学报。 2004(02)
[4] 张敏,高剑峰,马少平。 基于链接描述文本及其上下文的Web信息检索。 计算机研究与发展。 2004(01)
[5] Dean J,Ghemawat S。MapReduce:Si mplified Data Processing onLarge Clusters。 Proceedings of the 6th Conference on Sym-posiumon Opear-ting Systems Design&I mplementation 。 2004
[6] Samaras G,Papapetrou O。Distributedlocation aware web craw-ling。 Proceedings of the 13thInternational World Wide WebConference 。 2004。
[7] Lee Hsin-Tsang,Leonard D。IRLbot:Scalingto6 Billion Pagesand Beyond。 Proceedings of the 17th International WorldWide Web Conference 。 2008。
[8] Shkapenyuk V,Suel T。Design and i mplementation of a highperformance distributed web crawler。 Proceedings of the18th International Conference on Data Engineering 。 2002。
[9] 余锦,史树明。 分布式网页排序算法及其传输模式分析。 计算机工程与应用。 2004(29)
[10] 陈华,罗昶,王建勇,段晖,薛明。 基于Web的百万级FTP搜索引擎的设计与实现。 计算机应用。 2000(09)