多线程并行搜索在信息处理中的应用
时间:2017-05-26 11:26 来源:毕业论文 作者:毕业论文 点击:次
摘要: 在互联网技术的飞速发展的背景下,互联网上的的信息也在飞速的增长。在这样的情况下,一页的网页根本容不下这么多的信息,于是网页链接也开始迅速增加起来。如何能够从特定页面中抓取所需要的链接资源,也变得越来越棘手起来。本次论文主要解决怎么获取分析网页上的链接,实现对分析好的链接的进行存储和管理的问题,数据的处理过程使用单线程和多线程两种方式进行处理,突出体现多线程的优势,并将实现查找某个页面上的所有链接是否包含某个关键字的功能。旨在设计一个简单易操作的,能抓取特定网页上的所有链接资源的管理程序。本文首先介绍了网页信息采集的背景,然后提出研究的基本内容。之后介绍系统的需求分析、系统设计、系统实现以及系统测试的基本情况。重点在于系统的设计与实现。9275 关键词:网页分析;数据存储;多线程;超链接;信息处理 Multi-threaded parallel search in the information processing Abstract: With the rapid development of Internet technology, the context of the information on the Internet is also rapidly growing. In this case, the web page can not simply tolerate so much information, the hyperlinks on the web page also growing rapidly. How to grab resource needed from a specific page links is becoming increasingly difficult. This research is mainly to solve how to obtain Analysis page link analysis to achieve a good link for storage and management issues, data processing procedure will use single-threaded and multi-threaded processing in two ways, highlights the advantages of multi-threading, Find and implement all the links on a page if it contains a keyword function. The research aimed at designing a simple and easy to operate, and can crawl all the links on a given page resource management program. First, this paper will introduces the background of the web information collection, and then make a basic content of the research. After that, it will introduce the presentation system requirements analysis, system design, system implementation and system testing the basic situation. This paper mainly focuses on system design and implementation. Keywords: Web analytics; data storage; multithreading; hyperlinks; Information Processing 目录 摘要 i Abstract i 1 绪论 1 1.1 课题的背景及研究现状 1 1.1.1 课题的背景及研究目的 1 1.1.2 课题的国内外研究现状 2 1.1.3 发展趋势 2 1.2 研究的基本内容 3 1.2.1 基本框架 3 1.2.2 研究的重点和难点 3 1.3 研究的方法及措施 4 2 系统需求与可行性分析 5 2.1 可行性分析 5 2.2 功能需求分析 5 2.2.1 系统功能说明 6 2.2.2 数据流图 7 2.2.3 数据字典 8 2.3 非功能需求 10 3 系统设计 11 3.1 模块详细设计 11 3.1.1 分析页面数据提取URL 11 3.1.2 单线程/多线程处理链接 12 3.1.3 日志模块实现 12 3.1.4 用户配置模块 13 (责任编辑:qin) |