您现在的位置：毕业论文 >> 论文 >> 正文

java搜索引擎的研究与实现第6页

更新时间：2010-5-12: 来源：毕业论文

java搜索引擎的研究与实现第6页
代码分析如下：
package news;
/**
* 新闻搜索引擎
*   * 版本1.0
*/
import java.util.Iterator;
import java.util.Vector;
import com.heaton.bot.HTMLPage;
import com.heaton.bot.HTTP;
import com.heaton.bot.Link;
public class HTMLParse {
HTTP _http = null;
public HTMLParse(HTTP http) {
    _http = http;
}
/**
   * 对Web页面进行解析后建立索引
   */
public void start() {
    try {
      HTMLPage _page = new HTMLPage(_http);
      _page.open(_http.getURL(), null);
      Vector _links = _page.getLinks();
      Index _index = new Index();
      Iterator _it = _links.iterator();
      int n = 0;
      while (_it.hasNext()) {
        Link _link = (Link) _it.next();
        String _herf = input(_link.getHREF().trim());
        String _title = input(_link.getPrompt().trim());
        _index.AddNews(_herf, _title);
        n++;
      }
      System.out.println("共扫描到" + n + "条新闻");
      _index.close();
    }
    catch (Exception ex) {
      System.out.println(ex);
    }
}
/**
   * 解决java中的中文问题
   * @param str 输入的中文
   * @return 经过解码的中文
   */
public static String input(String str) {
    String temp = null;
    if (str != null) {
      try {
        temp = new String(str.getBytes("ISO8859_1"));
      }
      catch (Exception e) {
      }
    }
    return temp;
}
}
4.4小节
在进行海量数据搜索时，如果使用单纯的数据库技术，那将是非常痛苦的。速度将是极大的瓶颈。所以本章提出了使用全文搜索引擎Lucene进行索引、搜索。
最后，还结合了具体代码说明了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。
第五章基于Tomcat的Web服务器
5.1什么是基于Tomcat的Web服务器
Web服务器是在网络中为实现信息发布、资料查询、数据处理等诸多应用搭建基本平台的服务器。Web服务器如何工作：在Web页面处理中大致可分为三个步骤，第一步，Web浏览器向一个特定的服务器发出Web页面请求；第二步，Web服务器接收到Web页面请求后，寻找所请求的Web页面，并将所请求的Web页面传送给Web浏览器；第三步，Web服务器接收到所请求的Web页面，并将它显示出来。
Tomcat是一个开放源代码、运行servlet和JSP Web应用软件的基于Java的Web应用软件容器。Tomcat由Apache-Jakarta子项目支持并由来自开放性源代码Java社区的志愿者进行文护。Tomcat Server是根据servlet和JSP规范进行执行的，因此我们就可以说Tomcat Server也实行了Apache-Jakarta规范且比绝大多数商业应用软件服务器要好。
5.2用户接口设计
5.3.1客户端设计
一个良好的查询界面非常重要，例如Googl就以她简洁的查询界面而闻名。我在设计的时候也充分考虑了实用性和简洁性。
查询界面截图如下：
搜索结果截图如下：
5.3.2服务端设计
主要利用JavaTM Servlet技术实现，用户通过GET方法从客户端向服务端提交查询条件，服务端通过Tomcat的Servlet容器接受并分析提交参数，再调用lucene的开发包进行搜索操作。最后把搜索的结果以HTTP消息包的形式发送至客户端，从而完成一次搜索操作。
服务端Servlet程序的结构如下：

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页