基于Lucene.Net的站内搜索引擎的设计(3)

   (4)处于网站的一些的保密性，要限制某些信息被搜索到，要考虑如何保护文件的私密性。
2.系统相关技术
2.1中文分词
分词是核心的算法，搜索引擎内部保存的就是一个个的“词（word）”。英文分词特别简单，按照空格分隔就可以。中文比较麻烦，把“北京，Hi欢迎你们大家”拆成“北京 Hi 欢迎你们大家”。Lucene.Net中不同的分词算法就是不同的类。所有分词的算法类都从Analyzer类继承，不同的分词算法有不同的优缺点。
    (1)内置的StandardAnalyzer是将英文按照空格、标点符号等进行分词，将中文按照单个字进行分词，一个汉字算一个词。
    (2)二元分词算法，每两个汉字算是一个单词，“欢迎你们大家”会分词为“欢迎   迎你你们们大大家”。
2.2盘古分词
    这个分词的思想就是匹配，但是针对对于多字的词，盘古分词设置了比较高高的优先级，使得分词结果与我们实际想要的结果非常接近。这个分词的优点是完全开源，结构清晰，方便在内部修改源代码，调整权重，并且有一套很好的词典管理工具。缺点就是它的内置的词典太过于混乱，需要我们手动进行修改。
在Lucene.Net的使用盘古分词：PanGu.Lucene.Analyzer.dll中定义了Analyzer的派生类型Lucene.Net.Analysis.PanGu.PanGuAnalyzer，与Tokenizer的派生类Lucene.Net.Analysis.PanGu.PanGuTokenizer，语法与Lucene.Net内置分词器相同

基于Lucene.Net的站内搜索引擎的设计(3)

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

承德市事业单位档案管理...

志愿者活动的调查问卷表

AT89C52单片机的超声波测距...

C#学校科研管理系统的设计

神经外科重症监护病房患...

公寓空调设计任务书

医院财务风险因素分析及管理措施【2367字】

10万元能开儿童乐园吗，我...

中国学术生态细节考察《...

国内外图像分割技术研究现状