菜单
  

     图2.1 整词二分词典结构示意图

    查询时根据待查词的首字哈希值能够确定以该字为首的所有词的位置。根据首字的不同可以将词典分为许多小数组,使分散的小数组均小于4kB,这样可以方便预取到内存中。比如可以将所有首字相同的词语放在一起。较大的数组也可以采取相应的措施将其分割成小数组。如果同一首字下的词语过多则可以考虑根据第二个字的哈希值对该首字下的词语再分,这种类似多级词典结构的词典构造。

    这种词典结构简单,占用空间小且便于维护,但其效率低。这种词典结构对算法的要求比有序线性词典对算法的要求高。

    3)基于逐字二分的分词词典机制

    这种词典的结构与整词二分法的词典结构相同,只是在查询时逐字二分采用“逐字匹配”,每次仅比较单个的汉字。基于逐字二分的词典结构可做到效果和TRIE索引树一样,不需要预知待查词的长度,并在扫描汉字串的过程中就能得到所有可能的切分。所以这不是完全意义上的逐字匹配。逐字匹配查询效率高但词典文件复杂,整词二分效率差但其词典的数据结构简单。

    4)基于TRIE索引树的分词词典机制

    基于TRIE索引树的词典主要由首字散列表和TRIE索引树结点两部分组成。

  1. 上一篇:光照不均的图像预处理算法的研究
  2. 下一篇:基于两级框架的高斯过程回归(GPR)算法图像超分辨率技术研究
  1. 双频环形电桥设计

  2. 光纤光栅原理与制作

  3. 药盒图像中文字分割算法的实现

  4. ADS软件雷达前端建模及系统仿真

  5. Ku波段卫星通信抛物面天线的设计

  6. g-C3N4光催化剂的制备和光催化性能研究

  7. 江苏省某高中学生体质现状的调查研究

  8. 高警觉工作人群的元情绪...

  9. 巴金《激流三部曲》高觉新的悲剧命运

  10. 浅析中国古代宗法制度

  11. 现代简约美式风格在室内家装中的运用

  12. NFC协议物理层的软件实现+文献综述

  13. 中国传统元素在游戏角色...

  14. C++最短路径算法研究和程序设计

  15. 上市公司股权结构对经营绩效的影响研究

  

About

优尔论文网手机版...

主页:http://www.youerw.com

关闭返回