有几万个不同的向量,数字都是1-100内的小正整数
[1,3,27,8,6,12,7,19....]
[4,23,27,18,6,12,7,23....]
[1,33,27,8,16,12,37,56....]
....
几万个
向量长度,就是逗号个数相同,每个都是4000
找出和输入向量,最相似的那个。
比如输入:
[10,3,2,7,18,6,2,7,9....]
相似度用向量夹角余弦值。q和d
请问如何设计一个二叉树,让搜索复杂度从O(N)降低到O(lgN)
数据请随机模拟即可。
降低到O(lgN)笔误,呵呵~~
kdTree似乎比较合适,但效率未必有这么乐观。可以先弄一个做测试,先看准确率,效率方面还可以通过简化向量里面的信息来提高效率。
那又回到C均值聚类核算法里了,要求出核在哪里,正头痛呢。
下周丢给算法小组去研究了,耗费我太多精力了。