运维开发网

机器学习 – Spark MLLib的Word2Vec余弦相似度大于1

运维开发网 https://www.qedev.com 2020-04-29 12:01 出处:网络 作者:运维开发网整理
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec 在word2vec的spark实现中,当迭代次数或数据分区大于1时,由于某种原因,余弦相似度大于1. 据我所知,余弦相似度应始终约为-1 <1. cos< 1.有谁知道为什么? 在word2vec的findSynonyms方法中,它不计算余弦相似度v
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec

在word2vec的spark实现中,当迭代次数或数据分区大于1时,由于某种原因,余弦相似度大于1.

据我所知,余弦相似度应始终约为-1 <1. cos< 1.有谁知道为什么?

在word2vec的findSynonyms方法中,它不计算余弦相似度v1·vi / | v1 | | vi |,而是计算v1·vi / | vi |,其中v1是查询词的向量,vi是候选词的向量. 这就是为什么这个价值有时超过1的原因. 只是为了找到更接近的单词,没有必要除以| v1 |因为它是不变的.

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消

关注公众号