运维开发网

ruby – 用于查找文本主体AKA趋势主题中最常见短语的有效方法

运维开发网 https://www.qedev.com 2020-07-23 12:41 出处:网络 作者:运维开发网整理
我之前在这个主题上问了一个 similar question,我最终得到了几个有效的解决方案,一个基于bloom过滤器ngrams,另一个基于哈希表ngrams.两种解决方案都能很好地处理小数据集(< 1000文本,通常是推文),但计算时间呈指数增长,这意味着10,000次可能需要数小时. 我目前正在使用Ruby,也许,这就是问题,但是有没有其他解决方案或方法我可以尝试解决这个问题? 如果您希望在
我之前在这个主题上问了一个 similar question,我最终得到了几个有效的解决方案,一个基于bloom过滤器ngrams,另一个基于哈希表ngrams.两种解决方案都能很好地处理小数据集(< 1000文本,通常是推文),但计算时间呈指数增长,这意味着10,000次可能需要数小时. 我目前正在使用Ruby,也许,这就是问题,但是有没有其他解决方案或方法我可以尝试解决这个问题? 如果您希望在大型数据集中进行文本搜索,则可能需要查看类似solr的内容.有一个非常容易设置的solr gem叫做sunspot http://outoftime.github.com/sunspot/
0

精彩评论

暂无评论...
验证码 换一张
取 消