小贝子编程

图的R -哈希:文件指纹

本文关键字：文件指纹哈希图的 hash text-mining fingerprinting
更新时间 : 2023-08-26
英文 : r - hashes of ngrams: document fingerprinting

我正在尝试在r中实现文档指纹的筛选算法。

这里参考http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf

我的问题:

如何得到n-gram的哈希值以及如何选择这些

nGrams <- c("adoru", "dorun", "orunr", "runru", "unrun", "nrunr" ,"runru",
  "unrun","nruna", "runad", "unado", "nador", "adoru", "dorun", "orunr" ,"runru" ,
  "unrun")

似乎

library(digest)
v <- sapply(nGrams,digest,algo="crc32")
uv <- unique(v)
(as.integer(as.hexmode(uv))-1) %% 4 == 0

将是一个很好的开始。(CRC32总是奇数，所以必须减去1)

最新更新

discord bot分片，并从数组结果中处理对象
python patoolib可执行文件句柄无效
测试时间序列数据中未戳的分钟数
如何在cloud Foundry的内部域中(apps.internal)为运行的应用创建用户提供的服务
在Jupyter Notebook中显示未显示在if-else块内的HTML类
如何控制可变的输入量- React
从json文件中创建gcloud配置
为用户代理(即操作系统)设置值的自定义代码
当我在c++中使用类中的类时得到警告
ImageMagik图片渲染不正常，白色方块布满图片
崩溃时，解构boost io_service
None typeobject in success_url django
在amazon eks kubernetics环境之外运行的Ignite厚客户端是否有可能访问amazon eks ku
Jest (ESM)在单元测试中会从React Native加载文件
Optimize Spark Shuffle Multi Join
如何把不同的图像和重定向用户到ListView Builder的其他页面?
在Thingsboard k8s部署版本，我怎么能改变' JWT_TOKEN_EXPIRATION_TIME ' ?&l
生成可变分钟间隔
如何将动画添加到可编写脚本的对象?
是春季安全ACL应该是可用的WebSecurityExpressionHandler?
在python中处理全局变量
Cypress:代码进入无限循环，当满足条件时无法打破循环
如何在Django中使用本地SQLite3数据库进行测试和MSSQL数据库进行生产?
绘制没有插值的动画
Javascript动画只占屏幕的一半
Ansible - 模板字符串时列出比较问题：预期的令牌"："，'}'
()->() 不能符合形状样式
Oracle SYSDATE - 1/8是什么意思?
使用c#上传xml文件到Azure FTP文件夹
在多个钱包之间分配铸造资金 solana metaplex & candymachine

图的R -哈希:文件指纹

相关内容

最新更新

热门标签：