我正在一个网站上工作,该网站将有数十亿个故事。各种格式的故事:文本,视频,照片和其他多媒体元素。故事可以在各种基础上过滤一些"新",显然将首先包含最新故事,"特色"故事,这些故事将以手动特征和"流行"标记,我需要为此提出算法。
到目前为止,我正在做的是平均使用Facebook喜欢,股票数量(包括Facebook,Twitter或任何其他股票)和视图数量。但这对我来说并不好。因为给所有三个指标的同等重量时代听起来并不是真正的原因,因为社交垃圾邮件等原因。
。期待一些非常好的算法来排名故事的普及。
----加法------
受欢迎程度算法仅基于"喜欢"讨论算法,而该算法基于对时间戳类别的结果进行分类:日,一周和一个月流行。尽管这几乎可以回答我的查询,但这并不是因为在那里假定了指标。我正在寻找一些具有真实解释的确切指标。例如" Facebook *2",并解释了Facebook的原因 *2。我希望我现在不复制!
我建议尝试使用回归算法。最广泛使用的是线性回归,但是如果该模型不合适 - 可以随意探索他人。
- 首先,确定每个故事的特征。您的功能是喜欢,推文,分享,视图,....我还会添加布尔指标(只能值为0或1的变量)对于每种类型(视频/照片/... :) .
- 接下来,创建一个训练场合 - 这是一组故事您(或其他人类专家)在哪里给出了得分。
- 现在,使用这些功能和训练集 - 使用一些回归创建最适合您必须使用的功能的算法您已经得分的示例。 1
- 有了模型 - 您可以使用它给所有其他分数文档。
关于垃圾邮件发送者检测 - 您可以尝试尝试障碍算法
(1)实际上,可以使用主动回归技术一起完成步骤2和第3步 - 在主动回归中,学习者(算法)询问您的示例,以使算法尽可能快地学习。从我的实验中,Palice是一个表现良好的主动回归算法。