复杂MapReduce查询与RavenDB



希望你能帮助我!

我正在收集推文,其中有一个created_at日期(datappublicacao)和一些hashtag。每条tweet都指向一个广播员(redeId)和一个节目(programaId)。我想在数据库中查询某段时间内使用最多的20个hashtag。

我必须映射每个标签,它是什么时候被使用的,以及它指向哪个广播公司和电视节目。

然后,我需要能够计算每个标签在特定时间段内的出现次数(我不知道如何)。

public class Tweet : IModelo
{
    public string Id { get; set; }
    public string RedeId { get; set; }
    public string ProgramaId { get; set; }
    public DateTime DataPublicacao { get; set; }
    public string Conteudo { get; set; }
    public string Aplicacao { get; set; }
    public Autor Autor { get; set; }
    public Twitter.Monitor.Dominio.Modelo.TweetJson.Geo LocalizacaoGeo { get; set; }
    public Twitter.Monitor.Dominio.Modelo.TweetJson.Place Localizacao { get; set; }
    public Twitter.Monitor.Dominio.Modelo.TweetJson.Entities Entidades { get; set; }
    public string Imagem { get; set; }
    public Autor Para_Usuario { get; set; }
    public string Retweet_Para_Status_Id { get; set; }
}

"实体"是标签、用户提及和url。

我尝试按广播公司、电视节目和文本对标签进行分组,并列出出现的日期。然后,我必须转换结果,这样我就可以计算在该时间段内出现的次数。

    public class EntityResult
    {
        public string hashtagText { get; set; }
        public string progId { get; set; }
        public string redeId { get; set; }
        public int listCount { get; set; }
    }
    public class HashtagsIndex : AbstractIndexCreationTask<Tweet, HashtagsIndex.ReduceResults>
    {
        public class ReduceResults
        {
            public string hashtagText { get; set; }
            public DateTime createdAt { get; set; }
            public string progId { get; set; }
            public string redeId { get; set; }
            public List<DateTime> datesList { get; set; }
        }
        public HashtagsIndex()
        {
            Map = tweets => from tweet in tweets
                            from hts in tweet.Entidades.hashtags
                            where tweet.Entidades != null
                            select new
                            {
                                createdAt = tweet.DataPublicacao,
                                progId = tweet.ProgramaId,
                                redeId = tweet.RedeId,
                                hashtagText = hts.text,
                                datesList = new List<DateTime>(new DateTime[] { tweet.DataPublicacao })
                            };
            Reduce = results => from result in results
                                group result by new { result.progId, result.redeId, result.hashtagText }
                                    into g
                                    select new
                                    {
                                        createdAt = DateTime.MinValue,
                                        progId = g.Key.progId,
                                        redeId = g.Key.redeId,
                                        hashtagText = g.Key.hashtagText,
                                        datesList = g.ToList().Select(t => t.createdAt).ToList()
                                    };
        }
    }

到目前为止我做的查询是:

                    var hashtags2 = session.Query<dynamic, HashtagsIndex>().Customize(t => t.TransformResults((query, results) =>
                        results.Cast<dynamic>().Select(g =>
                        {
                            Expression<Func<DateTime, bool>> exp = o => o >= dtInit && o <= dtEnd;
                            int count = g.Where(exp);
                            return new EntityResult
                            {
                                redeId = g.redeId,
                                progId = g.progId,
                                hashtagText = g.hashtagText,
                                listCount = count
                            };
                        }))).Take(20).ToList();

现在我需要OrderByDescending(t=>t.count),所以我不能取(20)个最常用的标签。

我该怎么做?

是否有可能在mapreduce进程之前过滤项?

map/reduce索引和其他索引一样。所有文档总是通过所有索引进行处理。所以当像你问的那样用"before"来表达时,答案显然是"no"。

但是我认为你只是对在索引期间过滤项感兴趣,这在映射中很容易做到:

Map = items => from item in items
               where item.foo == whatever  // this is how you filter
               select new
               {
                 // whatever you want to map
               }

该索引将处理所有文档,但是生成的索引将只包含与where子句中指定的过滤器匹配的项。

是否有可能随后按特征分组,如用户按年龄分组,然后按地区分组

分组在reduce步骤中完成。这就是map/reduce的全部内容。

我给你的建议(我并没有不尊重的意思)是,先走再跑。构建一个简单的原型或一组单元测试,并首先尝试基本的存储和检索。然后尝试基本的索引和查询。然后尝试一个简单的 map reduce,比如计算你所有的tweet。只有这样,你才能尝试与其他组进行预先映射/减少。如果你遇到了麻烦,你可以在这里发布代码寻求帮助。

有可能吗?

当然

。一切皆有可能。:)

相关内容

  • 没有找到相关文章

最新更新