Behavior Targeting 九月 5th, 2011
在营销领域,行为定向(BT)就是通过对用户行为的跟踪和分析来对其兴趣爱好,需求等特征进行判断,然后选择合适的营销信息来进行沟通。 (..更多内容)
人口统计学变量定位与行为定位最受定位广告购买者青睐 九月 5th, 2011
iResearch艾瑞咨询整理ValueClick Media关于定向广告使用情况的调研数据时发现:人口统计学变量定位和行为定向使用率很高,均达到了66%的水平,重定向和内容关联广告分别以54%和47%的使用率位居二三位,而心理学变量定位的使用情况较低,为28%。
艾瑞分析认为,定向方式的认可程度与其技术的成熟度直接相关,具体而言:1)人口统计学变量定向和行为定向作为两种实现简单的定向方式,有较高的目标受众达到率,容易受到广告购买者所青睐;2)重定向基于用户浏览行为历史记录的挖掘,内容关联广告依赖于对网页内容语义的挖掘,二者准确率较高,故使用率较高;3)心理学变量定向依赖于对访问用户心理特征的分析,受到心理学分析技术的限制,准确率尚有很大提升空间,故使用率较低也在情理之中。

广告投放与推荐系统 八月 17th, 2011
转自:http://www.douban.com/note/21761622/
从一个做推荐的人来说,他们做的主题广告推广(类似于google adsense在广告联盟里投放广告)的事情,我
倒有一些自己的想法。他们若是希望做一个针面向于终端用户的个性化广告投放,我们都觉得这不太现实,无论
是从数据量的庞大程度,还是用户数据获取的难度(这两个因素又会带来数据的稀疏问题)来说,这都不乐观。
相反,基于从寻找这个工作与豆瓣推荐系统的相似度来说,我觉得他们可以改变一下自己问题中“用户”这个对
象的代表身份。简单来说,就是豆瓣推荐面对的用户是实实在在的人,因为我们拥有这些登录用户很完备的兴趣
爱好的数据,所以能够得到比较令人满意的推荐;而百度主题推广的一个用户,应该定义为某一类型的页面
(下面称为页类),这样的“用户”百度才有可能存储足够量且可靠的数据,进行个性化的推荐(这里的个性化
推荐就演变为对页类进行有针对性的广告投放了)。至于怎么对海量的网页划分出不同的网页类型,这应该是他
们的强项(为了使得结果更有分众的效果,这样的网页类型可以有很多,因为推荐系统中的用户数量也很庞大)。 这样进行类比,每一个页类就对应于推荐系统的一个user,每一个广告就对应于推荐系统的一个item,页类对广
告的评分可以用在该页类中投放该广告时的点击情况来进行计算,这样就构成了通常推荐系统所必须的
user-item-rating的矩阵,接下来就可以自由运用经典或改进的各种协同过滤算法来对页类进行广告推荐
(投放),也即利用推荐系统的思想来解决这个广告投放的问题,而不是传统的基于上下文的方法。当然,实际
应用中会有一些问题,其中一部分来自于推荐系统自身的弊病,另一部分来自于推荐系统应用于广告投放这个新
领域会面对的新问题。前者如协同过滤面临的冷启动问题(新条目推荐需要额外考虑),后者如广告投放需要重
视的广告库存率等等。另外,这种思想并没有完全放弃文本的因素,实际上在进行页类划分时(可以认为是个
user identification过程),文本会是个主要的考虑因素,但在广告投放的决策过程里,文本相关可以被协
同过滤方法所取代,文本由一个决定性因素转变为一个预处理模块的因素。 不管如何,如果真能把推荐系统、协同过滤中利用群体智能的思想引入到在线广告投放领域,肯定是一件激动人心的事情。 另外从对分网络的角度来看,豆瓣推荐系统网络中的两类结点是用户和条目,但对于其它系统则未必如此,应该
根据实际的数据与需求情况合理地定义这两类相互发生关系的结点,使得网络中的稀疏性较小、结点间的关系比
较可靠,才能从这个关系网络中挖掘中令人满意的结果。 可惜的是对方对自己的技术与算法提及得太少,其实基本是没有什么提及,所以也没法进行更为深入和有效的探讨。
Boosting算法简介 八月 16th, 2011
Adaboost是一种比较有特点的算法,可以总结如下:
1)每次迭代改变的是样本的分布,而不是重复采样(reweight)
2)样本分布的改变取决于样本是否被正确分类
总是分类正确的样本权值低
总是分类错误的样本权值高(通常是边界附近的样本)
3)最终的结果是弱分类器的加权组合
权值表示该弱分类器的性能 (..更多内容)
Treelink算法介绍 八月 15th, 2011
那为什么要用多棵决策树,一棵决策树为什么不好呢?使用单棵决策树,最大的问题就是会因为过度分裂,而造成过拟合,失去泛化能力。试想一下,对于给定的一批训练数据,完全可以只构造一棵树,不断分裂下去,直到每个叶子节点包含的样本的目标值都一样,然后把这节点的预测值设定成这个目标值,这样构造出来的这棵树就可以在这批训练数据上达到100%的准确性。但这样一棵过度分裂的决策树,对于新的样本基本没有什么预测能力。而如果分裂太少,又会造成学习不够充分。Treelink使用多棵决策树正是希望能够在训练精度和泛化能力两个方面都能达到较好的效果。作为一种boosting算法,Treelink自然包含了boosting的思想:将一系列弱分类器组合起来,构成一个强分类器。 (..更多内容)
Mllib机器学习工具包在Hadoop上的使用 八月 15th, 2011
Hadoop是基于Java的数据计算平台,在我们公司得到了广泛应用。同样mllib也是我们算法组同学经常使用的一个机器学习工具包。但目前mllib工具包只提供了供C++程序调用的so链接库,没有可供java程序调用的jar包。由于这个需求有一定的普遍性,作者将mllib做了进一步封装,并通过jni的方式把其封装成了可供java程序调用的接口。
(..更多内容)
我对CTO的理解 八月 12th, 2011
1)错误都是自上而下
当事情出现混乱的时候,人们总是寻求寄托于Process的制定,很多的管理者,觉察到事情的失控,却不明白根源所在,总是想制定、发明很多的流程、考核 制度,通过强制、固化、硬推这些流程,来扭转局面,把底层的员工,当做贼来防范、看待,结果是错上加错,人心散乱,局面更加不可收拾。
一个简单的思维逻辑就是,衣服扣错的时候,一般都是扣第一个扣子的时候,而不是你发现扣错的那个扣子。
所以正确的思维顺序应当是:成事在人,先有人,后有process,后有流程、考核、制度,出现错误,肯定是人犯了错,再美好的3P(Plan、Process、Project), 如果没有合适的人才支撑、实施、贯彻执行,都是没有用的花架子。
(..更多内容)