百度统计与CNZZ

昨天将PHP导航PHP探秘的统计工具从CNZZ换成了百度统计。今天基本把百度统计的所有新功能都耍了一次。

3年前接触的第一款网站统计工具是CNZZ,刚开始用觉得很新奇,终于知道为什么很多网站的底部有个小方框在一动一动了。统计工具的功能很强大,发展到今天依然是站长必备的工具。另外统计工具也是大数据最直接的例子。除了帮站长统计网站流量,访客属性外。还能分析互联网走势,挖掘出更深层次的数据。比如哪种商品大家最关注,哪个行业失业率最高等等。这些数据都是能直接转化为Money的。

之所以弃CNZZ奔向百度,原因有3

  • CNZZ默认会调用3个js文件,百度统计只会调用一次,导致速度慢些。
  • 功能方面百度本身就是做搜索引擎的,提供了更多SEO相关功能。
  • 技术方面抛开硬件来谈,百度在大数据领域的经验肯定比CNZZ丰富。

CNZZ与百度统计对比的优势有哪些?

  • 界面交互做的非常好,哪怕第一次用CNZZ的人都不会陌生,上手快。百度这方面就不是很好,功能很乱。
  • CNZZ没有广告,而百度统计代码会弹广告(代码被劫持导致),曾经因为这个问题与百度统计官方交流过,他们的答复很水。所以曾经一段时间弃用了百度统计。

统计工具哪些技术难攻破?

  • 数据存储;
    通过js调用将抓到的网站访问信息存储至数据库中。这个步骤可以说是最难的。首先需要及时性,不可能因为要插入数据到数据库让网站延时1-2秒。其次是高并发,统计工具要存储的数据来自上百万的网站,拿CNZZ举例,CNZZ共5946776个网站需要统计,假如每个网站每毫秒有6byte*3人的数据写入,统计一下平均每秒钟有99.6G的数据存入数据库。如此高并发高及时性要求,要怎么克服?我猜测百度统计可能用的mongoDB或者其他非关系型数据库,mongoDB有个很形象的名号叫”离弦之箭”,简单的说就是你可以只关心存数据,不关心是否存成功,没有状态返回。所以数据来了直接扔给mongoDB,大大的提升了存储速度。导致的结果是有些数据会丢失,所以统计工具也并不能百分百统计正确。

  • 数据挖掘;
    这是一门很深的学问,比如今年的比基尼销量会与今年的粮食产量挂钩等等.一些看似无关的数据其实有关联。统计工具就是要通过这种方式去挖掘更深层的数据,给站长呈现。其中涉及多门学科比如计算机算法学,统计学,经济学,心理学等等。