Alpha 阶段进度报告 6——日志分析
转载
这两天做的东西还算不少,全是关于日志的,普通的查询没什么好提的,主要是分析搜索引擎的关键字,看看别人都是通过什么搜索引擎、什么关键字找到自己的,好在在以前公司干的时候弄了三四个月的访问日志,方便了很多。
Google 使用的是 UTF-8,百度就跟着学,连参数名都一样,GET 参数 ie 和 oe 代表输入/输出的编码,看到 ie=UTF-8 的话就需要转换一下,结果在转换上出了点问题,我一直以为需要一个额外的库来实现,查了一下没有合适的,而且关于这方面的文章都老的很,继续查下去才发现,原来 PHP 早就有了一个专用的函数库:iconv,可以任意在两种编码之间转换,实在是方便的很,以前偶尔见过可不知道是干什么的。结果加载的时候又出现问题:extensions 目录居然没有 php_iconv.dll!恰好昨天或者前天我刚升级 PHP 到 4.3.5,一查 4.3.4 的目录就有 php_iconv.dll!应该是 4.3.5 把这个文件落了,没想到 RC1 出了这么长时间,怎么还能犯这种低级错误?
另外说一下,原来 GD 显示中文字体就是要求 UTF-8 就可,以前一直以为这很难搞呢 -_-
再说一下日志表的格式,目前是这样:
[quote]
CREATE TABLE counter (
id int(10) unsigned NOT NULL auto_increment,
ip varchar(255) NOT NULL default '',
useragent varchar(255) NOT NULL default '',
request varchar(255) NOT NULL default '',
referer varchar(255) NOT NULL default '',
referer_host varchar(255) NOT NULL default '',
search varchar(255) NOT NULL default '',
date_a datetime NOT NULL default '0000-00-00 00:00:00',
PRIMARY KEY (id)
) TYPE=MyISAM COMMENT='计数器';
[/quote]
其中 referer_host 和 search 两个字段是昨天现加的,因为只看整个 referer 的 URL 实在是太乱,而日志分析的重头就在这里。search 字段保存搜索的关键词。估计以后还得再加字段,比方说再把 useragent 分离出来,主要是为了查看时的 group by
通过搜索引擎的访问量排名大致是 Google > 百度 > 3721 > 新浪 > 搜狐,其他的可以忽略不记了
另外还要有个功能是可以查看站内每个页面的进出情况(主要通过哪几个导航条进来的,同时看完该页面还会去看那些页面)
另外,目前的栏目分法也有些问题,以后要也要做大调整