awstats统计结果中除去gb2312 sitehao123等关键字
该文章在车东的文章基础上修改而成
从上7月开始:我发现自己的AWStats统计中出现了gb2312、sitehao123、baidu、myie2dg这个关键词而且量很大:
gb2312 7955 27.1 %
sitehao123 1891 6.4 %
baidu 387 1.3 %
myie2dg 360 1.2 %
泡泡堂看电影 354 1.2 %
503316480 187 0.6 %
但无论从那个搜索引擎上搜,通过这几个关键词也找不到我的页面啊?检查了一下统计,gb2312从6月份的统计中就开始有了。仔细检查了一下apache的原始日志:从来源看,应该是来自百度的搜索结果页:
"http://www.
baidu.com/s?lm=0&si=&rn=10&ie=gb2312&ct=0&wd=silence22&pn=10&cl=3"
http://www.baidu.com
/baidu?align=left&width=520&leftmargin=5&cl=3&tn=baiducnnic&word=%BD%AD%CB%D5%BE%AD%BC%C3%CC%A8%C4%D0%C9%FA%CB%DE%C9%E1
http://www.baidu.c
om/s?wd=%BC%D2%BE%DF%BC%D7%C8%A9%D6%CE%C0%ED&lm=0&si=&rn=10&tn=9991com&ie=gb2312&ct=0&cl=3&f=1&rsp=3
http://www.baidu.co
m/s?tn=myie2dg&ie=gb2312&bs=baidu&sr=&z=&cl=3&f=8&wd=%CE%C0%C9%FA%BC%E4++%B4%F3%C3%C5+%B7%E7%CB%AE&ct=0
其中
tn是百度的合作网站代码
ie表示input encoding:表示输入字符串的字符集
ct不知道,大部分有ct的都是从image.baidu.com来得搜索
align=left表示是从搜索结果的左侧(右侧一般是竞价的关键词)
bs=baidu大概表示baidu search
而AWStats中有一个选项:
LevelForKeywordsDetection=2 # 0 disables Keyphrases/Keywords detection.
当设置为2的时候,会将来源网址中的所有参数进行遍历和自动识别,容易将一些其他参数的值当成关键词参数,这样的统计结果会丢失来源中实际的关键词。
解决方法:
除了修改awstats.pl代码外,awstats其实在search_engines.pm中有一个参数列表定义:专门用于过滤掉可能产生歧义的参数列表:WordsToCleanSearchUrl
@WordsToCleanSearchUrl= ('act=','annuaire=','btng=','cat=','categoria=','cfg=','cof=','cou=','count=','cp=','dd=','domain=','dt=','dw=','enc=','exec=','geo=','hc=','height=','hits=','hl=','hq=','hs=','id=','kl=','lang=','loc=','lr=','matchmode=','medor=','message=','meta=','mode=','order=','page=','par=','pays=','pg=','pos=','prg=','qc=','refer=','sa=','safe=','sc=','sort=','src=','start=','style=','stype=','sum=','tag=','temp=','theme=','type=','url=','user=','width=','what=','\\.x=','\\.y=','y=','look=');
将tn=、ie=、bs=、ct=、align=、加入到其中:
以后输出的参数中就不会有gb2312、sitehao123、baidu、myie2gd和tn=的值了。
以下是使用新WordsToCleanSearchUrl过滤参数的统计结果:
夏娃的诱惑续集 40 1.3 %
泡泡堂看电影 36 1.1 %
免费新电影 25 0.8 %
军歌嘹亮下载 16 0.5 %
该文章在车东的文章基础上修改而成
从上7月开始:我发现自己的AWStats统计中出现了gb2312、sitehao123、baidu、myie2dg这个关键词而且量很大:
gb2312 7955 27.1 %
sitehao123 1891 6.4 %
baidu 387 1.3 %
myie2dg 360 1.2 %
泡泡堂看电影 354 1.2 %
503316480 187 0.6 %
但无论从那个搜索引擎上搜,通过这几个关键词也找不到我的页面啊?检查了一下统计,gb2312从6月份的统计中就开始有了。仔细检查了一下apache的原始日志:从来源看,应该是来自百度的搜索结果页:
"http://www.
baidu.com/s?lm=0&si=&rn=10&ie=gb2312&ct=0&wd=silence22&pn=10&cl=3"
http://www.baidu.com
/baidu?align=left&width=520&leftmargin=5&cl=3&tn=baiducnnic&word=%BD%AD%CB%D5%BE%AD%BC%C3%CC%A8%C4%D0%C9%FA%CB%DE%C9%E1
http://www.baidu.c
om/s?wd=%BC%D2%BE%DF%BC%D7%C8%A9%D6%CE%C0%ED&lm=0&si=&rn=10&tn=9991com&ie=gb2312&ct=0&cl=3&f=1&rsp=3
http://www.baidu.co
m/s?tn=myie2dg&ie=gb2312&bs=baidu&sr=&z=&cl=3&f=8&wd=%CE%C0%C9%FA%BC%E4++%B4%F3%C3%C5+%B7%E7%CB%AE&ct=0
其中
tn是百度的合作网站代码
ie表示input encoding:表示输入字符串的字符集
ct不知道,大部分有ct的都是从image.baidu.com来得搜索
align=left表示是从搜索结果的左侧(右侧一般是竞价的关键词)
bs=baidu大概表示baidu search
而AWStats中有一个选项:
LevelForKeywordsDetection=2 # 0 disables Keyphrases/Keywords detection.
当设置为2的时候,会将来源网址中的所有参数进行遍历和自动识别,容易将一些其他参数的值当成关键词参数,这样的统计结果会丢失来源中实际的关键词。
解决方法:
除了修改awstats.pl代码外,awstats其实在search_engines.pm中有一个参数列表定义:专门用于过滤掉可能产生歧义的参数列表:WordsToCleanSearchUrl
@WordsToCleanSearchUrl= ('act=','annuaire=','btng=','cat=','categoria=','cfg=','cof=','cou=','count=','cp=','dd=','domain=','dt=','dw=','enc=','exec=','geo=','hc=','height=','hits=','hl=','hq=','hs=','id=','kl=','lang=','loc=','lr=','matchmode=','medor=','message=','meta=','mode=','order=','page=','par=','pays=','pg=','pos=','prg=','qc=','refer=','sa=','safe=','sc=','sort=','src=','start=','style=','stype=','sum=','tag=','temp=','theme=','type=','url=','user=','width=','what=','\\.x=','\\.y=','y=','look=');
将tn=、ie=、bs=、ct=、align=、加入到其中:
以后输出的参数中就不会有gb2312、sitehao123、baidu、myie2gd和tn=的值了。
以下是使用新WordsToCleanSearchUrl过滤参数的统计结果:
夏娃的诱惑续集 40 1.3 %
泡泡堂看电影 36 1.1 %
免费新电影 25 0.8 %
军歌嘹亮下载 16 0.5 %
linux sed 批量替换多个文件中的字符串
网站收录:如何尽快地让baidu、google等搜索引擎收录你的网站


2006/10/26 17:14 | by 