网站所有页面离首页点击距离不能太远,最好在四五次点击之内。要被搜素引擎收录,页面需要有最基本的权重,良好的网站链接结构可以适当传递权重,使尽量多的页面达到收录门槛。
2.找到网页后能不能抓取页面内容
被发现的URL必须是可以被抓取的。数据库动态生成、带有过多参数的URL、SessionID,整个页面是Flash、框架结构(frame)、可疑的转向、大量复制内容等都可能使搜索引擎敬而远之。
某些文件站长可能不希望被收录,除了不链接到这些文件,更保险的方法足使用和bobots文件或meta robots标签禁止收录。
3.抓取页面后怎样提炼有用信息
关键词在页面重要位置的合理分布、重要标签的撰写、HTML代码精简、起码的兼容性等可以帮助搜索引擎理解页面内容,提取有用信息。这部分在之后的“页面优化”部分再深入讨论。
只有搜索引擎能顺利找到所有页面,抓取这些页面并提取出其中真正有相关性的内容,网站才可以被视为是搜索引擎友好的。
网上搜索引擎不友好的网站比比皆是,尤其是一些中小企业网站,不过这样的网站不太好举例,没得到网站主人的许可就当做负面案例讨论非常不恰当。在写本节时刚好在zaccode.com网站看到一个会员询问搜索引攀不收录他们的内页是怎么回事。笔者点击过去看了一下,不由得惊呼,这个网站简直是集搜索引攀不友好之大成,是个相当不错的反面教材。在得到网站所有人正式许可后,在这里作为例子简单介绍。
网站域名是llyez.com,南昌良良母婴用品有限公司,一个母婴保健及家居用品企业网站。应该说网站视觉设计还是不错的,然而从SEO角度看,简直就是个“杯具”。
除了页脚的联系地址、版权声明两行字外,页面其他部分就是一个大的Flash,源代码如下:
<!DOCTYPE htnl PUBLIC一//N3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtmll/DTD/xhtmll-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content"text/htm1; charset=utf-8"/>
<title>
南昌良良母婴用品有限公司官网——主营母婴用品 婴幼儿日用品 婴幼儿床上用品 婴儿枕头 尿垫 围嘴 睡袋 凉席
</title>
<link type="text/css" rel="stylesheet" href="stylesheet" href="…/styles/commonl.css"/>
<meta name-"Keywords" content="婴儿枕头,婴幼儿日用品,儿童枕头、保健枕头,婴儿凉席,圈嘴,尿垫,睡袋,宝宝睡眠”/>
<meta name-"Description" content=南昌良良母要用品有限公司生产的竺麻系列婴幼儿用品荣获国家多项专利,被誉为中国婴童保健用品专家。主营婴幼儿日用品、婴幼儿床上用品、婴幼儿枕头、儿童枕头,成人枕头,保健枕头等枕头软家居用品,还有婴儿围嘴、凉席、尿势、睡袋等婴幼儿日用品。"/>
<!--由中企动力科技集团股份有限公司南昌分公司技术部设计制作<br>如果您有任何意见或建议请电邮dm-nanchang@ce.net.cn-->
</head>
<body>
<div class="index-a">
<object classid="clsid:D27CDB6g-AE6D-llcf-9688-444553540000"
codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swfl
ash.cab#version=7,0,19,0" width="980" height="600">
<param name="movie" value="…/images/intro.swf"/>
<param name="quality" value="high"/>
<param name="wmode" value="transparent" />
<embed src="…/images/intro.swf" quality="high"
pluginspage="http://www.macromedia.com/go/getflashplayer"
type="application/x-shockwave-flash" Width="980" height="600"></embed>
</object>
<div>
<dlv align="center" style="padding-top:2Spx;">联系地址:江西省南昌南八一大道461号(省医学院内)医科所附三楼<br />
版权所有:南昌良良母奥用品有限公司 <a href="http://nanchang.ce.net.cn"
target="_blank">中企动力握供技术支持</a>|<a
href="http://www.miibeian.gov.cn/" target="_blank">ICP备05010033号</a><seript src="
http://s9.cnzz.com/stat.phpid=2047204&weh_id=2047204&show=pic1"
Language="JavaScript"></script></div>
</div>
</div>
</body>
</html>
搜索引擎蜘蛛访问首页后,完全没有任何一个链接能通向内页,倒是有指向网站设计服务商及备案网站的链接。搜素引擎既不能抓取和索引Flash中的文字内容。也不能跟踪链接爬到内页,如果不给内部页面直接造些外链的话,整个网站能被收录的基本上只有首页一个页面,其内容还不能被索引。
单击左侧婴儿保健用品链接((Flash中的链接)进入内页。
看起来设计不错。可惜的是,除了左下角的新闻中心部分,页面上的其他文字、图片还是一个大Flash,包括顶部的导航条。所以就算站长给这个婴儿用品页面造一些外链,收录又到此为止了。企业概况、商品中心、在线商城等重要部分的页面还是没有任何爬行通路。
左下角的新闻中心设计也有些奇怪.鼠标放上去时才显示链接,而民只显示了一半。
顶部导航依然是Flash,从新闻中心爬到产品页面也不可能了。另一个可怕的地方是URL,读者可以在抓图地址栏中看到一部分。下面是HTML代码的相应部分,读者可以看到完整的网址。
<a
href="/InfoContent/1d-b49e4b44-Sf38-413d-a0e2-bfc2edb7af2e&comp_ stats=
comp-Frontlnto_ listSyAsyncWithOUtAjax-123.htm1" title”良良第十一届京正·
北京孕婴童用品展览会" target="-blank">良良第十一届京正北…</a>
这种URL就算有外部链接,想被收录也难。
从婴儿用品首页单击商品中心来到其他页面。同样,导航还是Flash。值得欣慰的是左侧产品链接是普通HIML链接,不过单击任何一个产品都可以看到长长的URL。带有这么多参数的URL,被收录的可能性很低,除非是个权重非常高的网站。这些链接相应的HTML代码就不一一列举了。
对比首页、商品中心首页及产品页面标题,大家可以看到这个网站上除了新闻中心的几个页面之外,其他所有页面包括企业概况、商品中心、在线商城、在线调查等页面标题全都一样。
读者看到本书再去访问时。这个网站也许已经不是这个样子了。这是一个典型的搜索引擎不友好的企业网站。只考虑到视觉设计,完全没顾及到怎样被搜索引擎收录,怎样获得搜索流量。读者看完之后的章节,再回头看一通这个例子,会更了解这个网站为什么不搜索引擎友好,应该怎样改进。