|
目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会首先对用户的输入进行分词,这样可以增加搜索结果的准确性,这是和 普通数据库搜索的不同点(普通的数据库搜索,只是简单的用 like %关键字%),然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息,显示的结果会包含网页的相关摘要。
中文搜索引擎相关的技术包含:网络蜘蛛,中文分词,索引库,网页摘要的提取,网页相似度,信息的分类。
1。网络蜘蛛 网络蛛蛛是指对浩瀚网络抓取信息的程序,他们往往是多线程,不分昼夜的抓取网络信息,同时要防止对某个站点抓取过快,导致信息提供方服务器过载。
网络蜘蛛的基本原理:先从一个起始页面(建议从yahoo中文目录或者dmoz中文目录)开始抓取,获取此页面内容,摘要,然后提取页面所有连接,蜘蛛接 着抓取这些连接,一直源源不断的抓取。这些只是基本原理,实际应用要复杂很多,你可以试着自己写一个蜘蛛,我曾经用PHP写过(PHP不能多线程,缺 陷。)
2。中文分词 中文分词一直是中文搜索引擎的关键点,中文不同英文,英文每个单词是用空格分开,而中文一个句子往往是一些词的连结,没有分割符,人可以很容易的看懂句子的意思,但是计算机很难开懂。
目前我了解的中文分词方法(据说有老外的不用词典的中文分词方法),几乎都是有自己的中文词典,分词时去词典匹配,达到分词目的,分词的好坏,和词典关系很大。你可以看我上篇文章,是用PHP写的中文分词方法。
目前很多高校语言学的硕士论文都写的这个
baidu用的自己开发分词方法,google用的第3方的分词方法。。
海量中文分词挺不错,不过是商业的。。
猎兔的中文分词方法也不错,不过是.so的,无法研究
3。索引库 搜索引擎都不会用已经成型的数据库系统,他们是自己开发的类似数据库功能的东西。 搜索引擎需要保存大量网页信息,快照,关键字索引(建议应该也保存网页的截图,我在研究中),所以数据量特别大。
4。网页摘要的提取
网页摘要是指对某个网页信息的总结(初中语文课,老师经常让总结文章的中心思想,就这个意思,我最怕老师提问让我总结,人总结都这么难,现在让计算机总结,天啦),搜索引擎搜索结果里,往往会有网页标题下面,会有些介绍,让搜索者很容易的发现此文章是不是想要的信息。
5。网页相似度
网上经常有很多内容一样的网站,比如说同一条新闻,各大门户网站都会发布,它们的新闻内容都是一样的。还有一些个人网站,尤其是偷别人网站资料的网站,和 别人网站搞的一模一样(我搞过,在此ps下自己),这样的网站毫无意义,搜索引擎会自动区分,降低其权值(baidu最狠,直接封站,我尝试过)。
目前我研究的计算网页相似度的几种方法如下: 1) 根据网页摘要来比较,如果多个网页摘要的md5值一样,证明这些网页有很高的相似性 2) 根据网页出现Google推广关键词GOOGLE优化google优化,按照词频排序,可以取N个词频高的,如果md5值一样,证明这些网页有很高的相似性。
google baidu 的新闻,是对此技术的应用。
目前很多高校的数据挖掘专业的研究生论文都写的这个
6。信息的自动分类
网络的信息实在是太庞大了,如何对其进行分类,是搜索引擎面临的难题。要让计算机对数据自动分类,先要对计算机程序进行培训,目前我正在研究中
爬狗做的不错。
以上是我个人对搜索引擎了解后的看法,均为柳志强原创,其中难免有认识不全面或者错误的,恳请各位同仁指正(别砸我就行)!
当搜索引擎的算法改变或者加强时,导致一些网站的某些关键字排名消失,一些管理员就说他们的网站消失了.实际上并非如此,在搜索引擎算法改变或加强时会引起一些页面丢失,或者是过滤、惩罚了某一些页面而不是整个网站。 如果是网站的所有页面都消失了(在google中可以直接搜索网站的URL可以得知),可能会是由以下原因造成的:
a.你的服务器在关键的时候出现了故障不能正常访问; b.你的网站存在robots.txt问题; c.由于采用不正当的优化手法,你的网站被搜索引擎从其索引中清除了;
如果只是一部分的页面关键字排名下降,或者很多页面的关键字排名都非常差。这就有可能是:
a.你在优化手法上出现不正当的行为被搜索引擎发现了; b.搜索引擎的算法发生了重大的改变; c.你做了一些违背搜索引擎新出的原则或者在算法改变前是允许的规则,现在已经是违规了,所以对你的网站进行一定的处罚;
下面是一些详细的原因:
1、从基本开始:你的服务器在近期是否发生了不能正常访问的现象呢? 服务器不能正常访问是导致排名下降的一个最为常见的因素,因此,你不须对你的网站进行任何的修改,只须管理好你的服务器,保证能正常访问,特别是在关键时候;
2、你是否用了robot.txt文件,如果是的话,那么你最近是否曾对其进行了修改,而导致产生了一些语法错误,从而阻止搜索引擎索引你的网站?
在robot.txt代码的错误或者是robot.txt放置位置错误会潜在很多不可预料的错误因素,如果你想搜索引擎收录你整个网站,你大可不必放置robot.txt文件,默认情况下搜索引擎是会收录你整个网站的。
3、你最近是否不断地对你的网站进行优化呢?内部修改可以引致的潜在错误包括: a.过多的优化某一关键字,例如修改title,meta以及<hx>等标签。 b.内部链接结构,特别是链接文本的改变;如果是出去优化的目的而修改链接结构及链接文本的话,一不小说就会陷入过滤陷阱,特别是滥用关键字,造成关键字密度过大。
4、你是否增加了一个域名转向呢?
有时候搜索引擎对重转向显得非常抗拒,假设重转向是为了优化的话,请使用301而不是302转向。如果重转向适当的话,这将是一个非常重要的工具。
5、你是否有一定数量的有意义链接呢?或者你的链接策略是“今天来,明天去”的呢?如果你使用这种策略的话或者会取得不错的效果。但是如果你加太多的链接 到你所建的小网站上,或者太多链接指向同一个URL。那么你极有机会受到搜索引擎的惩罚。由于搜索引擎的算法在不断的改进,以前适用的东西到了今天或者已 经不再适用了。
6、你是否与作弊的网站建立了链接呢?
7、是否是由于复制内容而受到处罚呢?一些例子如下: a.整个网站使用了同一个模板; b.使用了与其他网站相同的模板; c.你的竞争者镜像了你的网站; d.从一个旧的域名重定向到一个新的域名下。 e.过度依赖robot.txt来引导蜘蛛来收录你的网站;
8、是否使用了cloaking来欺骗搜索引擎了?
9、你的网站是否在某些大型网站上做广告,而最近已经把广告撤掉?
在某些大网站上做广告,特别是文本广告。这很有利于提高你网站的排名。一旦,链接去掉,排名自然也会随之而下降。
1、网页使用框架:框架内的内容通常不在搜索引擎抓取的范围之内。 2、图片太多,文本太少。 3、提交页面转向另一网站:搜索引擎可能完全跳过这个页面。 4、提交太过频繁:一个月内提交2次以上,很多搜索引擎就受不了,认为你在提交垃圾。 5、网站Google推广关键词GOOGLE优化google优化密度太大:不幸的是搜索引擎并没解释多高的密度是极限,一般认为100个字的描述中含有3-4个Google推广关键词GOOGLE优化google优化为最佳。 6、文本颜色跟背景色彩一样:搜索引擎认为你在堆砌Google推广关键词GOOGLE优化google优化欺骗它。 7、动态网页:网站的内容管理系统方便了网页更新,却给大部分搜索引擎带来麻烦,很多搜索引擎不收取动态页面,或只收取第一层页面,不会向下深入收 取。这时要考虑使用WEB服务器的重写(rewrite)技术,把动态页面的url映射成和静态页面url相似的格式,搜索引擎误以为是静态页面,就会收 取了。 8、网站转移服务器:搜索引擎通常只认IP地址,转换主机或域名时,IP/DNS地址发生改变,这时你要重新提交网站。 9、免费的网站空间:有的搜索引擎拒绝索引来自免费空间的网站,抱怨很多垃圾,质量差。 10、搜索引擎抓取时网站不在线:如果主机不稳定,就有可能出现这种情况。更糟糕的是,即使网站已经收录,重新抓取时发现不在线,还会将网站整个删除。 11、错误地阻挡了robots索引网站:有两种方法可能阻挡robots:主机服务器的根目录下有简单文本文件;网页中含某种META标签。 12、大量运用Flash、DHTML、cookies、javascript、Java制作或密码进入的网页,搜索引擎很难从这种页面中提取内容。 13、搜索引擎不能解析你的DNS:新域名注册后需要1-2天的时间才能生效,因此不要一注册了域名马上提交网站。 14、网站的链接广泛度太低:链接广泛度太低,搜索引擎难以找到你,这时要考虑把网站登录到知名分类目录,或多做几个友情链接。 15、服务器速度太慢:网络带宽小,网页下载速度太慢,或者网页太复杂,都可能导致搜索引擎还没搜到文本内容就暂停。 16、关键字问题:如果正文没有出现你的META标签中提到的关键字,搜索引擎可能以为是垃圾关键字。
收藏到:
|