执实拇蠖嗍强蒲性盒#寤⒈贝蟆⒅锌圃骸ⅰ”本┯镅匝г骸⒍贝笱АBM研究院、微软中国研究院等都有自己的研究队伍,而真正 专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部 分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于 更多的产品,还有很长一段路。第四节 基于词意的文本分析 基于词意的文本分析是指运用词意对文本内容进行分析,得到文本内容的重点要素。文本分析是一种词意的自学习技术,是与整个技术相结合的独特分词技术。 一、文本分析技术特点 由于词意库是自学习形成,因此不需要预先设置庞大的词典库,而且最重要的是;学习 是持续性的,系统对词意的理解会随着外界的变化而变化,并能不断增添新创词汇。 由于同一个词,对于不同的人,词意可能是不同的,因此可以根据每个用户的习惯形成自己的子词意库,可使用子词意库对文本进行二次分析,产生个性化结果。 系统的学习分为两种方式: 知识学习系统自动在互联网上进行,无特定目的地吸收网上各种信息,并对收集到的信息进行分析后作为知识保留,整个过程无需人工干预,可一天24 小时不间断地进行。 经验学习每一次用户的具体使用,其结果也将作为经验保留下来,并对知识学习的结果进行修正。 分词技术不追求 100%的准确,而讲究实用、快速,不依赖于庞大的词汇库或知识库, 因此可以做到不针对特定领域,可解决人名、地名、新出现的词汇等的分词,这些问题是传 统分词方法难以解决的,尤其是新词汇的分词,几乎是一个世界性的难题。 由于整个核心算法并非基于字、词典及语法,而是从模仿人类对语言文字的理解入手, 比如一个儿童并不懂得查字典和语法,但能够听懂别人说的话,因此对核心只要稍作修改便 能够用于英语及其它文字语言,就好象一个婴儿,你把他放到哪个国家,他就能学会当地的 语言。 二、文本分析应用 1、相关性搜索 相关性搜索是根据关键词的词意,与文章提取的重点要素进行比对,以此生成搜索结果,这将是真正基于内容分析的搜索结果,而并非仅仅是简单的全文检索。 比如在一篇计算机相关的文章中,可能计算机这个词出现得很少、甚至根本没有,而大量出现的可能是软件、硬件、程序、内存等词汇,也有可能在文章中不叫“计算机”而叫“电脑”,当使用“计算机”这个词汇进行检索时,系统可分析出从文章中提取的重点要素与“计算机”这个词是密切相关的,因此也会将其放入检索结果。 另外可以避免将错误结果放入,比如用“苹果”搜索,却把有关“苹果色素”的文章放在了搜索结果中,而“苹果”和“苹果色素”完全是两回事。 2、个性化搜索 根据用户爱好和习惯,自动搜索其所需要的内容。通过某种技术,可以从用户所浏览页面中分析出用户的爱好和习惯,进而在用户进入网站时自动将他最喜欢的内容呈现在他的眼前,而且这种分析也是持续性的,可以即时掌握用户习惯和爱好的变化。 个性化搜索最大的问题是用户嫌麻烦,不愿意用。而且习惯和爱好是发展变化的,这种变化一般是潜移默化的,用户自己也难以查觉而去修改所设置的关键词,即使查觉,也往往会忘记和懒得去修改。 3、其他应用 A。自动摘要由于使用了词意的理解,使得摘要的准确性大大提高,而且因为核心算法并非针对某个特定领域,所以应用的范围也是全领域的。 B。自动分类比如输入一个产品,电脑系统能够自动将其归到一个产品类录下面。这对搜索引擎、电子商务、供求信息等网站也是非常有用的,然而这也是一个世界性的难题。 目前一般都是采用人工来进行分类,比如搜狐就曾在网上发动大量的志愿者对其搜索引擎进行分类整理,但可想而知这样做在成本、效率、准确度等方面都难以满足要求。 C。 应用核心技术开发出其它特定功能的软件。
第五章 了解网站的搜索引擎表现
第一节 基础查询一、域名信息查询 域名归属:查看域名所有人、注册时间、到期时间等。 英文域名信息查询:whois 中文域名信息查询:cnnic 一般域名注册商网站也提供此类查询功能。 二、域名历史查询 有些没在使用也没有被注册的域名,可能是因为作弊被 Google 或者百度处罚过的。在注册新域名的时候,有必要留个心眼,以免捡了别人的垃圾。 domain…history。domaintools三、主机连接速度和 IP 地址查询 开始…运行…输入“cmd”进入命令行窗口。 输入ping timev,返回以下内容: Ping timev '61。141。5。50' with 32 bytes of Date: Reply from 61。141。5。50: bytes=32 time=282ms TTL=54 其中 61。141。5。50就是网站的IP 地址,time282ms 这个数值越小表明速度越快。 需要注意的是,这个数值仅仅反应相对的速度,比如今天是不是比昨天慢了好多。收到查询者和网站主机所处区域和运营商的限制,会有很大的差异。比如你是电信用户,查询网通的主机可能显示速度比较慢,但是网通用户查询起来就很正常。 可以让不同地区的朋友,特别是网站主要目标用户群体所在地区的朋友帮助你做一些测试,如果普遍反应很慢,就要考虑换主机服务商了。 四、同IP 网站查询 用来查询在和你的网站同一个 IP 地址上,还有哪些网站。这往往对于虚拟主机比较有用,你可以看看和你在同一个服务器上有哪些邻居,也可以看看这些邻居是不是都是些安分守己网站,如果发现其中有明显搜索引擎作弊的网站,就要引起注意了,因为你的网站有可能收到牵连。 查询地址:114best第二节 收录查询 一、是否被收录 直接在搜索引擎搜索域名。比如在百度搜索timev 浩维互动 首页 关于我们 服务内容 客户案例 知识库 浩维博客 联系方式 互联 网战略规划 网站诊断和网站策划 搜索引擎营销和优化 互联网开源计 划 行业解决方案 超越客户期望 互联网是增强企业竞争优势的资源,互 联网应用应该具有整体性和长期性,并应该融入。。。 timev/ 6K 2007…3…6 … 百度快照 这就说明网站已经被收录了。 如果显示下面的结果,说明网站还没有被收录。你可以直接访问:timev/ 百度建议你: # 如果网址正确,请点击上面的链接 # 如果你在寻找包含“timev/”的所有网页,请点击这里查询 需要注意的是,有时候你解析的域名是timev 而不是timev,那要查询解析的那个。 二、网页收录数量 一般可以通过在搜索引擎搜索框输入“site:”命令来查看某网站被搜索引擎收录的网页数量。 site:163 找到相关网页约40,400,000 篇。 查看网址中包含 163 的网页收录数,例如news。163、tech。163、bbs。163、 blog。163 开头的网页都会被统计在内。 site:163 找到相关网页 189 篇。 site:tech。163 找到相关网页约 1,480,000 篇。(以上数据来自2007 年3 月26日百度查询结果) 一般来说,网页收录数量反应了网站内容的丰富程度。对于一个网站来说,如果内容不断更新,网页收录数也会随之增加。 目前搜索引擎已经能够收录动态的网页。由于各个搜索引擎由于算法不一样,对同一个网站的网页收录数量会有所区别。如果某个网站的网页收录数量忽然大幅下跌,可能说明网站因为存在一些不符合搜索引擎要求的地方,被搜索引擎处罚了。 可以说,网页收录数是网站搜索引擎表现的一个晴雨表。 第三节 反向链接查询 前面的章节提到,搜索引擎会根据一个网站被其他网站链接的数量和质量来决定网站在搜索结果中的排名。 有的网站链接是网站主管理员动寻求、添加和交换的,而有的时候,别的网站会主动链接过来,一些包含网站链接的文章被转载或者发布在论坛、博客,都有可能带来意料之外的链接。 看看哪些网站链接了你,可以使用link 命令。 link:timev Google 和百度的外部链接查询查询的结果比较少,推荐使用Yahoo Site Explore 查询外链。 第四节 网页Rank 查询一、Google PageRank 查询 查询Google PageRank 可以通过Google 免费提供的浏览器工具条来实现。 在 toolbar。google 可以下载到中文版本的 Google工具条,并在设置选项中把“PageRank 和网页资料”勾选,当你访问一个网站的时候,如果改网页已经被Google 收录并评级别,工具条上PageRank 就会显示当前网页的PageRank 值了。 目前Google 的工具条不仅支持Internet Explore 浏览器,也支持Firefox 浏览器了。 二、Sogou Rank 查询 网页评级(Sogou Rank )是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关 系,同时考察了链接质量、链接之间的相关性等特性,是机器根据 Sogou Rank 算法自动计 算出来的,值从0 至 100 不等。网页评级越高,该网页在搜索中越容易被检索到。 Sogou Rank 评级范围从 0 到 100,同时显示链接情况,提供比Google Rank 更精细的优化参考。并且无需安装任何工具,即可查询到每个页面的评级。 第五节 关键词排名查询 如果你想了解某个关键词的搜索结果中自己网站的排名,最简单的办法就是直接到搜索引擎输入关键词。 如果你的网站表现不错,它可能排在前几位,第一页或者是前几页。 如果你连续翻了十多页还没有找到你的网站,而你仍然想看看你的网站在这个关键词搜索结果中到底落后到什么程度,就可以借助一些在线工具: timev/tools/keyword…rank。html 第六节 ALEXA 查询 一、什么是Alexa? 1996 年4 月,Alexa 在美国创立,那时它只是一个小网站,主要做分类导航。在那时候, 很多网站都是雅虎的Fans,Alexa 只是众多跟风者中的一员罢了。但Alexa自己也有一些技术,就是对访问某个Web 站点的流量进行统计和分析。后来,Alexa 还向网民提供自己开发的搜索引擎服务。 1997 年7 月,Alexa 发布了一款软件,就是现在著名的Alexa Toolbar (Alexa 工具条),这是一个嵌入到微软IE 浏览器中的工具,它在用户访问每个Web 页面时都向Alexa 发回一 串代码,将该次浏览的相关信息告诉 Alexa。而用户会在该工具条上看到其浏览的网站在全球所有网站中的排名信息,当然,这只是Alexa 给出的网站排名,就是我们通常所说的alexa排名。 Alexa 在自己的网站上说,从 1997 年 9月发布 Alexa Toolbar的第一个版本起,Alexa Toolbar已累计被下载了1000 多万次,现在全世界使用Alexa Toolbar 的用户已有上百万人。通过对搜集到的 Alexa Toolbar 用户的浏览信息进行分析,并综合页读数和到达用户数的数据,Alexa 顺势推出了自己的网站流量排名。不过这个排名很少被正规网站引用,与全世界近 6 亿互联网用户相比,即使真有上百万人使用 Alexa Toolbar,其样本的有效性仍然值得怀疑。Alexa自己也承认,“流量数据是基于Alexa 用户的设置,可能不是全球互