程序员人生 网站导航

Atitit.软件按钮与仪表盘(13)--全文索引操作--db数据库子系统mssql2008

栏目:互联网时间:2014-11-15 04:37:40

Atitit.软件按钮与仪表盘(13)--全文索引操作--dbhttp://www.wfuyu.com/db/子系统mssql2008

 

全文索引操作

 

4.全文索引和like语句比较 1

 5.倒排索引 inverted index 1

2.SQL Server 2008全文检索 2

3.Lucene全文检索 3

1般情况,使用SQL Server中的全文索引,经过大体4个步骤: 4

Mssql2008的全文索引操作(attilax验证) 5

查看全文index使用大小 5

查看表行数与体积大小 6

参考 6

 

4.全文索引和like语句比较

固然是全文索引的履行效力高.

1般全文索引使用的是倒排索引,能够支持多关键字的索引,而LIKE只有前缀匹配时才能使用索引,否则就是全表扫描,效力固然很低

但全文索引存在填充问题,需要在增加内容落后行增量填充,否则检索不到新增的内容的。Sql Server 2008里可采取基于更改跟踪的填充, 速度飞快, 几近可以认为就是实时增量填充了.

 

作者::老哇的爪子Attilax艾龙,EMAIL:1466519819@qq.com

转载请注明来源: http://blog.csdn.net/attilax

 5.倒排索引 inverted index

为何Sql server全文检索和Lucune全文检索速度快呢, 由于它和大多数搜索引擎1样, 都使用了倒排索引 inverted index

 

2.SQL Server 2008全文检索

为了提高效力, 换用sql server的全文检索, 怎样建全文检索就此略去, 不提, 只看查询方法.

例如: select * from table where contains(ProductDesc, '*cad*')

它查询的效力很高, 支持中文分词(但好不好就另说了), 但缺点居然是在英文查询上, 如果想模糊查询带cad3个字母的数据, 它只能搜索出以cad为完全单词的数据, 例如: 它能查出abc cad , cad def, 或cad, 它不能查出autocad这类字母连在1起的数据, 也就是说, sql server的全文检索的英文分词是空格, 要想查连在1起的英文词, 它办不到, 得另寻第3方的全文索引了, ms如果在这里开个可扩大的口子多好, 惋惜了.

索引的更新填充问题: 创建好全文检索就自动来1次完全填充, 如果在跟踪更改处选择自动, 全文检索就会采取基于更改跟踪的填充, 原表数据1旦有改动, 就会从后台悄悄地传播过来, 自动的更新全文索引. 具体可参考http://msdn.microsoft.com/zh-cn/library/ms142575.aspx

在更新全文索引之前这段时间, 搜不到新录入但未收入全文索引的数据, 但like可查到. 虽然不是实时的, 但是经过测试, 我发现这个更新速度非常之快, 几近1改原表, 全文索引就更新了, 所以我觉得可以认为实时的, 估计sqlserver内部应当是用视察者模式实现这个功能的.

另外, contains包括的列都必须来自同1个表, 不能跨表, 例如where contains(a.ProductDesc, b.ProductName, '*cad*'), 这样是不行的.

 

3.Lucene全文检索

SQL server全文检索不灵了, 只能找第3方的方案了, 首当其冲的就是Lucene了, 但在.net下, Lucene却很不顺当. 

NLucene是将 Lucene 从 Java 移植到 .NET 的1个 SourceForge 项目,它从 Lucene 1.2 版本转化而来, 但2002年就停止更新了.

由于 NLucene 项目到2002年就没有再推出新的版本,可Lucene 却1直在发展,因而有人把Lucene 1.3版移植到.NET就成了Lucene .NET,但是Lucene .Net发展到2.0版的时候变成了商业化的产品,脱离了开源项目, 听说现在进了孵化器已停止开发了, 但上官网http://incubator.apache.org/lucene.net/download.html上看, 还依然在更新中似乎没有停止, 最新开源的版本是2.9.2, 发布日期是2011年5月6日, 他们还在准备2.9.4版. 

遭到Lucene.Net脱离开源项目的影响,有人为了继续发展开源.Net搜索引擎,因而在Lucene.Net的原有基础上继续发展该项目,但是名字改成了DotLucene以区分于Lucene.Net。但现在打开官网1看, 得, 又停止了. 看来, 只能用Lucene.Net2.0这最后1个开源版本了.

索引的更新填充问题: 也是要隔1段时间更新1次索引, 也是不可实时更新的, 需要定期更新填充才可以, 如果需要频繁更新推荐删除旧的然后重建索引.

1般情况,使用SQL Server中的全文索引,经过大体4个步骤:

  1). 安装full text search全文索引服务;

  2). 为数据表建立full text catalog全文索引目录;

  3). 进行full text catalog的population操作(使全文索引与数据表内容同步);

4). 使用全文索引进行查询。

 

Mssql2008的全文索引操作(attilax验证)

 1.启动SQL Full-text Filter Daemon Launcher (MSSQLSERVER) 服务

2.建设:::索引表格>>ritkey>>全文index>>创建fulltxt  或

Db>存储>>全文目录>新建全文目录

3..增加计划>>cpu 空闲的.....

4.   4. 使用索引功能:

select * from mybbs_Table where Contains(col2,'"windows"');

速度还凑火..

查看全文index使用大小

增加状态:::正在处理通知 ..表明目前等候插入....平常状态..

目录大小:::5g

查看表行数与体积大小

 

表格属性>>存储...>>>35G

参考

Lucene.Net, SQL Server 2008全文检索, Like模糊查询的1点心得 - BobLiu - 博客园.html

使用SQL Server中的全文索引_知识库_博客园.html

 

 

 

------分隔线----------------------------
------分隔线----------------------------

最新技术推荐