0

(转)lucene安装


网上有许多lucene的材料,中文材料大家看的都是车东的那篇(http://www.chedong.com/tech/.),而大家在网上讨论最多的是中文的全文检索,而对中文的全文检索最有影响力的文章,还是车东写的那篇weblucene(http://www.chedong.com/tech/weblucene.),但那些都是lucene1.2版本的事,现在不同了,1.3-final据称完全支持中文的全文检索了。
因为在lucene1.3-final.zip包中的changes.txt中的第五项描述如下:
5. Fix StandardTokenizer’s handling of CJK characters (Chinese,
 Japanese and Korean ideograms). Previously contiguous sequences
 were combined in a single token, which is not very useful. Now
 each ideogram generates a separate token, which is more useful.
这说明lucene1.3-final可以检索中日韩等表意文字了。

测试一下:
测试环境: 2000 pro,jdk1.3.1或以上版本
1、下载lucene-1.3-final.zip。

2、解压lucene-1.3-final.zip,并将其中的lucene-1.3-final.jar和lucene-demos-1.3-final.jar加入到系统的classpath中。

3、建一个目录,并将一些html或txt文件(文件内容要中文的!)拷入到这个目录中,作为全文检索的材料。如:建一个目录d:\lucenetest\index,在其中拷入一些中文内容的文件,其中也可以有多级子目录的。
OK,环境准备好了,可以试验了!

4、进入dos模式,输入命令: org.apache.lucene.demo.IndexFiles d:\lucenetest\index
如:c:\>java org.apache.lucene.demo.IndexFiles d:\lucenetest\index 回车,这时会索引d:\lucenetest\index目录下的所有文件,包括子目录中的文件,并将索引文件写入:c:\index目录中(自动创建的,根据你的dos符起始路径,将在其下建index目录)。
好,索引建完了,下面试验检索。

5、输入命令:java org.apache.lucene.demo.SearchFiles
如:c:\>java org.apache.lucene.demo.SearchFiles 回车
Query:在这里输入检索内容,如:“建议最好自己先做一下语法检查”,这么长:)
成功了,结果出来了:
Searching for: “建 议 最 好 自 己 先 做 一 下 语 法 检 查”
1 total matching documents
0. d:\lucenetest\index\学习Lucene的一点心得.txt
可以看出lucene-1.3-final完全支持中文的全文检索了,使用的是单字切分!!

Random Posts Recent Comments

  • 女友糖尿病害我蛀牙 Says:

    汗一个…...

  • Htj06 Says:

    zhenyouchuangyi...

  • 电商圈 Says:

    试图该怎么建立啊,,怎在程序中是吸纳...

  • edward Says:

    看得人心旷神怡,好文,情不自禁的顶一下...

  • Daniel Says:

    我也在处理这个问题,没有找到好的方法。我用了楼上兄弟的方法,还是可以的。不知道您找到好的方法了吗、我暂时楼上兄弟的方法。...

  • 卡,卡 Says:

    弱弱问一句:博主,你博客的模板这样设计pv高吗?...

  • 站长工具 Says:

    博主,兔年快乐!...

  • health Says:

    great post!!I hope I can read more in your website....

  • pdu Says:

    好博文,支持分享...

  • 站长工具 Says:

    博主的文章很不错,我是站长工具-站长精灵的作者,一款专业的SEO工具软件(可以帮您提高博客的流量),想跟您交换个链接,不知可否...

Tag Cloud

arm audio blog brew cache class debug flash google html j2me java javascript Joke linux lua mobile mtk php python ror ruby server shell stream unix web windows 优化 动态加载 女人 女生 平台 开发 手机 技术 流媒体 测试 漫画 生活 男人 男生 缓存 芯片