当前位置: 首页 > >

在Solr中配置和使用ansj分词

发布时间:

原文:http://www.cnblogs.com/likehua/p/4481219.html


在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr中、测试ansj分词效果。


一、下载或者编译ansj-seg和nlp-lang等jar包。


  ?1、您可以到?http://mvnrepository.com/artifact/org.ansj/ansj_seg?中下载相关jar包。(最简单的是直接引用maven地址)





org.ansj
ansj_seg
5.0.4

  ansj-seg相关jar包,如下图所示:




二、在solr schema.xml中配置好ansj字段类型。


  1、创建ansj类型。


    找到schema.xml,添加ansj类型text_ansj: 













org.ansj.solr.AnsjTokenizerFactory 是ansj-lucene插件。


2、配置好需要索引的字段:




三、在solr环境中配置好ansj。


  在编译好的ansj-seg、nlp-lang、ansj_lucene4_plug 放到solr war包的lib下。





配置ansj相关词库和配置文件,这些配置文件在ansj源码目录下:





四、测试ansj分词效果。


  ansj配置好了以后,把solr所在的tomcat启动一下。用solr管理页面查看效果:


  1、测试分词 "南京市长江大桥”






友情链接: 时尚网 总结汇报 幼儿教育 小学教育 初中学习资料网