Solr添加中文分词 | 徐顺的博客

Java

Java 强/软/弱/虚引用介绍 Java 虚拟机栈深度测试 SpringMVC 重定向 Java注解与拦截器实例(二) Java注解与拦截器实例(一) ArrayBlockingQueue 模拟Future模式数组复制性能比较 CentOS6.6 上安装MySQL5.6 Java容器ArrayList MySQL主从复制 windows环境中mysql忘记root密码的解决办法 ByteBuffer Solr添加中文分词 Windows7下安装Solr

Other

微信支付API的不一致性用户自动登陆微信公众号编译BOOST1.55.0 win7下查看被占用端口持续写作的重要性

NoSQL

MongoDB基本操作 Win7下安装MongoDB

Memcached

Memcached安装与调试 Memcached一致性哈希 Memcached Hash机制 Memcached线程分析 Memcached内存管理 Memcached源码结构 Memcached实战 Memcached简介

Tool

sublime text2 配置ctags sublime插件安装 Sublime Text 2 编辑Markdown

python

Scrapy架构 Scrapy抓取topit.me Scrapy 抓取图片 Scrapy Demo

Redis

Redis应用场景调试Redis 内存管理协议格式 Redis网络事件框架及Demo Redis数据结构 Redis 工作流程解析 Redis 笔记

Book

2017阅读书单 2015阅读书单 2014阅读书单

Hadoop

Hadoop 集群OS环境配置 CentOS使用Eclipse开发Hadoop应用程序 Hadoop HDFS 漫画 Hadoop 名字节点读写数据 Hadoop NameNode数据结构 Hadoop 数据节点之写数据 Hadoop 数据节点之读数据 Hadoop 流式接口 Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop FileSystem & ChecksumFileSystem Hadoop HDFS设计 Hadoop IPC原理 Hadoop 安装 Hadoop笔记大纲

Linux

Windows编译OpenSSL Mac下编译OpenSSL Linux core dump调试案例

Netty

Netty简介及Demo

标签

Solr 2

Solr添加中文分词 Windows7下安装Solr

安装 4

Hadoop 安装调试Redis Win7下安装MongoDB Windows7下安装Solr

生活 1

持续写作的重要性

NoSQL 2

MongoDB基本操作 Win7下安装MongoDB

sublime 3

sublime text2 配置ctags sublime插件安装 Sublime Text 2 编辑Markdown

内存管理 1

Memcached内存管理

多线程 1

Memcached线程分析

主从架构 1

Memcached线程分析

Hash 1

Memcached Hash机制

Slab 1

Memcached Hash机制

爬虫 4

Scrapy架构 Scrapy抓取topit.me Scrapy 抓取图片 Scrapy Demo

一致性哈希 1

Memcached一致性哈希

Redis 4

Redis应用场景协议格式 Redis 工作流程解析 Redis 笔记

事件处理 1

Redis网络事件框架及Demo

协议 4

Hadoop 名字节点读写数据 Hadoop 数据节点之写数据 Hadoop 流式接口协议格式

Linux 1

Linux core dump调试案例

源码 1

Hadoop 安装

Hadoop 10

Hadoop 集群OS环境配置 CentOS使用Eclipse开发Hadoop应用程序 Hadoop 名字节点读写数据 Hadoop 数据节点之写数据 Hadoop 数据节点之读数据 Hadoop 流式接口 Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop FileSystem & ChecksumFileSystem Hadoop IPC原理

RPC 3

Hadoop 远程过程调用接口 —— 客户端接口 Hadoop 远程过程调用接口-服务器间接口 Hadoop IPC原理

HDFS 2

Hadoop HDFS 漫画 Hadoop HDFS设计

FileSystem 1

Hadoop FileSystem & ChecksumFileSystem

Buffer 1

ByteBuffer

MySQL 3

CentOS6.6 上安装MySQL5.6 MySQL主从复制 windows环境中mysql忘记root密码的解决办法

C++ 1

编译BOOST1.55.0

Boost 1

编译BOOST1.55.0

Java 1

Java容器ArrayList

CentOS 1

CentOS6.6 上安装MySQL5.6

数组复制 1

数组复制性能比较

Future 1

模拟Future模式

Memcached 1

Memcached安装与调试

OpenSSL 2

Windows编译OpenSSL Mac下编译OpenSSL

ArrayBlockingQueue 1

ArrayBlockingQueue

注解，反射 2

Java注解与拦截器实例(二) Java注解与拦截器实例(一)

SpringMVC 1

SpringMVC 重定向

微信 1

用户自动登陆微信公众号

微信, 1

微信支付API的不一致性

微信支付 1

微信支付API的不一致性

JVM 1

Java 虚拟机栈深度测试

Netty 1

Netty简介及Demo

Solr添加中文分词

2013年07月24日

##mmseg4j分词 1 mmseg4j简介

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

2 下载mmseg4j.jar

从mmseg4j项目下载mmseg4j-1.9.1.zip(当前最新版，支持solr4.3.1)，解压，将dist目录下的mmseg4j-analysis/core/solr-1.9.1.jar拷贝至tomcat home/webapp/solr/WEB-INF/lib中

3 更新schema.xml

在solr.home目录/solr/collection1/conf目录下schema.xml文件中添加如下配置

<fieldType name="textComplex" class="solr.TextField" >
  <analyzer>
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" 
		mode="complex" dicPath="dic"/>
  </analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" >
  <analyzer>
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" 
		mode="max-word" dicPath="dic"/>
  </analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" >
  <analyzer>
	<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" 
		mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
  </analyzer>
</fieldType>

4 测试

重启tomcat，访问Solr Analysis, http://localhost:8080/solr/#/collection1/analysis , 即在solr主界面下方，collection1->Anaylysis 在Field Value(Index)中输入 (如何让你遇见我在我最美丽的时刻),FieldType选择(textComplex),结果如下

solr analysis