更多课程 选择中心

Java培训
美国上市教育机构

400-111-8989

Java培训

如何在java中去除中文文本的停用词

  • 发布:Java培训
  • 来源:Java教程
  • 时间:2020-02-09 17:11

1. 整体思路

第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

第二步:使用停用词表,去除分好的词中的停用词。

2. 中文文本分词环境配置

使用的HanLP-汉语言处理包进行中文文本分词。

·HanLP-汉语言处理包下载,可以去github上下载

·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。

·官方环境配置步骤也可以在github上查询到。

·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html

3. 下载停用词表

停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!

4. 去除停用词工具类

使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

5. 工具类测试

5.1 测试代码

public class test {

public static void main(String args[]) {

try {

System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));

} catch (IOException e) {

e.printStackTrace();

}

}

5.2 测试结果

预约申请免费试听课

填写下面表单即可预约申请免费试听!怕钱不够?可就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

上一篇:如果你打算在2020年学习Java,千万不能错过这几本书
下一篇:七点建议助您写出优雅的Java代码
JAVA多线程实现方式都有哪些?

JAVA多线程实现方式都有哪些?

对于网页设计规范你知道多少?

对于网页设计规范你知道多少?

两种Java容器类List和Set分析

两种Java容器类List和Set分析

七点建议助您写出优雅的Java代码

七点建议助您写出优雅的Java代码

选择城市和中心
贵州省

福建省

  • 达内厦门软件园中心
广西省

海南省