如何在java中去除中文文本的停用词
1. 整体思路
第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。
第二步:使用停用词表,去除分好的词中的停用词。
2. 中文文本分词环境配置
使用的HanLP-汉语言处理包进行中文文本分词。
·HanLP-汉语言处理包下载,可以去github上下载
·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。
·官方环境配置步骤也可以在github上查询到。
·环境配置好后,java使用HanLP进行中文分词文档如下:#/doc.html
3. 下载停用词表
停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!
4. 去除停用词工具类
使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。
5. 工具类测试
5.1 测试代码
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 测试结果
【免责声明】本文部分系转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,如涉及作品内容、版权和其它问题,请在30日内与我们联系,我们会予以重改或删除相关文章,以保证您的权益!
Java开发高端课程免费试学
大咖讲师+项目实战全面提升你的职场竞争力
- 海量实战教程
- 1V1答疑解惑
- 行业动态分析
- 大神学习路径图
相关推荐
更多2024-04-08
2024-04-02
达内就业喜报
更多>Java开班时间
-
北京 丨 2月26日
火速抢座 -
上海 丨 2月26日
火速抢座 -
广州 丨 2月26日
火速抢座 -
兰州 丨 2月26日
火速抢座 -
杭州 丨 2月26日
火速抢座 -
南京 丨 2月26日
火速抢座 -
沈阳 丨 2月26日
火速抢座 -
大连 丨 2月26日
火速抢座 -
长春 丨 2月26日
火速抢座 -
哈尔滨 丨 2月26日
火速抢座 -
济南 丨 2月26日
火速抢座 -
青岛 丨 2月26日
火速抢座 -
烟台 丨 2月26日
火速抢座 -
西安 丨 2月26日
火速抢座 -
天津 丨 2月26日
火速抢座 -
石家庄 丨 2月26日
火速抢座 -
保定 丨 2月26日
火速抢座 -
郑州 丨 2月26日
火速抢座 -
合肥 丨 2月26日
火速抢座 -
太原 丨 2月26日
火速抢座 -
苏州 丨 2月26日
火速抢座 -
武汉 丨 2月26日
火速抢座 -
成都 丨 2月26日
火速抢座 -
重庆 丨 2月26日
火速抢座 -
厦门 丨 2月26日
火速抢座 -
福州 丨 2月26日
火速抢座 -
珠海 丨 2月26日
火速抢座 -
南宁 丨 2月26日
火速抢座 -
东莞 丨 2月26日
火速抢座 -
贵阳 丨 2月26日
火速抢座 -
昆明 丨 2月26日
火速抢座 -
洛阳 丨 2月26日
火速抢座 -
临沂 丨 2月26日
火速抢座 -
潍坊 丨 2月26日
火速抢座 -
运城 丨 2月26日
火速抢座 -
呼和浩特丨2月26日
火速抢座 -
长沙 丨 2月26日
火速抢座 -
南昌 丨 2月26日
火速抢座 -
宁波 丨 2月26日
火速抢座 -
深圳 丨 2月26日
火速抢座 -
大庆 丨 2月26日
火速抢座