1. 首页 > 笙耀百科 >

英文分词工具 分词工具包

您好,今天小天来为大家解答以上的问题。英文分词工具相信很多小伙伴还不知道,现在让我们一起来看看吧!

英文分词工具 分词工具包英文分词工具 分词工具包


1、其实市面上的分词工具很多,python的c++的都有,那为啥还要写分词呢,因为分词的很多方法可以套用到其他nlp基础任务中,比如命名实体识别、词性标注。

2、在中文中,最小单位首先是字,由字组成词,再由词组成句子,然后由句子组成段落,最后由段落组成文章。

3、尽管字是最小单位,但是文章的语义表达却是以词来划分的。

4、因此在中文的NLP中,我们首先要先做分词,中文不像英文,每一个单词就是一个词用空格划分好了,所以英文的分词简单,只需要按空格分割就行。

5、但是中文的词语是连在一起的,所以相对于英文会困难一些。

6、到目前为止,中文的分词主要有四种方法:1)基于规则的分词;2)基于概率统计的分词;3)混合分词(1+2);4)基于深度学习的分词。

7、下面就来介绍这四种分词:基于规则的分词有三种:正向最大匹配法,逆向最大匹配发,双向最大匹配发。

8、他们的基本思想都相同,都是通过维护一个词典,按字典中最长的词的长度在句子中枚举字符串域词典中的词逐一匹配,能在词典中找到则切分,不能则最长的长度减一再枚举匹配。

9、基于概率统计的分词的思想是:如果在已经建立的大规模语料库中,相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。

10、所以可以利用字与字相邻出现的频率来反应组成词的可靠度,统计预料中相邻共现的各个字的组合的频度,当组合频度高于莫一个临界值时,便可认为此字组可能会构成一个词语。

11、如采用google开源的bert模型来分词,还有lstm+crf等。

本文到这结束,希望上面文章对大家有所帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至836084111@qq.com 举报,一经查实,本站将立刻删除。

联系我们

工作日:9:30-18:30,节假日休息