课程概述
一、课程优势
本课程有陈敬雷老师的清华大学出版社配套2020年10月新书《分布式机器学习实战》:
https://item.jd.com/12743009.html
购买后加助理微信chenjinglei88进读书会交流群!
二、课程简介
中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子”这句话就有好几种切分方法,但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各个自然语言处理和信息检索系统中。
下面我们就用Python和Java两种开发语言给大家分别讲一下原理和对应的源码实现。
三、额外福利
加助理微信chenjinglei88领取源代码,邀请进入技术大牛交流群,和陈敬雷老师及各位大佬一起探讨交流技术问题,同时额外免费领取相关干货精品课。
本课程有陈敬雷老师的清华大学出版社配套2020年10月新书《分布式机器学习实战》:
https://item.jd.com/12743009.html
购买后加助理微信chenjinglei88进读书会交流群!
二、课程简介
中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子”这句话就有好几种切分方法,但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各个自然语言处理和信息检索系统中。
下面我们就用Python和Java两种开发语言给大家分别讲一下原理和对应的源码实现。
三、额外福利
加助理微信chenjinglei88领取源代码,邀请进入技术大牛交流群,和陈敬雷老师及各位大佬一起探讨交流技术问题,同时额外免费领取相关干货精品课。