内容简介:自然语言处理技术有标记化、删除停止词、提取主干、单词嵌入、词频-逆文档频率、主题建模、情感分析。1、标记化(Tokenization)标记化指的是将文本切分为句子或单词,在此过程中,我们也会丢弃标点符号及多余的符号。这个步骤并非看起来那么简单。举个例子:纽约(New York)一词被拆成了两个标记,...
用户评论
热门文章