自然语言处理的工作原理是什么?
自然语言处理会通过多种不同方式工作。基于 AI 的 NLP 涉及使用 Machine Learning 算法和技巧来处理、理解和生成人类语言。基于规则的 NLP 涉及创建一个可用来分析和生成语言数据的规则或模式的集合。统计学 NLP 涉及使用从大型数据集中获得的统计模型来分析语言并做出语言方面的预测。混合 NLP 将上述三种方法结合到一起。
基于 AI 的 NLP 方法当今最为热门。与任何其他数据驱动型学习方法一样,开发 NLP 模型需要对文本数据进行预处理并精心选择学习算法。
第 1 步:数据预处理这是指清理并准备文本的过程,以便 NLP 算法能够对其进行分析。部分常见的数据预处理技巧包括文本挖掘(指使用大量文本并将文本拆分为数据)或词汇切分(指将文本拆分成单独的单元)。这些单独的单元可以是标点、单词或词组。停用词删除是一项工具,可移除对话中通常不太有助于分析的常用词和冠词。词干提取和词形还原会将单词拆分成其基本词根形式,以便更轻松地识别它们的意思。词性标注可识别一句话中的名词、动词、形容词和其他词性的词。语法分析会分析句子结构以及不同单词之间的关系。
第 2 步:算法开发这是向预处理数据应用 NLP 算法的过程。它会从文本中提取有用信息。下面是一些最常见的自然语言处理任务:
- 情感分析确定一段文本中的情绪基调或者情感。情感分析会将单词、词组和表达标注为积极、消极或中立。命名实体识别会识别命名实体并对其进行分类,例如人、位置、日期和组织。主题建模会将相似的单词和词组分组到一起,以识别一系列文档或文本的主要话题或主题。机器翻译会使用 Machine Learning 将文本自动从一种语言翻译成另一种语言。语言建模会预测特定上下文中单词序列的可能性。语言建模用于自动完成、自动更正应用程序,还用于语音转文本系统。
需要注意的两个 NLP 分支是自然语言理解 (NLU) 和 自然语言生成 (NLG)。NLU 专注于让计算机使用与人类所用工具类似的工具来理解人类语言。它的目的是让计算机理解人类语言的细微之处,包括上下文、意向、情感和模糊性。NLG 专注于基于数据库或规则集创建与人类语言类似的语言。NLG 的目标是生成可被人类轻松理解的文本。