ChatGPT自发布以来,赢得了业界青睐并引发了全球热议。作为人类科技史上消费者增长最快的人工智能应用程序,ChatGPT得益于自然语言处理技术的迅猛发展。自然语言处理是计算机科学领域与人工智能领域的重要研究方向,主要指利用人类交流所使用的语码与机器语码进行交互的技术,通过人为对机器语码的处理和深度训练,使得机器产生的自然语言可读并被人类理解和接受。人类语码不仅是人类交流的工具,也是人们思考、理解和表达的关键手段。人类语码的独特性在于复杂性和多样性,正是这种复杂性和多样性为自然语言处理提供了坚实的解释和认知依据。
奠定基础
人类语码为自然语言处理的发展奠定了基础。这主要体现于,人类语码在语音识别、语义分析、语法分析三个方面,为自然语言处理提供了认知机制和深层动因。
一是语音情感识别。人类语码可以为自然语言处理提供情感支撑。在交往过程中,人们会通过识别话语者的语音,对对方的情感状态进行判断,从而达到一定的社会目的。语音识别是自然语言处理的首要任务,通过语音信号处理和模式匹配识别,可以让机器自动识别并翻译为人类可以理解的语码,将语音转为文字从而应用于场景沟通。随着人工智能进入日常生活的各个方面,人们对自然语言处理提出了更高要求,希望它们能够具有感知人类情感、意图的能力。人类语码中的情感表达功能,可以为自然语言处理的语音情感识别提供支撑。这主要是对说话人的声学特征和韵律特征进行分析,提取独立说话人的语音特征和非独立说话人的语音特征,从而将富有表现力的情感加入传统的语音合成技术。语音情感识别技术集成到语音对话系统中,使计算机能够更加自然、和谐地实现人机对话和交流。
二是语义分析。人类语码为自然语言处理提供语义分析环境。语言是人类认识世界的工具,是人们交流思想的媒介,具有文化镜像、文化传承等功能。社会语言学认为,语义分析是一个言语活动过程,话语者运用自身的语码知识结合社会文化背景表达自己、理解对方,其中每一步都是双方相互协商的结果。计算机语义分析是人工智能的一个分支,涉及语言学、计算语言学、机器学习以及认知语言等多个学科,是一种自然语言处理技术。语义分析运用多种方法,以人类语码的功能为前提,学习与理解文本所表达的语义内容,帮助计算机理解文本中的语义,从而实现自然语言处理的目标。近年来,语义分析发展迅猛,在围棋对弈、自动驾驶、图像识别等多个领域取得了突破性进展。语义分析以人类语码为基础,将语言模型和机器学习算法相结合,从而更好地实现人机交互。
三是语法分析。人类语码为自然处理提供语法分析规则。语言是人类重要的交际工具,与思维密切相关,是思维的直接体现。语法是语码的结构和规则,人们把思想内容用单词、句子和一定的语法规则组成语言,进行思想交流与知识传递。因此,人类在理解语言时,需要考虑语法结构,并将其与语义和语用等方面进行关联。话语中隐含的语法暗含说话者的意图,从语法中推测意图有利于话语者对语篇的理解。自然语言处理中对文字信息的处理以人类语言的语法规则为基础,根据某种给定的形式文法对文本进行分析并确定语法结构。在此过程中,需要考虑到词性、词序句法关系、句法分析、词法分析等多个因素,以准确捕捉语法结构。语法分析将人类所关心的现实世界映射到计算机世界,促进自然语言处理的发展。
面临挑战
自然语言处理技术的发展与应用,是助推我国语言事业发展的重要力量之一。不过,自然语言处理在给人类社会带来巨大发展红利的同时,其不确定性也带来了诸多挑战。
一是自然语言处理会侵犯个人隐私。当我们使用社交媒体、搜索引擎、智能手机时,为提高语言理解和生成的精度,会产生大量数据。这些数据可能被用于训练自然语言处理模型,涉及个人信息、兴趣爱好、社交网络等。然而,这一过程可能会带来一系列安全隐患,如数据滥用、个人跟踪、服务器漏洞等,对用户的一些权益甚至安全造成损害。
二是自然语言处理会导致语言运用的歧视性。机器学习的任务重在基于大规模、带标注的数据训练。但是,由于训练数据的偏差,可能会无意识地让数据产生性别、文化等领域的偏见。比如,在招聘广告中使用偏向特定性别的语言,会导致性别歧视;在社交媒体中使用带有歧视性的语言,会引发不同群体间的冲突;在信息检索中对不同的用户产生不同的输出,也会导致群体偏见。
三是自然语言处理会影响人类语言的创造性。洪堡特(Wilhelm von Humboldt)认为,语言不是产品而是一种创造活动,语言是无垠的领域,即一切思维对象的总和,语言只有不断创新,社会才会不断进步。自然语言处理模型基于大规模的语料库训练,语料库包含大量常见表达和语言模式,以供计算机即时回应客户需求。由于自然语言处理的巨大优势,当前人们在遇到问题时往往会选择在网络上寻求帮助。过度依赖计算机可能限制人类语言的创新性,阻碍社会语言文明的进步。
积极应对
自然语言处理技术的广泛应用,产生了巨大的经济效益并为社会造福。但自然语言处理技术的普及,也带来了一些潜在风险。对此我们应积极应对。
一是推进自然语言处理技术创新。我国高度重视人工智能发展,为自然语言处理赋能时代发展指明了方向。人类语码活动具有创造性,自然语言处理技术创新要以人类语码为依托,在人类语码功能、特点的基础上,以创新驱动产业发展,从而提高自然语言处理核心竞争和综合服务能力,为相关产业发展提供有力支撑。
二是促进自然语言处理深度合作。海勒(Monica Heller)指出,人类语码在社会交往中起到重要的集成化作用,能够促进各研究领域的交流与合作。近年来,人类语码赋能自然语言处理技术不断成熟,极大推进了人工智能的发展。与此同时,自然语言处理也面临一些挑战。为解决数据处理带来的挑战,实现开放、健康、安全的数字处理生态模式,各领域应形成紧密的治理体系,共建包容共享的数据治理规则与理念,共创合作新局面。
人类语码赋能自然语言处理语音分析、语义分析、语法分析能力,为与自然语言处理的良性互动提供了强大支撑,推动了社会语言文明的发展。然而,自然语言处理面临诸多挑战,如侵犯个人隐私、导致人类语言歧视、阻碍人类语言创新等。因此,我们应不断加强自然语言数据保护,推进自然语言处理技术创新,密切各领域自然语言处理合作,不断深化人类语码赋能自然语码处理的进程。
(本文系国家社科基金一般项目“基于语码转换加工机制的双语能力提升路径研究”(21BYY100)阶段性成果)
(作者系苏州科技大学外国语学院副教授;苏州科技大学外国语学院硕士研究生)