下一本 | 人机交互迈入新时代!背后的伦理、法律隐忧不容忽视
图片来源:摄图网
编者按:
2023年3月5日,十四届全国人大一次会议开幕,科学技术部部长王志刚在会后的“部长通道”采访中提及人工智能的应用和未来发展。他谈道:“这次ChatGPT之所以受到关注,是因为它是一个大模型,基于大数据,计算力强,还有很好的计算方法。总的来说,AI领域是个大的方向,它的影响绝不在科技领域本身,还会涉及到在其他领域的转化应用,希望无论是中国企业,还是国外企业,都能在人工智能领域有更多好的成果,同时也注意科技伦理。”
(以下内容摘自《ChatGPT:AI革命》)
ChatGPT是由OpenAI公司研发的人工智能聊天机器人,和所有物种进化一样,ChatGPT的诞生简单而朴素,它是积累了无数自然语言技术的成果,甚至还采用了谷歌自己都要放弃的框架——Tranformer。ChatGPT的出现让计算机能够更加自然地与人类进行对话,这标志着人工智能技术在自然语言处理领域取得了革命性的突破,人机交互从此迈入了一个新的时代。
作为一项革命性的技术,ChatGPT在其推出之后短短2个月,注册用户就已经破亿,引起了大家对AI领域巨大的关注和讨论,那么ChatGPT到底是什么?它会给我们带来怎样的改变?又有哪些问题不容回避?
01
ChatGPT 为什么会“火”
ChatGPT“火”起来的原因之一在于它强大的核心技术功能以及越来越逼近人类自然语言的能力。随着自然语言处理技术的发展,ChatGPT的理解能力和回答逼真度也不断提高,使其成为一种非常有用的工具,对于商业和个人用户来说都具有很大的价值。
对于商业用户,金融公司已经开始利用ChatGPT来解决客户问题,同时还利用它来分析市场数据,提高风险管理能力。同样,电商公司也利用ChatGPT来处理客户请求,提高客户满意度。还有一些技术公司利用ChatGPT来创建聊天机器人和自然语言处理应用,帮助他们的客户解决诸多问题。
对于个人用户,ChatGPT可以作为一种便捷的智能助手,帮助他们完成日常任务和信息查询。例如,个人用户可以使用ChatGPT来回答并提供建议和解决他们的问题。
下面通过几组数据来告诉大家ChatGPT目前到底有多“火”。
1.用户数
瑞士银行巨头瑞银集团的一份报告显示,在推出两个月后的2023年1月底,ChatGPT的活跃用户就已突破1亿,成为用户增长速度最快的消费级应用程序。对比下来,根据Sensor Tower的数据,达到1亿用户,TikTok用了9个月,Instagram用了2年半,WhatsApp用了3年半,Facebook用了4年半,Twitter用了5年,iTunes用了6年半。
该报告援引分析公司Similarweb的数据表明,2023年1月期间,ChatGPT平均每天大约有1300万独立访客,这一数据是2022年12月的两倍多。
2.百度指数
百度作为国内使用最多的搜索引擎,百度指数通常被用来分析用户通过百度搜索的关键词频率与热度。下页两图所示分别为关键词“ChatGPT”在百度指数中的搜索指数和资讯指数,这个大数据的结论还是比较准确的。
图片来源:《ChatGPT:AI革命》
3.微信指数
微信作为国内使用频率最高的一款手机应用软件,可以侧面反映大家对某种事物的关注度。通过微信指数可以看到,ChatGPT的热度在2023年2月4日上升了一个很大台阶,而在2月6日~7日呈持续上升的趋势,如下图所示。
图片来源:《ChatGPT:AI革命》
02
ChatGPT的商业模式
2023年2月2日,OpenAI发布ChatGPT试点订阅计划ChatGPT Plus,每月20美元,如下图所示。
图片来源:《ChatGPT:AI革命》
免费账户和收费账户的具体差别如下图所示。
图片来源:《ChatGPT:AI革命》
但是就笔者而言,ChatGPT在OpenAI的商业版图中仅仅是一个引流工具,其背后更大的商业契机是OpenAI API的大力推广和使用。无论是我们谈到的智能客服机器人,还是智能写作平台(软件),这些应用级的企业和厂家如果没有自己的模型、算力、存储等数字基建,那么都将无一例外地需要使用OpenAI的API。所以无论企业怎么炒作自己的产品,我们都要有一个很明确的认知 :一个成熟而领先的模型需要经过大量语料数据的训练,由此,大算力的消耗、大数据的存储这些数字基建工作绝对不是短时间可以完成的。
就目前来说,OpenAI API开放的免费试用接口单次所能返回字符数只能在4000个token之内,这就极大地限制了长文档的翻译和写作。如果把长文档变为短文档再一段一段拼接起来,那么上下文关联就完全丢失了。而收费用户能突破4000个token的限制,从而获得更长、更详细的翻译和文本生成(不同的账户级别有不同的请求限制,包括最大生成长度),而且OpenAI公司提供了不同的语言模型供用户购买选择。
对于ChatGPT的商业模式,未来更多的应该是开放其背后各种模型的API让大家使用。
如果要在未来的商业世界中占有一席之地,对于大多数中小企业和创业型企业来说就是利用 OpenAI(或者其他企业)的接口和自己手里的数据形成一个小领域的优势,这可能就属于一个“多快好省干创业”的好机会。除了上一个话题中提到的OpenAI公司已经做好的一些示例接口以外,还可以使用微调训练(Fine-tune training),这就相当于为自己的应用程序定制模型,因为OpenAI的模型已经通过互联网上的大量文本进行了预训练,所以用户只需要用自己的数据让模型进行“少量学习”即可达到好的结果。
通过使用微调可从 OpenAI 提供的模型中获得更多收益:比即时设计更高质量的结果、能够训练更多案例、节约更多成本、缩短延迟时间。
目前OpenAI可供使用的微调模型只有davinci、curie、babbage和ada。虽然这些基础模型在各种自然语言处理任务方面表现出色,但是微调这些模型时,使用更高质量的训练数据确实可以有效提高微调效果,增强模型的泛化能力。例如,在进行文本分类任务时,使用更多、更准确的标注数据可以提高模型的分类精度;在进行对话生成任务时,使用更多真实对话数据可以提高模型的自然度和准确性。
此外,还有一些其他的技术可以帮助提高模型的微调效果,例如调整模型的超参数、使用更好的优化算法、增加模型的深度和宽度等。这些技术都可以帮助提高模型的泛化能力,使其在真实世界的应用中表现更好。
03
AIGC背后的伦理、道德与法律隐忧
AI生成的内容算抄袭吗?
以ChatGPT为例,它给出的回答是由AI模型根据原始训练数据和用户的提示生成的,既不是人工编写的,也不是对原始训练数据的机械式复制,而是原始训练数据的某种组合。ChatGPT本身并不会有意识地去抄袭或借鉴他人的作品。
但是,ChatGPT的组合结果会有一定的概率与原始训练数据的某一部分非常相似。如果这部分数据恰好来自有版权的作品,ChatGPT并不会给出提示,那么用户在自己的作品中直接使用ChatGPT给出的回答,就有可能因内容过度相似而面临抄袭他人作品的风险。
实际上,工作原理与ChatGPT类似的所有预训练模型生成的内容都有可能出现上述的“抄袭”问题。
使用AIGC时如何尽量避免侵权?
前面提到了AI生成的内容可能存在“过度相似”的问题,下面介绍几个可以有效避免侵权的小技巧。
提出独特的问题:向AI询问没有在公共领域中提到过的问题,可以在一定程度上降低AI“抄袭”他人作品的概率。
避免直接引用:除非获得了明确的许可,不要直接引用AI生成的文本或图像。
提出概括性问题:概括性问题主要是指那些可以泛泛而谈的问题,通常涉及抽象的概念、现象或原则,如“什么是真理”或“什么是幸福”等。这类问题可以从多个不同的角度来回答,所以没有明确的、唯一的答案。
AI生成了错误的信息需要承担责任吗?
作为一个计算机程序,AI没有自主意识,因而没有承担责任的能力。以ChatGPT为例,它的设计目的是尽可能准确地回答用户的询问,但不能保证回答是100%准确和可靠的。图书和论文的作者通常应对其作品的观点和内容负责,但AI工具显然无法承担内容谬误或造假的责任,这也是目前大多数学术期刊和出版商不同意把AI工具列为署名作者的原因之一。因此,在作品中使用AIGC之前,应对其进行充分的评估和核实。
使用AI工具时如何保护信息安全?
以ChatGPT为代表的生成式AI工具通常都需要输入大量数据进行预训练,而这些数据中有可能存在未获授权的个人信息或保密信息。例如,OpenAI公司在训练ChatGPT时就从互联网上抓取了大量书籍、文章、网站和帖子,其中就可能包含个人用户在评价商品或回复帖子时无意中透露的个人信息。
此外,虽然大多数提供AI工具的公司都声称不会专门收集或存储用户的个人信息,但在使用AI工具的过程中,用户的对话内容会被纳入训练数据,这样才能让AI工具越来越“善解人意”。因此,用户的对话内容也存在被泄露和滥用的风险。
综上所述,在使用AI工具时要注意保护信息安全,不要向AI工具透露个人隐私、具有商业价值的专业内容或其他涉密内容。
《ChatGPT:AI革命》
作者:刘琼(编著)
出版方:华龄出版社/颉腾文化
出版日期:2023年2月
扫码深度了解ChatGPT
微信扫码关注该文公众号作者