宠物猫

人工智能检测的猫捉老鼠游戏难分高下写作将进入人机协作的半人马时代

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:随着生成式人工智能的爆火,催生出各种应用。有人利用它来帮写作,判断家庭作业是否学生自己写的成为了老师头疼的问题。检测文字是否为人工智能生成的工具于是应运而生。但道高一尺魔高一丈,规避检测的工具也接踵而至。这就像一场猫捉老鼠的游戏,双方在互相对抗中不断升级。实践表明,没有误报和漏报的检测工具几乎是不可能的。可以预见的是,人工智能写作已无法阻止,未来写作将进入人机协作的半人马时代。文章来自编译。

阿尔法一代(Gen Alpha) 正在迅速开发识别人工智能生成的文本的工具,以及逃避这种检测的工具,猫捉老鼠的游戏正在上演。

Edward Tian不觉得自己是一位作者。作为普林斯顿大学计算机科学专业的学生,他修过几门新闻课程,从中学习了报道的基础知识,他开朗的性格与修补匠般的好奇心让他深受老师和同学的喜爱。但他形容自己那时候的写作风格“非常糟糕”——非常的公式化且十分的笨拙。一位新闻学教授说他擅长“模式识别”,这对制作新闻文案很有帮助。所以当Tian在大二那年获得了人数有限定的约翰·麦克菲(John McPhee)非小说类写作研讨会的邀请时,他感到很惊讶。

每周,16 名学生都会聚集在一起,聆听这位传奇的《纽约客》作家剖析自己的创作技艺。麦克菲布置的练习迫使他们认真思考自己的遣词造句:描述校园里的一件现代艺术作品,或者删减葛底斯堡演说的长度。麦克菲用投影仪和幻灯片分享了自己手绘的图表,展示了他建构自己文章的不同方式:直线、三角形、螺旋形。Tian记得,麦克菲说他没法告诉学生该如何写作,但至少可以帮助他们找到自己的独特声音。

如果说麦克菲唤起了Tian一种浪漫的语言观的话,那么计算机科学则为他提供了一个不同的视角:语言即统计。疫情期间,他曾在 BBC 工作过一年,并在开源新闻项目 Bellingcat 实习,在那里他编写了检测 Twitter 机器人的代码。大三时,他学习了机器学习与自然语言处理的课程。 2022 年秋,他开始撰写关于检测人工智能生成文本与人类书写文本之间差异的毕业论文。

当 ChatGPT 在2022年 11 月首次亮相时,Tian 发现自己处在一个不同寻常的境地。尽管当时全世界在这个全新的、经过彻底改进的聊天机器人面前失去理智,但Tian 早已熟悉了底层的 GPT-3 技术机制。作为一名致力于根除虚假信息活动的记者,他知道人工智能生成的内容对这个行业的影响。

回多伦多过寒假时,Tian 开始编写一个新程序:ChatGPT 检测器。他泡在自己最喜欢的咖啡馆里,喝着茶,然后在卧室里熬夜敲代码。他的想法很简单。这个软件会扫描文本,寻找两个因素:一是“困惑度”,也就是词语选择的随机性;二是“突发性”,也就是句子的复杂性或变化情况。人类写手这两个指标的评分往往高于人工智能写手,据此 Tian 能够猜测出文本是怎么写出来的。Tian把这个工具命名为“ GPTZero” ——“零”代表真理,回归到原点——今年 1 月 2 日晚,这款工具上线了。他在 Twitter 上发布了相关链接,并进行了简短介绍。他写道,工具的目标是打击“日益严重的人工智能抄袭行为。高中老师会希望学生用 ChatGPT 来写历史论文吗?也许不会。”然后他就睡觉去了。

第二天早上,一觉醒来的Tian看到帖子有数百条转发和回复。托管服务器的流量也爆了,很多用户都没法访问。Tian说: “这实在太疯狂了。我的手机都要爆了。”一位朋友祝贺他在网上火了。 TikTok 上的年轻人称他为缉毒。 Tian笑着说:“刚开始很多的仇恨言论大概是,‘这孩子是个告密者,他的人生毁了,他会找不到女朋友的。都是老一套。” (田有个女朋友。)几天之内,世界各地的记者都找到他,他的名字最后出现在从 NPR 到《》乃至于 Anderson Cooper 360 的各种媒体上。一周之内,他的那条推文的浏览量就已超过了 700 万。

ChatGPT 让整个行业陷入歇斯底里,导致人工智能生成的引言泛滥,但GPTZero的出现让媒体的叙事有了的视角。 (2019年的时候研究人员曾开发过一个针对 GPT-2 文本的检测器,但 Tian 的检测器是第一个针对 ChatGPT 的检测器。)教师们感谢 Tian 的工作,感谢他们终于可以证明自己对学生论文的猜疑是有道理的。人类是不是在机器人的接管当中找到了救世主呢?

Tian的程序可以说是一记发令枪。现在,开发出权威的人工智能检测工具的竞赛已经开始。其想法是,在一个人工智能生成内容日益渗透的世界里,我们需要区分哪些内容是机器编造的,哪些是人造的。 GPTZero代表了一种希望,也就是这确实是可以分辨的,并且坚信这种差异很重要。在接受媒体采访时,微笑、真诚、身为典型优等生代表的Tian详细阐述了一个令人宽慰的观点,那就是不管生成式人工智能工具发展到多复杂的程度,我们总能揭开它们的面纱。Tian说,人类的写作有某种不可约的特质:“它有一种永远无法用数字表示的元素。”

互联网的生活一直是检测者与造假者之间的战斗,双方都从这场冲突中获利。早期的垃圾邮件过滤器会筛选电子邮件中的关键字,阻止包含“免费!”或“超过 21 岁”等字眼的邮件,并最终学会了过滤掉不同的写作风格。垃圾邮件发送者的回应是,从旧书上摘录一些听起来像人话的片段,然后跟垃圾内容混在一起。 (这种被所谓的“ litspam ”本身就成了一种流派。)随着搜索引擎变得越来越流行,希望提高网页排名的创作者诉诸与“关键词填充”——也就是一遍又一遍地重复同一个词——从而占据优先位置。而搜索引擎则通过降低此类网站的排名来反击。在谷歌推出 PageRank 算法(该算法有利于拥有大量入站链接的网站)之后,垃圾邮件发送者则建立了一整个相互支持网页的生态体系。

到了世纪之交,验证码工具出现了,它可以基于人类具有解读扭曲文本图像的能力将人类与机器人区分开来。一旦部分机器人能够处理这个问题之后,验证码就会增加其他的检测方法,包括解析摩托车与火车的图像,以及感应鼠标移动模式与其他用户行为等。 (最近GPT-4 的早期版本在一次测试中已经展现了一定的能力,它跑到Taskrabbit上雇了一个人来替它完成验证码任务。)甚至一家公司的命运都要取决于找出假冒的:埃隆·马斯克当初为了反悔收购 Twitter 的交易,就借用了机器人检测工具来支持他的观点,即 Twitter 没有如实陈述其网站上的机器人数量。

生成式人工智能再次让这方面的赌注加大。虽然大语言模型与文本生成图像工具在过去十年一直在稳步发展,但由于ChatGPT 与 Dall-E 等消费者友好型工具,2022年出现爆发式的增长。悲观主义者认为,我们很快就会被淹没在合成媒体的海啸里。《纽约时报》科技专栏作家凯文·罗斯(Kevin Roose)去年警告说: “几年后,我们在互联网上看到的绝大多数照片、视频与文字都可能是人工智能生成的”。随着我们努力过滤掉生成出来的噪音, 《大西洋月刊》想象着“文字末日”的迫在眉睫。竞选活动正在利用人工智能工具来制作广告,亚马逊上充斥着 ChatGPT 撰写的书籍(其中很多是关于人工智能的)。翻看产品评论已经给人以在做着全世界最烦人的图灵测试的感觉。下一步往哪儿走似乎已经很明确:如果你觉得尼日利亚王子的电子邮件很糟,等你看到尼日利亚王子的聊天机器人再说吧。

Tian发布GPTZero后不久,一波类似的产品就如雨后春笋冒头。 今年1月,OpenAI推出了自己的检测工具,4月,反抄袭巨头 Turnitin推出了一个分类器。大家的基本方法都差不多,但每个模型训练所用的数据集有所不同。 (比方说,Turnitin 聚焦于学生写作。)所以,精度方面差别很大,最低的OpenAI 声称检测人工智能书写文本的准确度为 26%,而最乐观的Winston AI声称达 99.6%。为了在竞争中保持领先地位,Tian 必须不断改进GPTZero ,推出下一款产品,同时修完自己的大学学业。

Tian马上聘请自己的高中好友 Alex Cui 担任首席技术官,并在接下来的几周内从普林斯顿大学及加拿大引进了一些程序员。然后,在春天,他招募了三位来自乌干达的程序员,他们是四年前他在一家在非洲培训工程师的初创公司工作时认识的。 (Tian 是一名全球公民,在东京出生,在北京生活到 4 岁,后来随身为中国工程师的父母举家搬到加拿大安大略省。)团队一起开始开发出下一个app:一个可以扫描文本并确定是否是人工智能生成的Chrome 网页插件。

GPTZero的另一个威胁是GPTZero 自己。几乎在这个工具推出后不久,社交媒体上对它表示怀疑的人就开始发布这个工具把文本归类错的尴尬例子。有人指出,它把美国宪法的部分内容标记成可能是人工智能编写的。当学生把自己被GPTZero错误地“指控”成作弊的故事发到 Reddit 上面时,嘲讽变成了愤怒。有一次,一名被错误指控的学生家长联系了马里兰大学计算机科学教授 Soheil Feizi。 Feizi 说:“他们真的很愤怒”。去年秋天,在GPTZero首次亮相之前,Feizi以及其他几位同事正在开始做一个关于人工智能探测器问题的研究项目,他怀疑这种工具可能不可靠。现在, GPTZero及其模仿者让他认为这些工具弊大于利。

Tian还有一个头大的事情,有很多狡猾的学生在想方设法绕过探测器。 Twitter 上有个人给用户支招,让他们在 ChatGPT 生成文本的每个“e”之前插入一个零宽度空格。 有个TikTok 用户写了一个程序,通过用类似的西里尔字母替换某些英文字母来绕过检测。其他人则开始利用流行的释义工具QuillBot来跑一边自己的人工智能文本。Tian后来修补了这些漏洞,但解决方法层出不穷。迟早会有人会开发出一款竞争产品——反探测器的。

今年3月初,斯坦福大学新生约瑟夫·塞姆莱(Joseph Semrai)跟几位朋友正在文图拉(Ventura)沿着太平洋海岸高速公路开车前往洛杉矶的路上,然后突然被锁在了 Zipcar 的车门外。他们步行到附近的一家星巴克,等待路边援助。但鉴于等待时间持续了几个小时,塞姆莱跟一位朋友琢磨着该怎么弥补失去的时间。塞姆莱下周要交一篇新生写作课的论文。这是他最不喜欢的那种作业:写一篇旨在展示逻辑推理的格式文章。塞姆莱说: “这其实差不多是个算法化的过程”。

ChatGPT 是显而易见的解决方案。不过在当时,ChatGPT顶多只能吐出几个段落,因此生成一篇完整论文得是一个多步骤的过程。 塞姆莱想开发一款一次性就能写完论文的工具。他还知道有可能被GPTZero检测出来。在朋友的鼓励下, 塞姆莱拿出笔记本电脑,写了一个脚本,让它根据提示写出一篇文章,然后再用GPTZero来检测这篇文章,接着不断调整措辞,直到GPTZero再也检测不出是人工智能写的——本质上是用GPTZero来对抗自己。

几天后, 塞姆莱在Friends and Family Demo Day(针对斯坦福大学本科生社区的一种演示讲解活动)上演示了他的程序。站在一屋子的同学面前,他让观众推荐一个论文主题——有人建议加州的“高档餐饮”——于是他将主题输入到提示框中。几秒钟后,程序吐出了一篇有八个段落的文章,虽然缺乏原创性,但条理清晰,还提供了引文。 塞姆莱笑着说:“我可没说我会提交这篇论文啊。但不管怎么说,呃我不知道,反正挺省时间的。”他把这个工具命名为WorkNinja ,并在两个月后上架到应用商店。在 Z 世代网红 David Dobrik 的促销活动以及给注册用户赠送 10 辆特斯拉的帮助下,这款app在第一周就获得了超过 35 万次下载;据塞姆莱称,此后注册人数已减至每天几百人。 (塞姆莱没有透露是谁资助了这次活动,只说是硅谷的一位重要的天使投资人。)

塞姆莱心如止水的表面掩盖了内心的暗流涌动。与活力四射的Tian相比,塞姆莱给人以十分专注面无表情的印象。这位 19 岁的年轻人语气中透露着硅谷创业者的自信,他会从待解决问题的角度看待世界,每一句话都会以“对吧?”结束。听着他滔滔不绝地说着防御性护城河以及社会发展的“S 曲线”,你很容易忘记他还没到合法饮酒的年龄。但偶尔他说出一些话揭示出这位睁大眼睛,向世界敞开心扉的本科生仍在寻找自己的位置。就像有一次他跟一位朋友曾在圣莫尼卡码头周围散步直到凌晨 3 点,“讨论我们看重什么。” 塞姆莱对于如何找到平衡与幸福思考良多。他说: “我认为,虽然我还年轻,但更看重的可能是探索衍生品,也就是追逐高点和低点。”

他在纽约和佛罗里达长大,父亲是扬克斯的消防员,母亲则是来自中国的家庭主妇。他说父母对他管得很松。 他说:“我小时候有点像被放养,可以去追求真正让我兴奋的事情。最好的做法就是在电脑上制作东西。” 塞姆莱 6岁的时候开发了一个插件,给《我的世界》(Minecraft)服务器分配权限级别,7 岁的时候编写了一个给 Windows 7 打补丁的程序,好可以在它上面跑 Windows XP。他说: “给大家做东西是件很让人高兴的事情”。

9 岁时,他家从皇后区搬到了棕榈城, 塞姆莱目睹了公立学校系统之间的差异。他在纽约学校认为理所当然的基本计算机知识在佛罗里达州却很稀缺。他开始编写程序来帮助填补教育领域的空白——这样的轨迹让他到了 19 岁时可以说出这样的话,“我一生都在从事教育技术领域工作”。高中一年级时,他创建了一个在线学习平台,并在一次当地竞赛当中赢得了创业资金。在新冠疫情爆发之前,他开发了一个数字化的走廊通行系统,这套系统后来成为了跟踪接触者的基础,并为东南部 40 个学区采用。

塞姆莱本质上是一位技术乐观主义者。他说,他认为我们应该加快技术的发展,其中也应该包括通用人工智能,因为它最终将引领我们走向“后稀缺”社会——这种世界观有时候被描述为“有效加速主义”( effective accelerationism。不要跟有效利他主义混为一谈,后者认为,不管怎么定义,我们都应该采取能让“好”结果最大化的行动。) 塞姆莱对WorkNinja的论证基于其自身的加速主义逻辑。在他看来,人工智能写作工具之所以是好的,不是因为可以帮助孩子们作弊,而是因为会迫使学校对课程做出调整。他说: “如果按照公式就能写一篇论文的话,这可能不是一个好作业”。他设想未来每个学生都可以通过个性化的人工智能辅导获得曾经只有贵族才能享有的教育。 塞姆莱说,自己第一次学习编程时,主要是依靠 YouTube 视频与互联网论坛来获得答疑解惑。他说: “如果有导师指导我的话,事情会更容易”。既然人工智能导师已经成为现实,为什么还要插一脚呢?

我最近用WorkNinja生成了一些文章,其中包括一篇关于达尔文进化论的文章。它给我的第一个版本虽然显得很笨拙且存在重复,但还算过得去,里面探讨了该理论对生物学、遗传学以及哲学的影响。 GPTZero把它标记成可能是人工智能生成的。

所以我点击了WorkNinja 的Rephrase (修改措辞)按钮。文本略有变化,用同义词替换了某些单词。经过三次改写, GPTZero终于认定文本是人写的。 (几周后,当我再次测试同样的文本时,该工具把它标记类写作与人工智能写作的混合。)问题是,很多改写过的句子已经不再有意义了。比方说下面这句话:

至少,任何想走捷径的学生都必须在提交之前整理一下他们的WorkNinja草稿。不过这里指出了一个真正的问题:如果即便是这个半成品也能绕过探测器的话,一旦做成之后它还能做些什么呢?

今年3月,马里兰大学的 Soheil Feizi 发表了自己对人工智能探测器表现的研究结果。他认为,考虑到人工智能文本检测器的工作机制,准确性问题不可避免。一旦为了捕获更多人工智能生成的文本而提高它的灵敏度时,误报数量不可避免就会增加,乃至于到达他认为不可接受的水平。他说,到目前为止,你想两全其美是不行的。他表示,随着人工智能生成文本里面单词的统计分布更接近人类的统计分布(也就是说,随着它变得更有说服力),检测器只会变得越来越不准确。他还发现,意译(paraphrasing)会让人工智能探测器感到困惑,令其判断“几乎是随机的”。 Feizi 说:“我认为这些探测器的未来并不光明”。

“打水印”也无济于事。在这种方法下,像 ChatGPT 这样的生成式人工智能工具会主动调整某些可互换“标记”(token)词的统计权重,比方说用“ start ”而不是“ begin ”,或者用“ pick ”而不是“ select ”,读者难以察觉,但通过算法很容易发现。以给定频率出现这些单词的任何文本都可以被标记为由特定工具生成的。但Feizi认为,只要意译的数量足够,水印“可以被洗掉”。

他说,与此同时,探测器正在给学生造成伤害。假设检测工具的误报率为 1%(这个假设已经算乐观),就意味着在一个有 100 名学生的教室里,如果每人要写 10 篇回家做的论文,平均就会有 10 名学生被错误地指控为作弊。 (Feizi说,千分之一的误报率还可以接受。)他说:“甚至连有用这类工具来监管人工智能模型的使用的想法都是荒谬的”。

GPTZero的目的不是揪出作弊者,但这无疑是迄今为止它的主要用例。 ( GPTZero 的检测结果现在会附带警告:“这些结果不该用来惩罚学生。”)至于准确性,Tian 表示,在用最新数据集进行训练时, GPTZero目前的水平为 96 %。其他探测器吹嘘自己的指标更高,但Tian说这些说法是一个危险信号,因为这意味着它们为了证明自己工具的优势而对训练数据进行“过度拟合”。 他说:“你得将人工智能和人类放在平等的基础上”。

令人惊讶的是,检测人工智能生成的图像、视频和音频片段往往比检测合成文本更容易,至少目前是这样的。 2018 年成立的Reality Defender 是一家获 Y Combinator 资助的初创公司,原本专注于伪造图像和视频检测,此后已扩展到音频和文本领域。英特尔发布了一款名为FakeCatcher的工具,可通过分析仅相机可见的面部血流模式来检测深度伪造视频。一家叫做 Pindrop 的公司使用语音“生物识别技术”来检测模仿音频,并用来替代安全问题对呼叫者进行身份验证。

人工智能生成的文本更难检测,因为它需要分析的数据点相对较少,这意味着人工智能输出偏离人类规范的机率更小。这一点可以与英特尔的FakeCatcher进行比较。英特尔研究科学家伊尔克·德米尔 (Ilke Demir) 也曾在皮克斯电影工作过,他表示,要想建立一个足够大且足够详细的数据集,让深度伪造者能够模拟血流特征来欺骗探测器是极其困难的。在被问到这样的东西最终能不能被造出来时,她说她的团队预计道高一尺魔高一丈,深度伪造技术未来还会不断发展。

Reality Defender 首席执行官本·科尔曼 (Ben Colman) 表示,他公司的检测工具无法规避,部分是因为它是不公开的。 (到目前为止,该公司的客户主要是政府与大公司。)借助GPTZero等公开可用的工具,任何人都可以用那些工具来跑文本,然后对其进行调整,直到通过测试。科尔曼说,相比之下,Reality Defender会对使用这一工具的每个人每一家机构进行审查。他们还会留意可疑的使用情况,因此,如果特定帐户为了绕过检测而反复对同一图像运行测试的话,系统就会对其进行标记。

不管怎样,就像垃圾邮件猎人、间谍、疫苗制造商、国际象棋作弊者、武器设计师以及整个网络安全行业一样,各种媒体的人工智能探测器都必须不断适应新的规避技术。当然了,前提是人类和机器之间的差异仍然很重要。

与塞姆莱、Tian以及他们的同学同事交谈的时间越多,我就越想知道:这些年轻人真心……喜欢写作吗?去年5月,当我在普林斯顿大学校园问到这个问题时, Tian回道:“是啊,非常喜欢!”脸上的笑容变得比平时更加灿烂。 “这就像做谜题。”他喜欢弄清楚词语如何组合在一起,然后整理想法,让它们变得流畅起来。 “我觉得这样做很有趣。”他也喜欢采访的过程,因为这为他提供了“了解别人生活的一扇窗户,以及一面了解自己如何生活的镜子”。

Tian说,上高中的时候,写作感觉就像是件苦差事。他认为麦克菲激发了他的热爱并提升了他的品味。今年6月,他兴奋地告诉我,他刚刚收到一本安妮·迪拉德(Annie Dillard)的《写作生涯》(TheWriting Life)的二手书。

塞姆莱同样觉得高中的写作作业既无聊又机械——更多的是去综合信息而不是创造新东西。 他说:“我更喜欢能够激发创造力的开放格式作业”。但他还是将这些综合技能运用到工作当中。大二那年,他写了一本 800 页的指导书,名字叫做《Build for Anything》,目标是“让一个人从一无所知到对 Web 开发的一切几乎都了解一点点”。 ( 2022 年他在亚马逊上自行出版了这本书,还卖出了几百本。) 塞姆莱表示,这正是 ChatGPT 现在擅长的那种文章。 他说:“我不认为这本书属于有意义的写作范畴”。

在为了赚钱敲了近 20 年的文字之后,根据我的经验,我可以说,写作很糟糕。随便找一位专业作家,他们都会告诉你,写作最最糟糕不过,而且通过练习也不会变得容易一些。不断审视世界、挖掘事实,并挖掘其中的意义,这些事情需要的热情和好奇心可能也很难维持,这一点我可以证明。这还没考虑到整个行业的状况:费率下降、页数减少,(读者和我自己的)注意力持续时间缩短。我之所以能坚持下去,因为不管怎么说,这就是我现在的样子。我这样做不是为了快乐,而是因为它感觉很有意义——至少对我来说是这样。

一些作家将这场斗争浪漫化。麦克菲曾经这门说过,他曾在野餐桌上躺了两个星期,就为了确定怎么写好开篇。他写道: “这篇文章最后大概有五千句话,但那两周的时间里我甚至一句都写不出来”。他 22 岁的时候,有一次曾经用浴袍带把自己绑在写字椅上。托马斯·曼 (Thomas Mann) 认为,“作家就是写作比其他人更困难的人。” 安妮·迪拉德在《写作生涯》中写道:“你搜肠刮肚,你伤透了你的心、你的背、你的大脑,然后——只有到那时——它才会交到你手上”。在对写作与鳄鱼摔跤进行了长时间的比较后,她抛出了这个观点。

其中隐含的意思是,压榨得越用力,果汁就越甜——你凝视着空白的书页、驯服它、迫使它让位给一段文字,这之中蕴藏着美德。我们告诉自己,最伟大的突破就是这么来的。这种痛苦值得,因为想法就是如此诞生的。

人工智能的塞壬之声蛊惑说:事情不必如此。这个作家精英的苦难俱乐部毕竟只有少数,当你想到俱乐部以外的几十亿人时,你开始琢磨:也许不必如此。

梅·哈比卜(May Habib)在黎巴嫩度过了她的童年,然后搬到了加拿大,在那里学习了作为第二语言的英语。她说:“我觉得,真正擅长阅读和写作的人获得如此多的好处是非常不公平的”。 2020 年,她创立了 Writer,这是其中的一个混合平台,其目标不是取代人类写作,而是帮助人们(更准确地说是品牌)与人工智能更好地协作。

哈比卜说,她相信凝视一张白纸的价值。它可以帮助你思考想法、放弃想法,并迫使你组织想法。 她说:“盯着光标,漫无目的、绞尽脑汁、想要,经历这种过程好处多多。但你跟(人工智能生成)毫秒速度掂量一下。”

她说,Writer 的目的不是帮你写作,而是让你的写作更快、更强、更一致。这可能意味着对语言和结构给出编辑建议,或者突出显示有关该主题的其他内容并提出反驳意见。她说,目标是帮助用户减少对句子级机制的关注,而把更多注意力放在想要传达的想法上。理想情况下,这个过程会产生一段就好像是这个人完全自己写出来一样的文字。她说: “如果检测器会把它标记工智能写出来的话,那就是你没用对工具的问题”。

宾夕法尼亚大学沃顿商学院教授伊森·莫里克 (Ethan Mollick) 表示,写作不是人写的就是人工智能写的,这种非黑即白的观念已经消失。相反,我们正在进入一个他所谓的“半人马写作”时代。当然,他说,要求 ChatGPT 写一篇有关蒙古帝国历史的文章,可以预见会产生“人工智能式”的结果。但他说:“开始写,‘第三段里面的细节不太正确——添加这些信息,并让风格更像《纽约客》’,然后它就变得更像是一部混合的作品,写作质量也更高了。”

莫里克在沃顿商学院教授创业学,他不仅允许学生使用人工智能工具——他也需要这种工具。他说: “现在我的教学大纲说你必须至少做一件不可能的事情”。如果学生不会编码,也许他们得编一个工作程序。如果他们从未做过设计,可能会被安排制作一个视觉原型。 他说:“你提交的每一篇论文都必须接受至少四位你冒充的著名创业者的批评”。

莫里克表示,学生仍然必须掌握自己的学科领域才能取得好成绩。目标是让他们进行批判性和创造性的思考:“我不在乎他们用什么工具来完成这件事,只要他们能够用复杂的方式使用这些工具并运用他们的思维即可。”

莫里克承认 ChatGPT 比不上最优秀的人类作家。但它可以帮助其他人。 他说:“如果你是排名位于倒数四分之一的作家,那么你现在可以排到60、70 百分位左右”。它还可以将某些类型的思想家从写作过程的中解放出来。 他说:“我们把写作能力等同于智力,但情况未必总是如此。事实上,我想说这往往不是线 岁的Edward Tian, 人工智能文本生成检测工具GPTZero的开发者。

当一些学校急着禁用 ChatGPT ,科技公司的首席执行官签署警告人工智能会引发厄运的公开信时,学生们对有机器辅助的未来明显感到放松。 (普林斯顿大学让教授们自行制定基本规则。) 一位教授最近用 ChatGPT 撰写了论文的致谢部分。包括Tian在内的其他人在编码时依靠它来填充脚本块。 Lydia You是一名计算机科学专业的大四学生,计划从事新闻工作,她让ChatGPT用伊丽莎白·毕肖普的风格写一首关于失去东西的诗——她打算对诗人的名作《One Art》进行重新创作。 You说,结果与原诗“非常接近”,她发现聊天机器人在分析原诗,阐述它为什么能打动人方面做得更好。You说: “我们看过对生活的几乎一切都有过大量恐慌,”她提到了TikTok、Twitter 以及互联网本身。 “我觉得我们这一代人的感觉是,我们可以自己弄清楚怎么用。”

Sophie Amiton插话进来:“而且,我认为我们这一代在很多方面都比较懒”。You点头表示同意。 “我看到现在有很多人都不想做传统工作,不想要那种朝九晚五的工作。”

Liz (她不愿透露自己的姓氏)是普林斯顿大学的一名应届毕业生,她给我发了一篇她在 ChatGPT 的帮助下为全球课程撰写的论文。她不是简单地要求人工智能回答论文问题,而是插入了包含有详细要点的大纲,然后让它根据她的笔记撰写论文。经过大量的反复讨论——比如告诉它重写和重新排列,这里加点细微差别,那里加点上下文——她终于得到了一篇提交上去没有心理负担的论文。最后她得了个A。

5月初,就在Tian和他的同学穿上黑色毕业礼服的几周前,GPTZero团队发布了他们一直在开发的Chrome插件,并将其命名为Origin。 Origin 仍处在初级阶段:你得自己选择网页的文本,而且其准确性也不够完美。但Tian希望,有朝一日,这个工具可以自动扫描你看过的每个网站,把人工智能生成的内容(从文本到图像到视频),以及任何“有毒”或实际上可疑的内容突出显示出来。他把 Origin 说成是信息高速公路的“挡风玻璃”,可以弄走无用或有害的材料,让我们能够看清道路。

作为一名即将上大二的斯坦福大学学生,塞姆莱用一种更加自由自在步入这个夏天。今年 6 月,一个酷热的星期四下午,在华尔街附近 17 码头的屋顶上,身着绿色图案衬衫、白色耐克鞋的塞姆莱愉快地向我讲述着未来——或者至少是接下来那几周的未来。他的夏天还在成形中。 (“我正在快速进行假说验证的工作。”)但现在他还在纽约,一边跟朋友们一起忙着做几个人工智能项目。前一天晚上,他还睡在苏豪区的一个联合办公空间里面。现在,他站在纽约 Techstars(一家创业加速器)举办的一场活动阴凉的 VIP 区内,旁边则是数百名与会者在强烈的日光照射下走来走去,满身是汗。

塞姆莱是用 “看看什么行得通”的套路来搞开发。除了WorkNinja以外,他还在开发一个基于真实名人的聊天机器人平台,并对其用大量数据进行训练,之后粉丝可以跟它互动了。他还设计了一款可以记录我们所说和所做的一切的手链原型——塞姆莱称之为“完美记忆”——它还可以提供实时提示来促进对话。 (斯坦福大学的一群同学最近开发了一款名为RizzGPT的相关产品,这是一种可以帮助佩戴者调情的目镜。)

截止今年夏天,Tian 已经拥有了一支由 12 名员工组成的团队,并从几家风投公司那里筹集了 350 万美元,其中就包括杰克·阿尔特曼(Jack Altman,OpenAI 首席执行官山姆·阿尔特曼的兄弟)以及 Stability AI 的伊玛德·莫斯塔克(Emad Mostaque) 。但在我们的谈话过程中,我注意到他对GPTZero /Origin 的定位已经略有变化。他说,现在人工智能检测只是验证人类工具包的一部分。强调出处或提供“内容凭证”也同样重要。这个想法是把加密标签附加到一段内容上,以验证这是由人类创建的,这可以通过创建过程来确定——相当于数字文件的验证码。 Adobe Photoshop 已经给用其新的人工智能生成工具 Firefly 生成的照片附加标签。任何人右键点击图像都可以看到它的制作者、地点以及方式。Tian说,他希望对文本做同样的事情,并且他一直在与Content Authenticity Initiative(一个致力于创建跨媒体来源标准的联盟)以及微软讨论合作事宜。

你可以把他对出处的强调理解成一种心照不宣,也就是承认仅靠检测没法解决问题。 (今年7月,OpenAI 已经下线了自己的文本分类器,“因为准确率较低。”)它还预示着我们与数字媒体的关系可能会发生范式转变。做检测的整个努力表明,人类给一段文字留下了明确无误的签名——一些可感知的东西——就像测谎仪推测不诚实行为会留下客观痕迹一样。出处依赖于更类似于“美国制造”标签这样的东西。如果没有标签的话,我们不会知道个中的区别是什么。这是一个微妙但有意义的区别:人类未必写得更好,或者更有创意,甚至更具原创性。但它还是人写的,这对其他人来说很重要。

今年6月,Tian的团队又朝着实用化方向迈出了一步。他告诉我,他们正在开发一个叫做HumanPrint的新写作平台,这个平台将帮助用户改进人工智能编写的文本,并使他们能够分享“真实性证明”。但不是通过生成文本。相反,它会利用GPTZero 的技术突显不那么像人写的部分文字,并提示用户用自己的语言重写——这是当前人工智能写作助手的一种反转。 他说:“所以老师可以给出一个指标,呃,也许文章超过 50% 文字还是得用你自己的话来写”。当我问这算不算公司的一次转型时,Tian表示这是“检测的自然延伸。成为人工智能负责任使用的黄金标准一直是我们的愿景。这个愿景至今依旧。”尽管如此,其潜台词仍然很明确:人工智能写作是不会停的;唯一的选择就是跟它合作。

测试GPTZero时,他拿了麦克菲 2015 年在《纽约客》发表的一篇名为《参照框架》的文章做测试。在文章中,麦克菲反复讲述了在写作中运用文化参照的乐趣和风险。他玩味地表示: “说到碧昂丝,人人都知道她是谁。可如果提起维罗妮卡·莱克(Veronica Lake),你可能会以为是哪个湖泊”。他列举了一系列用来描述胡子的形容词,比如“真诚的”、“严肃的”、“陀螺式的”、“朴实的”、“镇痛的”、“舒缓的”、“海象式的”以及“tetragrammatonic” 。最后,他还讲了一件轶事。说他曾经跟一位编辑争吵过,是关于英国印度统治时期前往印度的上层游客所使用的一个晦涩的英国措辞。 (最后是他赢了。) 这就是典型的麦克菲:手术刀般的精准,洒脱,但有点自鸣得意,乐于跑题,信马由缰,但最后又能恰到好处地表达他地意思。Tian说, GPTZero认为这篇文章“在所有指标上体现的人类特征都再明显不过”。我打电话给麦克菲,问他觉得他的作品特别人性化意味着什么。

电话那头的麦克菲告诉我:“说实话我也没有很好的主意。但如果要我猜的话,我的作品是通过人来探讨科学、农业、航空或任何主题的。总有一个中心人物是我学习的对象。”事实上,麦克菲是通过专家的眼睛来写作的。读者不仅能学到一些关于地质学、粒子物理学或橙子的深奥知识,还能了解研究这个主题的人以及麦克菲研究这个人的感觉。

现年 92 岁的麦克菲表示,他并不担心人工智能会取代人类作家。 他说:“我对此非常怀疑,而且一点也不担心。我认为不会出现人工智能版的马克·吐温。”

但是,我问,如果几年后,有人设计了一个接受过麦克菲写作训练的 McPheeBot3000,然后要求它创作一本关于新主题的书呢?它可能没法跟环保人士一起溯溪,也没法与鱼类学家一起飞钓,但难道它不能捕捉道麦克菲的声音、风格和世界观吗?Tian认为机器只能模仿,而麦克菲永远不会重复自己:“麦克菲的独特之处在于他能想出麦克菲一天前还没有想到的东西。”

你可能也会喜欢...