985 硕士进厂做数据标注,自嘲像个 “包工头”
2020 年 11 月,黄土高原以南、关中平原以北,宜君县进入深秋,大地的黄色与枯木的灰色交叠,阿娟开始了她的新工作。
在仅有 20 来人的小办公室里,她给电脑屏幕上的店铺门头图片打标签 —— 曝光过度不能用,店名虚化不能用,门头反光也不能用。这些被标注完成的图片会被拿去给 AI 学习,帮助它识别审核平台商家上传的门头图片。这样的图片标注工作很简单,熟练之后,阿娟十几秒就能处理一张,一天能给近两千张图片 “打标”。
这份枯燥的工作有着一个听起来很响亮的名称 ——“人工智能训练师”,是 2020 年 2 月才被正式纳入国家职业分类目录的新职业。但谈起数据标注这份工作,在之前的两三年间,通常和 “低门槛”“欠发达地区”“劳动密集型” 等名词绑定在一起,从业者们对自动驾驶、人工智能几乎没有了解,只是机械地点击鼠标,完成任务。
2023 年后,以 ChatGPT 为代表的生成式 AI 爆火,人工智能发展进入新阶段,数据标注的职业也有了一些新变化。
这一年,“985 硕士” 刘到闲转行去做数据标注,互联网大厂正编,月薪 1.5 万元以上。不像县城的标注员坐在工位上一整天,刘到闲九点半上班后,要对接产品、算法团队的数据训练需求,解答数据标注团队提出的疑问,大部分时间花在大大小小的沟通与讨论上。
本质上,刘到闲和阿娟的工作没有不同,她们都是 AI 的人类老师。随着行业变化,越来越多像刘到闲一样的高学历年轻人选择成为 AI 训练师,但阿娟们的担忧是,数据标注工作的要求越来越高,她们会不会失去自己的工作。
AI 的 “985 老师”
刘到闲的工作目标,是把 AI 教成一个专家。
这就像培养一个小孩。一开始,是阿娟们教给 AI 最基础的知识,什么是鸟,什么是花,什么是车,让 AI 能理解最常用的话语。到了通用大模型,则像是 AI 去大学里接受通识教育,掌握人类世界那些通行的、全面的知识。但如果想让 AI 完成人类的工作,就需要教给它更专业的知识和技能。
培养一位专家并不容易。一方面,刘到闲需要对接 “用人单位”,在公司里则是产品团队,知道他们想要什么样的人才,达到什么样的要求,刘到闲再根据对方的需求去制定培养计划,选取合适的教材,还要编写考核的试卷,并对 AI 的答卷打分。
教 AI 学习的过程是漫长的,工作量庞大,也不能只靠刘到闲一人,她还需要把制定标注的规则,把专业的知识 “翻译” 成大白话,让没有理论知识的一线标注员也能轻松理解。某种程度上,标注规则的可操作性,是考察一位专家型 AI 训练师的核心标准。
刘到闲曾接到过一项提升模型意图识别能力的需求。理想状态下,经过数据标注团队的调整,在和用户对话的过程中,AI 大模型能够准确判断用户的输入意图,究竟是想要得到某个领域的信息,还是在寻求情感支持。
这样的意图判断过程接近于人和人之间的交流,有很强的主观性,如果直接交给一线标注员,可能理解各异,如果导致模型训练偏差,纠错成本非常高。而一份高可操作性的标注规则能极大程度地减少误差,提高数据质量。
为了满足需求,刘到闲首先要厘清用户意图的类别,并尽可能详尽地列举出来,然后给每个类别赋予清晰的定义,明确不同分类之间的边界在哪里。比如,用户说 “我很伤心”,她在标注规则中写上,这是在寻求情感支持;用户描述了一件生活中发生的开心事,她会将这定义为分享个人生活。
理解自然语言交互中字与字之间的微妙差异,是刘到闲擅长的事。今年 28 岁的她是 985 高校毕业的语言学硕士,曾在科技媒体工作过一年,因为对媒体工作 24 小时待命的厌倦,她开始寻找让创作与科技结合的另一种可能性,比如 “喂养 AI”。
这是个可遇不可求的转行机会。ChatGPT 的走红带来了生成式 AI 和预训练模型的爆发,模型 “堆量” 训练后涌现出的智能让业内外惊叹。她看到了模型训练 “走俏” 之下,数据标注的重要性。她想踏上这波风口,离前沿技术更近一点。
和刘到闲一样做数据标注的同事基本都是硕士研究生学历,在公司内部被划分为运营岗。她的一部分同事是冲着 AGI(通用人工智能)理想来的,另一部分是冲着大厂正编和高收入来的。在人工智能风口面前,数据标注岗位,成了为数不多非技术背景员工的职业跳板。
虽然薪水没有预想中高,和公司里的其他运营岗同事相比,刘到闲的薪水甚至更低一些。但相比阿娟那样基础的数据标注工作,从事多模态对齐、知识图谱构建等高端标注的薪资可达 2-3 倍,月薪两三万也很正常,有些公司还开放了从数据标注到产品、算法等岗位的晋升路径。
相应的,专家型数据标注师的要求也越来越高。据刘到闲观察,目前大厂招聘 AI 数据专家的学历要求大多为硕士研究生,且需要在相关专业领域有所积累,比如医疗、法律、财经等。
连最基础的一线数据标注员的门槛都在提升,大模型公司下游的数据标注岗也会对应聘者是否毕业于 211 高校有偏好。据《科创板日报》2023 年 8 月报道,百度智能云海口标注基地的数百名数据标注师,100% 是本科学历。
一份由百度数据标注外包公司提供的 “文心一言 2024 笔试题” 显示,在判断 AI 的回答是否准确时,应聘者需要考虑该回答是否符合客观事实,逻辑是否通顺,并给出相应的判断理由;应聘者还要修改一篇 800 字以上的议论文 —— 这已经类似高中语文老师的工作。
毕竟,AI 已经不再是那个牙牙学语的孩童,它们需要学历更高、能力更强的老师,才能继续成长。
从拉框到打分
阿娟亲历了数据标注行业的变化。
作为链条最末端的一线数据标注员,在阿娟的想象中,她应当也是像刘到闲那样工作的。她毕业于一所民办普通高校,是误打误撞入的行业。
2020 年,在朋友的介绍下,阿娟第一次听说了 “数据标注员” 的工作,很陌生,但感觉挺高大上的,“我觉得可能是像以前大家想象中的大厂(员工)键盘敲得噼里啪啦响的那种,具有含金量”。
那时的招聘要求也简单,只要会用一些办公软件就行。抱着试试的心态,阿娟报了名,通过培训考试后于当年 11 月上岗工作。和她一起入职的基本都是宜君本地人,有孩子母亲,也有中专刚毕业的年轻人。
最开始的标注任务主要是图像类,涉及外卖、保险、医疗等各种领域。阿娟印象比较深刻的是一个宠物鼻纹项目。
很多宠物主人会给自己的宠物买保险,鼻纹是保险公司区分相同品种、长相相似的宠物的关键。她和同事需要做的工作是,给宠物照片中的鼻子部分画框,帮助 AI 进一步识别鼻纹。这个项目让阿娟感受到了工作的价值感。她认为这是在帮助宠物主人给宠物顺利投保、向保险公司理赔,尽管她所在的小县城几乎没有人会给宠物上保险。
图像数据标注做得熟练了,阿娟又陆续接触了很多文本类的项目。项目类型换得很快,业务需求也很庞杂,有时前一周还在做合同文件标注,下周又换成了医学论文数据提取。经理给什么项目,阿娟和同事们就照着标注规范去完成,遇到疑问就提出、讨论、解决,绝大多数项目都没有给她留下印象,她也很少好奇这些标注完的数据会用到哪里。
工作近两年后,阿娟的同事越来越多,原本的小办公室容纳不下,两百多个人搬进了敞亮的写字楼。她明显感觉任务难度在上升,公司招聘的学历要求已经提高到了大专以上。她们开始做形式更丰富、标注规则更复杂的项目。
在一个视频侵权类项目的标注里,阿娟需要判断给定的关键词和视频内容的关联度。关联度一般会按照百分比分为四档,100% 是完全关联,0 是完全无关。她和组员需要基于对关键词和视频内容的理解,按照标注规范一一对应标注,这能解决 80% 以上的任务,剩下的 20% 可能会存在异议,需要和业务方开会讨论。
项目越来越复杂,同事的工作能力越来越高,行业飞速变化,但阿娟和同事们并不清楚这些变化是如何发生的。对处于行业末端的她们来说,和 AI 大模型有关的一切都在混沌间发生。
传统的标注依赖规则,生成式大模型标注则需要逻辑,比如标注推理步骤(因为 A 所以 B,但受 C 限制),或需要理解,比如多模态对齐(文本和视频内容关联),这类任务要求标注员具备抽象思维能力和跨学科知识储备,普通劳动力无法胜任。
有无数的普通标注员正在陆续被行业淘汰。
模型卷不动,开始卷数据
阿娟工作内容的变化,和刘到闲有机会转行做数据专家,都是同一件事的结果 —— 大模型公司想活下去,必须去卷高质量数据。
2023 年,大模型公司招算法专家,投入算力资源去训练模型,比谁的模型参数大,谁迭代的速度快,谁在各类榜单上能名列前茅。但比来比去,大家拉不开差距,各家的模型都无法在生产力领域足够胜任,砸在训练上成本短时间收不回来。
到了 2024 年,大模型公司开始面临生死考验:从哪赚钱?怎么活下去?怎么实现大模型在垂直场景的商业化落地?甚至有头部大模型公司放弃预训练,全面转向应用开发,把资源投入到能赚钱的事情上。
一个共识是,要想在专业领域落地,高质量的垂类数据是竞争的核心。比如医疗场景中的影像识别,需要临床医生进行标注,法律场景中的合同条款,需要律师标注条款中的逻辑关联和司法解释。要想一个专业模型好用,必须有足够的精准的初始数据,这些数据难以从公开渠道获取,标注成本也十分高昂,但却是不得不做的投入。
一个高学历的专家型数据标注员的人力成本,远低于模型出错要付出的代价:自动驾驶标注中一个漏标的行人可能导致百万公里路测失败,间接消耗的测试成本可能高达数千万,而法律合同的标注错误可能让企业面临诉讼。专业型的数据专家也能显著提升标注效率,比如医学博士对 CT 影像的识别率是普通标注员的好几倍,还能帮助优化数据采集策略。
这时像刘到闲一样,有垂直领域专业知识的 AI 训练师就成了香饽饽。“垂直领域(模型数据)我们不太冒险去找普通的人标注,肯定要找专业的。比如说标语音(模型),我们就会偏向于去找学语言学的人,因为他们才能判断答案的好坏。” 小琴说。
小琴在一家创立十多年的上市公司就职,该公司有多款成熟的 AI 产品,围绕作为核心业务的语音模型搭建了自有的数据标注团队。2023 年后,标注任务从客观选择题变为了阅读理解题,前期标注规范的制定、人机对齐工程更复杂。为了保证标注的一致性,她们可能会花半个月的时间研究标注规范,要求产品、算法、标注、评测团队共同参与。
这一年,她所在的公司计划研发音乐模型,面临的第一个问题就是数据如何标注。他们发现在给模型投喂足够多的数据后,模型能够拥有 “涌现” 能力,在一定程度上 “创造” 音乐,但计算机专业出身的团队成员无法判断模型生成的音乐质量如何,也很难找到优化方向。
隔行如隔山,从语音模型到音乐模型,他们在音乐相关数据的标注上没有经验。于是,团队计划找一位在音乐学院就读的学生做顾问。小琴认为,只有音乐专业的人才能分辨出模型生成的音乐到底合不合理,才会知道调整哪个韵律、哪种乐器可以辅助模型生成更好的结果。
更早之前,她所在公司还投入大笔资金,邀请了很多专业的录音师到录音室录制一手的声音数据。
小琴坦言,不管是现在还是未来,真实的数据一直都是无价之宝,只有把真实场景中产生的数据累积起来,才有可能做出更好的模型,专家型 AI 训练师则是获取真实数据的 “捷径”。
据新智元报道,OpenAI 为了提升模型处理客户问题的能力,向医学、法律、语言学、计算机科学、物理学等领域的专家提问,至少 300 人,每人每小时支付 100 美元报酬,每个问题平均耗时约两小时。Scale AI、Turing 和 Invisible 等公司,也招募经验丰富的程序员或博士,协助 OpenAI、Google、Anthropic 和 xAI 等公司,在 AI 开发的后训练阶段提高模型质量。
但这条 “捷径” 并不好走。为了确保工作质量,大型 AI 公司越来越多地把高质量数据标注的工作放到了内部,或者直接雇佣专家,而不是以往的外包。数据就是壁垒,也是另一个烧钱游戏。
教会 AI 之后,他们要去哪?
过去两三年,在像泡沫一样迅速膨胀的 AI 招聘市场里,“985 硕士” 做数据标注不过是其中的一个缩影。
Emily 是一位从业多年的科技行业猎头顾问,近两三年为不少 AI 公司招聘海外人才。在招聘侧,AI 公司给她留下了一个非常深刻的印象 —— 这些公司非常有活力、非常激进,招人一定要非常年轻。
曾有企业客户告诉 Emily,作为一家年轻的 AI 数字人公司,员工一定要 98 后,95 后可能太 “老” 了。这些企业还要求应聘者有足够优秀的学习背景,“国内‘清北复交’,国外只看‘藤校’,211 都觉得丢脸”。
生成式 AI 浪潮下,招聘市场最火爆时,一家 AI 初创公司的 HR 每天会收到 100 多封简历,根本来不及看。陆陆续续地,会有候选人跟 Emily 说:“我觉得这个有点泡沫,我觉得我们公司好像有点不稳,下半年你帮我看看机会。”
刘到闲也感受到了这种 “不稳”。2024 年以来,或许是模型已走过 “堆量” 训练的阶段,她看到自己支持的模型团队对数据标注的需求正在减少。事实上,当标注精度越来越高,边际收益开始递减,长尾的数据成本极高,许多公司也难以负担。
她开始反思,转行后的两年多时间,究竟都经历了些什么。
985 硕士、大厂正编、AI 风口之上,这些都无法掩饰工种处于产业链下游的事实。相比于产品、算法团队,刘到闲所扮演的角色几乎没有话语权,她甚至自嘲像个 “包工头”。工作的 “中台” 性质,要求她日复一日地和各方沟通、协调,“你是去承接需求的,你要去听算法的决定,听产研他们想要什么东西,然后去交付给他们。没有那么强的主动性,工作内容也不是特别有创造性”。她从工作中获得的价值感越来越弱。
有次产研团队让刘到闲制定规则来提高模型某方面的能力,但她研究后发现,需要标注的数据质量不够高,难以通过规则来界定自然语言间的模糊地带。她根据自己的专业判断反馈给了产研团队,但对方只认为是刘到闲专业能力不够,扣下来一个影响模型效果的 “帽子”。
这种 “背锅” 的经历很多,让她感到极度疲倦;和同行交流时,她也感受到了 “怨气”。“合作的产研团队,可能因为你是一个比较下游的角色,就会表现得高高在上,工作体验不太好。” 刘到闲说。
“教会 AI 之后,数据标注员们怎么办?” 这是摆在每一个数据标注行业的从业者面前的难题,不论学历,不论专业。现在,随着 AI 越来越聪明,已经可以自己生成数据、自己训练,越来越不需要人类的监督,AI 的人类老师们也终将没有东西可教。
刘到闲已经开始看其他的工作机会了。她可以回到媒体行业,继续做科技报道,但薪水的差距让她犹豫不决。像多数 AI 训练师一样,转岗做 AI 产品经理或者运营也可以,不过反复沟通、拉扯消耗的能量,需要花些时间来恢复。
阿娟还没有去想这个问题。工作八个月后,她就升了小组长,至今已有 18 位组员。她需要为组员们的标注准确率和效率负责,多了些向上沟通的工作,工资也涨到了四千多元一个月。在小县城生活,做个 “月光族”,这些钱已经让她感到很幸福。
阿娟的亲友都不知道她在做什么,因为她从不在下班时间聊工作。这也是这份职业带给她的快乐 —— 她从前在培训机构当英语老师,时常需要周末给学生们补课,很难有完整的休息时间。做了数据标注工作后,她到点下班,将生活和工作完全分离。
阿娟计划多攒攒工作年限,这两年再升个项目经理。
(应受访者要求,文中阿娟、刘到闲、小琴、Emily 皆为化名。)
本文来自微信公众号:镜相工作室,作者:黄依婷,编辑:卢枕
内容来自网友分享,若违规或者侵犯您的权益,请联系我们
所有跟帖: ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )
楼主前期社区热帖:
>>>>查看更多楼主社区动态...