大模型标注：你看不上的数据标注正在成为高薪工作

艳杰 2024-02-08 13:31:25

2022年底，ChatGPT引爆大语言模型，全球科技巨头纷纷入局，后来各家不仅限于自然语言技术，更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度，近期大模型生成的兵马俑，还跳起了“科目三”的热舞。

大模型的热潮为人工智能开启了新篇章，作为大模型数据能力链条上的重要一环，数据标注受到前所未有的关注，数据是人工智能的基础，是人工智能更是大模型源源不断的养分来源，数据标注这个环节做得如何，直接决定了大模型有多聪明。

OpenAI这家公司，在全球大模型领域是跑在最前面的，在数据标注上也有一套自己的方法论，他们的数据标注方式是先做出预训练模型，再用强化学习加上人工反馈来调优，也就是RLHF（Reinforcement Learning from Human Feedback）。

他们找了很多家数据公司来共同完成数据标注，自己还组建了一个由几十名哲学博士组成的质检团队，对标注好的数据进行检查，但不是以对错来评估，而是给每个问题选出多个匹配的结果，再经过多人多伦的结果排序，直至模型数据符合常人思维，甚至某些专业领域的结果要达到中等以上知识水平，OpenAI成立8年，花费10亿美元用于模型训练，可见其对数据的重视程度。

一、大模型标注的特点

1. 非结构化

上一代数据标注工作，主要以“打点”和“画框”为主，就是让机器学习什么是“人脸”，什么是“障碍物”，需要严格按照客户给定的标注规范进行，标注要求也偏客观。现在的大模型标注更像是在做阅读理解，让模型学习应该给出什么样的内容，大模型生成的多个结果哪个更接近满分答案，标注要求偏主观，难以形成统一的标准。

标准从客观到主观，使得标注工作更难做了，这非常考验标注师的主观能动性以及解决问题的能力，而且标注师需要具备很广的知识面，这说明数据标注工作，不再是个结构化的简单工作，而是变成了需要逻辑思维的非结构化工作。

2. 知识密集型

大模型背景下的标注工作主要分为两类：通识大模型标注、领域大模型标注。目前市面上的大模型产品多数是通识大模型，即便是通识大模型，标注工作也是非结构化的，需要标注师具备很广的知识面，且具备较强的自然语言能力，实现了百分百本科的百度智能云海口标注基地，承担的主要工作就是通识类的标注。

至于领域大模型标注，对学历、能力、专业度的要求则更高，目前大多数行业或企业，需要的都是具备领域知识的专业人才，他们要重点解决金融、医疗、科技等领域的专业问题，最终形成符合专业逻辑的高质量数据。比如，政务大模型中，用户通常会问很多“专精”的问题，例如“社保断缴5年怎么办？”这需要标注师读取大量的政府文件，并能从中找到准确答案。

3. 学历要求高

当年，数据标注被称为AI领域的流水线工人，通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。为了控制成本，标注公司的老板们会在县城租一块场地，摆上电脑，有订单了就在附近招人兼职来做，没单子就解散休息。

简单来说，这个工种有点类似马路边上的临时装修工。如今的标注师坐在窗明几净的写字楼，有自己的工位，很宽敞，上下班要打卡，看起来和互联网公司里的白领们差不多，事实上也是如此，就像百度在海口的大模型标注基地，本科比例已经达到了100%，甚至很多专业领域的标注人员都是硕士或博士学历，他们的身份不再是标注员，而是领域标注专家。

二、大模型标注的岗位情况

1. 岗位要求现状

在北京，普通标注员的薪资水平在6-8k之间，和基础的文员岗位薪资差不多，而大模型标注的薪资却高得多，在招聘网站上看了一些大模型标注的岗位，薪资水平多数在10-15k之间，甚至某些专业领域的标注人员薪资水平接近两万，这些岗位可都是执行层的标注人员，并非管理岗或专家类岗位。

当然这些岗位的要求也比较高，学历要求基本都是本科起，某些还会要求一本或211/985院校，除了硬性的学历要求，对专业能力或综合能力要求也比较高，某些会要求专业领域经验，比如下图中的两个样例，一个是教育领域的，一个是财经领域的，或者某些会要求外语水平，这也是很容易理解，因为大模型是和世界接轨的，国内很多大模型产品也需要部署外语环境下的大模型。

大模型标注：你看不上的数据标注正在成为高薪工作

2. 岗位发展建议

由此，给在做数据标注或考虑做数据标注的同学两条建议：第一，有机会一定要转型到大模型领域，如果没有机会就要想办法创造机会，总之这波大模型的趋势我们一定要抓住，因为这可能是我们普通标注员为数不多的发展机会了。第二，一定要从事有专业知识的标注工作，简单标注工作薪资水平低，关键是很容易被替代，所以要建立自己的专业壁垒，才能在变幻莫测的职场中，使自己立于不败之地。

三、大模型标注的发展前景

1. 职业发展前景

数据标注这条流水线目前主要由标注师和质检员组成，完成标注后，直接交给算法工程师，他们会用数据对大模型做测试，看看哪些方面还有不足，再有针对性的做下一轮标注和调试。

未来，这条流水线上还会出现更多细分岗位，例如模型评估师（指导大模型调优方向）、指令工程师（研究与大模型交互更高效的方式）、视频音频标注师、专业领域标注师等，这些岗位都是现在标注人员的发展方向，不仅岗位有更细分、更专业的发展方向，而且岗位需求量也会不断增大，预计未来五年，数据标注相关专业人才缺口将达百万量级。