谷歌这一大招要逼死多少AI标注公司
站长百科 2023-09-18 11:25www.1681989.com生活百科
如果说目前的生成人工智能是一个健康成长的孩子,那么持续的数据就是它饲养成长的成分。数据标记是制作这种“食物”的过程。,这个过程真的很卷,很累。
标注的“标记师”不仅需要反复识别图像中的许多物体、颜色、形状等,有时甚至需要进行数据清洗和预处理。
随着人工智能技术的不断发展,人工数据标注的局限性日益显现。人工数据标注不仅费时费力,而且有时质量无法保证。
为了解决这个问题,谷歌最近提出了一种方法,用大模型取代人们的偏好,称为人工智能反馈增强学习(RLAIF)。
研究结果表明,RLAIF可以在不依赖人类指示的情况下产生和人类反馈来加强学习(RLHF)两者的胜率都是50%,效果相当好。,RLAIF和RLHF都优于监管调整(SFT)基线对策。
结果表明,RLAIF是RLHF的可行替代方案,不需要人工标记。
那么,如果这项技术在未来得到真正的推广和推广,许多仍然依赖人力“拉框”的数据标记公司真的会被迫绝望吗?
1、数据标注现状
如果你想简单一下中国目前的行业现状,那就是工作量大,但效率不是太高,这是一种费力不讨好的状态。
该公司被称为人工智能领域的数据工厂,一般集中在河南、山西、山东等人力资源丰富的地区,如东南亚、非洲或中国。
为了节约成本,公司老板会到县城租一个场地,放电脑。如果有订单,他们会在附近招聘兼职工作。如果没有订单,他们会休息。
简单来说,这种工作有点像路边的临时装修工。
在车站上,系统会随机给出“标记员”一组数据,通常包括一些问题和几个答案。
以后“标明师”需要先标明这种情况属于什么类型,然后分别对这些答案进行评分和排列。
此前,在讨论国内大模型与GPT-4等先进大模型之间的差距时,了国内数据质量低的原因。
为什么数据质量不高呢?部分原因在于数据标注的“流水线”。
目前,大型汉语模型的信息来源有两种,一种是开源数据;一种是爬虫爬来的汉语互联网数据。
大型汉语模型表现不佳的主要原因之一是互联网数据的质量。例如,专业人士在寻找信息时通常不使用百度。
,面对诊疗、金融等专业垂直数据问题,有必要与专业团队合作。
但在这个时候,问题又来了对于专业团队来说,在数据层面上,不仅回报周期长,而且先锋很可能会遭受损失。
比如一个团队花了很多钱和时间,做了很多数据,别人可能会花很少的钱直接打包买。
对于这样的“搭便车困境”,国内大模型陷入了数据多但质量低的奇怪困境。
在这种情况下,一些海外领先的人工智能公司,如OpenAI,是如何解决这个问题的?
事实上,在数据标注层面,OpenAI并没有放弃应用便宜的密集工作来降低成本,
例如,此前曝光其曾以2美元/小时的价格聘请大量肯尼亚劳工进行有害数据标注工作。
但关键的区别在于如何解决数据质量和标记质量的问题。
具体来说,OpenAI在这方面与国内公司最大的区别在于如何减少人工标签的“主观”、“多变性”的影响。
2OpenAI的形式
OpenAI大致使用了两个主要对策,以减少人们标记员的“主观”和“多变性”
1、人力反馈与强化学习相结合;
让我们从第一点开始。OpenAI与中国最大的区别在于,OpenAI的人工反馈主要是对智能系统的行为进行排序或评分,而不是调整或标记其导出。
智能系统的行为,是指智能系统在复杂的环境中,根据自己的理想和对策,做出一系列的行动或决策。
比如玩游戏,操纵机器人,和人说话等等。
智能系统输出是指在一个简单的任务中,根据输入数据生成结果或答案,如写文章和画画。
,用“正确”或“错误”来判断智能系统的行为比导出更困难,需要用偏好或满意度来判断。
,这种以“偏好”或“满意度”为标准的评价体系降低了人们主观、认知水平等因素对数据标记质量和准确性的影响,因为它不需要修改或标记实际内容。
诚然,国内公司在标注时也会应用类似的“排列”、“评分”系统,但由于缺乏OpenAI等“奖励模型”作为奖励函数优化智能系统的策略,这种“排列”和“评分”本质上仍然是调整或注明导出的一种方式。
2、多元化、大规模的数据源渠道;
国内数据标注来源通常是由第三方标注公司或科技公司组成的自建团队。这些团队大多由本科生组成,没有足够的专业和经验,无法提供高质量和更高效的反馈。
相比之下,OpenAI的人工反馈来自多种方式和团队。
OpenAI不仅应用开源数据集和互联网爬虫来读取数据,还与Scale等多家数据公司和机构合作。 AI、Appen、Lionbridge 为了获得更多样化和高质量的数据,人工智能等。
与国内同行相比,这些数据公司和机构注明的方式要“自动”和“智能”得多。
比如,Scale 人工智能使用了一种名称 Snorkel技术是一种基于弱监督学习数据标记的方法,可以从多个不准确的数据库中生成高质量的标记。
,Snorkel还可以使用标准、模型、知识库和其他信号来标记数据,而无需人工直接标记每个数据点。这可以大大降低手动标记的成本和时间。
在数据标记成本和周期减少的情况下,这些具有竞争优势的数据公司可以通过选择无人驾驶、大语言模型、生成数据等高外观、困难、高门槛的细分行业,努力提高其核心竞争优势和差异化优势。
这样,“先锋会吃亏”的搭便车困境就被强大的技术行业壁垒消除了。
3、标准化VS小作坊
由此可见,AI自动标注技术,真正淘汰的只是这些仍在应用纯手工标注的企业。
虽然数据标记听起来像是一个“劳动密集型”行业,但一旦细节深入,就会发现追求高质量的数据并不容易。
独角兽Scale标注在国外数据上 AI为首,Scale 人工智能不仅在非洲等地区应用廉价的人力资源,还招募了数十名医生来处理各行业的专业数据。
Scale是Scale标记的质量 人工智能为OpenAI等大型模型公司提供最大价值。
为了最大限度地保证数据质量,除上述应用AI协助标记外,Scale 人工智能的另一个主要创新是一个统一的数据平台。
这些平台涵盖了Scale Audit、Scale Analytics、ScaleData Quality 等等。根据这些平台,用户可以监督和分析标记过程中的各种指标,验证和改进标记数据,并评估标记的准确性、一致性和完整性。
可以说,标准化、统一的工具和步骤已经成为区分企业“装配线工厂”和“手工小车间”的重要因素。
在这方面,国内大多数标明公司仍在使用“人工审计”来批准数据标记的质量。只有百度等少数巨头引进了更先进的管理和评估工具,如EasyData智能数据服务平台。
如果在关键的数据审核层面上没有专门的工具来监督和分析结果和指标,那么数据质量的检查仍然只能成为“老大师”眼中的车间水平。
,越来越多的国内公司,如百度、龙猫数据等,开始使用机器学习和人工智能应用,提高数据标记的效率和效果,完成人机合作。由此可见,人工智能指示的发生不是国内公司的末日,而是低效、廉价、缺乏技术内容的劳动密集指示方法的末日。
生活知识
- 李晨范冰冰近期感情状况李晨和范冰冰分手之
- 元旦前如何快速美容护肤护肤小秘方
- 有钱枯燥哥是谁带劳力士两个女人
- 众星现身看网球公开赛 靳东携带娇妻秀恩爱
- 人民的名义郑西坡结局是什么 郑西坡结局死了吗
- 孙浩演的穿越电影叫什么 首次演绎穿越剧爆笑上
- 石像与马龙神撞脸引热议 盘点那些年娱乐圈撞脸
- 邓紫棋晒妈妈照片 一家神基因逆龄高颜值
- 台湾演员藏芮轩年纪多大 曝深V高衩泳装照胸好大
- 连淮伟参加过什么节目 努力奋斗多年还是没出道
- 展元每天3小时玩游戏 曝常善意谎言隐瞒谷怀萱
- 丹尼斯吴最新照片 丹尼斯吴写真
- 高天鹤贾凡什么关系两人是真的闹不合吗
- 非诚勿扰插曲牵手成功的歌曲是哪首 卓文萱与曹
- 声入人心高杨是谁高扬个人资料介绍
- 上原亚衣引退3年爆结婚怀孕 包包上的好孕妈妈别