海天瑞声董事长贺琳:为大模型“火箭”加燃料
时间:2024-11-06 08:43:29 来源:ふるはしたかいち(古橋孝一)网
■相关公司:海天瑞声(SH688787,火箭股价89.26元 ,海天市值53.85亿元)■核心竞争力:具备标准化数据集产品规模化生产能力 ,瑞声燃料累计完成超过1300个自有知识产权的董事大模训练数据标准化产品的建设 ,在全球企业中稳居前列;较早地布局并建立了多语种能力。长贺■机构眼中的型加公司
:国内AI训练数据龙头提供商,自动驾驶业务打开成长空间■所属概念:数据服务 人工智能 AIGC每经记者 可杨 每经编辑 董兴生11.2公里/秒,火箭是海天火箭能够成功摆脱地球引力束缚 ,飞离地球的瑞声燃料速度 。而瞬间的董事大模燃料燃烧所提供的推动力,是长贺帮助火箭一次又一次加速直至进入外太空的助力。在与《每日经济新闻》记者交流时,型加海天瑞声董事长贺琳觉得 ,火箭作为一切人工智能技术最上游的海天数据,就是瑞声燃料人工智能这艘火箭的“燃料”。海天瑞声正是一家生成“燃料”的公司
。海天瑞声是国内最早投入AI训练数据的专业服务商之一
,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下
。而身处潮水之中,贺琳对未来的思考依旧谨慎。大模型狂热:初印象非常惊艳,但对预期“审慎乐观”2023年初 ,贺琳在海天瑞声公司年会上的发言稿
,80%由ChatGPT完成
。“非常的惊艳
,有点不(敢)相信
。”这是贺琳对ChatGPT的初印象,“当然,也有不尽如人意的地方,我觉得这才是我们要努力的方向。”ChatGPT的出现 ,让这家数据公司突然站到了资本市场舞台中央。2023年开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股 ,较其2021年8月上市时翻了一番。而海天瑞声方面 ,则已多次在投资者互动平台发布提示 ,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入 。“年初,我们还在仔细观察、论证这个技术到底对数据有什么样的需求。”贺琳认为 ,合适的入局时机应该是当这项技术能够真正在行业中落地的时候
,这意味着其有真正的应用场景
,而非伪场景 。“我们要确定这个需求是真的
,且有人会为这个需求买单,这才是一个正常的商业逻辑
。”同时,当行业落地时刻到来
,数据的需求量也会迎来大规模提升 。“这给公司带来的上升空间
,我认为是非常乐观的,(目前)我们还是抱着乐观审慎的态度去看
,去跟踪
,去研究这项技术。”“判断一个行业
,我们会更深刻地去想这个行业到底需要什么样的数据,只有想清楚这件事,我们才会走过去 ,我们当初对自动驾驶领域的布局就遵循了这个逻辑
。”贺琳介绍。布局自动驾驶行业是海天瑞声在2021年定下的战略方向,在贺琳看来,自动驾驶赛道已经符合这个判断逻辑 。从L2到L4 ,自动驾驶已经有相当多的应用落地
,同时
,自动驾驶的数据需求量十分巨大。她判断,自动驾驶是一个人命关天
、对安全要求非常高的技术,它需要大量数据来打磨,去覆盖各个不常见的场景来保证安全性,因为任何极端天气或极端场景都可能导致误判。“怎么避免
?就需要大量的数据去训练 ,让模型接触到更多长尾的场景来提高它的安全性。”今年4月18日
,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。数据需求增加背后:系统性差距依旧存在贺琳曾就职于中国科学院声学研究所,从事语音识别 、语音合成 、汉语语言理解 、语音心理测试等方面的研究工作。成立于2005年的海天瑞声,最初诞生于贺琳在这份工作中捕捉到的行业痛点
。“我们当时在课题组其实也会遇到(缺少)数据的问题,解决办法就是工作人员 ,加上研究生
、博士生,自己来做数据。”尽管彼时实验室的数据量相对较少,但也已经算是一项繁琐的工作。随着技术的发展
,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求,意味着数据需求随之大规模增加
。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。“(大家)认为数据是一个非常大的瓶颈,阻碍他们技术的落地。所以我就在想,那是不是可以由我出来做这件事情 ,帮助大家解决这个困难。”时至今日
,贺琳觉得
,彼时促使她创业的瓶颈依旧存在。在她看来 ,数据的需求是跟着技术的发展而变化的,随着技术在各个行业中落地,就会有更多的数据需求爆发。“像现在大模型起来 ,很多人都认为,数据差距是一个造成系统性差距的非常重要的原因 ,所以大家认为数据还是很重要的要素,这个瓶颈依然存在
。”不同的是
,贺琳创业之初,国内竞争对手少,海天瑞声得以在市场快速突围。而如今
,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础
。“其实,这个行业有很多的技术壁垒和‘know-how’,也是需要不断打磨项目
,才能去沉淀自己的技术、学会各类‘knowhow’的 ,这是靠项目积累出来的,而不是短期能很快积累起来的。”海量数据如何最终成功支撑起庞大参数的大模型运行
?需要首选了解一个概念——数据集
。贺琳介绍,数据集的产生是一个非常复杂的过程
,其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段 。在设计环节 ,需要先去了解数据集是为了解决哪个问题
,这个问题需要什么样的数据,需要多大的量 ,需要什么样的场景,以及采集的样本
、规模 、内容,包括采集的设备
、标注的规范等;采集环节则是按照设计的方案
,到大千世界采集
,有可能是声音,有可能是图像 、图片,又或是手写的字、道路的场景。采集完成后则需要进入清洗 、标注环节
。最后生产出的数据集需要通过双层的质检流程,最终才能生产出一个合格的数据集
。这其中
,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果
。贺琳举例说
,海天瑞声的大模型数据清洗率是5% ,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题 ,“我们通常说95%、98%或者是99%,不同的准确率对模型训练的结果有非常大的影响”。“数据的清洗和标注流程对于模型的质量至关重要
,它们可以提高数据的质量和准确性,帮助模型更好地去学习 ,也为模型的评估奠定了一个很好的基础。”贺琳表示。贺琳认为,高质量的数据包括了数据的丰富度 ,场景的丰富度
,数据的准确性 、一致性等,这都是衡量高质量数据的标准。她也认同
,高质量数据的提供
,需要高质量人工的支持。“有一些高质量的数据,尤其是行业数据
,确实需要更高层次的人去处理。因为我们也了解到,像OpenAI这样的公司,它背后也有一个很强大的数据处理团队,他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里 。”她表示。浪潮的下一步:离开人工 ,实现智能“有多少智能,就有多少人工。”这句话依旧得到大部分人的认同。在海天瑞声这家“燃料”制造商 ,优质“燃料”的诞生,同样需要最了解“火箭”的人来把控。贺琳介绍,海天瑞声的管理层除拥有比较好的学术背景外
,也都有在外企或大厂等机构的工作
、管理经验。“他们以前是数据的使用者,加入公司以后,他们非常知道数据的使用者需要什么样的数据
,这可以让他们更快速地对市场有预判 ,也会更好地跟业界交流
。”她同时坦言
,为不同行业提供的数据,需要具备不同行业专业知识的人来处理。“但把规则定下后,可能通过一些训练 ,让基础的人员能具备这样的训练能力 。”在贺琳看来,“有多少智能就有多少人工”是一个误解。“确实
,这个行业有很多的人力
,但人力是在技术的支撑下做这些事
,没有技术支撑 ,可能人力需要现在的10倍都不止。所以 ,我们这种综合性的数据服务商一直都在追求用更自动 、更智能的方式来完成数据的任务,不断解放人力。”贺琳希望 ,能一步步减少人工对人工智能的参与,大模型的浪潮
,正在加速实现这个目标。“让计算机自动处理数据,永远都是我们的追求。”据她介绍,公司也在探讨未来的两大工作方向,一个是打造一批针对通用领域、垂直领域,且具备单模态和多模态属性的
、供给大模型使用的数据集产品
。另外,海天瑞声也在计划启动数据生产垂直大模型的研发项目,希望用大模型技术来支撑数据的生产
。“大家都说大模型将给众多垂直行业带来重大积极影响
,其实数据处理本身也是一个垂直行业 ,我们希望用大模型的能力来更自动化地把数据处理这件事情做好 。”“人工智能的背后是人工”也是有可能发生改变的。“现在背后依然确实需要很多的人工
,但是我们一直在尽量想办法减少人工。包括加入很多算法 ,提高对数据做预标注的准确率
,准确率越高,人工参与的程度越低。”但贺琳也坦言,这件事并不容易。“其实 ,如果真的把这个事都做成了,人工智能就完成了 。因为不需要人的介入,相当于它处理的东西都跟人想的是一样的。”但另一方面 ,当技术达到一定突破后
,伦理、法规、安全等问题就会出现,如何解决这些问题
,也是今后整个人工智能行业面临的难题 。新的变革契机:多模态需求将推高行业门槛每一次的火箭升空,都需要大量的燃料助推
。贺琳认为 ,当人工智能技术迎来新的变革时,对数据提供商来说就是一次契机
。“我觉得可能也是根据一些需求 ,比如像苹果手机的siri出来以后,大家就会认为在语音上有一些突破
,这些数据的需求就会暴增
。”贺琳觉得,在整个人工智能行业,数据就像人类学习知识时使用的教科书,“你的教科书越全面,信息越准确,学习的结果就会越好
,其实机器也是一样的”。她认为,数据集本质上就是人类把自己对大千世界、万事万物的一些认知和判断方法加载到数据上,然后让机器去学习
,使机器得出来的对事物的判断结果更加趋近于人类。在她看来,这就是数据公司的价值
。而在大模型的热潮之下,多模态的能力成为一个关键词 。贺琳表示 ,多模态数据是未来的一个方向。“多模态的数据里蕴含了更多更丰富的信息,对机器做判断也会提供更多的信息来源,但多模态的数据(获取)的难度也非常大。”她进一步介绍,首先 ,多模态数据要求的量很大
,合规取得这些数据的难度就会更大;其次,多模态数据采集的设备也非常昂贵
,对数据公司的财务能力是一种考量 。此外,多模态数据对齐的问题
、对齐的标准等
,都是多模态数据的难点 。贺琳认同一点,多模态能力会导致数据公司的入门门槛提高。“包括我们可能还要去做一些数据生成技术 ,用我们的一些单一形态的数据来合成多模态的数据
,这都要求公司有更高维度的研发能力
。”目前,贺琳依旧认为,数据这个方向是海天瑞声未来的定位,因为这个领域要做的事情太多了 。“随着技术的发展进入千行百业 ,每一个行业都需要认真地去了解这个行业的‘knowhow’是什么、如何解决这个行业的一些关键痛点 。那么多行业呢,我们有足够大的空间去拓展。”而深入行业,则需要公司本身有一定的研发能力 ,同时,在进入行业时,需要有行业专家的参与,通过真实的项目打磨,进而逐渐积累
。“这不是个一蹴而就的事情,需要一个长期持续的过程。”她表示。贺琳相信 ,通用人工智能终将有一天会实现 ,但这也需要一个过程,即便技术达到了,还有伦理的问题
、安全的问题
、合规的问题。这些都解决了之后 ,如何解决行业的问题
,也有很长的一段路要走。而在这条路上,她认为,数据公司将会扮演越来越重要的角色
。在这个过程中
,算法可能会相对趋于稳定,但仍需大量的 、类型迥异的数据对算法进行训练,才能解决行业的问题。翻译搜索复制每日经济新闻
-
比太阳亮1万亿倍!怀柔高能同步辐射光源最近进展北京日报客户端2023-12-11 11:57北京北京日报客户端2023-12-11 11:57北京再见,AC米兰!当家球星8000万欧离队已定!意国脚+顶级B2B来投确认了!马刺冠军教头抉择续约,薪资同盟第一,有望再建王朝对战老东家马尔卡宁献上8次暴扣,公牛会后悔当初放他离开吗?独行侠轻取爵士,东契奇创历史!早知道 | 凯尔特人交易得到波尔津吉斯NBA | 斯玛特被送至灰熊 凯尔特人夺冠拼图有变邓紫棋彻底放飞自我了?穿比基尼出镜秀身材,身高160比例却很优越,身材真带感Windhorst:76人相对于愿望续约哈登 但如没乐成球队也尚有其余抉择亚冠罚单将至浙江残阵南征墨尔本 莱昂纳多停8场?“亚洲第一美胸”:因潘金莲成名,28岁住豪宅,如今沦落到卖拉面NBA断腿哥,跟对勇士,跟对库里,完成夺冠的梦想伊万卡未处理就遭暴露的照片:如此真实的身材,真是别有滋味!
相关内容
- ·国米大胜重返榜首,AC米兰客场落败
- ·芹菜奈何样吃最有营养?推选芹菜养生保健的6种服法
- ·双双解脱?巴黎圣日耳曼宣布梅西离队,阿根廷巨星下一站或是沙特从国民女神,到央视“查无此人”,50岁董卿,如今也塌房了?
- ·以及哈登说再见,轻忽杰伦布朗,还要挖角湖人!最不讲理球队降生
- ·湖人灰熊新交易曝光,佩林卡梭哈报价24+4+5后卫,水拉八村成筹码
- ·新世纪,最强三巨头排行榜,热火、勇士和骑士领衔年轻时汪司长的照片,也曾是温润如玉翩翩公子,远超那些奶油明星
- ·苹果不贵,只是国人太穷?咱们买iPhone14Pro需9.5%年支出
- ·夏日养生要留意甚么?医生给出6个小建议!
- ·画家笔下苗条女子,美丽优雅︱画家詹姆斯·杰布萨·香农爵士作品人和猩猩能不能生出孩子?前苏联的‘人兽杂交’实验揭秘!
- ·三方交易达成!绿军新三巨头诞生,斯玛特赴灰熊!
- ·宁夏银川烧烤店燃气爆炸事变伤员性命体征平稳
- ·罗马诺:AC米兰和纽卡就托纳利转会达成协议,转会费超过7000万欧没想到,今年“挤奶衫”才是最流行的,谁穿谁好看,显身材有气质
- ·华子伤退,森林狼24分大胜!罗斯首发惊艳,李凯尔11投2中
- ·泰坦尼克号遇难者后世的丈夫在失踪潜艇上,笑剧会再次重演吗?
- ·摆上货架,迎来交易?快船或将交易球星,兰德尔锐评同届生2010年,文强被执行死刑前的照片,双手戴手铐,躺在一个光板床上
- ·追逐梦想!重庆大学生球员王俣豪将参加CBA选秀
最新内容
- ·中科宇航2024年计划实现6发火箭出厂,力箭一号遥三运载火箭顺利出厂
- ·三伏天养生要留意甚么?养生确定要避开这4个隐讳
- ·原创 火箭补强内线最合适的球员浮现 其完美适配火箭 火箭面临艰难选择
- ·斯玛特被交易至灰熊!凯尔特人争冠拼图有变,呈头重脚轻之势
- ·曼彻斯特双雄一悲一喜,“蓝月”憾负维拉,“红魔”力克“蓝军”白天演员、晚上间谍,隐姓埋名75年,他不只是“最好的姜子牙”
- ·停赛走人二选一!巴黎做有情抉择,1.8亿巨星成小丑,皇马拒辅助
- ·正式确定!当红国脚加盟申花,32岁老将为其腾地,投奔中超新军
- ·CBA首钢吃大亏赚小钱,李慕豪回深丢千万,厚脸皮追栾利程培训费
- ·原创 森林狼遭遇魔鬼赛程;比尔复出时间曝光;小皮蓬狂砍41+5+6
- ·国字号男足梯队连续18年无缘世界大赛!U17国足仅有60多人可选,何谈质量?14岁女生穿包臀裙渔网袜,还拍私密照给男友看,这个社会咋了
推荐内容
- ·官宣!朱婷之后再有中国球员留洋意甲,世锦赛最佳力压姚迪进豪门新一代史莱克七怪现身,贝贝远超预期,王冬是双马尾,官方真用心
- ·原创 凯尔特人试训大五白人侧翼,他是球队需要的全能型人才?
- ·梅西刚走,姆巴佩又要离开,法媒:巴黎圣日耳曼俱乐部高层愤怒“他们逼我说台湾是中国的,不然就不救我!”一石激起千层浪
- ·江歌母亲:刘鑫不屈二审讯决恳求再审
- ·近5年总冠军含金量排名?19猛龙最差,20湖人前三,第一不是勇士
- ·立冬之后若何养生?调养应以“养藏”为原则
- ·掘金社媒分享后卫布劳恩生涯差距夺冠瞬间
- ·西甲保级悬念即将揭晓,西班牙人和赫塔菲仍有机会逃出降级区
- ·原创 夺冠概率6%!勇士总冠军含金量如何,近十年仅次于骑士首冠!
热点内容
- ·浅滩卧龙终得水!多特蒙德、巴塞罗那绝境翻盘,晋级欧冠淘汰赛被禁五年的国产片,真敢拍!
- ·靠谱吗?美媒献计鹈鹕,哈登、锡安有望互换东家?
- ·马刺官推:文班亚马将身着1号球衣
- ·原创 拒绝4000万!雄鹿二当家想走,哈登天赐良机,投敌字母哥能争冠军
- ·狂轰41分,湖人险胜快船!无缘50万奖金,你却不再是关系户35岁高校女教师撞飞女孩,全裸躺地阻拦救护车女孩因此与世长辞!
- ·悉尼FCvs墨尔本胜利,澳超推荐焦点赛事它才是真正的“国宝”,数量比大熊猫还稀少,目前全世界仅存2只
- ·开拓者决定留下利拉德 探花签锁定亨德森?老照片:对越反击战中战士在战壕中看家人照片一幕,看着照片格外幸福
- ·原创 勇士高管小迈克·邓利维说勇士“真的想要”德雷蒙德·格林回来
- ·出色表现:波神砍下26分,助凯尔特人队险胜灰熊队
- ·原创 终究还是前往波士顿!大波神挪窝,灰熊收下强硬后卫!