海天瑞声:投资者关系活动记录表-(2025年1月17日)
公告时间:2025-01-17 18:05:56
证券代码:688787 证券简称:海天瑞声
北京海天瑞声科技股份有限公司
投资者关系活动记录表
编号:2025-001
投资者关系活动类别 □特定对象调研 □分析师会议
□媒体采访 □业绩说明会
□新闻发布会 □路演活动
□现场参观 √电话会议
□其他(请文字说明其他活动内容)
参与单位名称及人员姓 工银瑞信 黄丙延
名 东吴基金 汤立其
天治基金 陈付佳
国泰君安 钟明翰、李博伦
会议时间 2025 年 1 月 15 日
会议地点 线上交流
上市公司接待人员姓名 董事会秘书 张哲
1、标品化的产品数据集业务与定制化服务业务的
区别是什么?
产品数据集是先于客户需求形成的模拟数据,是公
司区别于其他竞争对手的一大特色,基于公司对市场的
投资者关系活动主要内 判断和通用化需求的提取能力,其属于是一次性投入、
容介绍 未来重复授权销售,对于公司的营收、毛利有着重要作
用;而定制业务的需求来源是客户的定向化需求,有些
定制业务的原始数据来源是客户提供的实网数据,公司
提供纯加工的服务。
客户的 AI 产品在上线之前及初期,因为其自身尚
未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。
2、公司的核心竞争力主要体现在哪?
(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。截至 2024 年 6 月末,公司已积累超过1,650 个自有知识产权的训练数据标准化产品,数据库存量稳居全球企业前列。
(2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。
(3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。
(4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为
成熟的安全、合规管理体系。
3、公司的主要竞争对手有哪些?
从短期来看,公司竞对仍是传统模式下的数据服务公司,国内的主要竞争对手是一些品牌数据提供商,如数据堂、标贝以及一些新兴公司;国外的主要竞争对手是 Appen。
与竞争对手相比,海天瑞声自身还是存在显著的竞争优势的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链管理能力等等。另外,从公司创业历程看,由于长期与国际性科技企业合作,对数据安全和合规的重视是深入到公司运作的方方面面的。而数据安全和合规是需要投入较高的成本建设的,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会为公司未来在垂直行业和政企业务拓展形成有利优势。
但从长期来看,随着训练数据需求逐渐向高品质、规模化、行业化方向转变,基于自身持续研发能力建设的数据生产智能化程度将成为数据服务商的核心竞争力,因此,未来诸如 Scale AI 这类具有更强技术属性的同业公司将成为海天的主要竞争对手,为此海天自身已经开始在研发、人才等方面大规模持续投入,为未来竞争提前布局。
4、客户也在做自己的算法,也可以用算法做预标注,海天瑞声的价值在哪里?
目前行业内确实存在少量客户自身利用算法进行预标注的情况,但该类客户仍有大量数据需求依赖第三方数据服务商解决。一方面,对于已经过客户算法预标注的数据,仍将依赖第三方服务商在其预标注结果基础上进行更高难度、更加精细化的处理,以达到更高的数
据准确率。相比于客户的预标注算法,海天瑞声在部分场景下具有更优的算法预标注能力,因为公司算法迭代速度更快,我们是以人机藕合的方式进行数据处理,我们的预标注算法能够第一时间、甚至以近乎实时的方式得到人工处理的反馈,使得预标注算法能够在最短的时间内实现快速迭代,最大程度提升对数据的预标注效果。另一方面,由于其预标注范围仅局限于其过往积累的数据现象,客户算法通常无法覆盖所有类型的数据标注需求,因此,对于行业较为前沿、愈加丰富的数据需求或标注场景,客户仍将依赖专业的第三方数据服务机构进行数据处理。
5、如何定义平台功能的好坏?
数据处理平台是否具备较强竞争力,首先要看其功能点的覆盖程度,覆盖的功能类型越丰富,其可处理的数据场景、以及可满足的客户需求就会越多。以智能驾驶为例,目前同时具备 3D 点云标注、2D-3D 联合标注、4D 标注以及 3D 语义分割标注的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。
第二个评价要素是平台的产出效率。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低生产成本。
第三是平台友好度,即平台操作的便捷性。便捷性越强,标注员上手越快,标注效率则越高。
从长期看,数据处理平台除了覆盖数据标注需求外,如何能与客户的算法平台连接,做好数据管理的工作,进而加速数据训练迭代,也将是评判平台能力的因素。
6、公司如何看待合成数据这个技术?
数据合成技术可以作为数据采集的有效辅助,但也
存在较强的局限性,降低真实世界各类特征的训练效
果,因此目前仅可作为数据采集的一种辅助方式。从目
前数据服务行业来讲,以计算机视觉场景为例,合成数
据主要应用于某些高危的、罕见的 corner case 的模拟
训练当中,但合成数据毕竟是由机器生成的虚拟数据,
其数据质量以及真实性仍无法替代真实场景数据,因此
按照目前的技术路线,绝大多数企业仍在使用真实场景
数据进行模型训练。
附件清单(如有)
日期 2025 年 1 月 15 日