海天瑞声:投资者关系活动记录表-(2024年11月8日)
公告时间:2024-11-08 15:33:56
证券代码:688787 证券简称:海天瑞声
北京海天瑞声科技股份有限公司
投资者关系活动记录表
编号:2024-020
投资者关系活动类别 □特定对象调研 □分析师会议
□媒体采访 □业绩说明会
□新闻发布会 □路演活动
□现场参观 √电话会议
□其他(请文字说明其他活动内容)
参与单位名称及人员姓 景顺长城 陆哲皓
名 银华基金 孙蓓琳、吴文蔚、杜宇、郭磊、同颖茜、王利
刚、向伊达
惠升基金管理公司 陈桥宁
长盛基金 杨睿琦
中邮创业基金 姚婷
长城基金 林皓、赵凤飞
长盛基金 杨睿琦
中信建投 张咏梅
会议时间 2024 年 11 月 5 日
2024 年 11 月 7 日
会议地点 腾讯会议
上市公司接待人员姓名 董事会秘书 张哲
投资者关系负责人 袁璐
1、请问公司三季度收入大幅增长的原因是什么?
投资者关系活动主要内
2024 年前三季度,公司收入为 1.50 亿元,同比增
容介绍
长 44.90%,主要是受益于大模型技术的快速发展以及
应用场景不断落地,以智能终端厂商、科技互联网公司等为代表的国内外科技巨头纷纷加大多模态数据投入以支撑其智能终端、内容生成等领域的 AI 能力。由此带来,以多语种、多音色为代表的智能语音业务需求、以及以指令微调、偏好对齐为代表的自然语言业务需求均同比呈现大幅增长,整体上驱动公司营业收入同比显著增加。截至 9 月末,公司已为近 20 家境内外大模型企业、科研机构,在预训练、指令微调、偏好对齐等方面提供了训练数据服务或标准化产品,为后续承接更大规模的大模型领域数据需求奠定基础。
2、公司前三季度净利润同比也呈现出比较好的增长,背后的原因除了收入增长外,公司是否做了其他的举措来控制费用?
2024 年 1-9 月,归属于上市公司股东的净利润为
378.87 万元,同比增长 3,590.86 万元。背后的驱动因素,除了公司整体营业收入大幅增长外,前三季度具有高毛利特点的数据集产品收入占比有所提升,驱动公司整体毛利率增加至 66.83%。此外,为进一步提升整体运营效率,公司进行了管理资源的合理配置和流程优化,使得管理费用有效降低;与此同时,公司 DOTS 一体化数据处理平台开发已达到阶段性成熟状态,相关投入强度呈现自然回落;同时,部分账龄较长的大额应收账款在报告期间完成回款,信用减值损失大幅降低,以上因素共同驱动公司前三季度净利润同比大幅增长。
3、智能终端的 AI agent 出来之后,对数据需求有
什么变化?
智能终端侧的 AI agent 将成为继智能驾驶之后又
一个重要的 AI 落地场景,会带来新型的数据需求。首先,智能终端 agent 需要能够处理和理解来自终端场景
的多样化数据,因此需要获取相册中的照片、视频、以及短信和电子邮件内容,通过这些数据的学习,使得 AIagent 能够深入解读和响应终端的文本和图像信息。其次,为了模拟和执行人类的操作行为,AI agent 需要大量的各类应用的操作数据,来训练其对各类操作流程的理解。此外,AI agent 必须能够理解和响应各种语音输入,这也激发了对多语种、多音色和多风格语音数据的进一步需求。针对以上 AI agent 多样化的数据需求,海天瑞声均具备设计、采集、加工等数据服务能力。
4、看到公司前三季度境外收入快速增长,除了三季报里讲到的行业侧的多模态大模型的驱动外,公司本身在境外做了哪些布局和投入?
为更好把握行业机遇、进一步扩大全球客户辐射范围,公司从体系搭建、市场研究、品牌升级、营销推广等多维度提升业务、客户触达及服务能力。前三季度,公司持续加强境外销售团队建设,进一步织密客户服务网络;同时,通过参与包括 Web Summit Qatar、ICASSP、
AI EXPO TOKYO、Autosense and InCabin 及 CVPR 等
全球知名行业及学术顶会,以及布局搜索广告投放、社交媒体矩阵等多类宣传渠道等方式,向全球市场展示公司先进技术实力及创新产品,提升行业影响力和美誉度。2024 年,公司全新发布海外官网,全面升级官网服务模式,通过搭建 marketplace,便捷用户目标服务/产品的选择,有效提升新客户拓展以及订单转化率。
5、前三季度,公司在大模型领域进行了哪些投入?
公司继续加大大模型数据方向的研发投入,增厚大模型领域的数据储备,已完成并持续建设包括“大语言模型中文对话预训练数据集”、“语音大模型(声音复刻、歌曲)微调数据集”、“语音大模型(多语种)预
训练及微调数据集”、“视觉大模型(图像-文本)预训练及微调数据集”、“视觉大模型(视频-文本)预训练及微调数据集”等在内的多领域大模型数据集。同时,针对大模型在特定行业的应用需求,公司重点开发了医疗、金融、法律、艺术等垂直领域的标注资源,形成垂直领域专家库,为公司提供高质量行业数据服务奠定坚实基础。与此同时,为更好理解大模型技术方向,公司通过前瞻性研究,探索大模型数据的规模化生产方式。公司已和清华大学联合启动多语种语音大模型研发计划,该项目将基于最新的语音大模型框架技术,自研多语种数据清洗技术,训练多个不同规模的语音大模型,有效提升多语种语音数据处理的效率和准确性。
6、三季报中有提到,境内、外客户购买了公司很多语音数据,请问公司在智能语音数据方面的储备和进展如何?
语音一直以来都是公司的优势领域,公司已沉淀下深厚的语音语言学基础研究成果,并已将其运用至构建高质量的智能语音、以及多模态训练数据。在语音语言学基础研究领域,公司拥有丰富的多语种语言学家团队资源积累和多语种发音词典积累,以及不断创新的发音词典构建技术和流程技术。目前,公司已经拥有超过205个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势。同时,公司已积累下超过130个多语种的发音词典,覆盖波斯尼亚语、塞尔维亚语、巽他语、尼泊尔语、奥利亚语、基隆迪语、茨瓦纳语、达利语等小语种,累计词条数超过 1,200 万条,可支撑构建高质量的智能语音、以及多模态训练数据,是公司
的主要竞争壁垒及核心技术之一。
7、客户什么时候会选择定制服务,什么时候会选择标准化数据集产品?
通常来说,客户在选择标准化数据集或定制化数据服务时的逻辑为:在客户的 AI 产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集(即,标准化数据集)进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工(即,定制化数据服务),加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。相较而言,对于新兴的人工智能领域,尤其是在向细分产业或场景拓展初期,通常来讲定制化数据需求占比偏多,而后随着公司对于该领域熟知程度的加深、且市场上假若能逐渐形成共性需求,则公司会逐步拓展该领域的标准化数据集建设。
8、训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何?
定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。
产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价
格。训练数据产品通常以单个数据集为单位进行定价,
定价比较灵活。
价格走势主要由市场的供需关系决定。如果某类数
据为市场稀缺数据,例如具有较高进入壁垒的多模态、
虚拟人等前沿类数据需求、或传统业务里的多语种数
据,都可在一定时间内维持较高的溢价水平。但在较为
成熟的细分方向,比如中文智能语音数据领域,确实存
在进入者增多、价格竞争的情况。因此,未来公司将主
攻有较高技术壁垒,存在较大毛利空间的细分场景,尽
力避免价格竞争带来的过度消耗。
9、项目周期一般有多久?
公司的项目实施周期可以分为以下 2 个类别:
(1)产品类数据库的周期:因为其在销售时已经
是成品状态,通常 1-2 个月能实现收入确认;
(2)定制类服务的项目周期:根据项目实际,生
产过程可能涵盖设计、采集、处理、质检等环节,平均
周期在 6 个月左右。如果仅为数据加工服务,则根据客
户提供的数据量和难度,周期在 3-9 个月不等。
10、境外业务的毛利率为什么会比境内业务高?
首先,公司境外业务当中标准化数据集产品的销售
占比相对更高一些,而标准化产品的销售毛利率为
100%,远大于定制服务毛利水平。此外,相比于境内客
户,境外客户更认同数据服务商的综合能力及品牌价