AI行业应用：数据编织助力AI应用训练突破

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

AI行业应用：数据编织助力AI应用训练突破

森焱

2023-06-08

2 评论 12583 浏览 43 收藏

16 分钟

#本文为人人都是产品经理《原创激励计划》出品。

虽然现在AI大模型很火，每个企业都想分一杯羹，但是过程中涉及到的算法、数据等不是轻而易举就能实现的。其中，数据的传输和管理是个大问题。本文围绕AI应用训练的瓶颈展开叙述，对AI训练难点进行总结并结合IDC分析报告，得出“数据”是最大瓶颈的结论，并针对该问题思考解决策略。

一、产品背景

“最近身边再次响起了讨论AI的声音，与前两年对AI持观望态度不同，很多人都说随着ChatGPT应用，AI时代真的来了，产品、运营同学们都在忙着了解什么是ChatGPT、什么是Stable Diffusion等等，但是算法工程师却在疯狂头疼，疯狂抱怨，领导要求他们尽快搞出大模型，尽快提升算法模型指标，服务业务，路过算法组听到张工和胡工的以下的对话：

张工：胡哥，你的模型训练的怎么样了啊？

胡工：哎，一言难尽，没数据啊，好不容易跟业务部门提了数据，他们不是收集不上来，就是收集上来的数据各式各样，没法用啊？

张工：谁不是呢，我这边也是，最近客户的图片，视频加起来10多个T，让我们自己传，光来回导数据就耽误了我们组好长时间。

胡工：你说要是公司能搞个数据平台，让我们快速获取数据多好啊，日常把数据收集管理好，用的时候就省事多了。”

听到以上的对话，我灵机一动，最近基于数据编织想法给客户做的数据管理平台不就刚好可以解决他们问题嘛，于是我赶紧给他们做了详细的产品介绍，讲述下如何通过“数据编织”的设计理念建设数据管理平台帮助用户突破AI在应用训练中的数据瓶颈。

二、AI训练应用难点

除去人员主观问题外，我们将AI应用训练的客观难点进行总结，可以概括为以下三点：

高质量数据：算法训练想取得好的效果，首要条件是高质量数据，但是如何获取高质量数据，存在如下困难：

数据多样性：数据存在结构化/非结构化数据，格式有多，不同系统提供的数据缺少统一标准。
数据分布：很多业务数据多是离散存储，缺少统一的数据管理平台，在应用训练前，获取数据艰难。
数据标注：即时获取到数据，但是大量业务数据在被应用前，都需要标注，标注耗时耗力。

高效算力：指训练模型时，通常需要大量算力，同时如何将算力高效发挥成为难点

随时大模型逐步推广，模型体量越来越大，对算力的需求也迅速递增。
当数据存储离散时，对数据的访问将变慢，即时有集群算力，当无法并行时，算力将无法高效应用。

成熟框架：指算法应用需要成熟稳定，扩展性强的算法框架

应用框架：目前国内外深度学习算法框架众多，对于算法研究（Pytorch）、工业应用（Tensorflow）需要选择不同的框架。
数据转换：由于框架不同、使用语言不同，即时有准备好的高质量数据也需要快速适配不同语言和训练框架。

小结：从AI应用训练的3个难点分析，都与数据有关，所以如果能解决数据问题，可有效助力AI应用训练突破瓶颈。

三、数据是否是AI应用的瓶颈？

虽然从应用侧总结出数据是AI应用训练的瓶颈，但是到底有多少用户这么认为呢？需要用一份数据来说明。

人工智能应用的主要挑战排名

人工智能模型开发过程中，投入多少工作量用于数据准备

注：数据来源于IDC统计报告

从数据统计可以看出，其中有29%的用户认为人工智能的应用缺少训练和测试数据，85%的用户认为至少花费了一半以上的工作量用于准备数据。

小结：既然数据被证实确实是AI应用的瓶颈，那么就可以考虑从数据寻找切入点，以提供统一标准、快速访问的大批量的高可用数据源为定位开展产品规划。

四、产品设计

在寻找到以数据为切入点后，思考如何建设数据类的产品，根据上述的分析，可以发现要在我们的产品中解决3个数据类问题：

问题1：数据存储，尽可能不改变源数据的存储位置，最大化降低数据存储的成本。
问题2：快速访问，从早期的数据查询最好变成数据推理，快速搜索所需数据。
问题3：统一标准，将复杂的数据进行统一规范，便于应用。

对以上问题，本次在传统数据管理平台基础上采用“数据编织+知识图谱”的理念进行变革设计。其中各个问题的突破点如下：

问题1：基于数据编织思想进行设计
问题2：基于知识图谱思想进行设计
问题3：基于统一的数据平台对外提供服务

接下来是产品的详细设计，从产品定位、应用架构、差异化竞争力和建设路径展开介绍。

1. 产品架构

1）产品定位

以数据编织思想提供知识图谱式的数据管理平台，服务于需要高质量数据的客户。

注：虽然主要目标是解决AI应用训练的数据瓶颈，但是从产品规划角度，我们将用户场景扩大，但凡需要数据服务的都是该产品的目标用户。

2）产品应用架构

从数据层到产品应用层，我们设计如下的产品架构：

数据层：支持接入不同种类数据类型，以及结构化数据和非结构化数据，AI训练的数据类别较多，尤其是多模态应用更需要多种类型的数据。

存储层：针对数据的离散性，要支持数据在不同位置的存储，从云上数据到本地数据都需要支持接入。

数据管理平台：本次需要设计的核心产品，主要包括四块：

数据治理：传统的数据管理平台均具备的通用模块，提供数据分析、清洗和规则定义等功能。
数据安全：同样的属于传统模块，提供跟数据安全相关的功能，如数据脱敏、数据安全传输等。
数据虚拟化存储&分布式缓存：此处即是利用数据编织思想对来自不同平台的数据进行网格化编织形成一张数据视图，同时仅虚拟化存储数据的逻辑信息，不做元数据的迁移和复制，降低存储成本；但是为了能够快速获取数据，在设计中提供分布式缓存，将访问频繁的数据做缓存，提高AI算法训练对数据的I/O速度和并行性，最大化提高算力集群效率。
知识图谱：将清洗好的数据，定义好规则好，按照知识图谱三元组的形式进行存储，对外以知识图谱的形式提供查询服务，知识图谱有利于进行搜索的推理，可以通过某个实体数据关联到另一个实体数据，比如查询电影视频数据，可以搜索“人在囧途”，通过演员“王宝强”和“徐峥”就会关联出“泰囧”，通过关联推理查询可以帮助用户在平台中快速抽取到所需数据。

数据服务：在设计完平台后，需要预留出对外服务的出口，从产品的定位出发，以toB客户为主，所以既要考虑可视化服务、也要提供API类的服务。

API/SDK服务：面向有技术能力的公司或者用户，比如本文想解决的AI训练应用瓶颈，就可以通过将AI平台直接集成数据平台的API服务，获取需要的数据，将清洗好的数据用于模型训练。注：一般AI训练平台需要标注后的数据，所以可以先将标注平台接入，再直接数据传输给AI训练平台。
可视化查询：除了考虑技术层面对接，当然还要考虑业务用户在平台查询数据，下载数据等行为，比如产品经理、运营经理，他们需要依赖平台自身提供的可视化查询，检索并下载数据后，导入其他业务平台进行加工生产，其中可视化查询采用图谱结构，以天眼查的样式为参考，通过搜索某个数据，同时将关联数据呈现，便于用户推理查询。

图注：天眼查截图仅用于学习参考

2. 商业化

产品一旦落地，商业化是不可获取的，所以在产品规划阶段需要将商业化方向先考虑清楚，从以下3个关键方面考虑：

1）售卖内容

针对B端客户，我们提供两类售卖内容，包括“数据管理平台”标品和“技术方案”。

标品：面向无数据管理平台的用户，用户只需要买入我们的标品，将数据接入，即可在业务中应用，做到即开即用。
技术方案：经过数字化转型大潮的影响，不少的B端企业客户或多或少都会有自己的数据管理平台，所以toB的另一个售卖点就是售卖成熟的技术方案，对企业现有的产品进行改造升级，此时，我们需要基于“数据编织+知识图谱”设计思路对客户产品从底层到服务层进行改造。

2）售卖方式

B端产品常见的两种售卖模式“渠道合作”和“直销”，在本产品中也采用这些方式。

渠道合作：选中两类渠道合作，一类是地市的代理，由他们在地方进行推广；一类是ISV模式，找到有技术能力的总集代理，将数据管理平台与他们的产品合作，可以优势互补，对外一起推广。
直销：通过举办产品发布会、广告推广、跑客户等手段进行产品直接销售。

3）差异化优势

既然是基于新的设计思路打造的数据管理平台，那么在产品销售过程中，就需要体现出与传统数据管理平台的差异化优势，才能后来居上，吸引用户，我们可以概况为以下3个优势点：

数据编织：该产品是采用数据编织的思想进行数据管理，采用数据虚拟化存储，降低数据物理存储成本；同时通过数据缓存的方式降低AI应用训练时获取数据的访问时延。
AI能力：与传统数据平台通过各种条件检索的方式不同，在本产品中直接通过知识图谱视图的形式呈现，用户可以仅输入某个简单条件，系统即可返回相关的数据关系拓扑，实现“数据找人”。
成熟标品：虽然可以卖技术方案，但是如果没有成熟的标品终究不好打动客户，所以与传统厂商卖大而全的数据管理平台不同，我们卖“小而精”的一站式智能数据管理平台。