机器学习零代码平台:SageMaker Canvas拆解

0 评论 2427 浏览 3 收藏 17 分钟

低代码、无代码平台在近几年流行了起来,那么这类平台的实际体验效果如何?本篇文章里,作者就针对一款面向业务分析师的零代码机器学习工具——Amazon SageMaker Canvas,进行了分析体验,一起来看一下。

一、概述

Sagemaker Canvas 是一款面向非技术人员,提供无代码自动化建模及数据预测的机器学习服务。所以,在拆解该产品前,我觉得有必要了解下机器学习和无代码这两个的基本概念。

1. 机器学习

关于机器学习的定义,我引用百度百科说明:“机器学习是对能通过经验自动改进的计算机算法的研究;机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”。

简单来讲,机器学习是一个模型训练过程:数据输入-建模-结果输出,基于结果再进行“数据输入-建模-结果输出”循环往复,最终得到最优模型的过程。此处用到的模型,也可以叫算法,算法基本上是有现成方法论的机器学习模型。所以,想要得到一个最优的模型,核心是需要:

  1. 足够多合适的数据;
  2. 足够大的算力。

2. 无代码

低代码平台概念最早在2014年由Forrester Research正式提出,随后各低代码头部企业对低代码平台有了自己的定义和解释,因此也诞生了无代码这种类型的产品。粗犷点理解,我觉得低代码是一个便于开发人员快速开发和部署应用的平台,而无代码是面向业务人员通过页面的可视化操作便可以搭建应用的平台。

由此我得到了一个信息:那就是无代码平台适用于流程比较容易标准化的业务场景;面向的是技术能力相对不足且希望能快速搭建自己的业务系统以降本增效的中小企业业务人员,及大型企业中对这部分预算投入较少的部门

机器学习流程上容易标准化,且一方面建设一个数据科学团队的成本很高,另一方面从业务需求到模型产出之间的时间也会比较长,作为需要及时相应的业务来说,他们也需要一个可以业务直接使用的轻量机器学习工具,我觉得这是canvas找到的一个突破口。

二、行业

1. 规模

基于艾瑞2022年8月低代码行业报告显示,2021年中国低代码行业市场规模为27.5亿,预计未来4年复合增速达到44.1%,2025年规模达到118.4亿。单从增速上来看,低代码在国内还处于成长期。但一个比较有意思的数据是,基于海比研究院2021年中国低代码/无代码行业报告显示,2020年低代码行业市场规模占比86%,无代码市场规模仅占了14%。

2022年1月艾瑞人工智能行业报告,2021年中国AI产品服务核心市场规模达到275亿,预计未来4年复合增速达到20.6%,2025年规模达到578亿。从增速和现有市场规模来看,机器学习相较低代码行业已经进入一个稳定增长期,但增速还是比较可观的。

2. 标准化

无代码适用于流程相对固定且容易标准化的场景。作为一个机器学习工具类产品,无疑它的标准化是更容易做到且更容易跨行业兼容的产品形态。

3. 商业环境

1)根据国家统计局数据,2022年前三季度,GDP累计同比增长为3%,第三产业累计同比增长为2.3%,其中,信息传输、软件和信息技术服务同比增长8.8%。整体经济增速放缓,传统企业对数字化转型的愿望更加迫切,需求也会逐步提高。

2)根据亿欧智库2020年报告统计,2010年至2020年4月,中国人工智能企业数量共计1135家,私募股权投资从2015年的千亿级别回落到2020年第一季度的几十亿,人工智能的创业敞口期正在缩紧。资本对人工智能的认知更加理性,更加看重人工智能在实际场景的落地而不是炒概念,所以未来所谓AI+产品更加重要的是如何通过AI解决企业的实际业务痛点。

3)技术应用上,据亿欧智库2020年报告,机器学习在中国13项人工智能技术应用企业数量中排名第三,占比为12%。机器学习是需求侧比较受认可的应用之一。

4. 竞争态势

三、定位

中大型企业/通用型/工具型。

一款面向业务分析师的零代码机器学习工具,帮助客户解决:① 机器学习结果对业务的相应时间过慢问题 ② 为没有机器学习能力的企业快速构建自己的机器学习模型。

客群:主要为能够有一定业务量的中大型企业。

盈利模式:会话时长及训练数据单元格的数量付费。

产品线:Amazon Sagemaker。

四、资源

  1. 原生的云服务资源,提供稳定的算力和数据存储服务。
  2. 亚马逊作为在北美区月活占有率50%以上的头部线上交易平台,拥有丰富的机器学习经验及客户资源。

五、能力

  1. 丰富的适用场景:由于机器学习的通用性,canvas理论上可以服务于大部分数字化程度较高的行业,如:金融、电商、物流、仓储、连锁超市等。
  2. 云计算:AWS拥有超过16年的云服务运营经验,能为应用程序提供稳定性更高的云服务。
  3. 使用便捷:Amazon SageMaker是基于AWS构建的完全托管的机器学习服务,可让日常开发人员和数据科学家无需任何前置经验即可运用机器学习。

六、用户体验

1. 注册

AWS提供统一账号管理,注册试用期12个月,可免费试用AWS所有产品。

因为AWS提供的产品实在太多了,注册页还能检索具体的免费方案。

注册后进入SageMaker,需要先配置SageMaker域。这一步作为非技术的我不知道有什么作用,但是在这个配置的过程中,每个页面都会有明确引导,所以不理解也没关系,照着做就行。设置页已经配置好了默认设置,这个也很友好,基本傻瓜式点下一步就可以完成了。

每一步提示信息都很明晰。

总结:就注册环节上来说,引导清晰,每一步都有明确提示,注册上不会有太多障碍。

2. 实际试用

亮点一:针对0代码经验的业务分析人员提供的样例和操作导览很丰富。

非常清晰的使用导览(几个月前试用的时候还是没有的,迭代速度还是很快的,而且也很注重用户的反馈):

workshop studio提供样例数据集试用,标明行业,使用场景以及使用的模型,真的太赞了。

功能模块按照机器学习的核心流程划分清晰:

亮点二:基于需要预测的字段数据类型自动推荐模型类型。

配置需要预测的数据,系统为你推荐最优模型类型,当然你也可以自己选。目前支持二分类、时间序列、numeric model

亮点三:提供可视化的数据预处理界面。

可查看每个字段的数据分布:

支持通过托拉拽对数据进行交叉分析:

支持建模前的预处理:

亮点四:模型结果报告自动生成

这个需求的点在于,业务分析师通过0代码平台构建模型最大的好处是提高对业务的响应,可以对数据和模型训练做一个预探索,如果有更复杂的需求才找到数据团队解决。

就拿风控策略来说,一个策略分析师必须是对风控策略及各类信贷产品有非常深刻的理解的,但是TA不一定懂复杂的代码编写,很多业务的需求需要经由风控分析师的分析将需求给到数据团队,数据团队接到需求建模后给到业务,业务基于数据表现再决定是要再进行优化调整还是可以直接投入使用,这一来二去的耗时是非常久了。

如果有一个0代码的分析工具,业务分析师可以自己先进行简单的数据探索和模型构建,之后再把可能需要编程才能完成的工作给到数据科学团队,这样显然效率是更高的。这就需要一个可以将模型结果对外分享的功能,以便数据科学团队可以再做进一步优化。canvas提供了PNG下载,以解决此需求。

提供报告png图片格式下载,方便分享给部门其他人:

亮点五:结果预测支持在线调整数值以更新预测结果。

这个功能的好处是,你可以自己调整每个字段的数值,来测试哪个数值区间对预测结果更敏感。

七、总结

首先就canvas的定位而言,我觉得是一个比较巧妙的切入点,产品功能小而聚焦,功能设计轻便且直观,满足了高可用的这一特点。

就我比较了解的电商运营和信贷风控而言,由于是业务需要及时响应的领域,如果一个需求响应时间需要1-2周,一个大促都走完一半了,一个信贷周期都过去一半了。如果有一个产品能帮业务人员解决这个问题,以前1周的需求周期能缩减到几个小时,这将大大提升业务的运营效率。但是在实际试用后我发现理想是丰满的,但是现实还是很骨感:

① canvas依照会话时长及训练数据单元格的数量付费,并不适宜国内的使用习惯

我在试用canvas的一周内,几乎无感知的获得了一份费用大礼包,我甚至都不知道这些费用是怎么产生的。谢谢亚马逊,让我对云服务的收费有了直观的理解。

② 可以对数据进行自动处理的功能很吸引人,但是实际使用并不美好

我试用了一组《信贷用户逾期预测建模》数据,这组数据中有非常多的空值。在做机器学习之前,对无效数据进行处理是一种基本操作,canvas很自然的提供了可以自动识别missing data且进行删除的功能,但是这个功能只支持单个字段添加删除的形式。所以当我的元数据集中有非常多空值时,我甚至多了非常多的机械操作。

③ 目前的预测只支持单指标预测,使用场景可能会受限制

首先是只能对单指标进行预测,其次模型分享其实只能分享给同样使用了sagemaker studio的用户。这意味着想要有更好的用户体验和更便利的办公协同环境,企业可能需要同时购买sagemaker studio服务。合理怀疑,canvas是studio产品使用过程中催生出来的新需求。

参考资料:

[1] sagemaker canvas产品文档:https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html

[2] 【海比研究院】2021年中国低代码_无代码市场研究报告

[3] 【亿欧智库】2021低代码市场研究报告0806_2021-08-11

[4] 艾瑞咨询:生态聚合-中国低代码行业生态发展洞察报告

[5] 艾瑞咨询:不啻微芒,造炬成阳:2022年中国低代码行业研究报告

数据来源:

[1] Amazon workshop studio:https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US

[2] 阿里云天池:信贷用户逾期预测建模【银联商务】

本文由 @隐君随记 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!