视觉模型落地:AI打工,干活全自动

0 评论 2229 浏览 0 收藏 6 分钟
🔗 产品经理在不同的职业阶段,需要侧重不同的方面,从基础技能、业务深度、专业领域到战略规划和管理能力。

随着人工智能技术的不断进步,视觉模型正在从实验室走向实际应用,逐渐改变我们的工作和生活方式。本文将探讨字节跳动最新发布的豆包1.5视觉模型如何实现视觉定位与计数功能,并通过实际案例展示其在图像标注、库存盘点等场景中的应用潜力。尽管目前仍存在一些挑战,但这一技术的进步已经为自动化工作流程带来了新的可能性,预示着AI在更多实际场景中的广泛应用前景。

算一下,一碟 15,这是吃了多少?

答:一共14盘,合计210

AI 是可以拿来做盘点的

方法:AI 数的,容我细细道来

字节发了新模型

今天是字节的发布会,我去了现场。

豆包 1.5 深度思考模型上线,200B MoE,20B 激活参数,R1 级别的性能。

豆包 1.5 深度思考模型上线

但很多人没注意到是,伴随这个模型的,还有个有非常趣的小玩意儿:Doubao-1.5-vision-pro。

还有个视觉理解模型

仔细看了文档后,注意到有这样一段:

  • 视觉定位能力大幅提升:支持对单目标、多目标、小目标等进行边界框或点提示进行定位,并支持基于定位进行计数,给出坐标位置,或描述所定位内容。支持 3D 定位,可基于图像进行深度预测、距离排序、深度比较等。可以广泛用在各类巡检等上商业化场景中。

这是一个小小的、但很有意义的进步:大模型可以给图片稳定打标记了

把图交给它,让它识别所有寿司盘的位置,输出坐标。

让模型获取坐标

有了格式化的坐标,只需要一个脚本就可以标注了:设定线条长度 200,粗度 10,颜色亮青,文字字号 70,配了黑色阴影,保证在各种光线下都能看清。

标注好的图片

视觉思考的落地

这事儿做完我突然意识到,

这不就是很多场景下都用得上的“图像计数”吗?

于是,我测了几个别的:

街头照片,他知道路牌在哪;

获取路标位置

标记好的路牌

或者拿它去标注米老鼠的帽子。

众所周知,初版米老鼠版权到了

你不用告诉它“那是个什么”,只要给出目标定义或提问方式,就能获得结果。

小任务,不小的价值

多模态这几年卷得飞起,但真正能落地的场景并不多:AI 写诗、拍题解题,这些看起来很炫,但离实际太远。

但我们也知道,每刻都有无数人在认真的应对工作:盘库存、数元件…劳心劳力。那么,这些事情,为什么不交给 AI 呢?

在几年前,还是 CV 当道的时候,你会说:开发个 AI,可比人力贵多了。

但现在不同了:对着你的任务,只需要一个明确的问题,就可以拿到一份标注好的信息

诚然,单以现在来看,问题也不少

  • 角度偏了、光线不均,容易漏标;
  • 目标密集时,编号会挤在一起,看不清楚;
  • 背景复杂时,有时会误判或者漏标。

这些问题都是可以优化的。

质变已经发生了,量变只是时间问题。

那么,希望硅基大人,日后要好好打工

本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
11958人已学习12篇文章
增长这个话题,是互联网产品在成长过程中绕不过的问题。本专题的文章分享了产品增长指南。
专题
43571人已学习21篇文章
优惠券的知识点非常丰富,而且随着运营方式的增多, 不同运营目标所使用的优惠券也是不一样的。
专题
15269人已学习13篇文章
作为一种软件开发工具,低代码平台一定程度上提升了企业的软件开发效率,适应了整体的数字化发展趋势。本专题的文章分享了关于低代码的讲解。
专题
12429人已学习19篇文章
机器人行业是一个新兴的行业,国内做的公司不多。本专题的文章对整个机器人赛道进行完整的梳理,在输入输出的同时,体验时代带给我们的冲击感。
专题
14012人已学习12篇文章
人力资源管理系统,帮助企业管理和维护其人力资源。本专题的文章分享了人力资源管理系统的设计指南。
专题
14883人已学习15篇文章
智能硬件产品经理需要做什么工作内容呢?与互联网产品经理有什么区别呢?本专题为刚入行的智能硬件产品经理分享了入门指南。