无限暖暖:AI 数字人微表情背后的技术密码与未来展望

1 评论 1454 浏览 2 收藏 22 分钟
零基础想转行产品经理?别担心!我们的实战营专为转行者设计,提供体系化课程和项目实战,帮你弥补经验短板,成功实现职业转型,拿到心仪offer。

前段时间,叠纸游戏的《无限暖暖》正式公测,细腻生动的人物表现,其实是大量用了数字人的技术。这篇文章,我们就来分析一下数字人技术在微表情下的处理。

随着《无限暖暖》的公测,游戏中暖暖细腻生动的表情变化,她的眼神流转、嘴角微合,眉毛挑动,无数的微表情使她仿佛是一个有着真实情感和生命的少女。让玩家们深刻感受到虚拟角色所蕴含的无限魅力。这不仅彰显了叠纸游戏公司在人物表情刻画上的卓越实力,更引发了我们对 AI 数字人与人类情感互动的深度思考。

不管在动画还是在游戏中,能够用3D技术让写实风格的角色栩栩如生的内容产品,依然是十分缺位的。这几年 AI 数字人正逐渐走进我们的生活。AI 数字人正逐渐融入我们的生活,从虚拟助手到娱乐角色,它们不断拓展着我们对人机交互的认知边界。然而,一个不容忽视的挑战随之而来 —— 恐怖谷效应。当 AI 数字人的外观和行为接近人类,但又无法完全达到人类的自然和真实时,可能会引发人们内心的不安和不适。如何巧妙地跨越这一障碍,实现 AI 数字人与人类之间更加自然、深入的情感共鸣,成为了科技领域亟待解决的重要课题。

图源:《闪耀暖暖》游戏PV

一、叠纸游戏人物表情刻画的出色之处

叠纸游戏在3D人物表情刻画方面表现卓越,以《无限暖暖》为例,暖暖能依据不同情境展现出多样且精准的表情动作。开心时笑容灿烂、眼含笑意;思考时眉头微蹙、眼神专注;惊讶时双目圆睁、嘴巴微张,每个表情都生动传达出当下情绪。哪怕在定格拍照时,也会像真人一样充满各种小动作,而不是僵硬不动。

(图源:《无限暖暖》游戏实机录制)

《恋与深空》借助全 3D 建模,让人物的神态动作更加逼真自然,复杂情感得以细腻呈现,如角色在细微的情感交流时的,掩饰,假装,纠结与挣扎,通过面部表情的细微变化展现得淋漓尽致。

(图源:《恋与深空》游戏实机录制)

《闪耀暖暖》凭借精美建模与丰富表情系统,使暖暖在不同场景中展现出相应情感,搭配时自信满满,面对挑战时坚毅果敢,哪怕是待机时,也会有眼神和微表情变化,极大增强了游戏沉浸感。

(图源:《闪耀暖暖》游戏实机录制)

“我们在意每一个眼神的含义,每一个微表情的潜台词。”——叠纸团队

叠纸公司在面部动捕技术方面采用了多种先进设备和方法,以确保捕捉到的角色表情和动作尽可能真实。尤其特别关注角色的眼神捕捉,因为眼神是传达角色情感的重要手段。通过面部动捕技术,捕捉到动捕演员的眼神变化,并将其应用到3D角色上,使角色能够更准确地反映出细腻的情感和意图,更有真人感,活人感。AI 技术上,他们利用深度学习技术对面部表情进行捕捉和分析,通过训练神经网络识别人脸和动画角色表情,提取角色表情信息,获得动画角色骨骼参数,并结合人脸几何信息对脸部关键点骨骼参数进行修正。

他们在面部动捕技术上的应用不仅提升了游戏中的逼真度,还通过细致的表情捕捉和眼神分析,增强了角色的情感表达能力,使得游戏角色更加生动和真实。叠纸团队在 3D 人物微表情研究上成果显著。《恋与深空》的开发过程中,叠纸团队注重面部表面材质和阴影效果,配合骨骼动画、法线纹理和变形体修型,让微表情动作更加逼真。

(图:叠纸公司的动捕设施)

二、AI 赋能的 3D 人物在人设和情感表达方面的挑战

1. 情感真实性难题

AI 数字人在模拟人类情感真实性方面面临着巨大挑战。人类的情感是内心深处复杂体验与对外界感知的综合反映,其产生机制涉及生理、心理和社会等多个层面的相互作用,是一个极为复杂且内在驱动的过程。例如,一个人在经历失去亲人的痛苦时,不仅仅是表面上的悲伤表情,还伴随着内心深处的痛苦、无助、回忆等多种复杂情绪的交织,这些情绪会通过微妙的微表情、语气变化、肢体语言等多种方式自然流露。

然而,AI 数字人要准确模拟这种真实情感,就必须深入理解人类情感的本质和产生根源。目前,尽管 AI 技术在数据处理和模式识别方面取得了一定进展,但在理解人类情感的微妙之处仍存在很大困难。AI 数字人主要依赖大量数据训练来学习情感表达,但数据往往只能反映表面现象,难以捕捉情感背后的深层次原因和复杂的心理变化。例如,在面对同样的情境时,不同人可能会因为个人经历、性格特点和文化背景的差异而产生截然不同的情感反应,而 AI 数字人很难像人类一样根据具体情境进行灵活而真实的情感表达。

2. 情感连贯性考验

人类的情感在不同情境和时间中具有连贯性,这是由个人的性格和长期形成的情感倾向所决定的。一个乐观开朗的人,在大多数情况下都会展现出积极向上的情感反应,无论是面对日常琐事还是重大挑战,他们的乐观态度会贯穿始终,在表情、语言和行为上都呈现出一致性。比如,在遇到困难时,他们可能会微笑着鼓励自己和他人,积极寻找解决问题的方法,这种积极的情感状态在不同场景中得以延续。

相比之下,AI 数字人要建立稳定的人设和情感逻辑并非易事。它们需要在各种不同的场景中做出符合预设人设的情感表达,否则就会给人一种不真实、不稳定的感觉。例如,一个被设定为温柔善良的 AI 数字人,如果在某些场景中突然表现出冷漠或暴躁的情绪,就会破坏其整体人设,降低用户对其的信任和代入感。目前,AI 数字人在情感连贯性方面的表现还不尽如人意,难以像人类一样在不同情境下保持一致且自然的情感反应。

3. 人设复杂性增加表达难度

成功的人设包含丰富的性格特点、背景故事和价值观,这些元素需要在不同情境中通过微表情和情感表达自然地体现出来。不同的微表情和肢体语言能够反映出一个人的性格特征和当下情绪。一个自信果断的人在做决策时,可能会微微点头、眼神坚定,同时表情严肃专注,这些微表情和肢体动作共同展现出其果断的性格特点。

对于 AI 数字人来说,要准确展现人设的复杂性,需要具备高度的智能和灵活性。它们必须能够根据不同情境和交互内容,精准地选择合适的微表情和情感表达方式。然而,目前的 AI 技术在理解和处理人设的复杂性方面还存在很大的局限性,很难像人类一样根据丰富的内在特质进行自然而恰当的情感表达,从而在一定程度上影响了其在复杂人设塑造方面的能力。

三、虚拟数字人技术架构与关键技术

1. 技术架构概述

虚拟数字人基础技术架构涵盖 “五横两纵”。“五横” 包括人物生成、人物表达、合成显示、识别感知、分析决策等五大技术模块,用于数字人制作交互。人物生成在 2D 和 3D 数字人中有不同体现,3D 数字人需额外使用三维建模技术,当前静态扫描建模为主流,动态光场三维重建技术虽具优势但尚未普及。人物表达包含语音生成和动画生成,动画生成中的驱动技术以智能合成和动作捕捉为主要生产方式,渲染技术进步使数字人皮肤纹理更真实。合成显示涉及终端显示技术,识别感知包括语音语义识别、人脸识别、动作识别等,分析决策依靠知识库、对话管理等。“两纵” 则指 2D、3D 数字人,二者在技术要求和呈现效果上存在差异,3D 数字人相对 2D 数字人在视觉效果和交互体验上更具优势,但制作成本和技术难度也更高。

2. 建模技术:从静态到动态的发展

早期静态扫描建模技术以结构光扫描重建为主,精度可达 0.1 毫米级,但扫描时间长,在友好度和适应性方面欠佳,主要用于工业生产、检测领域。如今,相机阵列扫描重建成为人物建模主流方式,毫米级精度且高速拍照扫描,满足数字人扫描重建需求,国际上如 IR、Ten24 等公司将其商业化用于好莱坞大型电影制作,国内凌云光也成功应用于电影、游戏、虚拟主播等项目。动态光场重建是最新深度扫描技术,可忽略材质直接采集三维世界光线并实时渲染动态表演者模型,包含人体动态三维重建和光场成像两部分,具有采集数据全面、光影效果真实等优势,虽目前技术尚未完全成熟,但已成为数字人建模重点发展方向,微软、谷歌等公司积极开展相关研究,国内清华大学、商汤科技等也在同步推进。

(根据用户脸部生成的车载智能助手 图源:百度数字人)

3. 驱动技术:实现生动动作的关键

嘴型动作的智能合成已应用于 2D 和 3D 虚拟数字人,其底层逻辑是建立在输入文本到输出音频与视觉信息的关联映射上,通过对采集数据的模型训练实现。除嘴型动作外,其他动作如眨眼、微点头、挑眉等目前多采用随机策略或脚本策略循环播放预先录制好的视频 / 3D 动作,未来有望通过智能分析技术实现自动化。动作捕捉技术是目前最成熟且呈现效果最好的动作生产方式,根据实现方式不同可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。光学式动作捕捉通过对目标上特定光点监视和跟踪完成,基于 Marker 的光式动作捕捉常用,精度高但造价高昂且对环境要求高;惯性动作捕捉基于惯性测量单元 IMU,价格相对低廉但精度较低且会产生累计误差;基于计算机视觉的动作捕捉近年来兴起,通过采集及计算深度信息完成,精度较高且被检测对象无需穿戴装备,但受外界环境影响大,算法开发难度也较大。

( 图源:阿里云数字人官网

4. 渲染技术:突破恐怖谷效应

渲染技术分为实时渲染和离线渲染。实时渲染图形数据实时计算与输出,每秒至少渲染 30 帧,计算资源有限,渲染质量欠佳,适用于对实时性要求高但对画面质量要求相对较低的场景,如小型 APP 等,常用引擎有 Unreal 引擎和 Unity 引擎等。离线渲染图像数据非实时计算与输出,渲染时间长但计算资源丰富、计算量大,渲染质量高,适用于对画面质量要求极高的场景,如电影特效制作等。随着 PBR(Physically Based Rendering)渲染技术进步和重光照等新型渲染技术出现,数字人皮肤纹理更真实,突破了恐怖谷效应,使虚拟数字人在外观和动作上更接近人类,提升了用户的接受度和沉浸感。

(百度数字人叶悠悠 图源:小侃星球app截图)

四、虚拟数字人未来发展趋势与智能座舱应用前景

1. 总体发展趋势

未来虚拟数字人制作技术将朝着更加简单、一体化、自动化的方向发展,采集制作流程有望实现简单化、一体化,通过迭代式提升真实感。例如,同步获取模型、身体、表情等所有数据,无需穿戴专业传感设备,使数字人在特定环境下与真人难以分辨,人们可更加自然地与其交流互动。全双工技术将使数字人具备一次唤醒、多轮对话、智能纠错等能力,实现多场景、多领域的融合,交互方式更加智能化,逐步具备 “看”“听”“说”“懂” 等全方位能力,紧跟时代潮流,深入融入影视、金融、文旅等各个领域,充分发挥应用价值,其市场价值也将不断得到释放。同时,随着 90 后、Z 时代消费者逐渐拥有自主消费能力,他们对二次元、动漫人物形象的消费水平稳步提升,为虚拟数字人产业带来新的发展机遇,诸多品牌也乐于与虚拟数字人合作,挖掘其商业价值。

2. 在智能座舱中的应用前景

在智能座舱领域,AI 数字人具有广阔的应用前景。从交互体验层面来看,智能座舱车载数字人可以借助高精度 AI 检测技术实时捕捉乘客动作和表情,实现与数字形象的实时互动,使乘客可通过肢体动作或语音指令与虚拟角色互动,享受沉浸式娱乐体验,增强驾驶过程中的情感陪伴感,减少疲劳。

在功能拓展方面,未来 AI 数字人将成为智能座舱的全方位智能助手,不仅能处理简单任务,如接电话、播放音乐,还能承担复杂任务,如根据实时路况、驾驶者偏好和车辆状态提供个性化导航建议,在车辆故障或保养时及时提醒并提供解决方案和服务信息。

从视觉呈现角度,全息投影技术将为 AI 数字人带来全新展现形式,如车载全息数字人有望成为 “人 — 车 — 家” 三屏融合的重要一环,基于云端及本地动态行为数据库,根据不同场景驱动虚拟人形象,营造充满科技感和未来感的氛围。

此外,AI 数字人还将在智能座舱的个性化定制方面发挥重要作用,用户可根据喜好定制其形象、声音、性格等特征,使其成为专属智能伴侣,同时在提升驾驶安全性方面也具有巨大潜力,可精准监测驾驶者状态,在疲劳或不适时发出警告并采取安全措施,有效降低交通事故发生率。

(图:领克的AI虚拟助理JOJO在聆听、发言时都有相应的动作适配,形象生动)

五、总结

微表情和情感表达在人类交流和心理学研究中占据重要地位,相关研究成果为 AI 数字人的发展提供了重要参考。叠纸游戏在人物表情刻画上的成功经验,展示了当前在微表情呈现方面的较高水平。然而目前,AI 数字人在微表情和情感表达上还是有很大的不足,仍面临诸多挑战。未来,可以借鉴游戏业的先进经验,更深入的结合心理学研究成果,进一步探索人类情感产生和表达的内在机制,以及先进的技术手段,如持续优化建模、驱动和渲染技术等,不断提升 AI 数字人的情感表达能力。

从行业发展来看,虚拟数字人产业已呈现出蓬勃发展的态势,市场规模不断扩大,技术不断创新,应用领域日益广泛。随着技术的不断进步和市场需求的持续增长,AI 数字人有望在更多领域发挥重要作用,为人们带来更加真实、自然、富有情感的交互体验,实现与人类更加深入的情感共鸣,最终跨越恐怖谷效应,成为人类生活和工作中不可或缺的一部分。叠纸团队在技术研发上的不断探索和创新,为游戏行业及虚拟数字人产业的发展提供了宝贵的借鉴和启示。

那么,你认为 AI 数字人在未来的发展道路上,还会在哪些领域产生深远影响?在提升情感表达能力方面,还有哪些技术与人文的深度融合?欢迎大家在评论区分享自己的见解,让我们共同见证 AI 数字人的成长与变革,一起探索这个充满无限可能的数字未来!

本文由 @INFP怡伶设计 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 它玩起来要的配置好高的哇,能不能优化一下这方面

    来自广东 回复
专题
43926人已学习16篇文章
设计库存、财务、退换货流程时不用一个头两个大了。
专题
33579人已学习15篇文章
一起来看看别人家是怎么做用户增长的。
专题
13622人已学习12篇文章
随着互联网的不断发展,如今获客渠道及方式也有很多。本专题的文章分享了获客渠道及方法。
专题
13387人已学习12篇文章
本专题的文章分享了金融产品经理需要知道的金融基础知识和产品观。
专题
12882人已学习13篇文章
发票是财务中必不可少的物品,那发票系统该如何设计呢?本专题的文章分享了发票系统设计指南。
专题
50760人已学习25篇文章
在产品初期,有什么方法能获取及维护高质量的种子用户呢?