健康资讯网-中华好医生合作伙伴
当前位置:主页 > 头条新闻

DeepSeek正式跨入图文交互时代 DeepSeek大范围开放“识图模式”

时间:2026-05-09 15:26:49 来源:
字号:

 2026年4月下旬,DeepSeek刚刚发布了让整个科技圈为之震动的V4系列模型,外界还在为它的性能和定价策略展开激烈讨论。谁也没想到,仅仅几天之后,这头“深海巨鲸”就以迅雷之势,展开了另一项意义更为深远的动作。

 4月29日,多个社交平台上开始陆续传出消息——DeepSeek悄悄启动了“识图模式”的灰度测试。网页版和APP的用户界面中,聊天框输入区域上方原本只有“快速模式”和“专家模式”两个选项,如今却多出了一个全新的按钮,旁边标注着“图片理解功能内测中”几个字样。

 很快,几乎同一时间,DeepSeek多模态团队负责人在社交平台上发出一条意味深长的推文:“Soon, we see you。”配图是DeepSeek的标志性蓝色鲸鱼logo——一只眼睛被黑色眼罩蒙住,另一只眼罩已被摘下,露出了湛蓝色的眼眸。这条推文被广泛视作官方对“识图模式”最有力的确认信号。

 5月9日,灰度范围进一步扩大。据用户反馈,目前绝大多数测试账号都能看到该功能的入口,DeepSeek正式宣告跨入图文交互时代。这对DeepSeek来说,无疑是一次重要的里程碑补全。长期以来,DeepSeek在文本推理、代码生成、中文问答等纯文本领域已经具备了国际一流水准,但多模态能力始终是它展现在外人面前的最大短板。如今“识图模式”大范围开放,意味着那条长期空缺的能力链条终于被成功接上,新一代旗舰模型的技术版图就此趋于完整。

DeepSeek正式跨入图文交互时代 DeepSeek大范围开放“识图模式”

  视觉因果流与“以视觉原语思考”

 “识图模式”上线后,技术圈最关心的问题莫过于一个:它背后到底是一套怎样的机制?

 不同于传统意义上简单调用OCR将图片中的文字提取出来的做法,DeepSeek此次拿出的是一套更为复杂的深度图片理解方案。简单来说,它不仅要“看见”图片里有什么文字,更要“理解”整张图片的完整语义——物体之间的关系、图表背后的含义、页面结构的逻辑,乃至于画面本身传递出的氛围和情绪。

 这套能力的底层,很可能延续了DeepSeek-OCR2的“视觉因果流”架构。什么是“视觉因果流”?通俗地理解,传统图像识别如同一个扫描仪,按部就班地把像素从头扫到尾;而视觉因果流完全颠覆了这一模式——AI能够像人类阅读复杂文档那样,在接触图片的第一时刻就进行“语义级排序”,根据信息的重要性临时跳转、智能重组画面中的图文元素,从而大幅提升模型在复杂图表、学术论文乃至长文档中的理解准确率。用研发团队的话来说,这套机制就是让模型“以视觉原语思考”,将视觉元素直接融入推理链条,有效解决照片密集场景中物体与文字指代不清的根本性瓶颈。

 这些技术词汇听起来有些抽象,一个来自实测的例子能让它变得格外清晰:有用户在高铁上随手拍了窗外一瞬即逝的画面,打开“识图模式”上传给DeepSeek。在推理过程中,DeepSeek并没有简单通过画面中的物体去猜测“这可能是一个车站场景”,而是精准识别并理解沿途出现的每一个文字标识,再结合周围的视觉元素推断出具体的地理位置和时间信息。这背后反映出模型已具备跨多种模态的融合推演能力——当一个AI不仅能看懂画面里写着什么,还能判断出那个地方具体在哪里,它的思考方式显然已经超越了简单的“看图说话”。

DeepSeek正式跨入图文交互时代 DeepSeek大范围开放“识图模式”

  多了一个会看图的“万用助手”

 不过,对于普通用户而言,技术细节或许不是最紧要的。他们更想知道的是,“识图模式”到底能在日常生活中做些什么。

 答案相当广泛。最简单的应用就是“识物”。上传一张兔子的照片,DeepSeek一眼就能判断出兔子的品种,并且完整描述出它的姿态。在路边看到奇怪的植物或昆虫,拍张照片丢给AI询问“这是什么”,这种“所见即所问”的交互方式,如今已经变得触手可及。

 更丰富的变化出现在那些需要“推理”的场景中。上传一张只露出路灯上“灵隐寺”草书字样的角落照片,DeepSeek迅速根据建筑风格和字样推断出地点,甚至准确报出了城市坐标。拍下手边的矿泉水瓶或购物小票,AI能告诉你这是哪个品牌的产品、成分表上的具体信息意味着什么,还能基于这些给出挑选建议。

 知识的边界也在被不断刷新。有人把一份极具挑战性的CT图纸上传到“识图模式”,DeepSeek不动声色地分析判断了图片中的关键结构,给出了多种病变的可能方向。事后对照原论文的结论,其分析结果与专业文献高度吻合。当然,这绝不意味着DeepSeek可以代替医生作出诊断,但有网友调侃说:“碰上头疼脑热这类小毛病,不用再急着跑医院排队,拍几张图问问AI,就当先给自己挂了个‘预诊’号。”

 在办公场景中,“识图模式”同样能派上大用场。用户可以把一张杂乱的长截图直接丢给AI,让它从密密麻麻的图文混排信息中梳理出重点摘要和结构化数据;也可以上传一张网页设计图,让它直接复原出HTML代码——生成的页面甚至能够完整实现按钮跳转,开发效率的提升等级不言而喻。

DeepSeek正式跨入图文交互时代 DeepSeek大范围开放“识图模式”

  能力边界处的跃迁与突破

 当然,识图模式并非完美无缺,实测过程中的能力边界也格外清晰。

 在一些涉及“知识时效性”的考核上,模型的短板暴露得很快。当要求DeepSeek识别某个近期新发布的手机型号时,它的思考过程能准确捕捉手机的外观轮廓、摄像头布局等所有细节,最终却给出了错误的型号结论。后来经比对发现,原因是其训练数据可能截止于去年初,新发布的产品信息还未能及时纳入。此外,在数手指、隐藏视错觉这类刻意设计的“反直觉题目”面前,DeepSeek的表现也不太稳定——不开深度思考时快速但容易出错,开启深度思考后又显得过于谨慎冗长

 但更大的惊喜依然隐蔽在主线之外:有研究人员偶然发现,“识图模式”蕴含的世界知识,竟然在某些方面比纯文本版V4 Flash/pro更“新”。在一个实测案例中,V4 Flash在不联网的情况下对某个2026年4月才进入公众视野的名字一无所知,而同一条图片输入给“识图模式”后,AI却能精准提供这位人物的相关信息。这似乎暗示着,“识图模式”背后运行的并不只是V4 Flash之上叠加的一个图片读取插件,而很可能是全新训练的一个视觉-语言融合模型。如果真相确实如此,那么视觉模型在训练数据截止日期上的差异性,意味着DeepSeek在文本模型和视觉模型的迭代周期之间做了一种更加灵活且独立的安排。

DeepSeek正式跨入图文交互时代 DeepSeek大范围开放“识图模式”

  补齐最后一块拼图

 从文本到图像,从“看不见”到“看见”,DeepSeek补齐了多模态能力这块拼图,时机虽晚却来得格外猛烈。

 在全球大模型竞赛的白热化阶段,多模态能力几乎已经是顶级选手无可回避的必修课。DeepSeek此番补齐能力短板,对国产AI行业带来的影响将是深远的。它意味着国产大模型的竞争重心正在从单一领域的文本生成,全面转向涵盖视觉、听觉与语义融合的“多感官智能”。与此同时,“识图模式”的大范围开放也将带动更广泛的应用生态形成,从自动化办公到工业视觉、从复杂图表分析到医疗影像辅助,每一个垂直领域都将从多模态能力的下沉中释放出实实在在的生产力。

 随着灰度范围的扩大和技术的持续迭代,这些小众而昂贵的多模态理解能力正在走向面向所有人的“普惠”阶段。未来,AI将不再是一个只能读字的“书生”,而是能够真正“开眼看世界”、与人产生更深层次协作的“智能伴侣”。正如DeepSeek蓝色鲸鱼logo上那只摘掉眼罩的眼睛所象征的——当AI终于“看见”这个世界时,世界也会反过来,看见一个更完整的AI。


关闭此页 (责任编辑:小辉)
健康百科 生活常识 今日热点

热门关键词: | 生活常识 | 健康新闻 | 头条新闻 | 健康百科 | 中医养生 | 饮食健康 | 热门新闻 | 社会新闻 | 今日热点新闻 | 健康养生百科 | 菊花泡水的功效
| 艾草的功效和作用 | 怎么补充蛋白质 | 蓝莓和葡萄的营养 | 板栗的功效和好处 | 中药干姜的药理作用 | 延迟鲜花的保鲜期 | 男生健身减肥的方法
| 瘦腰瘦腹的最快方法 | 网站地图

本站所有建议仅供用户参考,不可代替专业医师诊断、不可代替医师处方,请谨慎参阅,本站不承担由此引起的相关责任。

本站内容如有转载或引用文章涉及版权问题,请速与我们联系予以删除。联系邮箱:1440174575@qq.com

Copyright © 2017 mrkbao.com All Rights Reserved 鄂ICP备19025581号-2

电脑版 | 手机版