中国 AI 新锐深度求索(DeepSeek)再次搅动全球科学技术格局。这家快速崛起的公司刚刚推出开源视觉模型 Janus Pro 7B,此举恰逢其前沿 AI 模型引发美股抛售潮,时机选择耐人寻味。
DeepSeek 此次突袭式发布加剧了市场对中国 AI 实力的担忧,也给美国科技巨头带来新压力。选择在美股 AI 板块暴跌当日亮相 Janus Pro 7B,这家企业似乎有意凸显其对硅谷的挑战姿态。
此前一周,DeepSeek 刚刚发布革命性的 R1 大语言模型。该模型以高效强劲的表现震撼业界,立即引发中国正在 AI 赛道超车的讨论。市场反应立竿见影:英伟达股价应声大跌,其他 AI 巨头也遭遇抛售潮,投资者开始重新审视这个强势新玩家的竞争威胁。
凭借 Janus Pro 7B,DeepSeek 正从语言处理跨界计算机视觉。技术白皮书显示,这个 70 亿参数模型在图像生成、视觉推理等任务中表现卓越,实现了性能与成本的精妙平衡。
![]()
左图显示 Janus Pro 7B 以更少参数实现更高平均性能;右图展示其在文生图准确率上碾压竞品。数据来源:DeepSeek
研究团队在论文中强调:Janus Pro 系列致力于打造高效视觉模型。7B 版本在多项视觉任务中达到顶尖水平,参数规模却更精简。这种少即是多的设计理念,恰好击中企业用户的痛点。
与需要天量算力的臃肿模型不同,Janus Pro 7B 以经济型架构实现高端性能。这对想要部署视觉 AI 的企业意味着:无需重金投入硬件,就能获得从自动化营销图文制作到智能客服视觉问答的全套解决方案。初创公司和行业巨头都能以更低门槛拥抱 AI 变革。
技术文档特别指出,该模型在图像描述、视觉问答等场景表现突出。想象这样的应用场景:跨国零售商用单个模型同时完成商品图生成、外观咨询应答和详情页优化——这种一专多能的特性,正在重新定义企业级 AI 的价值标准。
![]()
图:Janus-Pro 的架构设计图。采用独立的视觉编码方式处理多模态理解和视觉生成任务。图中 Und. Encoder 和 Gen. Encoder 分别代表理解编码器和生成编码器。
![]()
图:文生图能力在 GenEval 基准上的评估结果。Und. 代表理解,Gen. 代表生成。带 † 标记的模型使用了外部预训练的扩散模型。
![]()
虽然部分对比模型已有一定年限,且 Janus-Pro 系列大多仅支持 384 x 384 分辨率的小图像处理,但就其精简的模型规模而言,这样的性能表现已相当出色。
作为一款突破性的AI模型,Janus Pro在视觉AI领域开创了新的可能。与仅专注于单一功能的现有模型不同,如DALL·E专注于图像生成,或GPT-4o专注于视觉理解,Janus Pro实现了一个重要的技术突破 :在同一个模型中完美融合了图像生成和理解两大核心能力。
![]()
在视觉理解方面,Janus Pro展现出全方位的分析能力:它不仅能精准识别图像中的物体、场景和行为,还能辨识全球各地的标志性建筑和地标。其文字识别功能同样出色,能准确提取和理解图像中的各类文本信息。更令人印象非常深刻的是其general knowledge功能,这使得它能将看到的内容与广泛的世界知识相联系,提供深入的背景信息和见解。
![]()
图: Janus-Pro的视觉识别功能,包括图像识别、地标识别、文字识别以及知识理解
Janus-Pro如同一位不断进化的艺术大师,在三个关键维度实现了突破性的进展。在训练策略方面,就像一位教师精心设计的三段式培训计划,通过延长基础技能训练时间、优化进阶课程方法,并巧妙调整不一样练习的比例(从7:3:10调整为5:1:4),使这位艺术家在保持卓越创作能力的同时,大幅度的提高了对艺术作品的理解深度。
在数据规模方面,模型实现了双向突破,就像一位虚心好学的学者同时汲取两种知识养分:一方面在多模态理解领域积累了约9000万个新的案例研究,涵盖从简单写生到复杂作品分析的各类经验;另一方面在视觉创作领域融入约7200万幅精选范例,如同将经典与现代艺术作品以黄金比例(1:1)融入创作参考库。这些知识的积累不仅让模型像一位全能型艺术家一样能够游刃有余地处理各类艺术形式,还明显提升了创作的稳定性和审美品质。
在模型规模方面,Janus-Pro完成了从学徒到大师的蜕变,参数规模从1.5B扩展到7B,就像是将艺术家的大脑容量扩展了近五倍。这次飞跃不仅大大加快了模型在理解和创作任务上的学习速度,就像一位天赋异禀的艺术家能够更快地掌握新技能,更证明了这种学习方法如同一条可以无限延伸的成长阶梯,为未来的突破预留了广阔空间。
![]()
尽管Janus在多个关键维度实现了重大突破 - 包括优化训练策略、扩充训练数据集以及扩展模型规模,这些创新明显提升了其多模态理解能力和文本引导下的图像生成水平,但当前版本的Janus-Pro仍存在一些值得改进的空间。
在多模态理解方面,现有的384×384像素输入分辨率成为了一个明显的瓶颈,特别是在执行光学字符识别(OCR)等需要精细视觉分析的任务时,这一限制就显得很突出。同时,在文本到图像的生成领域,由于输出分辨率的限制和视觉分词器在图像重建过程中造成的信息损失,导致生成图像呈现出一个独特的特点:虽然在整体语义表达上准确到位,但在细节刻画上还有提升空间。这一现象在处理人物面部等需要精细刻画的小型区域时表现得尤为明显,生成的细节往往不够精致和真实。
值得欣慰的是,这些技术挑战都具有明确的改进方向。通过提升模型处理的图像分辨率,配合更先进的视觉编码技术,我们有理由期待这些限制在未来版本中得到实质性的改善。这不仅将提升模型在精细视觉任务上的表现,也将明显提高生成图像的质量和细节表现。
Janus Pro 7B 的发布时机堪称精妙。继 R1 模型引发黑色星期一后,这个视觉模型的登场将市场焦虑推向新高。当周末泄露的测试数据证实 R1 的强悍实力时,恐慌情绪已蔓延整个华尔街。如今视觉模型的突袭,更让美国 AI 企业感受到迫在眉睫的威胁。
市场震动背后,是游戏规则的深刻变革。过去 AI 竞赛遵循大力出奇迹的逻辑:模型越大、参数越多、烧钱越狠就越强。这种规则下,西方巨头占尽优势。但 DeepSeek 用 R1 和 Janus Pro 7B 证明:通过架构创新,轻量化模型同样能打出重拳。AI 竞争优势正从堆服务器转向拼智慧。
开源策略放大了这种颠覆效应。与封闭的专有模型不同,Janus Pro 7B 像当年的 Linux 一样,让更多企业能以更低成本获取尖端技术。当科技巨头之外的玩家也能玩转高级 AI,传统厂商的溢价模型就面临生存危机——股价暴跌正是投资者用脚投票的明证。
对企业决策者而言,变革信号已足够清晰:在这个 AI 格局剧变的时代,忽视 DeepSeek 的创新就等于放弃未来。尽管面临市场波动和地缘风险,但新一轮 AI 竞赛的哨声已然吹响。美国独大的 AI 旧秩序正在瓦解,全球正步入一个多极竞争的新纪元。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
管庆良,受贿数额特别巨大!当县长,他想方设法架空县委书记,当书记后又想方设法架空县长
有人亲眼目睹:上海一写字楼里,50多个员工戴着耳机打电话!如今很多人“失联”...揭秘风水直播间骗局→
AI范儿是一个专注于AI领域的资讯和学习平台,提供最新的人工智能资讯
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律