颠覆视听体验,Kimi 引领多模态图片理解新时代!
1月15日,月之暗面推出了Kimi多模态图片理解模型API,其中全新的Vision模型——moonshot-v1-vision-preview进一步增强了moonshot-v1模型系列的多模态处理能力。这一更新不仅展示了公司在人工智能领域的持续创新,也为开发者提供了更强大的工具来理解和处理复杂的图像信息。这无疑将推动相关应用在各个领域的快速发展,从社交媒体到医疗健康,都将迎来新的机遇和挑战。
Vision模型在图像识别方面表现出色,能够精准地识别出图像中的复杂细节和微妙差异。无论是食物还是动物,它都能准确地区分出那些看似相似但实际上有所不同的对象。这一技术的发展无疑为许多领域带来了革命性的变化,特别是在艺术鉴定、医学影像分析以及日常生活的智能辅助方面,其潜力巨大。这不仅提高了工作效率,还让我们的生活变得更加便捷和多彩。
下图示例中,官方拼凑了16张难以通过人眼区分的蓝莓松饼和吉娃娃图片,交由Vision模型进行识别并按顺序标记图片类型。无论是蓝莓松饼还是吉娃娃,该模型均能精准地进行区分和识别。
Vision 模型具备高级图像识别能力,在 OCR 文字识别和图像理解场景中,比普通的文件扫描和 OCR 识别软件更加准确,例如收据单 / 快递单等潦草的手写内容都可以准确识别。
以这张《某学生期末考试成绩》柱状图为例,官方要求模型不仅需要提取和分析考试成绩,还需要从美学风格的角度进行分析。Vision模型不仅可以精确地识别出柱状图中每个科目名称对应的分数数值并进行对比,还可以识别出该柱状图的样式格式和颜色等细节信息。 这样的技术应用不仅展示了人工智能在数据分析领域的强大能力,同时也为教育评估提供了新的视角。通过视觉模型的分析,我们可以更直观地了解学生的学业表现,同时也能更好地发现不同学科之间的差异与关联。此外,从美学角度分析图表设计,有助于提高信息传达的效率和美观度,使教育报告更加吸引人,便于理解。因此,这种技术的应用前景非常广阔,值得进一步探索和发展。
Vision模型采用按使用量计费的方式,每张图片按照1024个tokens合并计算在输入请求的token使用量中。不同型号的模型,其收费标准也有所不同,具体分类如下:
Vision 视觉模型支持的特性包括:
多轮对话
流式输出
工具调用
JSON Mode
Partial Mode
以下功能暂未支持或部分支持:
联网搜索:不支持
ContextCaching:不支持构建包含图片内容的ContextCache,但可以利用已成功创建的缓存来调用Vision模型。
URL格式的图片暂不支持,我们目前只接受使用base64编码的图片内容。
支持组织项目管理功能
支持一个企业实体认证多账号
增加 File 文件资源管理功能:直观管理查看文件资源
优化资源管理列表鼠标悬浮复制
Context Caching 功能已放开给全量用户
Cache 续期不再收取创建的费用
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系339841985@qq.com
页面执行时间0.013034秒