在数字化浪潮中,企业每天产生的视频数据量呈爆炸式增长,但其中大部分因缺乏有效分析手段而沦为“暗数据”,难以发挥实际价值。如何将海量视频转化为可利用的数字资产,成为视频AI领域亟待突破的课题。近期,日本东京的初创公司InfiniMind宣布完成580万美元种子轮融资,其核心目标正是通过技术创新解决这一难题,为企业提供PB级视频数据的深度处理能力。
InfiniMind由两位前谷歌员工联合创立,创始人Aza Kai与Hiraku Yanagita在谷歌拥有近十年的合作经验。Aza Kai曾主导亚太地区数据科学团队,专注于大规模机器学习解决方案设计;Hiraku Yanagita则深耕数字营销领域,为企业客户提供数据分析服务。两人观察到,尽管云服务厂商能检测视频中的人或车辆,但仅停留在简单标记层面,无法理解上下文关系;新一代视频AI模型虽能处理内容,却受限于时长,难以满足企业数天甚至数年的视频分析需求。
基于这一洞察,InfiniMind开发了视频理解基础设施,旨在将视频转化为结构化、可搜索的企业数据。其技术突破在于整合视觉、音频、语音等多模态信息,通过统一数据流处理长视频片段中的因果关系。例如,在安全事件场景中,系统不仅能检测人员或车辆,还能追踪“谁进入现场、接触了什么、去了哪里、最终发生了什么”的完整叙事链,形成可查询的知识库,直接集成到企业商业智能工具中。
公司首款产品TVPulse于2025年4月发布,专注于电视广播数据分析。该产品利用AI实现逐秒搜索,帮助媒体和零售企业追踪产品曝光、品牌影响力及竞品动态,目前已为批发商和媒体行业客户提供服务,累计分析内容超10万小时。旗舰产品Deepframe则进一步拓展能力,可处理200小时视频音频素材,精确定位特定场景、演讲者或事件。该产品计划于今年3月测试、4月正式发布,其核心优势在于通过微调工厂生成行业专用模型,帮助客户在成本、精度和速度间实现平衡。
与通用视频分析API不同,InfiniMind专注企业级部署,提供虚拟私有云(VPC)和本地化解决方案,满足数据主权要求——这一特性解决了许多组织采用云端AI时的关键障碍。Aza Kai表示,公司技术突破得益于视觉语言模型的进步:“过去十年,GPU成本下降和性能提升固然重要,但模型能力的提升才是关键。”2021年至2023年,随着技术成熟,两人决定创立InfiniMind(曾用名SDio),并分别担任CEO和COO。
目前,InfiniMind在东京拥有十余名员工,并与东京大学研究团队展开合作,共同推进模型评估和视频理解基准测试。公司已入选AWS生成式人工智能加速器、日本经济产业省GENIAC计划、NVIDIA Inception计划及Google for Startups云计划,技术实力获多方认可。本轮融资由亚洲深度科技风投公司UTEC领投,CX2、Headline Asia Ventures等机构跟投,资金将用于深化Deepframe模型开发、扩展工程基础设施、招聘工程师及拓展日美市场客户。
据公开信息,InfiniMind计划将总部迁至美国,同时保留日本办公室,以进一步整合全球资源。随着企业视频数据价值日益凸显,其技术路径或为行业提供新的参考方向。

