谷歌 Gemini 1.5 Pro 锐评 Sora 生成的视频:视觉上很吸引人,但存诸多不合理之处

IT之家2月19日消息,近日,谷歌的人工智能模型Gemini 1.5对OpenAI Sora生成的一段视频进行了评价。Gemini 1.5 Pro以Sora生成的日本街道视频为例,指出其中存在明显不合理之处。根据Gemini 1.5 Pro的分析,视频中大雪纷飞和盛开的樱花同时出现不符合常理,因为樱花通常在春季开放,不会伴有降雪。此外,视频中的人物虽然身处大雪环境,却并未穿着任何冬装,这也显得非常违和。Gemini 1.5总结道:“虽然这段视频在视觉上很吸引人,但其中的矛盾之处表明它并非现实生活中的场景。”

Sora是一款文本转视频工具,能够生成长达60秒的视频,包含细节丰富的场景、复杂摄像机运动以及具有丰富情感的多个人物画面。而谷歌的Gemini 1.5拥有惊人的100万词条上下文窗口,远超GPT-4 Turbo的12.8万和Anthropic Claude 2.1的20万。这意味着它可以一次处理大量信息,包括1小时的视频、11小时的音频以及超过30,000行代码或70万字的代码库。


此前,谷歌推出了Gemini 1.5 Pro,而OpenAI则推出了文本转视频工具Sora。Sora的发布时机引发了猜测,有人认为OpenAI是为了转移公众对谷歌Gemini 1.5的注意力。对此,谷歌一位高管在X平台上分享了对Sora生成视频的详细分析。