该论文提出了一种新颖的模型,名为TAP,可以在视频序列中有效地跟踪任何查询点在任何物理表面上的位置。该模型采用两个阶段:匹配阶段和细化阶段。该模型在TAP-Vid基准测试中表现优异,平均Jaccard(AJ)的改进幅度约为20%。该模型可以快速推断长时间高分辨率的视频序列。源代码、预训练模型和可视化结果可以在项目网页上找到。
TAPIR:使用每帧初始化和时间细化跟踪任何点
未经允许不得转载:Win 11系统之家 » TAPIR:使用每帧初始化和时间细化跟踪任何点
相关推荐
- 展示了新的 Runway AI 文本到视频环境运动控制功能
- I2V-Adapter:直接从图片生成视频
- xAI Grok提供动力的引擎是Grok-1
- 马斯克发布AI模型Grok的最详细介绍
- xAI的研究什么的
- 什么是 Vertex AI by Google 机器学习 (ML) 平台?
- 稳定的 3D AI 在几分钟内从文本提示创建 3D 模型
- 使用 JavaScript 构建您的 AI SaaS 业务
- 新的Zephyr-7B LLM微调Mistral-7B AI模型,击败了Llama-2 70B
- Jina AI 推出全球首个开源 8K 文本嵌入,与 OpenAI 相媲美
- AudioSep:音轨分离模型
- Perplexity发布自己训练的模型
- ChatGPT 更新文档总结以及模型自动选择功能
- 催眠 AI 以使用自然语言绕过现有规则或 LLM 安全性
- 如何在 Raspberry Pi 和单板计算机 (SBC) 上运行 AI 模型
- 使用Stable Diffusion、ComfyUI 和多个 ControlNet 模型创建 AI 艺术
- 如何使用 ChatGPT 和无代码构建 AI SaaS 业务
- 在 PC、Mac 和 Linux 上轻松本地运行 AI 模型
- 革命性的LLM微调方法 QLoRA 的工作原理
- Kimi Chat:月之暗面的大模型聊天产品