发表评论取消回复
相关阅读
相关 多模态模型原理
多模态模型是一种在不同模态之间转换的模型。模态是指不同的数据表示方式或不同的输入/输出模式。例如,文本、语音和图像都是不同的模态。 一个多模态模型可以在不同的模态之间转换,从
相关 AI-多模态-2021:ALIGN【】
[https://arxiv.org/abs/2102.05918][https_arxiv.org_abs_2102.05918] 【写在前面】 学习良好的视觉和视觉
相关 AI-多模态-2022:BLIP【统一理解和生成的多模态】
论文:[https://arxiv.org/abs/2201.12086][https_arxiv.org_abs_2201.12086] 代码:[GitHub - sale
相关 AI-多模态-2021:FILIP【一种基于交互的细粒度图文预训练模型】
前言 FILIP(Fine-grained Interactive Language-Image Pretrain)是一种基于交互的细粒度图文预训练模型,用于解决图文双塔
相关 AI-多模态-2021:ALBEF
■ 简介 大规模的视觉和语言表示学习在许多vision-language任务上取得了很大的进步。现有的方法大多用一个以transformer为基础的多模态编码器来联合建模
相关 AI-多模态-2021:SLIP【对CLIP的改进】
论文地址:https://arxiv.org/abs/2112.12750v1 项目地址:https://github.com/facebookresearch/SLIP
相关 多模态:CLIP 模型【连接语言与视觉】
CLIP(Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 OpenAI 在 2021 年初发布的用于匹配图像和文本
相关 AI-多模态-文本->图像-2021:DALL-E模型【OpenAI】
Dall-e:从拟物文字到图片的创造 人类不断地从五种感官接收和整合信息,通过视觉、听觉、触觉、嗅觉和味觉等生物信息来理解文字和图片。然而文字和图片属于符号,Dall-e
相关 AI-多模态-2021:CLIP模型【OpenAI】【连接语言与视觉】【对比学习】
[GitHub - openai/CLIP: Contrastive Language-Image Pretraining][GitHub - openai_CLIP_ Con
相关 图文模态交互 | CLIP + GAN = ?
点击上方“机器学习与生成对抗网络”,关注星标 获取有趣、好玩的前沿干货! ![f5d083adcebb521839112cd654632ca7.png][]
还没有评论,来说两句吧...