CLIP 学习笔记


CLIP 是 OpenAI 在2021年提出的多模态模型,它可以利用自然语言监督信号学习视觉图像的语义信息,CLIP在大量文本标注数据下进行训练,并在 zero-shot 预测中表现出非常高的性能。我对多模态方向抱有浓厚的兴趣,便决定复现这篇论文。
我将在这篇博客中总结 CLIP 的知识点,同时,我也会把我复现 CLIP 的代码放在这个仓库中。
模型介绍
有意思的是,CLIP的论文页数高达四十八页,不过其中半数都是列举自己的实验方法和数据,在此不做讨论。
To be continue..