CLIP 学习笔记 | Daisy's Blog

CLIP 是 OpenAI 在2021年提出的多模态模型，它可以利用自然语言监督信号学习视觉图像的语义信息，CLIP在大量文本标注数据下进行训练，并在 zero-shot 预测中表现出非常高的性能。我对多模态方向抱有浓厚的兴趣，便决定复现这篇论文。

我将在这篇博客中总结 CLIP 的知识点，同时，我也会把我复现 CLIP 的代码放在这个仓库中。

模型介绍

有意思的是，CLIP的论文页数高达四十八页，不过其中半数都是列举自己的实验方法和数据，在此不做讨论。

To be continue..