US
・UK
Chữ C trong CLIP đại diện cho "contrastive" (so sánh), vì mô hình học cách so sánh các cặp hình ảnh-chú thích khớp và không khớp.
Nếu tôi lấy vectơ tương ứng với việc tôi đội mũ, và trừ đi vectơ của việc tôi không đội mũ, chúng ta sẽ thu được một vectơ mới trong không gian nhúng của chúng ta.
Điều này được gọi là đào tạo trước hình ảnh ngôn ngữ đối chiếu, hoặc CLIP.
Bằng cách huấn luyện trên 400 triệu cặp hình ảnh-văn bản, bộ mã hóa hình ảnh học cách nắm bắt và tổng quát hóa một loạt các khái niệm thị giác đa dạng.
Tiếng Anh có ngữ điệu tương phản, và nguyên âm là yếu tố truyền tải nó.
Tiếng Anh có ngữ điệu tương phản, và nguyên âm là yếu tố truyền tải nó.