US
・UK
Chúng ta có thể tìm kiếm văn bản tương ứng bằng cách đưa một loạt từ khác nhau vào bộ mã hóa văn bản của chúng ta, và đối với mỗi từ, tính toán độ tương đồng cosine giữa vectơ chênh lệch mới tính toán và vectơ văn bản.
Đội ngũ OpenAI đã chứng minh rằng CLIP có thể tạo ra kết quả phân loại hình ảnh rất ấn tượng bằng cách đơn giản là đưa một hình ảnh vào bộ mã hóa hình ảnh của chúng tôi, sau đó so sánh vector kết quả với một tập hợp các chú thích có thể, mỗi chú thích tươ
Để sử dụng thông tin bổ sung này, chúng tôi thêm một bộ mã hóa văn bản.
Mã hóa văn bản chuyển đổi chú thích hoặc mô tả thành một vectơ đặc trưng, tương tự như cách mã hóa hình ảnh chuyển đổi hình ảnh thành vectơ đặc trưng.
Tuy nhiên, các kỹ sư trong ngành bộ nhớ đồ họa đã đồng ý chuyển sang PAM3 cho các thế hệ chip đồ họa trong tương lai để giảm độ phức tạp của bộ mã hóa, cải thiện tỷ lệ tín hiệu trên nhiễu và cải thiện hiệu quả năng lượng.
Tiếp theo, chúng ta làm tương tự cho chiếc bàn và hàng trăm đối tượng khác trong cảnh, mỗi lần sử dụng cùng các lệnh nhưng với tọa độ của các đối tượng khác nhau trong không gian thế giới và hàng nghìn đỉnh của mỗi đối tượng trong không gian mô hình.
Ở cấp độ cao, một mô hình transformer bao gồm bộ mã hóa và bộ giải mã.
Bộ mã hóa mã hóa chuỗi đầu vào và chuyển nó cho bộ giải mã, bộ giải mã học cách giải mã biểu diễn cho một tác vụ liên quan.
Đó được gọi là giai đoạn mã hóa.
một chương trình gọi là 'bộ mã hóa' lấy một tệp video khổng lồ chất lượng cao, sau đó loại bỏ các chi tiết nhỏ để tiết kiệm dữ liệu.
Nhưng bộ mã hóa, phần mềm nén, được viết bởi những người rất thông minh: