US /ˌriɪnˈfɔrsmənt, -ˈfors-/
・UK /ˌri:ɪn'fɔ:smənt/
Đối với các robot, tức là không phải con người.
Đối với các robot, tức là không phải con người.
bạn có thể nghĩ về nó, nếu bạn muốn,
Tất cả đều góp phần vào sự củng cố nhỏ nhặt.
Nổi bật nhất là "học tăng cường từ phản hồi của con người", hay RLHF.
Cách thức hoạt động là, những người gán nhãn được yêu cầu đặt câu hỏi cho các mô hình với nhiều câu hỏi khác nhau, và nếu đầu ra không an toàn, họ sẽ thông báo cho mô hình,
Sau đó, chúng tôi đã tạo ra một môi trường cho nó gọi là Isaac Reinforcement Learning Gym, cho phép robot hình người học cách thích ứng với thế giới vật lý.
Đây là lý do tại sao bạn có thể đã thấy các tiêu đề bài báo khoa học phổ biến như "Đường, gây nghiện hơn cocaine?"
Điều này tạo ra sự củng cố tích cực xung quanh việc muốn ăn đường và có thể gây thèm muốn.
Sau đó, mô hình AI được tinh chỉnh và thử nghiệm bằng cách sử dụng phản hồi vật lý trong môi trường học tăng cường (reinforcement learning) trong Omniverse.
Và hệ thống trí tuệ nhân tạo (AI) được đào tạo chạy trên các máy tính robot NVIDIA Jetson AGX.
Chúng tôi bắt đầu sử dụng đồ ăn vặt và sự củng cố tích cực để xem liệu chúng tôi có thể khiến cô ấy vào trong cái này không.
Và rồi, điều chúng tôi làm là chúng tôi lan truyền tin tức.
Huấn luyện viên sử dụng củng cố tích cực.
Huấn luyện viên sử dụng củng cố tích cực.
Đôi khi trong ngành mọi người gọi nó là hộp FIFO, nhưng
chúng đi kèm với chi phí bổ sung, hộp bổ sung, gia cố bổ sung, chi phí bổ sung để thực sự chế tạo các hộp này trong hạ tầng.