Towards safe, aligned, and efficient reinforcement learning from human feedback

Författare
Daniel Marta
(Daniel Marta.)
Genre
theses
Språk
Engelska
Förlag År Ort Om boken ISBN
KTH Royal Institute of Technology 2025 Sverige, Stockholm xi, 77 sidor 978-91-8106-275-5
KTH Royal Institute of Technology 2025 Sverige, Stockholm xi, 77