[1]

Aarthi Anbalagan, Muthuraman Saminathan, and Vincent Kanka, “Reinforcement Learning from Human Feedback for Enhanced Code Generation and Debugging Capabilities in LLMs”, J. Computational Intel. & Robotics, vol. 4, no. 1, pp. 152–193, Apr. 2024.