Aarthi Anbalagan, Muthuraman Saminathan, and Vincent Kanka. “Reinforcement Learning from Human Feedback for Enhanced Code Generation and Debugging Capabilities in LLMs”. Journal of Computational Intelligence and Robotics, vol. 4, no. 1, Apr. 2024, pp. 152-93, https://nucleuscorp.org/jcir/article/view/563.