我们都知道,大模型具有自省能力,可以对写出的代码进行自我纠错。
这种自我修复背后的机制,究竟是怎样运作的?
对代码为什么是错误的,模型在多大程度上能提供准确反馈?
近日,MIT和微软的学者发现,在GPT-4和GPT-.5之中,只有GPT-4表现出了有效的自修复。并且,GPT-4甚至还能对GPT-.5生成的程序提供反馈。
论文