Reinforcement from Finetuning (RFT) is highly data-efficient, requiring as few as 100 samples to ..., Sonic AI

Use with Claude or ChatGPT

Reinforcement from Finetuning (RFT) is highly data-efficient, requiring as few as 100 samples to ..., Sonic AI