复现mooer-omni

作者您好，想跟您确认下，第二阶段的训练在第一阶段上新增了tts任务，输入为回复的文本，输出为对应的音频的encodec，那在训练第二阶段的同时，下图中的部分也要带着一起吗？
第三阶段训练也有同样的困惑，输入只有音频adapter，输出为回复音频的encodec？还需要带第二阶段的部分吗？
<img width="217" alt="截屏2024-12-31 15 22 04" src="https://github.com/user-attachments/assets/2de8383f-2388-4684-aec5-a7fa9f80a95c" />