作者,您好!在阅读完您的论文后,我有一点不明白,为什么FocalNet的性能会优于Swin Transformer?您的论文中的结构也是采用多尺度来建模局部和全局特征,Swin Transformer中也同样采用了分层结构进行局部和全局建模。为什么FocalNet的性能要好一点,麻烦作者提供几个思路,谢谢!