Comparison with Swin Transformer

作者，您好！在阅读完您的论文后，我有一点不明白，为什么FocalNet的性能会优于Swin Transformer？您的论文中的结构也是采用多尺度来建模局部和全局特征，Swin Transformer中也同样采用了分层结构进行局部和全局建模。为什么FocalNet的性能要好一点，麻烦作者提供几个思路，谢谢！