This is an official implementation for "Contextual Transformer Networks for Visual Recognition".
翻译 - 这是“用于视觉识别的上下文转换器网络”的官方实现。