7 months ago · 7b8fb177d4
--- a/models/base/backbone_factory.py
+++ b/models/base/backbone_factory.py
@@ -125,62 +125,59 @@ def get_anchor_generator(backbone, test_input):
 
															     return AnchorGenerator(sizes=anchor_sizes , aspect_ratios=aspect_ratios)
														
 
															+
														
 
															+class MaxVitBackbone(torch.nn.Module):
														
 
															+    def __init__(self):
														
 
															+        super(MaxVitBackbone, self).__init__()
														
 
															+        # 提取MaxVit的部分层作为特征提取器
														
 
															+        maxvit_model = models.maxvit_t(pretrained=True)
														
 
															+        self.stem = maxvit_model.stem  # Stem层
														
 
															+        self.block0= maxvit_model.blocks[0]
														
 
															+        self.block1 = maxvit_model.blocks[1]
														
 
															+        self.block2 = maxvit_model.blocks[2]
														
 
															+        self.block3 = maxvit_model.blocks[3]
														
 
															+
														
 
															+
														
 
															+
														
 
															+    def forward(self, x):
														
 
															+        # features = {}
														
 
															+        x = self.stem(x)
														
 
															+        x=self.block0(x)
														
 
															+        x = self.block1(x)
														
 
															+        x = self.block2(x)
														
 
															+        x = self.block3(x)
														
 
															+        return x
														
 
															+
														
 
															+
														
 
															 if __name__ == '__main__':
														
 
															-    # 创建 ConvNeXt backbone
														
 
															-    convnext = models.convnext_base(pretrained=True)
														
 
															-    for i,layer in enumerate(convnext.features):
														
 
															-        print(f'layer{i}:{layer}')
														
 
															-    # 创建一个小的输入张量用于获取各层输出通道数
														
 
															-    dummy_input = torch.randn(1, 3, 224, 224)
														
 
															-    # output_channels_list = get_output_channels(convnext.features, dummy_input)
														
 
															-    # print(f'output_channels_list:{output_channels_list}')
														
 
															-
														
 
															-    # 根据之前的经验，选择合适的层索引
														
 
															-    selected_layers = [3, 5, 7]  # 假设这是我们要用作 FPN 输入的层索引
														
 
															-    in_channels_list = [128,256,512,1024]
														
 
															-    print(f'in_channels_list:{in_channels_list}')
														
 
															-
														
 
															-    # 创建 FPN
														
 
															+    # maxvit = models.maxvit_t(pretrained=True)
														
 
															+    maxvit=MaxVitBackbone()
														
 
															+    # print(maxvit.named_children())
														
 
															+
														
 
															+    for i,layer in enumerate(maxvit.named_children()):
														
 
															+        print(f'layer:{i}:{layer}')
														
 
															+
														
 
															+    in_channels_list = [64,64,128, 256, 512]
														
 
															     backbone_with_fpn = BackboneWithFPN(
														
 
															-        convnext.features,
														
 
															-        return_layers={'1':'0','3': '1', '5': '2', '7': '3'},  # 确保这些键对应到实际的层
														
 
															+        maxvit,
														
 
															+        return_layers={'stem': '0','block0':'1','block1':'2','block2':'3','block3':'4'},  # 确保这些键对应到实际的层
														
 
															         in_channels_list=in_channels_list,
														
 
															         out_channels=256
														
 
															     )
														
 
															-
														
 
															-    # 创建 Faster R-CNN 模型
														
 
															-    # anchor_generator = AnchorGenerator(sizes=((32, 64, 128, 256, 512),),
														
 
															-    #                                    aspect_ratios=((0.5, 1.0, 2.0),))
														
 
															-    # anchor_generator = AnchorGenerator(
														
 
															-    #     sizes=((32,), (64,), (128,)),  # ✅ 正确
														
 
															-    #     aspect_ratios=((0.5, 1.0, 2.0),) * 3  # ✅ 正确
														
 
															-    # )
														
 
															-    test_input = torch.rand(1, 3, 224, 224)
														
 
															-    anchor_generator = get_anchor_generator(backbone_with_fpn, test_input)
														
 
															-    print(f'anchor_generator:{anchor_generator}')
														
 
															-
														
 
															-    featmap_names=['0', '1', '2', '3', 'pool']
														
 
															-    roi_pooler = MultiScaleRoIAlign(
														
 
															-        featmap_names=featmap_names,
														
 
															-        output_size=7,
														
 
															-        sampling_ratio=2
														
 
															-    )
														
 
															-
														
 
															     model = FasterRCNN(
														
 
															         backbone=backbone_with_fpn,
														
 
															         num_classes=91,  # COCO 数据集有 91 类
														
 
															-        rpn_anchor_generator=anchor_generator,
														
 
															-        box_roi_pool=roi_pooler
														
 
															+        # rpn_anchor_generator=anchor_generator,
														
 
															+        # box_roi_pool=roi_pooler
														
 
															     )
														
 
															-    # 测试模型
														
 
															-    test_input = torch.randn(1, 3, 800, 800)  # 注意输入尺寸应符合 Faster R-CNN 需求
														
 
															-    model.eval()
														
 
															-    output = model(test_input)
														
 
															-    print(f'output: {output}')
														
 
															+    test_input = torch.randn(1, 3, 896, 896)
														
 
															+
														
 
															+    with torch.no_grad():
														
 
															+        output = backbone_with_fpn(test_input)
														
 
															-    # 测试模型
														
 
															-    dummy_input = torch.randn(1, 3, 800, 800)  # 注意输入尺寸应符合 Faster R-CNN 需求
														
 
															+    print("Output feature maps:")
														
 
															+    for k, v in output.items():
														
 
															+        print(f"{k}: {v.shape}")
														
 
															     model.eval()
														
 
															-    output = model(dummy_input)
														
 
															-    print(f'output:{output}')
														
 
															+    output=model(test_input)