zhb10086
/

relation_afford_pretrained_weights

Model card Files Files and versions Community

zhb10086 commited on Nov 12, 2024

Commit

47fb5bc

verified ·

1 Parent(s): bee9bb3

Upload 7 files

Browse files

Files changed (7) hide show

20240922_172907.log.json +0 -0
epoch_16.pth +3 -0
epoch_17.pth +3 -0
epoch_18.pth +3 -0
epoch_19.pth +3 -0
epoch_20.pth +3 -0
relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic_2.py +1070 -0

20240922_172907.log.json ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch_16.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff785b432141af48e0a3c4863bd9d5218c2d82245c06278ff1fdd332f4a32b3e
+size 909495892

epoch_17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5591b252f23e878fe6ccb035efb7cf02d846053c3f6f541fd22f5417a558f8b6
+size 909495892

epoch_18.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15ce75e488490ba524256adc604b0ee3742f45349ce9f82a205f626beb428bd5
+size 909495892

epoch_19.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74507a15e1c4f71c6c10eb41384a89e71a9786433f93b62b716e1d6003d8d353
+size 909495892

epoch_20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52703650ba2d116e2dfa9d67d54a7de2c4fc3001b63bdcf7a664a9dad60a4cb8
+size 909495892

relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic_2.py ADDED Viewed

	@@ -0,0 +1,1070 @@

+norm_cfg = dict(
+    type='BN',
+    requires_grad=False,
+    mean=[123.675, 116.28, 103.53],
+    std=[1.0, 1.0, 1.0],
+    to_rgb=True)
+model = dict(
+    type='FasterRCNNRelAfford',
+    backbone=dict(
+        type='mmdet.ResNet',
+        depth=101,
+        num_stages=3,
+        strides=(1, 2, 2),
+        dilations=(1, 1, 1),
+        out_indices=(2, ),
+        frozen_stages=1,
+        norm_cfg=dict(type='BN', requires_grad=False),
+        norm_eval=True,
+        style='caffe',
+        init_cfg=dict(
+            type='Pretrained',
+            checkpoint='open-mmlab://detectron2/resnet101_caffe')),
+    rpn_head=dict(
+        type='mmdet.RPNHead',
+        in_channels=1024,
+        feat_channels=1024,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8, 16, 32],
+            ratios=[0.33, 0.5, 1.0, 2.0, 3.0],
+            strides=[16]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='mmdet.CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(type='mmdet.L1Loss', loss_weight=1.0)),
+    roi_head=None,
+    child_head=dict(
+        type='invigorate.PairedRoIHead',
+        shared_head=dict(
+            type='invigorate.PairedResLayer',
+            depth=50,
+            stage=3,
+            stride=1,
+            style='caffe',
+            norm_eval=False,
+            share_weights=False),
+        paired_roi_extractor=dict(
+            type='invigorate.VMRNPairedRoIExtractor',
+            roi_layer=dict(type='RoIPool', output_size=7),
+            out_channels=1024,
+            featmap_strides=[16]),
+        relation_head=dict(
+            type='invigorate.BBoxPairHead',
+            with_avg_pool=True,
+            roi_feat_size=7,
+            in_channels=2048,
+            num_relations=1,
+            loss_cls=dict(
+                type='mmdet.CrossEntropyLoss',
+                use_sigmoid=False,
+                loss_weight=1.0))),
+    leaf_head=dict(
+        type='mmdet.StandardRoIHead',
+        shared_head=dict(
+            type='mmdet.ResLayer',
+            depth=50,
+            stage=3,
+            stride=1,
+            style='caffe',
+            norm_cfg=dict(type='BN', requires_grad=False),
+            norm_eval=True),
+        bbox_roi_extractor=dict(
+            type='mmdet.SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=1024,
+            featmap_strides=[16]),
+        bbox_head=dict(
+            type='mmdet.BBoxHead',
+            with_avg_pool=True,
+            with_reg=False,
+            roi_feat_size=7,
+            in_channels=2048,
+            num_classes=2,
+            loss_cls=dict(
+                type='mmdet.CrossEntropyLoss',
+                use_sigmoid=False,
+                loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=12000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False),
+        child_head=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.7,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            relation_sampler=dict(
+                type='RandomRelationSampler',
+                num=32,
+                pos_fraction=0.5,
+                cls_ratio_ub=1.0,
+                add_gt_as_proposals=True,
+                num_relation_cls=1,
+                neg_id=0),
+            pos_weight=-1,
+            online_data=True,
+            online_start_iteration=0),
+        leaf_head=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=64,
+                pos_fraction=0.25,
+                neg_pos_ub=3.0,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=6000,
+            max_per_img=300,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.3),
+            max_per_img=300),
+        child_head=dict(
+            bbox_score_thr=0.5, verbose_relation=False, average_scores=False),
+        leaf_head=dict(score_thr=0.05, nms=None, max_per_img=300)))
+dataset_type = 'REGRADAffordDataset'
+data_root = 'data/regrad/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[1.0, 1.0, 1.0], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True),
+    dict(
+        type='LoadAnnotationsCustom',
+        keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='RandomCrop', crop_type='random_keep', allow_negative_crop=False),
+    dict(type='Expand', mean=[123.675, 116.28, 103.53], ratio_range=(1, 2)),
+    dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[1.0, 1.0, 1.0],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(
+        type='DefaultFormatBundleCustom',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+              'gt_relleaves']),
+    dict(
+        type='Collect',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+data = dict(
+    train=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                meta_info_file='dataset_train_5k/meta_infos.json',
+                ann_file='dataset_train_5k/objects.json',
+                img_prefix='dataset_train_5k/RGBImages',
+                seg_prefix='dataset_train_5k/SegmentationImages',
+                depth_prefix='dataset_train_5k/DepthImages',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(
+                        type='RandomCrop',
+                        crop_type='random_keep',
+                        allow_negative_crop=False),
+                    dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                min_pos_relation=1,
+                class_agnostic=True),
+            dict(
+                type='MetaGraspNetAffordDataset',
+                data_root='data/metagraspnet/sim/',
+                meta_info_file='meta_infos_train.json',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(
+                        type='RandomCrop',
+                        crop_type='random_keep',
+                        allow_negative_crop=False),
+                    dict(
+                        type='Expand',
+                        mean=[123.675, 116.28, 103.53],
+                        ratio_range=(1, 2)),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                min_pos_relation=1,
+                class_agnostic=True),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/trainval.txt',
+                img_prefix='data/vmrd/',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True),
+            dict(
+                type='VRDAffordDataset',
+                data_root='data/vrd/',
+                ann_file='sg_dataset/sg_train_annotations.json',
+                img_prefix='sg_dataset/sg_train_images/',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True),
+            dict(
+                type='VGAffordDataset',
+                data_root='data/vg/downloads',
+                ann_file='relationships.json',
+                img_prefix='',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    val=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                using_depth=False,
+                using_gt_proposals=True,
+                meta_info_file='dataset_seen_val_1k/meta_infos.json',
+                ann_file='dataset_seen_val_1k/objects.json',
+                img_prefix='dataset_seen_val_1k/RGBImages',
+                seg_prefix='dataset_seen_val_1k/SegmentationImages',
+                depth_prefix='dataset_seen_val_1k/DepthImages',
+                test_mode=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True,
+                max_sample_num=1000),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/test.txt',
+                img_prefix='data/vmrd/',
+                using_gt_proposals=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    test=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                using_depth=False,
+                using_gt_proposals=True,
+                meta_info_file='dataset_seen_val_1k/meta_infos.json',
+                ann_file='dataset_seen_val_1k/objects.json',
+                img_prefix='dataset_seen_val_1k/RGBImages',
+                seg_prefix='dataset_seen_val_1k/SegmentationImages',
+                depth_prefix='dataset_seen_val_1k/DepthImages',
+                test_mode=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True,
+                max_sample_num=1000),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/test.txt',
+                img_prefix='data/vmrd/',
+                using_gt_proposals=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    samples_per_gpu=4,
+    workers_per_gpu=2)
+evaluation = dict(interval=1, metric=['mAP', 'ImgAcc'])
+optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001)
+optimizer_config = dict(grad_clip=dict(max_norm=100, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=4000,
+    warmup_ratio=0.001,
+    step=[12, 18])
+runner = dict(type='EpochBasedRunner', max_epochs=20)
+checkpoint_config = dict(interval=1, max_keep_ckpts=5)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = 'work_dirs/relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic_2/latest.pth'
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+auto_scale_lr = dict(enable=False, base_batch_size=16)
+mmdet = None
+mmdet_root = '/data/home/hanbo/projects/cloud_services/service/vmrn/vmrn_models/mmdetection/mmdet'
+test_with_object_detector = False
+test_crop_config = (174, 79, 462, 372)
+kinect_img_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='FixedCrop',
+        crop_type='absolute',
+        top_left=(174, 79),
+        bottom_right=(462, 372)),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+seen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_seen_val_1k/meta_infos.json',
+    ann_file='dataset_seen_val_1k/objects.json',
+    img_prefix='dataset_seen_val_1k/RGBImages',
+    seg_prefix='dataset_seen_val_1k/SegmentationImages',
+    depth_prefix='dataset_seen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+unseen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_unseen_val_1k/meta_infos.json',
+    ann_file='dataset_unseen_val_1k/objects.json',
+    img_prefix='dataset_unseen_val_1k/RGBImages',
+    seg_prefix='dataset_unseen_val_1k/SegmentationImages',
+    depth_prefix='dataset_unseen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+real_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='real/meta_infos.json',
+    ann_file='real/objects.json',
+    img_prefix='real/RGBImages',
+    img_suffix='png',
+    depth_prefix='real/DepthImages',
+    test_mode=True,
+    test_gt_bbox_offset=(174, 79),
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='FixedCrop',
+            crop_type='absolute',
+            top_left=(174, 79),
+            bottom_right=(462, 372)),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+regrad_datatype = 'REGRADAffordDataset'
+regrad_root = 'data/regrad/'
+vmrd_datatype = 'VMRDAffordDataset'
+vmrd_root = 'data/vmrd/'
+vmrd_train = dict(
+    type='VMRDAffordDataset',
+    ann_file='data/vmrd/ImageSets/Main/trainval.txt',
+    img_prefix='data/vmrd/',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+regrad_train = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    meta_info_file='dataset_train_5k/meta_infos.json',
+    ann_file='dataset_train_5k/objects.json',
+    img_prefix='dataset_train_5k/RGBImages',
+    seg_prefix='dataset_train_5k/SegmentationImages',
+    depth_prefix='dataset_train_5k/DepthImages',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(
+            type='RandomCrop',
+            crop_type='random_keep',
+            allow_negative_crop=False),
+        dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    min_pos_relation=1,
+    class_agnostic=True)
+metagraspnet_sim_train = dict(
+    type='MetaGraspNetAffordDataset',
+    data_root='data/metagraspnet/sim/',
+    meta_info_file='meta_infos_train.json',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(
+            type='RandomCrop',
+            crop_type='random_keep',
+            allow_negative_crop=False),
+        dict(
+            type='Expand', mean=[123.675, 116.28, 103.53], ratio_range=(1, 2)),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    min_pos_relation=1,
+    class_agnostic=True)
+vgvrd_train_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True),
+    dict(
+        type='LoadAnnotationsCustom',
+        keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[1.0, 1.0, 1.0],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(
+        type='DefaultFormatBundleCustom',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+              'gt_relleaves']),
+    dict(
+        type='Collect',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'])
+]
+vrd_train = dict(
+    type='VRDAffordDataset',
+    data_root='data/vrd/',
+    ann_file='sg_dataset/sg_train_annotations.json',
+    img_prefix='sg_dataset/sg_train_images/',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+vg_train = dict(
+    type='VGAffordDataset',
+    data_root='data/vg/downloads',
+    ann_file='relationships.json',
+    img_prefix='',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+real_test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='FixedCrop',
+        crop_type='absolute',
+        top_left=(174, 79),
+        bottom_right=(462, 372)),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+regrad_seen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_seen_val_1k/meta_infos.json',
+    ann_file='dataset_seen_val_1k/objects.json',
+    img_prefix='dataset_seen_val_1k/RGBImages',
+    seg_prefix='dataset_seen_val_1k/SegmentationImages',
+    depth_prefix='dataset_seen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+regrad_unseen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_unseen_val_1k/meta_infos.json',
+    ann_file='dataset_unseen_val_1k/objects.json',
+    img_prefix='dataset_unseen_val_1k/RGBImages',
+    seg_prefix='dataset_unseen_val_1k/SegmentationImages',
+    depth_prefix='dataset_unseen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+regrad_real_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='real/meta_infos.json',
+    ann_file='real/objects.json',
+    img_prefix='real/RGBImages',
+    img_suffix='png',
+    depth_prefix='real/DepthImages',
+    test_mode=True,
+    test_gt_bbox_offset=(174, 79),
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='FixedCrop',
+            crop_type='absolute',
+            top_left=(174, 79),
+            bottom_right=(462, 372)),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+vmrd_val_dataset = dict(
+    type='VMRDAffordDataset',
+    ann_file='data/vmrd/ImageSets/Main/test.txt',
+    img_prefix='data/vmrd/',
+    using_gt_proposals=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+train_sampler = dict(
+    type='DistributedWeightedSampler',
+    weights=[0.15, 0.15, 0.1, 0.05, 0.55],
+    sample_per_epoch=150000,
+    shuffle=True)
+work_dir = './work_dirs/relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic_2'
+gpu_ids = range(0, 8)