• 一种面向群智多模态数据的处理方法及系统

    • 摘要:

      本发明公开了一种面向群智多模态数据的处理方法及系统,首先提取社交网络群智数据中文本数据的文本特征和图像数据的图像特征,并基于图像特征对图像数据进行聚类;然后基于提取的文本特征和图像特征进行哈希编码;最后计算文本数据哈希编码和图像数据哈希编码的海明距离,并将每一类图像中海明距离最小的图像数据加入优选数据集合;根据群智数据中的文本数据,结合聚类以及跨模态数据关联的方法,对群智数据中的图像数据进行优选,在保证数据语义相关性的同时,提高了数据的多样性.

    • 专利类型:

      发明专利

    • 申请/专利号:

      CN201710425106.X

    • 申请日期:

      2017.06.08

    • 公开/公告号:

      CN107247774A

    • 公开/公告日:

      2017-10-13

    • 发明人:

      郭斌 欧阳逸 於志文 张佳凡 王柱

    • 申请人:

      西北工业大学

    • 主分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17

    • 分类号:

      G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/30

    • 主权项:

      一种面向群智多模态数据的处理方法,其特征在于,包括如下步骤:获取社交网络中用户生成内容作为群智数据;根据群智数据中的文本数据提取文本特征;根据群智数据中的图像数据提取图像特征;基于提取的所述图像特征,对图像数据进行聚类;基于提取的所述文本特征,对文本数据进行哈希编码,得到第一哈希编码;基于提取的图像特征,对聚类后的每类图像数据的进行哈希编码,得到第二哈希编码;对每一类图像数据,计算所述第一哈希编码与所述第二哈希编码的海明距离,选取海明距离最小的图像数据加入优选数据集合.