科学研究-延安大学大数据知识工程研究所

1.红色文化数据知识的获取与预处理

针对红色数据的海量多源异构特征, 采取一种怎样的数据组织形式以提升数据收集、存储、处理和应用的效率。根据学院现有的计算能力，提出使用带有高计算性能的集群计算机 (Cluster computers)。集群计算机上的每个计算节点都可以并行处理计算任务, 使得单个计算机的计算量有所降低, 从而减小对每个计算节点的硬件的依赖性。利用这种结构的最典型的并行计算工具是 MapReduce。谷歌的 MapReduce 模型是为了并行计算而提出的一种编程框架, 它将一个大规模的数据集上的计算任务拆分成多个小任务, 使得大规模数据集上的计算变得更加高效。

传统的数据存储和处理工作, 使用最广泛的是关系型数据库结构。但是根据红色知识来源的多样性, 许多有用的信息隐藏在非结构化数据中, 诸如微博、微信等。在这方面拟将运用 NoSQL 和谷歌提出的“大表” (BigTable)。BigTable 用分布式数据库存储系统管理大规模数据, 它将数据结构简化为键值之间的一种映射关系 , 使得数据规模的大小和计算的延迟时间在 BigTable 中都得到了满足。

利用 BigTable 和 Mapreduce 技术，采用合适的数据表示模型从不同的数据源中获取红色旅游信息，做为下步获取碎片化知识的干净数据资源（clean data Resource）。

2.碎片化知识的建模与分析

传统知识工程只基于领域专家的专家知识。大数据知识工程着重于提取碎片化知识, 同领域专家知识相结合。这是因为大数据来源于多源的异构数据, 数据中存在不确定、不完整和异构的问题。同领域知识相比较, 碎片化知识的精确度有所降低, 但由于它对于有个人偏好的专家知识的依赖度降低了,碎片化知识的无偏性和效率也就提高了。由于红色文化的数据来源多样化，既有来源于官方正式出版的书籍，又有专家的领域知识，还有来源于互联网上大量用户生成的数据，因此，红色文化的碎片化知识隐藏这些大数据中，从这样的大数据源中发现知识是一项富有挑战和趣味性的工作。工程研究中心围绕碎片化知识的建模、知识的可靠性评估、质量的评估和碎片化知识的语义封装开展研究工作。

3.非线性知识融合

为了进一步得到整个红色文化大数据集的全局知识,需要对碎片化知识进行非线性融合。多源异构的数据环境下,采用知识图谱对碎片化知识进行表示。语义封装后的碎片化知识利用知识图谱进行表达和存储和融合。融合主要考虑碎片化知识非线性，不是简单的线性处理，这也是大数据的本质特征。同时，使用子图来处理碎片化知识之间的关联表示。主要围绕碎片化知识语义关联分析、碎片化知识的非线性融合和知识评估进行开展研究。

4.用户知识服务

红色文化大数据智能信息处理的最终目标是提供以用户需求为导向的红色文化知识服务。工程研究中心通过对碎片化知识的非线性融合得到了大数据的全局知识, 为了将从大数据中获取的知识应用到知识服务中,需要考虑用户的社交信息等个性化的信息，并需要合适的方法对用户的个性化查询提供精确的推荐和导航服务。用户知识服务围绕用户行为和偏好分析与建模、知识导航和路径发现和知识编辑和发布。