让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

美国苹果id怎么绑定支付方式

你的位置:ins账号购买自助平台 > 美国苹果id怎么绑定支付方式 > 数据订价与交游研究综述

数据订价与交游研究综述

发布日期:2024-07-02 06:10    点击次数:66
跟着互联网、挪动诱导、工业传感器等技巧的日益发展, 全球数据规模日益增大. 凭证中国信息通讯研究院发布的《大数据白皮书(2020年)》[1]的预测, 2030年全宇宙数据产生量将达到612 ZB, 2035年将达到2 142 ZB. 种种各样不同来源的数据被收罗整理, 存储在各个数据中心或厂商的末端诱导中, 便形成了如今学界和业界的要点研究标的——大数据. 对于大数据的界说, 不同著述从各自角度启航给出了不同界说形势. 泛泛来说, 种种不同来源的数据汇集在沿途形成体量顽强、不错创造出大宗交易价...

数据订价与交游研究综述

跟着互联网、挪动诱导、工业传感器等技巧的日益发展, 全球数据规模日益增大. 凭证中国信息通讯研究院发布的《大数据白皮书(2020年)》[1]的预测, 2030年全宇宙数据产生量将达到612 ZB, 2035年将达到2 142 ZB. 种种各样不同来源的数据被收罗整理, 存储在各个数据中心或厂商的末端诱导中, 便形成了如今学界和业界的要点研究标的——大数据. 对于大数据的界说, 不同著述从各自角度启航给出了不同界说形势. 泛泛来说, 种种不同来源的数据汇集在沿途形成体量顽强、不错创造出大宗交易价值的数据, 称为大数据. 大数据有着4V脾气[2]: 第一, 数据体量顽强(volume)香港苹果id哪里买最便宜, 从最脱手的TB级别, 跃升到其后的PB, 再到目下的ZB; 第二, 数据变化快速(velocity), 这个变化速率不单是指数据生成速率, 还包括实时在线的要求, 其次, 数据处理、传送和存储的速率亦然极高的; 第三, 数据种类种种(variety), 由于数据来源不同, 九行八业收罗到的数据亦然多种种种的, 除了传统的结构化数据, 还有图、XML、视频等半结构化和非结构化数据; 第四, 亦然大数据最重要的一个脾气, 顽强的价值(value), 即交易价值高、价值密度低, 在数据的海洋里通常需要通过不断寻找才能发现其中顽强的交易价值.

数据是新石油[3]. 因此, 像石油一样, 大数据对于国度和组织来说具有顽强价值. 但只好具有专科技能和积聚的公司和组织才具备“开采”出“新石油”的阅历. 想要发掘出大数据的价值, 不仅需要领罕有据分析能力, 还要具备数据发现和采集、数据整合的能力. 跟着数据不断产生, 互联网公司、挪动诱导运营商、灵敏工场等一些为数据产生起源提供处事的公司或组织囤积了多量数据, 然而他们其中很大一部分并不具备发掘出数据全部价值的能力. 因此数据分享成为冲突数据孤岛、创造精好意思数据流畅生态的重要技能. 数据分享不错分为敞开分享和有偿分享两种形势. 敞开分享的难点在于领罕有据的公司或组织莫得足够能源去主动分享数据, 特出是触及中枢用户风俗、蕴含顽强交易价值的数据. 即使是通过敞开数据接口[4, 5]、数据湖[6]等一些形势得到的分享数据, 通常也需要消费者进行二次整理才能变成其想要的数据体式. 另一种分享形势是有偿分享, 即把数据推向市集, 通过数据交游的形势分享数据. 数据交游不错建立起一套数据分享法律解释, 使买卖数据两边皆随机在该法律解释运行下得到我方想要的终结. 在数据交游市蚁集, 领罕有据的组织和公司不错通过交游得到相应讲演, 称为激发; 而数据购买者也在其数据分析任务的驱使下, 到数据交游市集购买数据. 跟着近些年来大数据产业的发展, 我国如故成立了包括贵阳大数据交游所[7]、武汉东湖大数据交游中心[8]、北京外洋大数据交游所[9]在内的多家大数据交游中心. 同期, 在外洋上也出现了一无数数据交游平台, 如Dawex[10]、Xignite[11]、WorldQuant[12]等. 因此, 通过数据在有买卖意愿的各方进行交游, 不仅冲突了数据孤岛, 还不错让数据的价值被充分挖掘, 匡助企业、政府作念出决策, 助力下一轮科技翻新.

一般情况下, 数据交游市集的参与方包括数据领有者、数据消费者和数据平台[13]. 数据领有者泛泛是随机收罗到数据的公司或组织, 也包括少数不错正当出售我方隐秘数据的个东说念主; 数据消费者是出目下数据市集上, 但愿购买数据以处理我方使用需求的买家; 数据平台是数据交游的中间东说念主, 也称为数据中介, 牙东说念主等, 负责对数据进行收罗整合、设定收购和出售价钱、为数据领有者和数据消费者提供干系处事等.

天然数据交游如今如故赢得了足够多的真贵, 但由于是新兴交游类型, 交游的商品又是与传统商品和数字信息商品质质存在较多不同的数据商品, 因此目下数据交游市集仍处在起步阶段. 为了建立高效的数据交游市集, 需要处理如下的问题. 第1个问题是数据交游前的准备使命, 包括数据收罗、整合、分析等操作以体现出数据的价值. 由于消费者需要的数据类型是白衣苍狗的, 因此在数据交游市蚁集流畅的数据类型亦然多种种种的. 这导致数据平台必须洽商何如从不同数据起源收罗到不同类型的数据, 何如对这些数据进行整合以方便存储和出售, 何如对数据进行轻松分析以细目其基本价值, 从而为订价和交游奠定基础. 第2个问题是何如细目数据的价钱. 这是在进行数据交游前起源要洽商的问题. 由于数据消费者但愿数据价钱不错反应该数据对其任务的价值, 而数据领有者和数据平台大多但愿以数据收罗、管理老本作为数据价钱. 这种割裂导致进行交游的各方很难达成一致. 因此, 何如为交游的数据联想一个合适的价钱, 使得领罕有据的公司和组织有着更高的意愿卖出数据, 同期又保证了消费者的经济利益, 知足其完成相应任务的需求, 是一个极具挑战性的问题. 终末, 是何如联想数据交游机制的问题. 数据交游和数据订价是互补的关系. 数据订价柔顺数据出售价钱的设定, 而数据交游则更柔顺市集. 由于每个市集参与东说念主的活动、市集结构皆会对数据交游过程产生影响, 因此何如联想交游机制, 构建信得过果真的交游平台, 以保证参与交游的两边收益不错最大化, 确保数据交游随机公正、高效地进行, 亦然一个值得深刻研究的问题.

对于上述问题, 如故存在对数据订价与交游干系使命的综述, 但角度各有不同. Pei等东说念主[14]从经济学的角度对数据订价进行了完整的叙述, 并总结了数据订价时需要洽商的基本内容以及应该遵从的准则, 基于这些准则, 先容了相应的数据订价方法. 访佛地, 张小伟等东说念主[13]对经济学中适用于数据订价的表面和方法进行了综述. 刘枬等东说念主[15]以社会科学的视角先容了大数据订价方法, 将其分为老本导向、市集导向、需求导向、利润导向以及基于人命周期的订价五种类型. 蔡莉等东说念主[16]也对数据订价模子进行了综述, 将其分为基于数据质地的订价、基于信息熵的订价、基于查询的订价、基于博弈论的订价和基于机器学习的订价, 并对上述几种订价方法的优劣进行了分析. 上述文献各自存在不及之处. 文献[13, 14]要点柔顺订价过程中触及的经济学准则和方法, 没能对现有订价方法进行完整分类. 刘枬等东说念主[15]天然对数据订价方法进行了分类, 然而更多侧重于轨制性和框架性的叙述, 没随机对订价方法的具体细节进行研究. 蔡莉等东说念主[16]弥补了上述不及, 对数据订价策略和方法进行了细腻分类, 对数据订价过程的先容也较为全面. 然而忽略了与数据订价密不可分的数据交游部分, 因此, 除了对数据订价过程中需要遵从的准则以及数据订价方法进行全面综述外, 本文还将数据交游市集作为要点, 凭证大数据在数据交游市集上的流畅过程, 将其人命周期分为数据收罗与集成、数据管理与分析、数据订价和数据交游4个枢纽, 细腻先容了每个枢纽需要进行的使命、存在的挑战以及干系处理决议.

在本文中, 咱们对大数据订价与交游进行了全面综述, 以匡助众人对这一标的有完整的了解. 本文孝顺如下.

1) 本文起源归来了大数据订价与交游的干系研究使命, 在洽商大数据特色的基础上, 总结了每篇数据订价与交游干系著述中的侧要点, 并基于此先容了数据订价与交游中存在的一些挑战和难点, 样式了需要遵从的一般性准则, 解释了这些准则的重要性.

2) 本文将大数据在数据交游市蚁集的人命周期分为了4个枢纽, 分别为数据收罗与集成、数据管理与分析、数据订价、数据交游. 由于前两个枢纽在数据订价与交游干系著述中未受到足够的真贵, 因此鉴戒了大数据管理标的的干系著述, 总结了其中适用于数据交游市集的方法.

3) 本文对以往的数据订价干系研究使命进行了总结, 对流行的数据订价想路和方法进行了分类, 比较了每种方法的上风和局限性.

4) 本文研究了数据交游过程, 对数据市集结构进行了分类. 以博弈论和拍卖为例, 研究了数据订价方法中莫得触及的市集类型和数据市集参与东说念主活动对数据交游过程产生的影响, 并细腻先容了博弈论和拍卖方法在数据交游场景中的分类偏激应用, 总结了每个类别的优劣.

本文第1节先容数据订价与交游的挑战和需要遵从的干系准则, 并轻松先容了大数据在数据交游市蚁集的人命周期. 第2节先容数据交游平台需要完成的数据收罗与集成使命. 在此之后, 第3节先容数据交游市集触及的数据管理与分析任务时弊性问题. 第4节为数据订价方法进行了分类, 先容了技巧细节, 总结了每个方法的适用场景以及优劣之处. 第5节先容了数据市集分类, 以博弈论和拍卖为例研究了市集结构和数据交游中参与东说念主活动对数据价钱的影响. 第6节对干系使命进行了先容. 第7节总结全文, 并对昔时的研究进行了瞻望.

1 数据订价与交游的难点和准则 1.1 数据订价与交游的难点

大数据具有4V脾气, 即数据体量顽强(volume)、数据变化快速(velocity)、数据类型种种(variety)和数据价值顽强(value)[2]. 数据体量顽强是指数据规模泛泛不错达到PB甚而EB的级别; 数据变化快速是指大数据的生成和更新有着极高的时效性, 对数据的存储、处理也有高速的要求; 数据类型种种是指大数据来源丰富, 九行八业所产生的数据皆以多种体式汇集, 成为大数据的组成部分; 数据价值顽强是指数据交易价值高, 然而价值密度较低, 需要经过仔细筛选挖掘才能找到有价值的内容.

基于大数据以上的脾气, 本文合计, 同传统资产比较, 在数据市集上交游的数据有着以下脾气.

1) 种种性. 在大数据时期, 数据来源是种种的, 除了互联网作为咱们最为熟知的数据产生源, 医疗诱导、视频监控诱导、物联网诱导、工场自动化诱导、挪动通讯诱导等皆是数据居品的重要来源. 数据居品来源的种种化导致了数据居品体式的种种化. 从文本、音频、视频等种种非结构化数据, 再到半结构化、结构化数据.

2) 时效性. 跟着云谋略技巧的发展和线上应用的膨胀, 大数据的产生和更新通常具有极高的时效性. 种种应用、诱导遍地随时产生数据, 这些数据也需要实时进行处理以参预使用. 大数据的时效性同期亦然很预计数据居品价值的重要方针, 落后数据对于买家通常有着较低的诱惑力.

3) 可相通性. 同数字资产一样, 由于存储形势的格外, 导致数据居品有着极低的复制代价, 同期, 被复制的数据还能保证其原有属性不变. 从另一方面来说, 数据居品在使用过程中也不会产生损耗和折旧, 不错相通欺诈.

4) 价值稀薄性. 在数据居品的价值方面, 刘向阳等东说念主[17]合计大数据价值具有稀薄性, 具体表目下价值的不细目性、价值的稀缺性和价值的种种性3个方面.

对于数据居品的交游, 难点来自数据居品自己的脾气. 泛泛来说, 数据订价的难点在于数据来源的种种性以及自身结构的复杂. 数据居品的种种性导致需要对不同类型的数据联想不同的订价方法, 这些方法有着各自的起点, 这导致很难保证订价终结的客不雅性, 从而影响交游. 其次, 数据的种种性增大了数据平台存储数据的耗尽, 不利于统一管理.

数据居品的时效性亦然导致大数据订价与交游存在难点的问题之一. 文献[18]分析合计, 与传统居品不同的是, 数据居品的订价是具有期间依赖性的, 实时产生的数据在一段期间之后对于购买者就不再重要, 因此带有期间贴现(time discounting)的数据订价模子是一语气期间动态计算问题, 有着极大挑战. 同期, 防守数据居品更新需要多量期间和处理代价, 这就要求一部分订价策略需要跟着数据居品的更新进行实时调理, 这给数据订价方法提倡了更高的联想要求.

数据居品的可相通性要求在数据订价时洽商隐秘表示问题, 同期, 由于复制代价极低, 数据买家在赢得数据后不错将数据再行打包卖出, 这对数据售出的公正性产生了影响, 同期会镌汰卖家出售数据的积极性, 因此数据订价方法应该要洽商到隐秘保护和版权保护的机制.

在数据价值方面, 价值是订价的基础. 刘向阳等东说念主[17]合计大数据的价值具有双向不细目性, 即在数据居品交游中, 买卖两边对居品价值很难达成一致[19]. 由于数据消费者但愿数据价钱不错反应该数据对其任务的价值, 而数据领有者和数据平台大多但愿以数据收罗、管理老本作为数据价钱. 因此, 难以已毕普通的大数据价值认可是刻下数据订价面对的最杰出的问题[20].

1.2 数据订价与交游的准则

除了来自数据自己脾气所酿成的一些难点, 在进行数据订价和交游时, 为了让交游到手进行, 确保参与东说念主能得到更高收益等目的, 参与数据交游的三方需要遵从一些准则, 包括信得过性、公正性、无套利、收入最大化和个东说念摆布性.

1.2.1 信得过性

在数据交游进行时, 通常要求买卖两边是信得过的. 即买卖两边皆是自私的, 况兼仅提供随机使得我方利益最大化的价钱. 要是一个数据市集知足上述条件, 则称该数据市集是信得过的(truthful). 换句话说, 在一个信得过的市蚁集, 要是买家认定了某个居品的购买价钱, 他就不会再支付多于该价钱的资产去购买此居品[14]. Cai等东说念主[21]合计信得过性的界说应该为: 不管其他东说念主何如操作, 对于肆意的供应商和消费者来说, 皆不行通过虚报真不二价值来增多其收益. 轻松来说, 信得过性保证了每个东说念主在参与交游时皆不进行不实操作. 许多交游和订价方法的联想皆是在信得过性的前提下进行的. An等东说念主[22]提倡了基于信得过拍卖的大数据交游模子, 合计一个信得过的拍卖模子必须具有激发能力, 即竞标者必须信得过地讲演我方的价钱, 才能赢得最大收益. 并给出了信得过性的体式化界说: 数据市蚁集的肆意买家i, 要是存在 $ {U_i} \geqslant {U_i}^\prime $ , 那么该订价模子知足信得过性. 其中 $ {U_i} $ 暗意买家i通过信得过讲演赢得的收益, $ {U_i}^\prime $ 暗意买家i通过不实讲演赢得的收益. 访佛地, Jiao等东说念主[23]合计信得过性不错注意数据交游时的揣摸活动, 并减少市集竞标策略中无用要的支出.

1.2.2 公正性

在刻下数据交游模式下, 数据泛泛来自不同的数据卖家. 为了确保卖家出售数据的积极性, 数据交游平台需要保证总收入在所罕有据孝顺者中按其孝顺公正分散, 称为公正性(fairness). Xiong等东说念主[24]给出了公正性的一般界说: 从用户角度来看, 公正性暗意整个用户的收入在一段期间以内以公正的形势分派, 是预计数据市集价钱问题的重要方法. 数据订价的公正性在多种订价模子中均有触及. Khokhar等东说念主[25]提倡了基于信息熵的订价算法, 在数据交游的考证阶段, 通过适度不老诚的数据领有者再次进入市集参与交游从而保证了收入分派的公正性. 然而著述没能明确给出在老诚的数据领有者之间分派收入的方法. Delgado-Segura等东说念主[26]提倡了一个公正交游市集, 提供了基于比特币的公正交游契约, 交游过程不错随时结尾或拆开, 以确保供应商和消费者皆莫得失掉. 该方法污点在于, 主要依靠比特币来保证公正交游, 并不行十足已毕收入的公正分派. 上述两个已毕公正性的方法有着应用范围窄, 普适性差的污点. Koutris等东说念主[27]提倡了QueryMarket, 一个基于查询的数据订价系统, 并在其中引入了FairShare策略, 保证收入在数据卖家中公正分派. 在FairShare策略下的k个卖家中, 单个卖家 $ {s_i} $ 的收入谋略方法如下:

$ rev({s_i}, Q) = \frac{{share({s_i}, Q)}}{{\displaystyle\sum\limits_{j = 1, k} {share({s_j}, Q)} }} \cdot p(Q) $ (1)

其中, $ share({s_i}, Q) $ 暗意卖家在整个最低老本处理决议Q中不错赢得的最大收入, $ p(Q) $ 暗意Q的价钱. 该策略是关所有据库数据交游中较为常用的卖家收入谋略方法. 一个适用范围愈加普通的方法是基于博弈论中盛名的沙普利值法 (Shapley value)[28], 不错知够数据市蚁集收入公正分派的要求, 其谋略方法如下:

$ {s_i} = \frac{1}{N}\sum\limits_{S \subseteq \Delta \backslash {{\textit{z}}_i}} {\dfrac{1}{{\left( {\dfrac{{N - 1}}{{|S|}}} \right)}}} \left[ {\nu (S \cup \{ {{\textit{z}}_i}\} ) - \nu (S)} \right] $ (2)

其中, N代表博弈参与者, S暗意参与者组成的肆意定约, $ \nu (S) $ 暗意定约S的收益函数, $ {{\textit{z}}_i} $ 暗意定约S中的某个参与者. 沙普利的已毕知足如下要求.

(1)集体感性(group rationality): 交游赢得的收入必须全部分派给整个卖家.

(2)公正性(fairness): 对于一个卖家定约S和另外两个卖家s和s', s, s'∉S, 若S ∪{s}和S ∪{s'}赢得了相通的资金, 那么s和s'也应该收到相通的讲演. 即, 对于效用的孝顺度相通的卖家, 他们所收到的讲演也应该相通; 对于一个卖家定约S和一个格外的卖家s∉S, 若S ∪{s}和S赢得了相通的资金, 则s收到的讲演为0. 即, 莫得孝顺就莫得讲演.

(3)可加性(additivity): 要是分别为两个任务T1和T2讲演v1和v2, 那么完成两个任务T1+T2的讲演是v1+v2.

Jia等东说念主[29]就交融了基于模子订价和基于查询订价的特色, 提倡了针对kNN模子的订价方法, 并在其中使用了沙普利值法来保证收入是公正分派的. 然而, 由于精确谋略沙普利值的期间复杂度是指数级的, 因此泛泛情况下东说念主们随和使用近似算法来谋略该值. 同期, 由于上文提到的数据居品复制代价极低、对于大部分数据订价场景来说效用函数难以谋略等问题, 使用沙普利值想想已毕收入分派的公正性依旧具有极大挑战.

1.2.3 无套利

套利是大数据订价中最需要柔顺的问题之一, 是指买家通过某种技能, 按照低于卖家章程价钱获取数据居品的活动. 套利契机的存在会导致数据订价的不一致性, 并使得信息表示的风险大大增多. Balazinska等东说念主[30]列举了构建云数据市集面对的挑战, 其中最重要的挑战之一就是要求订价函数必须知足无套利(arbitrage free). Koutris等东说念主在文献[31]中提倡了基于查询的订价, 研究了其中套利的问题. 在买家但愿购买查询束 $ Q = {Q_1} + {Q_2} $ 的情况下, 要是买家分别创建两个账号去购买查询 $ {Q_1} $ 和 $ {Q_2} $ , 为了注意套利, 平台应该保证查询Q的价钱至多不行大于查询 $ {Q_1} $ 和 $ {Q_2} $ 价钱之和. Li等东说念主[32]提倡了数据市蚁集团员查询的订价方法, 合计由于数据居品具有可相通性的特色, 是以买家不错将购买到的查询进行结合或再处理, 从而可能得到未购买的查询终结. 著述将此类型的无套利界说为: 要是查询束 $ {Q_1} $ 得到的信息是查询束 $ {Q_2} $ 得到信息的子集, 那么 $ {Q_1} $ 的价钱必须低于 $ {Q_2} $ 的价钱. Li等东说念主[33]则处理了有噪声的线性查缱绻题. 卖家将数据孝顺给平台, 平台会给买家复返加有噪声的查询终结, 以此保护个东说念主隐秘. 然而著述同期提倡了该方法的难点: 当平台向查询终结内添加的噪声方差较大时, 复返终结的精确度也会存在接近1的情况. 这就导致要是平台给具有较大噪声方差的终结配置一个较廉价钱, 会出现套利情况. Lin等东说念主[34]将套利活动进行了总结, 共分为5类.

① 基于价钱的套利: 买家可能领会过相通参谋价钱来推测除了查询价钱之外的信息, 举例元组是否包含在两个表的衔尾中, 甚而不错得到一个表中的整个内容;

② 多账户套利: 对于查询束 $ Q = {Q_1} + {Q_2} $ , 买家分别创建两个账号去购买查询 $ {Q_1} $ 和 $ {Q_2} $ , 为了注意多账户套利, 平台应该保证查询Q的价钱至多不行大于查询 $ {Q_1} $ 和 $ {Q_2} $ 价钱之和, 即文献[31]中所提到的套利体式;

③ 后处理套利: 要是查询束 $ {Q_1} $ 得到信息是查询束 $ {Q_2} $ 得到信息的子集, 那么 $ {Q_1} $ 价钱必须低于 $ {Q_2} $ 价钱, 即文献[32]中所提到的套利体式;

④ 偶然套利: 要是买家但愿随即购买合适要求的肆意一条数据, 要是随即查询的价钱低于细目查询某札纪录的价钱时, 会发生偶然套利;

⑤ 细目套利: 在平台给买家复返有噪声的查询终结并以噪声程度细目查询价钱的模式下, 当平台向查询终结内添加的噪声具有较大方差时, 复返终结的精确度也会存在接近1的情况, 要是平台给具有较大方差的终结配置较廉价钱, 则会出现套利情况; 即文献[33]中提到的套利体式.

文献[34]对上述5种套利体式, 分别给出了相应的处理决议, 并将其整合到一个框架中. 该框架允许查询随即化, 并提倡了两个不错处理上述整个套利体式的潜在订价函数. Deep等东说念主[35]先容了两种套利体式, 称为信息套利和系结套利, 分别对应文献[34]中的②和③, 样式了无套利订价函数的机制. 并在文献[36]中联想了可扩展的、更适用于关所有据的订价框架.

1.2.4 收入最大化

收入最大化(revenue maximization), 也称利润最大化(profit maximization)是在传统商品中如故被充分研究的问题. 对于卖家或牙东说念主来说, 较低的出售价钱不错诱惑更多的买家, 而较高的出售价钱不错使我方得到更多的收入. 那么如安在二者之间进行平衡? 瓦尔拉斯平衡(Walrasian equilibrium)就处理了在十足竞争市蚁集何如保证卖家收入最大化问题[37]. Myerson[38]在1981年也提倡了经典的单物品拍卖中的收入最大化方法. 传统居品与数据居品在收入最大化的谋略上具有较大不同. 在竞争市蚁集, 传统居品在边缘老本等于边缘收益时达到卖家收入最大化. 关联词由于数据居品边缘老本果真为0, 因此该法律解释不适用于数据居品. 此外, 由于当代数据交游模式下, 与买家径直搏斗的通常是牙东说念主, 因此收购数据的牙东说念主并不一定了了数据的具体用途, 因此很难给数据居品标定一个不错使我方收入最大化的价钱[39]. 因此, 在数据居品上已毕收入最大化需要进行故意研究.

泛泛情况下, 将数据交游市蚁集收入最大化看作最优化问题. 由于精确处理该最优化问题需要耗尽的期间复杂渡过高, 研究者们皆广泛在寻找轻松精确的近似算法. 近来研究终结标明, 使用贝叶斯优化机制不错在单买家和多买家的拍卖中已毕常数近似[40]和对数近似[41]. 为了处理牙东说念主收入最大化问题, 文献[39]将收入最大化问题调节为缺憾最小化(regret minimization)问题, 提倡了基于险峻文的动态订价算法, 已毕了牙东说念主收入最大化. 访佛地, Chawla等东说念主在文献[42]中将收入最大化问题罢休在专一买家、无尽供给条件下, 基于此提倡了启发式方法, 知足单调性和次可加性. 著述对比了3种精简的订价函数, 并研究了其相应的收入最大化问题, 在保证无套利的同期最大化了牙东说念主的收益. 上述著述对收入最大化的研究皆局限在基于查询的订价模式上, 交游数据仅限于关所有据库中的数据集. 跟着东说念主工智能技巧的发展, 机器学习模子的检修数据也逐渐成为炙手可热的资源. Agarwal等东说念主[43]联想了一个交游机器学习检修数据的市集, 基于Myerson拍卖表面[38]提倡了组合数据居品的拍卖方法, 除了知足上文所先容的信得过性、无套利之外, 还已毕了卖家收入的最大化. 不错看出, 收入最大化想想领先是由传统交游形势如拍卖引入, 跟着数据订价技巧的发展, 逐渐在基于查询和模子的订价中也有所应用, 并结合相应特色提倡了不同的已毕形势[31, 44].

1.2.5 个东说念摆布性

不管是在传统居品的交游如故数据居品的交游中, 个东说念摆布性皆是机制或算法联想者需要假设的前提之一. Ghosh等东说念主在文献[45]中提倡了基于拍卖的隐秘数据交游方法, 联想了知足信得过性和个东说念摆布性的订价机制, 并将个东说念摆布性界说为: 买卖两边通过积极参与并向该机制信得过地讲演我方居品的价值, 他们就不错得到非负的收益. 另一篇由Cai等东说念主[21]提倡的双边拍卖数据订价机制也给出了访佛的个东说念摆布性的界说: 买卖两边通过数据交游随机得到的收益皆口角负的. 与信得过性访佛, 个东说念摆布性的保证也大多出目下拍卖中.

1.3 数据交游的人命周期

与传统商品交游需要市集访佛, 要进行数据订价和交游, 就离不开数据交游市集. 然而, 数据作为一种格外的造谣商品, 有其自身的特出之处. 因此, 想要数据交游过程到手进行, 联想公正合理的数据交游市集至关重要. 迄今为止尚未罕有据交游市集的明确界说及统一模子, 因此本文以数据市集的角度启航, 结合大数据在数据交游市蚁集的人命周期, 对市时势需知足的条件及各个组成部分进行细腻先容.

泛泛情况下, 数据市集的结构如图1所示.

Fig. 1 An Structure of data trading market 图 1 数据交游市集结构

数据交游市集包括3个组成部分: 数据领有者, 或者称为数据卖家、数据提供者, 负责向数据平台提供数据, 并承袭数据平台赐与的相应抵偿; 数据平台也称为数据中间商、数据中介、牙东说念主等, 负责对收购到的数据进行集成整合, 设定数据收购价钱并抵偿数据领有者, 设定数据出售价钱, 为数据消费者提供查询其但愿购买数据的接口和处事, 给数据消费者提供数据并对出售的数据提供隐秘、版权保护等任务; 数据消费者又称为数据买家, 在数据交游中需要完成的任务是向数据平台提倡需求, 并支付一定资产从数据平台购买到我方所需的数据.

在进行数据交游时, 数据领有者负责向数据交游平台提交数据以及与隐秘等方面的要求; 数据消费者则需要向数据交游平台提交我方的数据购买需求; Fernandez等东说念主[46]合计, 除了实行数据订价与交游外, 数据交游平台干系的准备使命包括: 数据发现、数据集成、数据交融和事实发现. 其中, 数据发现是为了从现罕有据源收罗到的数据中挖掘出其具有的交易价值; 数据集成则是为了将收罗到具有交易价值的数据进行整理、清洗和考证, 以便其知够数据平台的存储需求; 数据交融和事实发现是为了对多个来源的数据集进行交融, 为数据消费者提供最终的查询终结. 结合上述内容, 本文将数据在数据交游市蚁集的人命周期分为: 数据收罗与集成、数据管理与分析、数据订价和数据交游4个部分. 数据收罗与集成处理数据“从无到有”的问题, 并对源数据实行整合、清洗和考证等操作, 以便知足后续数据管理要求以及数据消费者的数据查询要求; 数据管理与分析是为了处理数据组织存储体式的问题, 同期对数据进行分析以得到其适用范围、出售模式和近似交易价值; 数据订价柔顺种种细目数据价钱的方法; 而数据交游则要点洽商了数据市集类型、参与交游各方活动等对数据出售价钱的影响. 接下来将对其进行一一先容.

2 数据收罗与集成 2.1 数据收罗

数据收罗是数据订价与交游中最为基础的一个阶段. 跟着信息技巧的日益发展, 九行八业的诱导年复一年不在产生多量不同种类的数据. 使用合适的方法收罗这些数据是淹没数据孤岛, 促进数据分享和交流, 已毕数据交游常态化的重要保证. 本文所述的数据收罗将从数据平台角度启航, 研究数据平台是何如获取多量数据以便售卖的. 从数据起源看, 数据领有者主要包括个东说念主数据领有者和产生数据的公司、企业或者团体, 咱们将其简称为集体数据领有者. 个东说念主数据领有者出售数据的场景主要为个东说念主隐秘数据的出售[33, 45, 47]. 在该场景下, 数据领有者通过出售隐秘数据获取相应抵偿, 并通过抑制隐秘败露程度来决定他们不错得到的抵偿价钱是些许. 集体数据领有者由于其给用户提供处事或领罕有据产生诱导的便利(如互联网公司和通讯供应商、大规模使用物联网诱导的工场等), 泛泛不错很方便地获取到多量数据. 上述两类数据领有者皆有着将数据出售给数据平台的能源. 个东说念主数据领有者一般将数据出售给平台以换取相应收入; 而对于集体数据领有者来说, 大数据是下一代坐褥力处理决议的基础, 向数据平台出售数据, 除了不错获取收益之外, 还不错使得整个这个词行业形成精好意思的数据交游氛围, 因而在提高处事、提高坐褥力和最大化数据价值方面, 集体数据领有者有着强烈愿望将数据出售给数据平台.

由于上述两类数据领有者有出售数据的愿望, 因此对于数据平台来说, 获取数据领有者所孝顺的数据是较为轻松的. 然而, 当下的许多数据交游平台不单是依靠数据领有者孝顺数据, 也通过种种技巧技能自行收罗数据. 对于数据交游平台来说, 最容易获取到数据的场地即是互联网. 互联网上存在着多量结构化、半结构化、非结构化数据. 相聚爬虫是获取上述数据较为浮浅和基础的方法, 即通过一定例则, 自动抓取互联网中的信息. 同期, 也存在着一些数据收罗平台, 比如Apache Flume[48]、Fluentd[49]、Logstash[50]和Splunk Forwarder[51]等. 此外, 如故存在许多使命研究何如从互联网上抽取结构化数据[52, 53]. WebTables[54, 55]是其中最为得胜的方法. WebTables不错自动抽取以HTML表格体式发布在互联网上的数据, 并将其调节为关所有据库中的表. 比如, WebTables不错抽取整个百度百科的信息框, 起源通过相聚爬虫收罗百科中的整个HTML表格, 然后应用分类器细目哪些表不错被视为关所有据库的表. 每个关系表由一个样式列和一组元组模式组成. 同期, 由于互联网数据的种种性, 上述的表抽取技巧又被扩展到了更多的用途中. 其中一种即是通过以垂直表格和列表的体式索要关所有据, 并欺诈学问库将表格抽取扩展到识别HTML标签之外的场地[56, 57].

数据收罗作为数据交游市蚁集的第一环, 处理了数据交游中“从无到有”的问题. 上文总结了数据收聚首常用的方法, 除了向数据领有者购买数据之外, 数据平台自行通过相聚爬虫等方法进行收罗亦然交游数据的重要来源. 然而, 由于数据来源的复杂性, 经过上述枢纽收罗到的源数据大多是异构的, 况兼其组织过于松散, 不行径直出售, 因此需要对数据实行集成考证等操作, 咱们将不才一末节中进行先容.

2.2 数据集成

由于大数据来源和种类的种种性, 数据平台收罗到的数据通常以种种各样的体式存在. 为了达到出售数据的目的, 就要求平台对数据进行一系列整理、去重、分析和考证等操作, 即数据集成. 数据集成的目的是使用相应策略, 将收罗来的数据进行整合以知足出售需求[46]. 泛泛来说, 在数据交游平台上所需要进行的数据集成任务分为以下3个枢纽[58]: 模式匹配、实体解析和数据交融.

模式匹配是数据集成的第一步, 亦然最重要的一步. 大约过程为: 数据交游平台起源对收罗到的数据生成统一视图, 称为中间模式, 将不同数据属性和中间模式属性进行匹配, 然后进展数据源内容和中间模式之间的语义关系. 对于数据交游平台来说, 其收到的源数据是多种种种的, 进行模式匹配最重要的就是选拔这些数据的启发式信息, 这些信息以3种体式存在: 文本、结构和料理. 起源, 欺诈文本信息进行匹配, 使用信息检索中常用的本文处理方法, 对数据属性称呼、数据实体等启发式信息进行处理, 谋略其相似度; 其次, 不错欺诈结构信息, Madhavan等东说念主[59]将需要进行模式匹配的数据构建为树结构, 通过谋略两棵树之间的相似性来反应数据模式之间的相似度. 终末, 由于进行交游的数据许多自身就带有料理信息, 不错用来谋略模式的相似度, 如在物联网数据交游中使用值域来区分不同来源的数据[47].

由于数据交游平台所收罗到的数据源自不同的孝顺者, 因此对淹没个数据实体会产生不同的样式, 实体解析, 就是指将不同样式的实体进行解析并映射到现实宇宙中实体的过程[60]. 传统实体解析方法大多基于成对比较, 在有无数目数据需要处理的数据交游场景中并不适用. 目下主流方法是使用分块技巧. 即起源对收罗到的数据进行预处理, 将其分为更小的数据块, 在每个小块内进行实体解析. 数据交融暗意结合多个起源的数据信息, 纠正最终终结质地的过程[46], 其最重要的任务就是处理多个数据源冲突的问题. 跟着互联网上数据规模的增大, 其中存在的谬误数据也越来越多, 为了高效地进步交融后数据的质地, Yin等东说念主[61]起源提倡了真值发现(truth discovery)问题, 即通过可靠的数据源找出冲突数据中信得过值的方法, 并逐渐成为与数据交融享有同等地位的研究课题. 在数据交游市蚁集, 由于数据来源的种种性, 会存在多个起源的数据适用于淹没个购买需求的可能性, 实体解析和数据交融就是处理这种冲突的办法. Fernandez等东说念主[46]为处理数据交游中产生的数据集成问题, 提倡了DoD引擎(dataset-on-demand engine), 负责出售数据前的实体解析和数据交融任务. DoD引擎的输入是消费者的数据购买需求, 输出是知足其购买需求数据组合(Mashups). 洽商如下的场景: 当一个数据消费者但愿购买天气数据, 然而有许多不同的数据领有者皆不错提供该数据. 文献[46]合计可行的处理决议是, 将暗意统一实体的元素和其不同的取值列在沿途, 并提供了多种数据交融算子(比如基于多数投票的方法选拔真值), 让数据消费者手动选拔想要使用的算子.

数据集成成果的猛烈径直影响到数据消费者获取数据质地和数据交游平台出售数据效率的险峻. 数据订价与交游的干系使命大皆注重于交游和订价机制的联想, 疏远了数据集成的干系使命. 然而在传统数据管理规模, 如故存在许多处理决议[60, 62-67]可供参考. 联想选用高效可行的数据集成方法是数据平台在出售数据之前要进行的必须操作, 是提高数据出售效率、价钱和售出数据可用性的重要技能. 经过集成后的数据应该按照方法或使用途径具有明确分组, 各个分组之内、不同分组之间应该具有高内聚、低耦合的脾气.

3 数据管理与分析

数据管理和分析是进行数据交游前的必要过程: 为不同数据选拔恰当的组织体式和存储形势, 对数据进行分析以得到不同数据应该用于何种用途、适用于何种交游模式, 同期初步分析出其交易价值, 以便设订价钱进行交游. 本节将在洽商数据来源、体式种种性等前提下, 对数据平台在数据管理与分析上应该作念出的使命进行先容. 现有的数据市集并不守旧多种类型数据进行同期交游, 况兼尚未有著述对数据平台中数据的组织和存储有深刻研究. 因此本节将在统一交游平台的视角下对数据平台所应当洽商的数据组织体式和存储形势以及数据分析任务进行探讨.

跟着分散式的兴起, Hadoop分散式文献系统(Hadoop distributed file system, HDFS)是大数据系统中最常见的一种异构存储形势. HDFS守旧多种文献[68]. 除了守旧CSV、XML、JSON等类型文献, 还守旧图片等二进制文献方法, 为了处理数据体积过大的问题, HDFS还守旧压缩后的文献方法, 如Snappy、Gzip等. HDFS守旧列式存储方法如Parquet和基于行的存储方法如Avro, 不错已毕猖狂的架构管理. 然而, 由于数据订价和交游的环境下, 平台需要对不同来源、不同类型的异构数据进行统一管理并进行后续查询、出售等操作, 因此单独的HDFS并不行很好守旧数据平台所领有全部数据的存储.

上述需求在大数据的存储和分析中也极为常见. Stonebraker[69]提到了多存储(polystore)的见识, 守旧对异构数据多种存储形势的集成探询. Hai等东说念主[70]提倡了多存储的形势, 适用于数据交游平台的存储模式. 著述按照数据源方法将其分别存储到关所有据库(如MySQL)、基于文献的数据库(如MongoDB)或图数据库(如Neo4j)中. 对于不行径直存储到关所有据库或非关所有据库中的文献, 则存储在HDFS中. 要是上述默许存储形势皆不行知足用户需求的话, 数据交游平台还不错凭证其数据类型自界说选拔存储形势. 多存储见识的提倡为数据交游平台的数据管理提供了存储上的处理决议. 然而由于大数据的时效性极强, 很容易产生数据集落后的问题. 因此, 数据交游平台还要负责对存储的数据进行更新、抠门等操作. Liu等东说念主[71]提倡了动态数据市集框架, 来处理上述问题. 该框架包含了一个在线分享计划选拔算法ManagedRisk, 不错保持数据视图的生成效率, 同期守旧对数据视图的动态更新.

除了传统的元数据建模等方便数据存储和管理的分析任务, 以数据交游平台的视角来看数据分析, 还包括对数据适用的范围和出售模式以及交易价值进行分析, 以提高数据交游效率, 细目数据出售价钱基准.

由于数据交游平台从各个起源收罗到和数据领有者主动孝顺的数据具有类型种种、体式种种的特色, 为了知够数据消费者针对不同任务提倡的不同数据需求, 数据交游平台有必要对收罗到的数据进行适用范围和出售模式的分析, 知足买家对于数据的生机, 让数据投放愈加精确, 从而提高数据的出售效率. 举例收罗到的传感器数据、图像音频数据或者带有标签的数据更倾向于出售给有构建机器学习模子需求的数据消费者, 若上述数据是包含隐秘的个东说念主数据, 数据交游平台则要洽商出售这些数据会导致的隐秘败露问题, 以及对数据领有者赐与相应的抵偿; 对于存储在关所有据库中的数据, 则需要为其中的某些要求或者视图配置相应价钱, 以便数据消费者查询.

除了上述的适用范围和出售模式的分析, 对于大型数据交游平台来说, 还需要对数据的交易价值进行初步分析, 从而设定相应的价钱基准, 为后续的订价提供依据. 需要注意的是, 在该阶段对数据的分析并不是要谋略出数据价钱, 而是凭证数据随机给购买者提供的效用、数据的市集价值等因素估算出大约价钱范围, 为后续订价过程提供参考. 然而, 现有的文献如[31, 45]等大皆假设在数据出售前数据交游平台如故了解了数据的基础价钱, 忽略了细目价钱基准的过程. 泛泛来说, 不错通过数据挖掘的方法获取数据中的交易价值. 然而, 这类方法也存在相应的问题[72]. 第一个挑战侧重于数据探询和谋略过程. 由于数据交游平台倾向于使用分散式存储系统, 系统中数据量在不断增长, 数据交游平台必须具备处理分散式和大规模数据存储的能力. 大多数数据挖掘算法需要将整个必要的数据加载到主内存中, 这在数据交游的场景下彰着是一个技巧挑战, 因为从分散式存储系统挪动数据的代价是极其立志的. 第二, 由于不同数据对于不同数据消费者来说有着不同的真谛, 其对数据的不同用途也会导致数据交易价值发生变化, 因此采纳数据挖掘方法也不行得出让买卖两边皆安祥的价值终结. 对于数据交游平台来说, 它在本阶段的任务是给需要出售的数据设定一个价钱基准, 因此Chen等东说念主[44]采纳了市集捕快的想路, 即让数据领有者或者数据交游平台在出售数据前先进行市集捕快, 以细目代表潜在数据消费者对机器学习模子实例的需乞降价值分别对应误差的关系弧线. 该弧线将需乞降价值暗意为检修后机器学习模子误差的函数. 数据交游平台则通过市集捕快得来的弧线, 构建呈现给数据消费者的价钱-误差弧线, 即细目每个误差值所对应数据的价钱基准.

上文总结了数据交游平台在数据管理和分析阶段需要完成的干系任务, 需要注意的是, 天然这些任务是联想一个统一数据交游平台所必须要洽商的, 然而很少有著述研究上述内容在数据订价与交游规模的应用. 关联词, 这些内容在大数据管理标的中已被普通的研究, 因此本文挑选了部分恰当于数据订价与交游的内容, 并对其作念了先容.

4 数据订价

在数据交游时, 数据价值泛泛用交游时价钱来体现, 因此数据订价是数据交游中最为重要的任务之一. 本节将先容在数据订价时各方所使用的预计数据价钱的种种机制, 凭证其想路不同, 将其分为3种类型, 如表1所示. 需要注意的是, 3种订价想路并不是互斥的, 由于其侧要点各不相通, 因此在数据交游过程中可能同期存在. 基于任务的订价更侧重于凭证数据对于消费者而言能产胜利用的大小而订价, 比如: 基于查询的订价是凭证该查询任务以及每个要求的组合形势谋略出合座价值; 基于模子的订价是凭证该机器学习模子或预测任务对数据消费者随机产生的效用来订价. 基于价值的订价则柔顺数据的内在价值, 比如: 基于隐秘抵偿的订价, 其抵偿值大小就是依靠数据中包含隐秘的些许而细目的; 基于数据质地的订价则是依据收罗到的数据质地的险峻来差别版块, 从而细目价钱. 而与上述两种想路十足不同的是, 以博弈论和拍卖为代表的基于经济学订价想路则主要依靠市集类型、机制联想和参与东说念主之间的关系来细目价钱. 该订价想路既不错看作是订价模子, 因为其包含了细目价钱的功能, 同期还侧重于在细目了数据基础价钱之后, 市集类型、机制联想和参与东说念主活动等与数据自己无关的因素对价钱产生的影响. 因此基于经济学的订价不单是是一类订价方法, 该研究内容与数据交游机制的联想息息干系, 因此在本节中仅对其进行轻松先容, 具体内容在数据交游部分进行更深刻的筹办.

Table 1 Classification of data pricing methods 表 1 数据订价方法分类 4.1 基于查询的订价

由于现有的数据市时势采纳的数据订价策略大多数只允许买家选拔固定的某些视图, 不守旧个性化SQL查询操作, 因此, Koutris等东说念主在文献[31]中初度慎重提倡了基于查询的数据订价(query-based data pricing)见识, 并提倡了随机给肆意查询分派价钱的订价框架, 起源, 卖家需要给一定数目的数据视图指订价钱点(price points), 当查询莅临时, 将其价钱设定为与查询终结干系的整个视图价钱和的最小值. 提倡的框架除了知足无套利公理外, 著述界说了无扣头(discount-free)公理: 要求订价函数谋略查询价钱时使用某个视图的价钱不行低于卖家事前界说的价钱点. 著述评释了当存在衔尾查询时, 在大规模数据库上谋略肆意查询的价钱是NP难问题, 并样式了一种不错在多项式数据复杂度上谋略出价钱的衔尾查询. 该模子的生动性在于, 它不错给肆意查询分派价钱, 而不单是适度买家购买特定的视图. 然而本文仅给出了表面框架部分, 莫得进行进一步实验研究. 且著述提倡的方法仅守旧轻松查询语句, 不行知够数据市蚁集进行复杂查询的需求. Koutris等东说念主[27]则基于文献[31]的表面联想了查询订价系统QueryMarket, 纠正了文献[31]中只可对一部分轻松的查询进行订价的污点, 将无套利订价问题调节为整数线性计算问题, 大大镌汰了算法实行大规模SQL查询的期间复杂度. 著述还研究了收入在查询终结孝顺者之间公正分派的问题. 此外, 由于数据消费者在购买数据时可能会进行屡次查询, 这容易产生对淹没数据进行屡次收费的问题. 因此, 著述引入了纪录查询历史的方法, 处理了买家屡次查询可能包含相通数据, 从而导致相通收费的问题. 除了文献[31]外, 在处理相通收费问题上, Upadhyaya等东说念主[73]提倡了退款(refunds)的见识, 将支付过程分为了两个枢纽, 买家在收到数据时按原价进行正常的支付, 发现有相通购买的数据时, 则不错向平台提倡退款恳求, 并提交相通购买的评释, 守旧多个买家进行分组退款.

由于上述著述联想的订价方法仅洽商较为基础的SQL查询语句, 对复杂查询操作守旧度较低. 因此, Li等东说念主[32]基于文献[31]中的表面, 对零丁于数据库实例的线性团员查询订价方法进行了初步筹办, 评释了在一些情况下精确谋略团员查询价钱的支出是顽强的. 因此文献[74]针对该问题, 提倡了守旧近似团员查询的订价框架. 著述采纳了Sampling技巧, 不错在误差范围内提供查询的近似终结, 并提供了将现有的订价模式调节为精确和近似团员查询订价模式的框架. 在Nget等东说念主[75]提倡的个东说念主数据订价框架中, 守旧对含有噪声的数据进行团员查询, 并提倡给每个数据卖家应得的隐秘抵偿, 著述采纳差分隐秘作为预计隐秘抵偿的依据. 同样, Li等东说念主[33]也结合了差分隐秘和基于查询的订价表面, 允许消费者进行带有噪声的查询, 并对查询酿成的隐秘失掉进行了量化, 凭证隐秘失掉的些许对数据进行订价.

上文中所提到的订价形势皆是基于视图进行订价. 买家所购买到的数据大皆以视图为单元, 然而视图粒度的订价对于许多应用场景来说过粗, 天然在很厚情况下视图粒度不错调节成元组粒度, 但会引起严重的可扩展性问题. 因此Tang等东说念主[76]提倡了基于最小来源元组的订价: 对组成最终查询终结的元组进行跟踪, 将其动作是一个合座, 取不错组成查询终结的最小元组集作为订价依据. 著述采纳P-Norms作为价钱团员方法, 提倡了精确算法和一系列的近似算法. 访佛地, Shen等东说念主[77]也提倡了基于元组粒度的个东说念主数据订价平台, 在平台中对个东说念主数据进行正面评级和反向订价, 保证了订价模子的透明性, 减少了个东说念主数据交游市蚁集存在不合称的可能性.

基于查询的订价算法领先仅守旧较为轻松的查询语句, 经过纠正, 现如今如故不错守旧无数目复杂查询, 同期还不错进行近似匹配. 基于查询的订价方法骨子属于基于任务的订价方法, 需要先设定元组价钱或要求价钱, 然后依据此价钱, 通过算法生成数据消费者所需购买肆意视图的价钱. 该方法一般适用于存储在结构化数据库或非结构化数据库中的易于查询的数据, 有着订价生动、配置完基础价钱后不需要进行更多抠门的优点. 然而, 由于基于查询的订价方法出售的数据是多个要求的结合, 单个数据要求并无格外价值, 因此其价钱的可解释性较低[15], 同期, 生成价钱的期间复杂度广泛较高. 再者, 大数据较强的时效性导致离线订价算法存在不行实时更新价钱的问题. 因此, 何如处理以上问题亦然研究者需要隆重洽商的.

4.2 基于模子的订价

跟着大数据产业的不断朝上, 使用机器学习模子进行大数据分析如故成为行业最通用的准则之一. 目下已有终点多的使命聚首在研究机器学习模子性能和准确率上, 但在何如以高性价比获取数据上的使命研究较少[44]. 数据订价想想的兴起为上述问题提供了较好的处瞎想路. Jia等东说念主[29]故意为kNN模子联想了订价机制. 采纳沙普利值法来预计每个数据点对模子的孝顺度, 以此为依据对其进行订价. 而Chen等东说念主在文献[44, 78]中提倡了基于模子的订价表面, 卖家径直出售检修好的机器学习模子实例, 而不是检修数据, 使用模子精确度的不同来差别不同价钱水平. 框架如图2所示.

Fig. 2 An Structure of model-based pricing method[44] 图 2 基于模子的订价方法框架[44]

框架包含3种参与者, 卖家提供数据集, 买家但愿从市蚁集购买机器学习模子, 牙东说念主负责在中间和谐.

起源, 卖家或者牙东说念主进行市集捕快, 以细目代表潜在买家对机器学习模子实例的需乞降价值分别对应误差的关系弧线. 该弧线将需乞降价值暗意为检修后机器学习模子误差的函数. 牙东说念主则使用市集捕快的信息来构建呈现给买家的价钱-误差弧线. 买家指定所需的价钱或误差预算, 牙东说念主凭证误差和价钱预总谋略出合适的机器学习模子, 将模子返还给买家. 在模子检修方面, 著述提倡了一个噪声注入机制, 允许牙东说念主对每组数据只检修一次, 得到一个最优模子, 当某个买家提倡购买需求时, 牙东说念主向模子内注入随即高斯噪声, 并将终结复返给买家. 订价机制凭证注入到模子实例中的噪声些许来细目价钱: 加入的噪声方差越低, 检修出的模子成果越好, 价钱就越高. 该框架不错为买家提供不同版块的机器学习模子, 以投合买家不同需求.

该著述还评释了提倡的订价方法是单调况兼是次可加的, 即保证了订价函数是无套利的. 同期, 著述合计收入最大化问题的中枢是通过给定点插入单统一次可加函数的问题, 即使在轻松的收入模子下, 收入最大化问题亦然难以处理的, 因此联想了一个优化框架, 对次可加性的料理进行了浮松操作, 使得在多项式期间内已毕收入最大化的近似保证.

上述著述天然同期洽商到了数据领有者, 数据平台和数据消费者, 然而却没能将参与数据交游三方进行体式化样式. 而Agarwal等东说念主[43]以一种愈加全面的角度, 分别对三者进行了参数化操作, 并用数学模子程序样式了对其在数据市蚁集的活动. 与文献[44, 78]不同的是, 在文献[43]所提倡的订价模子中, 数据消费者需要向数据平台发送其预测任务和支付意愿, 其中支付意愿是由该预测任务精度的边缘高潮大小细目的. 数据平台凭证提供的信息为其选拔相应的数据要求实行预测任务, 将预测终结复返给数据消费者. 支付价钱是由上一轮数据消费者的支付意愿和支付价钱依据收益最大化原则谋略出来的. 数据消费者在完成支付后拿到的是预测任务的输出值而非完整的模子. 此外, 为了应酬数据的可复制性, 著述将数据相似度引入抵偿谋略阶段, 为提供相似数据的数据领有者再行谋略抵偿值, 以得到一个相对公正的抵偿价钱. 然而著述也存在相应的问题: 数据消费者产生了新的预测需求, 仅提供给其预测值, 则会导致数据消费者需要再次实行交游历程. 数据消费者需要将预测任务提供给平台, 可能产生隐秘表示的风险. 同期, 该模子对于参与数据交游三方的建模较为瞎想化, 不行知足复杂气象下的数据交游需求.

基于模子的订价是跟着机器学习、东说念主工智能技巧的发展而演化出的一种具有高度针对性的订价形势, 属于基于任务的订价模式. 这种订价方法与机器学习模子高度契合, 方便了数据交游市蚁集具有特定主张的买卖两边进行沟通和交流, 有助于机器学习规模数据的充分流畅. 然而就目下的研究近况来看, 由于针对性过强, 该方法的适用范围较差. 而且, 要是想联想一个统一、广泛适用的模子订价平台, 则会面对着繁难的检修任务, 同期, 基于模子的数据订价方法只可大约预估模子的成果, 而推行应用成果可能与数据消费者的效用预期产生相差等污点亦然需要深刻想考的问题.

4.3 基于隐秘抵偿的订价

自数据分析、深度学习技巧脱手茁壮发展以来, 个东说念主数据就被看作是互联网宇宙中的新石油[3]. 每一分钟皆有新的个东说念主数据产生并被收罗. 因此, 隐秘保护也就成为业界柔顺的要紧课题. 而数据交游过程中, 无疑会触及个东说念主数据的交游, 个东说念主数据交游在雅虎、谷歌等互联网巨头中也早已层出不穷. 其中包含的个东说念主隐秘不错作为预计数据价钱的重要方针. 为了应酬卖家在数据交游中产生的隐秘失掉问题, 也为了激发更多东说念主出售个东说念主数据, 文献[33, 45, 47]等皆提倡需要给数据卖家一定的隐秘抵偿. 因此何如预计隐秘失掉以对卖家进行抵偿是基于隐秘抵偿的订价需要研究的问题之一. 泛泛情况下, 使用 $\varepsilon $ 差分隐秘来预计隐秘保护的水平, 其界说如下.

假设数据集T经随即算法M处理后的输出终结结合为Y, Y的肆意子集为D, 对于肆意周边数据集T和 $ T' $ , 若算法知足不等式:

$ \frac{{\Pr (M(T) = D)}}{{\Pr (M(T') = D)}} \leqslant {e^\varepsilon } $ (3)

则称算法M提供了 $\varepsilon $ 差分隐秘保护. 差分隐秘的出现, 处理了数据订价中预计隐秘失掉的问题, 现阶段基于隐秘抵偿的订价方法大皆采纳了差分隐秘的 $\varepsilon $ 值作为细目价钱的参数.

Ghosh等东说念主[45]起源提倡个东说念主隐秘数据交游, 并给卖家提供隐秘抵偿. 该著述洽商了数据领有者对于其出售的数据持有不同的隐秘作风. 为了揭示该数据领有者的隐秘作风, 数据平台或牙东说念主使用拍卖的方法, 让每个数据领有者提交能反应其隐秘作风的出价, 并凭证收到的出价, 决定从数据领有者何处购买的隐秘水平, 然青年景一个带有噪声的查询输出, 以确保该隐秘水平得到保证. 著述选拔了差分隐秘作为评价隐秘表示珠平的方法, 基于差分隐秘 $\varepsilon $ 值对数据领有者进行抵偿. 然而著述联想的隐秘抵偿机制问题在于, 即便淹没批出售数据的数据领有者对于隐独到着不同的估值, 该机制也会对所罕有据被使用的领有者谋略一个相通的 $\varepsilon $ 值, 并基于此对其进行隐秘抵偿. 这就导致该机制会对某些数据领有者过多的隐秘保护, 虚浮对隐秘数据抵偿机制进行个性化定制的能力. Zhang等东说念主[79]将这种机制称为“伪个性化”, 因为其不行体现出数据领有者对于隐秘保护水平的各异. 文献[79]则针对上述污点提倡了不错保证卖家个性化隐秘需求的订价机制. 同样采纳差分隐秘预计隐秘失掉, 况兼在守旧查询以高精确度输出终结的情况下, 确保数据领有者自界说的差分隐秘参数随机得到知足. 著述使用了反向拍卖机制决定购买哪个卖家的数据以及应该支付些许隐秘抵偿. 同样地, Li等东说念主[33]所采纳的隐秘失掉预计方法亦然基于差分隐秘的, 并界说了微支付函数, 用以细目给某次查询所联想的框架已毕了查询价钱和隐秘抵偿之间的平衡. 然而著述采纳线性隐秘预计机制, 并允许用户自界说隐秘失掉所有 ${c_i}$ , 是以在 $\varepsilon $ 值相通的情况下, 用户会倾向于界说过高的隐秘所有 ${c_i}$ , 从而获取失当的过高利润, Zhang等东说念主[79]的方法也存在访佛问题. 因此如安在抵偿价钱和隐秘失掉之间取得恰当的平衡, 是个东说念主数据市蚁集重要的挑战. Nget等东说念主[75]联想了不错在上述两个方面取得高效平衡的订价机制. 起源, 给基于隐秘抵偿订价中的支付模式(payment schemes)作念出了体式化的界说: 支付模式是一个非减函数 $ w:\varepsilon \to {R^ + } $ , 代表中介和卖家之间就卖家的推行隐秘失掉 $ {\varepsilon _i} $ 应该赢得抵偿的量. 著述联想了两种支付模式: 对数支付模式和次线性支付模式, 分别对应低风险低讲演和高风险高讲演. 卖家不错凭证我方的隐秘失掉或风险倾向选拔对应的支付模式.

泛泛情况下, 基于隐秘抵偿的订价是以数据平台的视角, 洽商在其收罗数据时, 遭逢包含个东说念主隐秘数据的情况. 骨子上属于基于数据内在价值的订价想路, 依据数据领有者对于隐秘失掉风险的承担能力和对收益的渴慕程度来细目抵偿价钱, 同期还要洽商到过低的隐秘败露可能镌汰数据消费者效用的问题. 基于隐秘抵偿的订价要点柔顺数据领有者和数据平台之间的交互, 对于数据的存储体式则无太高要求. 在隐秘失掉的预计方法上, 除了差分隐秘外, 信息熵也不错作为数据中包含隐秘水平的预计机制, 应受到更厚柔顺.

4.4 基于数据质地的订价

数据质地亦然细目大数据价值的一个重要属性. 依据数据质地细目数据价值, 要点分为两个方面: 细目数据质地维度和版块抑制(versioning). 早在20世纪初, Wang等东说念主[96]对数据质地特征进行了两阶段的分类研究, 制定了干系的分层框架, 将数据质地特征分为了15个维度. 在数据交游的热点规模——互联网数据中, Naumann等东说念主[97]将数据质地准则分为了4个类别: 内容干系(content-related)、技巧干系(technical)、学问干系(intellectual)和实例干系(instantiation-related), 从这4种类别中细腻研究了22个预计互联网数据质地的维度. 版块抑制是依据数据在每个质地维度下的得分, 给数据分为不同的版块, 以知足不同消费者对数据的需求, 并以此设定不同价钱. Stahl等东说念主[80]借用了文献[97]的22个维度, 依据是否不错自动赢得这些维度, 将其差别为自动、手动和搀杂3类, 并联想了一个适用于数据订价的数据质地打分系统. 该系统的主要目的是为来自不同数据领有者的访佛数据提供比较依据. 系统联想了一个线性加权打分机制, 允许数据买家凭证我方偏好为不同的数据质地维度联想不同的权重. Yu等东说念主[81]则研究了在操纵平台下基于多数据质地维度的订价问题. 该平台依据数据质地的多个维度, 况兼将不同维度之间的相互作用也洽商在内, 联想了版块抑制策略, 况兼建立了一个两层的编程模子, 包括一个相通者(数据平台)和多个侍从者(数据消费者). 第1层, 相通者凭证多个数据质地维度和其中的相互作用, 决定不同的版块和其出售价钱, 以最大化我方的收益; 第2层, 潜在的消费者凭证我方对不同质地的偏好需求作念出自主选拔, 决定购买的版块.

上述方法在进行给数据进行订价时, 天然洽商了抽象的基于数据质地的打分系统, 然而由于抽象的数据质地维度存在体式和步履不统一、消费者的效用函数难以谋略从而影响订价等问题, 难以适用于高效的数据订价应用场景[82]. Yang等东说念主[83]在总结了数据质地的不同预计维度之后, 中式了精确度(accuracy)、完整度(completeness)和冗余度(redundancy)作为预计数据质地的形势, 分别暗意数据源中具有正确值的数据比例、数据聚首完整数据的比例和数据源中相通纪录的比例. 并使用Stahl等东说念主[84]的打分方法, 允许依据上述3种维度对数据进行一语气的版块差别, 以产生不同质地水平的数据. 终末谋略出的质地分数是在(0, 1)之间的. 随后, 著述以机器学习的分类算法为例, 提倡了基于质地水平的效用函数, 并基于从经济学角度洽商的消费者支付意愿函数, 共协谋略出某个质地水平数据的出售价钱. 除此之外, 在Zhang等东说念主[82]联想的以质地为导向的数据订价策略中, 洽商了精确度、完整度、实时性和一致性4个维度, 采纳与文献[83]相通的线性加和形势将其整合在沿途. 对于不同质地水平的效用函数, 提倡了Floating方法. 起源凭证所罕有据库实例的数据质地谋略出质地步履 $ F{Q_S} $ , 再针对某个数据库实例谋略出其质地 $ FQ $ , 最终使用如下方法谋略出价钱:

$ {p_{{\rm{final}}}} = p + \frac{{(FQ - F{Q_S})}}{{F{Q_S}}}\times pC $ (4)

其中, p是运转价钱, C是常量参数, 反应了质地对最终价钱的影响程度.

基于数据质地的订价方法依靠效用价值表面, 以数据质地作为数据价值或者消费者效用的决定性因素, 泛泛情况下, 适用于质地维度较少或者容易量化的订价任务中. 基于数据质地的订价方法由于从自身角度洽商数据价值以及从消费者角度洽商数据效用, 泛泛具有较好的透明度以及较高的可解释性. 然而, 对于数据来说, 质地并非决定其价值的惟一因素, 同期在大数据时期种种数据纷纷复杂, 很难找到统一的、令各方安祥的数据质地预计维度, 此外, 数据质地和消费者效用之间的关系自己也破损易量化. 因此, 在联想数据订价方法时, 将基于数据质地的订价作为细目数据价值的一个参考维度则更为妥当.

4.5 基于经济学的订价

基于经济学的数据订价是依据如供需关系、博弈论等经济学中的基本表面为数据细目价钱的方法. 其中最轻松也最为基础的是基于耗尽的订价方法. 该方法洽商商品的整个老本, 并将总老本的一个比率设定为利润, 以此细目价钱[72]. 一般来说, 数据居品的老本不错分为收罗老本即收罗数据所产生的耗尽、存储老本即数据万古期存储在土产货数据库或云霄数据库产生的耗尽、复制老本即数据在被出售或传播时所产生的耗尽等. 该订价方法的优点是模子轻松浮浅, 然而仅洽商了数据的内在属性来决定数据价钱[98], 而莫得顾及市集的供需关系等外皮属性[99]. 同期, 由于每个阶段的耗尽很难具体量化到每一个数据要求上, 当卖出部分数据时很难为其设定科学的价钱. 此外, 上文提到由于大数据复制代价极低, 因此跟着数据在市集上的传播, 价钱会变得越来越低, 同期竞争敌手容易将数据复制为己用, 导致数据出售者不再有出售数据的渴望, 影响数据市集的健康发展.

供需关系模子是经济学中决定商品价钱的模子之一, 其关系用供需函数来样式. 在市蚁集, 用P来抒发数据居品的单元价钱, Q抒发数据居品交游数目, 那么需求弧线暗意在其他因素不变的情况下, 数据消费者随和购买的数据量跟着数据单元价钱的变动而变动, 公式暗意为 $ {Q_D} = {Q_D}(P) $ ; 供给弧线是指在其他因素不变的情况下, 数据领有者随和提供的数据量跟着数据单元价钱变动而变动, 公式暗意为 $ {Q_S} = {Q_S}(P) $ . 基于上述关系, 咱们不错构建出供给和需求的关系[72]. 如图3所示.

Fig. 3 Relation between supply and demand in data market 图 3 数据市蚁集供给需求关系图

由图3不错看出, 供给弧线和需求弧线必定相交. 交点即为买卖两边的平衡条件. 在此平衡点处, 有 $ {Q_D} = {Q_S} $ , 价钱P称为清理价钱, 此时市蚁集商品莫得短缺或饱胀, 不存在使得价钱变动的外皮压力. 该模子有两个基本特色[100]: 第一, 该模子所样式的是买卖两边在进入市集之后一系列连接性的一致活动; 第二, 买卖两边不行果决更正决订价钱的程度, 整个决策过程皆是由市集决定的. 因此, 该模子不错使得市集是公正的[72]. 然而, 由于价钱十足交由市集决定, 不免会导致寡头操纵的情况出现, 这亦然供需关系模子所存在的问题.

上文样式的两种方法的订价想想较为轻松, 因此并未被数据订价著述普通采纳. 经济学中的另一种重要研究内容, 博弈论, 则广受数据订价研究者嗜好. 比年来出现了许多使用博弈论中方法研究数据订价[85-91]的文献. 博弈论主要研究决策主体的活动发生径直相互作用时的决策以及这种决策的平衡问题. 在数据订价中的应用主要包括3个方面: 非配合博弈、Stackelberg博弈和还价还价. 非配合博弈的前提是数据交游的参与者之前不可能达成具有料理力的共鸣, 即皆处于冲突状态, 以竞争的形势参与交游. 该博弈模子要求参与者在进入市集时即公布我方的价钱策略, 同期在知说念敌手价钱策略的前提下, 以自身收益最大化为主张谋略出该博弈的纳什平衡, 即可得到成交价钱. Stackelberg博弈模子要求参与者中有相通者和侍从者. 相通者起源发布我方的价钱策略, 侍从者不雅察到该策略后, 再决定我方的价钱策略并发布, 两边皆凭证对方策略来决定我方策略以达到收益最大化, 如斯来回以达到最终交游价钱. 还价还价是交游的各方经过一轮或多轮谈判就达成交游价钱的过程. 而作为不十足信息博弈的重要应用, 拍卖亦然最流行的数据订价机制之一[23, 43, 92-95]. 拍卖是通过市集驱动参与拍卖的两边在法律解释框架内进行自主竞价, 从而对商品进行分派, 并赋予对应的价钱[101]. 在数据订价中的应用主要分为密封拍卖, 组合拍卖, 双边拍卖等3种形势.

由上文的样式不错看出, 以供需关系模子、博弈论和拍卖为代表的基于经济学的订价想路与基于价值和任务的订价想路不同, 后者愈加侧重于凭证数据推行效用或价值以设定相应价钱, 而前者愈加侧重于市集类型, 机制联想和参与东说念主活动等与数据自己无关的因素对价钱的影响. 基于经济学订价的想路既不错看作是订价模子, 包含了细目价钱的功能, 不错在数据分析后径直作为细目数据价钱的重要依据, 另一方面, 又能在其他想路细目的价钱基础上通过市集类型, 机制联想和参与东说念主活动进一步对成交价钱和数据出售形势产生影响. 而在整个这个词数据的人命周期中, 市集类型的区分和参与东说念主活动的程序皆与数据交游机制的联想息息干系. 因此不随机将其轻松的看作数据订价方法. 相关于经济学订价在数据交游方面的体现, 咱们将不才一节作念更深刻的筹办.

5 数据交游

数据交游作为大数据人命周期的重要组成部分, 与数据订价有着互补的关系: 数据订价侧重于设定数据价钱, 而数据交游则需要研究数据市集类型、参与交游各方活动等对市集和数据出售价钱的影响. 因此在第4节先容数据订价的基础上, 本节对数据交游过程中触及的市集类型、机制联想和参与东说念主活动法律解释进行了研究. 本节起源先容了市集结构, 并对其进行了轻松分类, 先容了相应分类下的著述, 然后以博弈论和拍卖为例, 研究了数据市集环境下的交游机制联想问题, 并总结了种种方法的优劣.

5.1 数据市集结构

在经济学中, 泛泛将市集分为如下4种类型: 十足竞争(perfect competition)、操纵竞争(monopolistic competition)、寡头操纵(oligopoly)和十足操纵(monopoly). 市集结构不错在一定程度上决假寓品的交游价钱, 在数据市蚁集也不例外. 因此, 在分析数据交游前要起源细目数据市集的类型.

在十足竞争市集下, 边缘老本即每增多一单元居品所需要的老本基本等于出售价钱. 这无疑极大增多了市集透明度. 使消费者不错享受到更好的处事和更低的价钱. 然而对于卖家来说, 在强烈竞争下会导致利润减少, 居品同质化严重. 因此卖家会选拔镌汰数据质地的形势来压缩老本, 导致低质地的数据居品充斥市集, 从而引起恶性竞争, 疲塌市集规模. 十足竞争市集不存在操纵因素, 因此在日常生涯中很难见到访佛的市集.

操纵竞争市集属于操纵和竞争因素并存, 但竞争因素更多一丝的市集. 在推行生涯中的零卖行业接近该市集模子. 在操纵竞争市蚁集, 厂商数目通常有许多, 其所坐褥的居品通常存在有一定的各异, 新进卖家在市蚁集立足门槛不高, 市集有着较高容忍度. 这类市集的竞争技能属于非价钱竞争, 欺诈价钱之外的因素如告白等体式已毕. 然而由于数据收罗和分析有着较高的门槛, 不会有过于多的卖家参与到市蚁集, 因此属于此类别的数据市集较少.

寡头操纵是在市集竞争后, 为数未几存活下来的厂商组成的市集. 在寡头操纵下的市蚁集, 操纵寡头有足够大的权柄增多我方居品的利润. 这些厂商对市集繁华畅的数据居品具有极强的抑制能力, 包括其存储形势、分析过程和居品价钱. 博弈论中的伯兰德模子、古诺模子和Stackelberg模子均是研究寡头操纵下的市集.

在十足操纵结构中, 只好惟一的厂商操纵整个这个词行业. 厂商泛泛采纳价钱憎恶的方法作为竞争技能, 针抵消费者提供同样的商品或处事, 但对于消费者不同的需求来设定不同的价钱[102]. 在这种市集结构下, 数据平台不错从数据领有者和数据消费者身上劫掠最大化的利润, 从而赢得最大收益. 然而这是以镌汰市集繁盛度为代价的, 由于市集有着较高的准初学槛, 繁难竞争也使得数据市集活力变得更低.

文献[102]将数据市集分为了寡头操纵、十足操纵和强竞争3种结构, 其中提到的强竞争结构访佛于上文所述的操纵竞争市集. 由于现有的数据交游市集著述在市集分类方面定位较为暧昧, 因此本文将其轻松的分类为操纵和竞争两类, 并对相应的著述总结如表2.

Table 2 Classification of data trading market types 表 2 数据交游市集分类

上文对基于经济学的订价方法进行过轻松的先容, 其中最普通使用的是基于博弈论和拍卖的订价方法. 由于博弈论和拍卖不单是是订价形势, 还触及市集结构和数据领有者、数据消费者与数据平台在进行交游时作念出的决策和活动对数据市集以及数据价钱产生的影响, 因此咱们不才文中对二者进行先容.

5.2 基于博弈论的数据交游

博弈论是经济学中重要的研究方法, 也称为对策论, 是研究决策主体的活动发生径直相互作用时的决策以及这种决策的平衡问题. 博弈是指两个或者两个以上感性的个体或组织, 在一定例则的料理下, 参加一系列的竞争性活动, 况兼抽象洽商敌手可能实施的活动, 在其基础上作念出最成心于我方的决策. 为了方便下文的叙述, 将博弈论顶用到的基本见识先容如下[13].

1) 参与东说念主: 参与东说念主是指一个博弈中的决策主体. 该主体不错是东说念主, 也不错是一个团体组织. 参与东说念主通过选拔合适的决策使得我方的收益随机达到最大.

2) 活动和策略: 活动是指参与东说念主在博弈的某个期间点采选的决策变量; 策略是一种法律解释, 决定了参与东说念主在某种情况下应该采选何种活动, 即参与东说念主将按照这种法律解释来采选活动; (如“敌进我退, 敌驻我扰, 敌疲我打, 敌退我追”是一种策略, 这里, “敌”与“我”是参与博弈的两边, “进”“退”“驻”“扰”“疲”“打”“退”“追”是8种不同的活动, 由策略章程于何时采选何种活动)[13, 85].

3) 效用函数: 效用函数是指在一个特定的策略组合下参与东说念主随机得从这次博弈得到的细目效用水平, 反应了参与东说念主对这次博弈终结的生机. 效用函数不错是一语气的, 也不错是碎裂的, 取值正负均可. 在博弈中, 每一方皆要有我方的效用函数, 但并不要求一定了解另一方的效用函数.

上文如故提到, 数据市集的参与者分为了数据领有者、数据消费者和数据平台三方. 这三者亦然博弈的参与东说念主. 博弈要求参与东说念主均为感性东说念主, 即采选的整个策略和活动皆是自私的, 况兼尽可能以最小的老本使其利益最大化.

常见的用于数据市集的博弈论模子有3种: 非配合博弈模子、Stackelberg模子和还价还价模子. 接下来将对其进行一一先容.

5.2.1 基于非配合博弈的数据交游

非配合博弈是指一种参与东说念主之间不可能组成定约或者达成一种具有料理力契约的博弈[105]..

对于非配合博弈的界说, Luong等东说念主[106]联想了一个物联网数据交游模子, 在该模子下, 所罕有据领有者以竞争的形势参与交游, 这口角配合博弈的典型应用场景. 在博弈中, 数据领有者是参与东说念主, 不错自主进行决策. 用 $ (V, \pi ) $ 暗意某个博弈, 领有n个参与东说念主, 其中 $ {V_i} $ 暗意第i个参与东说念主选拔的订价策略空间. V是每个参与东说念主策略空间的笛卡尔积: $V = ({V_1} \cdot {V_2} \cdot {V_3}\cdot \ldots \cdot{V_n})$ , $ {\pi _i} $ 暗意每个参与东说念主i得到的支付向量. 令 $ {v_i} \in {V_i} $ 暗意参与东说念主i的订价策略, 不错得到n个参与东说念主的策略向量 $v = ({v_1}, {v_2}, {v_3}, \ldots, {v_n})$ , 同期由于博弈参与东说念主i的策略受其他参与东说念主的影响, 用向量 $\overline {{v_i}} = ({v_1}, \ldots {v_{i - 1}}, {v_{i + 1}}, \ldots , {v_n})$ 暗意除参与东说念主i之外的其他整个参与东说念主策略所组成的策略结合. 那么就有参与东说念主i采纳策略 $ {v_i} $ 以得到 $ {\pi _i} $ 的支付. 纳什平衡即表述一个给定的策略向量 $ {v^*} = (v_1^*, v_2^*, v_3^*, \ldots , v_n^*) \in V $ , 在其他参与东说念主不更正我方策略的情况下, 莫得任何一个参与东说念主但愿通过更正我方的策略来提高收益[13, 72], 即:

$ \forall i, {v_i} \in {V_i}:{\pi _i}(v_i^*, \bar v_i^*) \geqslant {\pi _i}({v_i}, \bar v_i^*) $ (5)

上式暗意在这种状态下, 每个东说念主作念出的皆是最优的选拔. 然而纳什平衡并不存在于整个博弈中, 此外, 某些场景下单个博弈也可能存在不啻一个纳什平衡. 因此, 想要将非配合博弈应用于数据交游, 就要求该场景下的博弈有且仅有一个纳什平衡.

在“感性东说念主”的前提下, 参与博弈的各方皆会将敌手致力于于于使其收入最大化作为预设. 因此上文总结的竞争市集[33, 104]中的平衡就口角配合博弈平衡. 在这种市蚁集, 每个参与东说念主的价钱策略皆是在其他参与东说念主价钱策略公布之后细目的, 以期使得我方收入最大化. 然而由于数据居品的格外性, 传统商品边缘老本等于边缘收益的最大化收益方法无法用于数据市集. Li等东说念主[107]提倡了一种交游方法, 参与交游的两边是数据消费者和数据领有者, 该方法既能得到合适的数据交游价钱, 同期还随机幸免数据领有者利益遭受失掉. 非配合博弈的纳什平衡要求参与博弈两边公布自身策略, 况兼在已知对方策略的前提下采选活动, 由于在推行生涯中知足上述要求的情况较少, 因此非配合博弈纳什平衡是很难谋略的. 同期, 由于竞争市集在数据交游时并不是广泛存在的, 因此基于非配合博弈的数据交游模式并未普通使用.

5.2.2 基于Stackelberg博弈的数据交游

由于非配合博弈存在上文所述的种种劣势, 因此本文洽商一个愈加实用的情形: 一个参与东说念主(相通者)先行发布我方的价钱策略, 另一个参与东说念主(侍从者)依据相通者的策略作念出相应策略选拔, 并进行优化, 以得到最优的价钱策略, 这种模式被称为Stackelberg博弈[13, 108]. 在Stackelberg博弈中, 参与东说念主1 (相通者)起源细目我方的价钱策略 $ {v_1} $ , 参与东说念主2 (侍从者)在不雅察到 $ {v_1} $ 后, 细目我方的价钱策略 $ {v_2} $ , 该博弈属于十足信息动态博弈. 由于参与东说念主1 (相通者)先于参与东说念主2 (侍从者)活动, 不行掌执 $ {v_2} $ 的信息, 是以对于参与东说念主2 (侍从者)来说, 其价钱策略是一个从 $ {V_1} \to {V_2} $ 的映射T. Haddadi 等东说念主[109]和Lv等东说念主[110]评释了使用Stackelberg模子不错让参与博弈的各方已毕收入最大化, 同期不错使相通者赢得比较于侍从者更大的收益.

在触及具体交游市集之前, Mei等东说念主[85]分别针对系结销售和零丁销售的情形, 在数据领有者和数据平台之间联想了基于Stackelberg博弈的交游模式, 将数据领有者看作相通者, 数据平台看作侍从者. 筹办了在保证数据领有者和数据平台收入最大化的情况下, 数据领有者应该何如采选策略最大化我方的收益. Liu等东说念主[86]联想了一个分为两阶段的Stackelberg博弈用以处理数据平台和数据消费者之间的数据交游问题. 著述假设市集包含多个数据领有者提供数据、一个数据平台和一个数据消费者购买数据, 数据平台不错赢得整个交游参与东说念主的干系信息. 在第1阶段, 数据领有者按照我方的估值为数据配置运转出售价钱, 同期, 数据消费者不错得到数据平台作为相通者所公布的价钱策略. 第2阶段中, 数据消费者凭证相通者所公布的策略, 选拔恰当策略作为我方的购买决策. 两阶段完成后, 数据平台凭证数据领有者的处事质地和数据消费者的购买意愿来决定哪位数据领有者胜出, 并由该名数据领有者与数据消费者进行交游.

Stackelberg博弈模子作为在传统商品交游中普通应用的博弈模子, 在数据市蚁集也有着很强的实用性. 然而需要注意的是, 由于在数据市蚁集数据领有者的主体通常不甚明确, 因此需要严慎选拔数据领有者作为相通者.

5.2.3 基于还价还价的数据交游

还价还价是指参与博弈的各方经过一次或屡次谈判就某种物品的分派达成契约的过程. 在Mao等东说念主[111]提倡的订价模子中, 用 $ {r_o} $ 暗意数据消费者为这次交游准备的最高价钱, 即保留价钱, 访佛的, 数据领有者的保留价钱用 $ {r_c} $ 暗意; 数据领有者和数据消费者分别对数据报出我方的价钱策略 $ {p_o} $ 和 $ {p_c} $ , 数据领有者但愿采选不错使我方生机收入 $ {\pi _o}({p_o}, {r_o}) $ 最大化的最优策略 $p_{o}^*$ , 即: $\pi _{o}^*(p_{o}^*, {r_o}) \geqslant {\pi _o}({p_o}, {r_o}), \forall {p_o}$ , 同样地, 对于数据消费者来说也有最优策略 $ p_c^* $ 不错使我方生机收入 $ {\pi _c}({p_c}, {r_c}) $ 最大化, 即: $\pi _{c}^*(p_c^*, {r_c}) \geqslant {\pi _c}({p_c}, {r_c}), \forall {p_c}$ . 在该模子中, 要是有 $p_c^* \geqslant p_{o}^*$ 则以价钱 $p = kp_c^* + (1 - k)p_{o}^*, 0 \leqslant k \leqslant 1$ 成交. 最终得到了该博弈的纳什平衡解为 $(p_c^*, p_{o}^*)$ [72].

在上文中如故提到, 差分隐秘在数据订价中占有举足轻重的地位. Jung等东说念主[91]在个东说念主数据市集提倡了一个公正协商的框架, 参与交游的各方不错通过该框架使用差分隐秘来细目隐秘的败露程度 $ \varepsilon $ 以及每败露一单元的隐秘所对应的价钱. 框架允许数据领有者凭证我方对隐秘败露的容忍程度、数据消费者凭证我方对数据需求的要紧程度和数据精确度预期以及预算分别和数据平台进行还价还价博弈, 以细目最终成交价钱, 同期保证了交游的公正性.

还价还价适用于复杂市集环境下细目数据居品的最终价钱, 其终末得到的终结是配合博弈的最终平衡状态, 因此也泛泛被用于资源分派等规模, 如传感器相聚[111]、无线体域网[112]、频谱分派[113]. 值得注意的是, 在还价还价博弈中, 参与交游各方的谈判通常需要花费较恒久间和较大资源, 因此还价还价的针对具体问题的罢手条件需要严慎联想.

基于博弈论的数据交游方法隆重洽商市蚁集参与东说念主的决策以及互动活动对成交价钱的影响, 由于非配合博弈存在纳什平衡难以谋略等污点, 因此上述3种方法中的Stackelberg博弈和还价还价博弈是数据交游中最常用的方法. 同期, 基于博弈论的数据交游方法有着普通的适用性, 随机不受交游数据类型和数据消费者想要进行任务的适度, 这亦然其在数据市蚁集常用的原因之一. 然而由于基于博弈论的交游方法合座上侧重于对市集的宏不雅分析, 虚浮对数据内在价值的考量, 是以在一些情况下并不行精确体现出数据自身的具体价值, 因此交游方法应该与订价方法进行结合. 同期, 有些复杂的交游场景难以无缺建模、纳什平衡解难以谋略等问题亦然在联想基于博弈论的交游方法时应该洽商的现实问题.

5.3 基于拍卖的数据交游

拍卖不错看作是博弈论中不十足信息博弈的一种具体应用体式, 在传统商品和数据商品交游[114-117]中的应用十分普通. 拍卖是一种经济驱动的决议, 其目的是通过买卖两边的竞价过程分派商品并赋予相应的价钱[101]. 由于拍卖更多应用于不十足信息的环境中, 况兼体式较为轻松, 同期又对市集的公正性、高效性有着很好保证, 因此很恰当用来处理大数据交游问题. 在拍卖顶用到的一些见识总结如下[13].

1) 投标方(bidders): 又称为投标东说念主, 是指在拍卖过程中提交标书并蓄意在市集上购买商品的东说念主. 在大数据市蚁集, 投标方泛泛是数据消费者.

DCI-P3高色域,并且配备了60W大功率音响,内置低音炮,支持杜比视界+杜比全景声,可以满足影音爱好者和游戏玩家对音画体验的需求。

2) 拍卖东说念主(auctioneer): 拍卖东说念主在拍卖中担任代理东说念主的变装, 负责拍卖历程的正常运转, 到手者的细目, 以及进行支付和收入的分派. 在数据市蚁集的变装访佛于数据平台, 然而不负责数据的收罗.

3) 卖家(seller): 卖家是指进行招标出售商品的整个者. 在大数据市蚁集, 卖家是指数据领有者;

4) 投标方的估价(valuations): 拍卖时, 投标方和卖家皆需要对他们请乞降出售的商品进行估价. 该价钱不错高于或低于最终的交游价钱, 是由拍卖东说念主在拍卖过程中决定的.

5) 清理价钱(cleaning price): 在拍卖过程中, 卖家和投标方分别提倡要价和出价. 要价暗意卖家提倡的商品售价, 出价暗意投标方提倡的投标价钱, 即他们生机为商品支付的价钱. 清理价钱是指拍卖东说念主凭证收入最大化等原则细目的商品最终交游价钱.

凭证拍卖的体式不同, 不错将常用的拍卖分为密封拍卖、组合拍卖和双边拍卖. 典型的基于拍卖的大数据交游市集框架如图4所示[22].

Fig. 4 Framework of auction-based data trading market[22] 图 4 基于拍卖的大数据交游市集框架[22] 5.3.1 密封拍卖

密封拍卖主要包括第k价钱密封拍卖和VGC (Vickrey-Clarke-groves)拍卖[118]. 其中第k价钱密封拍卖主要分为第一价钱密封拍卖[119]和第二价钱密封拍卖[120].

在第一价钱密封拍卖中, 多个投标方在密封投标信息的情况下, 以书面形势参与拍卖, 相互之间不知说念对方的出价. 拍卖的到手者是出价最高的东说念主, 况兼以其出价水平赢得该商品. 第一价钱密封拍卖机制较为轻松, 天然随机保证卖家收入最大化, 然而存在着诸如投标方难以谋略报价、难以保证投标方之间不缔盟从而导致不公正等风光的发生等问题. 因此, 引入第二价钱密封拍卖, 又称为Vickrey拍卖, 与前一种拍卖体式访佛, 投标方相互之间同样不知说念对方的出价, 到手者是出价最高的东说念主, 而其仅需支付第二高的价钱就不错获取商品. 在第二价钱密封拍卖中, 每个投标方的占优策略是使出价等于我方对这件商品的估价[13]. 即知足信得过性. 然而同第一价钱密封拍卖相通, 第二价钱密封拍卖难以保证投标方之间形成定约、拍卖东说念主和投标方之间联接等活动发生, 从而影响拍卖的公正性.

为了洽商社会福利, Ausubel等东说念主[121]引入了VCG拍卖. VCG拍卖是Vickrey拍卖的引申, 其界说如下. 现市蚁集存在M个商品暗意为 $ T = \{ {t_1}, {t_2}, \ldots , {t_M}\} $ , 存在N个投标方暗意为 $ B = \{ {b_1}, {b_2}, \ldots , {b_M}\} $ . 在VCG拍卖中, 到手者第i个投标方 $ {b_i} $ 需要抵偿其他N– 1个投标方的社会价值失掉. 在拍卖中, 若投标方 $ {b_i} $ 对商品 $ {t_j} $ 的出价是最高的, 为 $ {v_i}({t_j}) $ , 则其需要支付的价钱为:

$ P = V_{N\backslash \{ {b_i}\} }^M - V_{N\backslash \{ {b_i}\} }^{M\backslash \{ {t_j}\} } $ (6)

其中, $ V_N^M $ 暗意由M件商品所创造的社会价值. 在Vickrey拍卖中, 该值等于第二高的出价.VCG拍卖的终结是不十足信息静态博弈的纳什平衡, 即贝叶斯纳什平衡[122]. 天然VCG拍卖随机在已毕社会福利最大化的同期保证拍卖的信得过性, 然而在推行应用中, 也存在社会福利最大化终结难以谋略, 以及收益和激发机制线路不好等问题.

5.3.2 双边拍卖

双边拍卖是数据交游市蚁集常见的拍卖形势之一, 也被普通的应用于证券交游[123]、智能电网[116, 124]等场景. 与上述几种拍卖形势不同的是, 在双边拍卖中, 多个投标方和卖家同期向拍卖东说念主提交我方的出价和要价. 其交游法律解释为, 清理价钱p是由拍卖东说念主最终决定的, 当且仅当卖家要价 $ {p_o} $ 小于等于投标方出价 $ {p_c} $ 时交游才成立. 由于在双边拍卖中, 投标方和卖家的出价和要价不错分多轮进行. 为了竞争得胜, 投标方每轮的出价必须越来越高, 而卖家的要价必须越来越低. 不错得到居品的清理价钱图如图5所示[124]. 在收罗了干系信息后, 拍卖东说念主凭证清理价钱以及投标标的卖家谱付的价钱来匹配这些出价和要价[72].

Fig. 5 Fromation of the price for double auction based data market[124] 图 5 双边拍卖数据市集价钱的形成[124] 5.3.3 组合拍卖

在大数据市蚁集, 单一类型的数据无法知够数据消费者对数据居品类型多种种种的需求, 因此一般情况下数据消费者但愿购买多量组合在沿途而非轻松糅合的数据[72]. 因此提倡了组合拍卖方法. 在组合拍卖中, 卖家提供生动的可系结销售的多种数据居品的组合[125], 买家凭证自身对数据的需求提倡相应的出价, 而拍卖东说念主凭证出价中包含的料理条件, 并抽象洽商卖家的物品分派能力, 找到最好的组合决议, 细目最终的清理价钱以及到手的卖家[13]. 组合拍卖与密封拍卖等拍卖形势比较, 优点在于其经济效率要远高于上述的单物品拍卖形势, 同期, 不错达到买卖两边的收入最大化. 关联词, 组合拍卖最终到手卖家的谋略是一个NP难问题, 因此想得出最优分派决议需要极大代价. Agarwal等东说念主[43]联想了一个交游机器学习检修数据的市集, 基于Myerson的拍卖表面提倡了组合数据居品的拍卖方法, 知够数据消费者高效购买机器学习检修数据的需求.

Cao等东说念主[94]合计, 仅有一个数据收罗者的数据市集是不合适推行情况的, 因此联想了具有多个数据领有者、收罗者和用户的数据市集, 数据市集参与东说念主有着不同的效用函数. 使用迭代拍卖来和谐参与东说念主之间的数据交游, 该拍卖机制不错注意径直探询参与东说念主的效用函数, 从而保险其隐秘不被表示, 同期已毕了社会福利最大化. Cai等东说念主[21]合计, 现有的激发机制忽略了数据消费者之间偏好和利益冲突共存的情况, 因此提倡了一种双边拍卖机制DTPCI, 处理了数据消费者对市集偏好的种种性、数据消费者之间的利益冲突和交游各方的策略选拔3大挑战. 该拍卖机制包含分组法律解释和数据交游法律解释, 不错已毕非负的社会福利. 在去中心化交游市集的研究上, Li等东说念主[107]则提倡了基于区块链的数据交游市集, 让领有小数信息的中间商来对资源进行管理和分发. 提倡的迭代双边拍卖交游方法知足对参与东说念主的隐秘保护, 不错已毕社会福利最大化, 同期知足信得过性和个东说念摆布性. 上述的基于拍卖的数据交游模子中, 一般皆是数据领有者和数据消费者径直进行交游, 拍卖东说念主只作念中间和谐, 效率较为低下. Jiao等东说念主[23]第一次在拍卖中引入处事提供商, 处事提供商不错收罗数据领有者的数据, 并对其进行隐秘表示的抵偿, 同期我方对得到的批量数据进行整合分析, 为数据消费者提供整合后的处事, 通过贝叶斯利润最大化拍卖来交游数据. 基于拍卖的数据交游方法进一步总结见表3.

Table 3 Comparison of auction-based data trading methods 表 3 基于拍卖的数据交游方法比较

拍卖方法作为博弈论中不十足信息博弈的一部分, 在传统商品市集和数据市蚁集皆有普通的应用. 上文中所提到的3种拍卖形势各有侧重: 以VCG拍卖为代表的密封拍卖侧重于保证交游的公正性和信得过性, 然而可能存在减少卖家收益、多个数据居品需要屡次拍卖等污点; 组合拍卖则侧重于提供多种数据居品生动系结销售的交游形势; 双边拍卖中的拍卖东说念主则随机以中介的身份在买卖两边之间进行和谐, 大大增多了数据交游时买卖两边的沟通效率. 然而由于拍卖时为了保证信得过性, 通常需要投标方提交信得过信息, 因此存在表示投标方隐秘的风险. 此外, 天然拍卖的适用性较强, 但拍卖机制联想、何如建立果真的第三方拍卖平台等问题亦然使用基于拍卖的数据交游方法时所必须要洽商的.

6 干系使命

数据订价与交游触及数据管理、数据库、经济学、深度学习和东说念主工智能等多个研究标的的内容. 如故存在一些著述从各自的角度对数据订价进行先容. 张小伟等东说念主[13]对经济学中适用于数据订价的表面和方法进行了综述. 访佛地, Pei等东说念主[14]从经济学角度对数据订价进行了完整的叙述, 研究了数据订价的动机. 著述总结了数据订价时需要洽商的基本内容, 分为版块抑制、信得过性、收入最大化、公正性、无套利、隐秘保护和谋略高效, 并基于上述内容, 分别叙述了现有的数据订价模子. 一语气于整篇著述的是数据居品和数字居品的对比. 同期, 著述指出了数据订价目下存在的一些挑战, 包括数据供应链、数据价值评估等方面的问题. 刘枬等东说念主[15]也对大数据订价方法进行了综述, 并将其分为老本导向、市集导向、需求导向、利润导向以及基于人命周期订价的5种订价类型, 对比了老本法、契约订价、市集法、收益法、基于质地以及基于查询的订价6种主流订价方法的优劣势, 并通过大数据订价历程展现了不同订价方法的各自特色. 同样, 蔡莉等东说念主[16]也对数据订价模子进行了综述, 并将其分为基于数据质地的订价、基于信息熵的订价、基于查询的订价、基于博弈论的订价和基于机器学习的订价, 并对上述几种订价方法的优劣进行了分析. 著述还阐发了现阶段数据订价存在的挑战分别体目下: 价值评估、交游法律解释和隐秘保护3处. 除此之外, Fricker等东说念主[126]对数据市蚁集的订价问题进行了先容. 著述将数据市集分为了单卖家和多卖家两种类型, 分别总结了订价方法随机已毕的主张, 如社会福利最大化、收入最大化、一致性和公正性等. 况兼对订价时洽商的数据价值维度进行了阐发.

上述综述对数据订价规模干系内容进行了细腻的先容, 但皆存在一些不及之处. 起源, 文献[13, 14]对数据订价的先容偏向于经济学规模, 强调数据订价中应该遵从的种种法律解释, 然而没能对现有订价方法进行完整分类. 刘枬等东说念主[15]则更偏向于社会科学规模, 更多筹办了数据订价中存在的轨制性和框架性问题, 并基于此对订价方法进行了分类, 但没能对订价方法的具体细节进行研究. 蔡莉等东说念主[16]和Fricker等东说念主[126]弥补了上述不及, 对数据订价策略和方法进行了细腻分类, 同期对订价过程也进行了较为全面的先容. 然而, 上述著述存在的共同问题是, 天然对数据订价过程的涵盖较为全面, 然而对于和数据订价密不可分的数据交游部分却先容甚少. 因此, 除了对数据订价过程中需要遵从的准则以及数据订价方法进行全面综述外, 本文将数据交游市集作为要点, 凭证大数据在数据交游市蚁集的流畅过程, 将其人命周期分为数据收罗与集成、数据管理与分析、数据订价和数据交游四个枢纽, 细腻先容了每个枢纽需要进行的使命、存在的挑战以及干系处理决议.

7 总结与瞻望

比年来, 由于大数据产业的快速发展, 数据如故成为炙手可热的计策资源. 大数据对于个东说念主和组织来说皆具有顽强的价值. 然而由于领罕有据收罗和分析的能力的公司相对较少, 而这些公司通常倾向于将数据保留在我方的数据中心, 这便形成了数据孤岛. 数据孤岛的存在严重妨碍了大数据产业的健康发展. 因此数据分享的呼声越来越高. 数据分享中研究最为普通的方法即是数据交游. 本文对大数据在数据交游市集的流畅枢纽进行了总结, 将其人命周期分为了数据收罗与集成、数据管理与分析、数据订价和数据交游4部分, 先容了每个部分存在的挑战, 为每个部分中的干系使命进行了分类和总结. 由于数据交游规模对前两个部分的研究相对较少, 因此本文鉴戒了数据管理标的中的干系使命, 总结了其中适用于数据交游的方法. 对于数据订价, 本文对数据订价的干系方法进行了总结, 并依据其想路的不同, 将其分为了基于任务的订价、基于价值的订价和基于经济学的订价. 这3类订价方法并不是轻松的互斥关系, 而是存在着相互交叉的规模: 比如基于价值的订价方法就作为细目价钱基准的途径, 在基于任务的订价方法中时有出现. 与数据订价互补的任务是数据交游. 由于数据交游市集在细目了数据价钱之后, 还要洽商交游参与东说念主对交游过程和数据价钱产生的影响. 这就是数据交游机制联想的问题. 本文起源先容了数据交游市集的不同分类, 并以博弈论和拍卖为例, 先容了数据市蚁集交游机制的联想方法, 总结了这些方法的使用场景和不及之处. 本文的目的是给数据订价与交游规模触及的问题作念全面的总结和综述, 但愿本文不错为新进入该规模的学者提供一个完整的了解.

wap.fitne.xyz

接下来基于本文对数据订价与交游方面研究进展的梳理以及刻下使命的不及之处, 针对数据在大数据交游市集的人命周期, 给出昔时不错研究的方面.

(1) 构建完整的数据供应机制

数据供应是大数据交游随机进行的首要保证. 然而由于数据来源和种类丰富种种, 导致数据收罗形势和集成形势难以形成统一步履, 加之数据高时效性和复制代价极低的特色, 对高效进行数据收罗与集成提倡了更大的挑战. 因此要发展生态可连接的数据交游市集, 就必须构建完整的数据供应机制[14]. 数据供应机制不错将数据领有者和数据平台衔尾起来, 为数据收罗与集成提供步履化历程. 同期, 需要在数据供应机制中添加反馈功能, 使得数据收罗者不错实时将数据出售情况反馈给数据领有者, 使数据供应和消费随机得灵验的和谐与平衡.

(2) 建立高效的市集捕快分析机制

在构建了完整的数据供应机制后, 天然不错得到步履化方法的数据居品, 但为了给接下来的数据订价提供依据, 仍旧需要对数据居品适用场景和用户偏好进行分析, 建立高效的市集捕快分析机制. 该机制应该知足如下两个方面的功能.

• 分析数据适用规模. 数据居品必须在特定的规模才能阐发作用, 特定规模中的机制, 法规和料理可能在某些方面对数据居品价值产生影响[14]. 因此必须分析该类型数据居品的适用规模, 得出数据居品对数据消费者的效用水平, 从而为订价提供依据.

• 捕快市集偏好. 针对市集偏好进行各异化的订价是大数据市集化发展的势必趋势[15]. 文献[44]合计在数据订价前需要进行市集捕快, 以细目特定规模的数据消费者对某种质地水平数据的偏好程度. 因此应该在数据订价前对数据交游市蚁集的潜在客户进行统一捕快, 对其需乞降购买意愿进行分析, 为版块抑制和数据订价提供重要参考.

(3) 构建数据订价表面框架

由于不同的参与者对数据居品有着不同的预期和评价, 是以导致现有的单一方针数据订价方法皆存在自身的局限性, 难以十足知足各方的需求. 因此应该结合数据的4V脾气, 针对现有订价方法的不及, 提倡完善的数据订价表面框架, 该框架应该包括如下内容.

• 统一的价值评价体系. 数据订价表面框架的首要内容就是统一价值评价体系, 寻找能让各方皆知足的价值度量技巧. 该价值评价体系应该以数据质地为基础, 结合数据消费者和数据平台在整合数据居品上的耗尽, 洽商数据消费者的效用方针, 还要以历史成交价钱为参照, 抽象评估其他随机影响数据价钱的因素, 构建出统一的、可解释的、客不雅的数据价值评价体系.

• 动态订价机制. 现有的大多数订价方法皆是静态订价, 然而由于数据有着极强的时效性, 数据消费者的需求也会跟着期间的变化而变化. 因此数据价钱也应该随之变动. 为了使数据价钱愈加贴合推行, 应该建立数据价钱与期间的函数关系模子, 捕捉和监测数据内容和数据价钱的变化标的, 探索动态订价机制.

• 订价模子研究实践. 如故提倡的大部分数据订价方法皆是假设了较为瞎想化的订价场景, 并在其上研究订价的表面模子, 很少有研究能将表面模子与现实生涯中的数据订价实践相结合. 因此将模子推向市集时可能难以十足知足用户需求. 应该对实践中的订价场景和法律解释进行建模, 遵守研究数据订价在实践中的成果, 以对其进行纠正.

(4) 完善数据交游机制

数据交游是数据订价的互补过程, 要点柔顺数据在市集繁华畅时市集类型, 机制联想和参与东说念主活动对数据价钱的影响. 然而由于数据市集刚刚起步, 数据交游机制尚处于低级阶段, 仍然存在着许多不及. 数据交游机制的联想径直影响数据领有者的出售意愿和数据消费者的购买意愿. 因此需要对刻下的数据交游机制进行完善. 主要分为以下几个方面.

• 保护隐秘和版权. 由于上文所叙述两种数据交游方法触及公开策略(博弈论)或进行投标(拍卖)的过程, 同期数据自己就包含隐秘因素, 因此容易导致隐秘的表示. 此外, 由于数据的可复制性, 出售的数据会以一个极低的代价传播出去, 毁伤数据领有者对数据的版权. 上述问题皆会导致过度的数据分享, 不仅会镌汰数据价钱, 还会使得数据领有者交游渴望变低, 影响数据市集发展. 因此在数据交游时必须研究相应的隐秘和版权保护机制. 昔时不错通过制定隐秘版权保护法律解释如交纳保证金、配置审查程序和刑事职守措施等轨制方法和数据脱敏、数据加密等技巧方法对隐秘和版权进行保护.

• 创造公正、信得过的交游环境. 现有著述天然对交游的公正性和信得过性进行过一定的探索, 然而仍旧存在单方面, 衣衫不整的污点. 因此昔时需要分析每次交游时所处的市集环境, 联想相应的交游机制, 确保交游价钱对参与东说念主来说皆是公正的. 同期还应该程序交游参与东说念主的活动, 以确保其交游时不错照实上报我方的耗尽或收入, 保证交游环境的信得过性.

• 建立历史纪录反馈机制. 为每次成交或交游失败的数据建立元数据库, 存储其数据类型、数据容量、质地水平、成交价钱和客户类型等交游元数据, 凭证元数据对交游终结产生原因进行分析. 并配置完整的反馈通说念, 保证前序枢纽不错凭证交游终结调理策略香港苹果id哪里买最便宜, 以促进数据市集的健康发展.



上一篇:十炒九亏 大陆邮币卡骗局令投资东说念主血本无归
下一篇:小黑盒加快器电脑版下载安设
TOP