数据流动性和系统互操作性
如何对复杂的异质数据和系统进行自动化对齐和管理?
数据集成和分析是解决我们最大挑战的瓶颈,从做科学和创造通用人工智能到介于两者之间的一切。对集成数据的需求,可以从一些创业公司的数量上看出来,这些公司只专注于收集感兴趣的整齐划一的数据集清单,并将专项查询货币化。对于涉及内在异质数据的工作来说,如药物发现、复杂设计、社会学研究等,高度一致的高质量数据集是金矿。众多数据格式和标准的存在,使任何如"列出世界上所有狗的名单"之类简单的问题,对于专注于其它特定领域的创业公司来说,是一个难以逾越的追求。现有的解决方案,如链接的本体感知数据格式不够灵活和丰富,无法方便地从任意特设词汇表中定义具有多词汇字段的记录,而且缺乏对值类型的定义、可调用对象接口和修改权限的支持,使得对象无法在与产生它们的数据管理系统解耦后仍能保留属性。
当前广为人知的解决方案(如“链接数据”),并不完全适合这个问题,因为它们需要将大量数据以相同格式序列化,而在日益多样化的世界中从来没有这种情况,而且没有标准的方法将模式、权限和其他上下文数据嵌入到数据项中,这是使它们在查询中可以重用的必要条件。
将基于RDF的SPARQL(用于对齐)与OAUTH2(用于许可)和一些与标准结合以安全地加密关于查询源上下文的数据(如查询源身份密钥、Cookie、IP地址和资源的架构版本的定义,数据来自何处),它可能会接近所需的数据属性,即保留在任意编程语言的上下文中作为对象重用数据项的能力,而不需要编写自定义集成。然而这似乎尚未完成,可能有更好的方案来解决该问题。
例如,由于网络中系统的多样性和复杂性(协议和格式),可能还有其他(更好的?)方法来解决这个问题,基于使用驱动程序的设备的即插即用原理,允许抽象化Web资源API,并将功能齐全的多态交互数据作为所有编程语言的共享功能,将网站和Web系统(包括去中心化系统)作为操作系统设备直接作为变量提供给编程语言。
无论选择何种实现方式,数据流动性和系统互操作性似乎仍然是重要的未解决问题,也是在众多数字活动领域中快速发展的瓶颈。
Create a polycontext metasymbol, and overcome the fact that standardization does not generalize.
In designing this data liquidity system, we should have some idea of the kinds of questions we want to answer
Armed with a thesaurus and an almanac of system functionality we can write robots that program themselves
我对此表示赞同,因为这也是我想发生的事情。我看到了两种发生方式:
*人们合作并创建整合。
*人们不合作也不创建整合。在这种情况下,我们必须自己处理问题。我相信在操作系统或浏览器级别进行键盘记录是保持我们自己数据所有权的唯一方法。
I'm upvoting this as it's something I want to happen too. I see two ways of it happening:
People cooperate and create integrations.
People don't cooperate and don't create integrations. In which case we have to take matters into our own hands. I believe keylogging at the operating system or browser level is the only way to keep ownership of our own data.
[+]