数据提取是一项耗时的工作。举个例子:IDC最近的一项调查显示,数据专业人员花费大约75%的时间来收集和清理数据,只有大约25%的时间被用于从数据中获取见解。 这就是Import.io的用武之地。这家位于加利福尼亚州Los Gatos的创业公司利用机器学习来自动提取和处理网络数据,今天该公司宣布获得了1550万美元的B轮融资。总部位于伦敦的Talis Capital领投,现有投资者IP Group、OpenOcean、Oxford Capital和Wellington Partners也参与了此轮融资。该公司在2013年的种子轮融资中获得了450万美元的投资,在2016年的A轮融资中获得了1300万美元的投资,本轮融资使其融资总额达到了3300万美元。 该公司的首席执行官Gary Read表示,这些资金将用于加速全球增长并扩大Import.io的产品供应。他表示,自从该公司于2012年在柏林注册成立以来,已经吸引了800多家企业客户,他们通过其专有平台接收来自数百万个网络资源的数据。(仅在2015年,它就从超过55亿个网页中提取数据。) Read 表示:"由于无法及时获取高质量数据,全球各地的企业可谓损失惨重。事实上,据IBM估计,质量差的数据每年使美国企业付出的代价超过了3万亿美元。Import.io致力于提供及时、高质量的数据,几乎没有客户资源要求。我们让我们的800多家企业客户能够根据我们每天提供的数据制订重要的业务决策,并通过积极的服务级别保证来支持这一点。" Import.io的新颖机器学习解决方案不仅可以提取数据,还可以将其准备并集成到客户的分析平台和业务应用程序(如Tableau)中,从而有效地将网站转换为API。例如,创业企业StoryFit使用它来获取数十万个网页中的书籍、电影和电视数据相关的信息,以便为电影制片厂和图书出版商生成预测分析。另一家客户AudioLock利用它来扫描网络上的未经许可的音乐内容。 Import.io的数据爬虫套件还提供了更复杂的功能,例如从多个源合并信息并为其创建通用模式的功能。它还提供报告和可视化工具,包括显示事物如何变化的比较审核。 Talis Capital的Matus Maar认为这种方法使其有别于Webhose.io、DeepCrawl等竞争对手。