网络数据采集是指通过网络爬虫或网站公开应用程序编程接口等方式从

网站上获取数据信息该方法可以将非结构化数据从网页中抽取出来y

将其存储为统一的本地数据文件y并以结构化的方式存储它支持图片

音频视频等文件的采集y文件与正文可以自动关联网络数据采集的

应用领域十分广泛y包括搜索引擎与垂直搜索平台搭建与运营y综合门

户与行业门户地方门户专业门户网站数据支撑与流量运营y电子政

务与电子商务平台的运营y知识管理与知识共享y企业竞争情报系统的

运营ybi商业智能系统y信息咨询与信息增值y信息安全和信息监控等。

数据清洗的主要应用领域包括数据仓库与数据挖掘数据质量管理

??