博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
前嗅ForeSpider教程:字段的取值与清洗
阅读量:6041 次
发布时间:2019-06-20

本文共 1343 字,大约阅读时间需要 4 分钟。

今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下:

一,自动取值的字段包括哪些

当字段设置为下列采集内容时,系统会自动为字段赋值。

1.网页地址:自动采集网页的URL地址。
2.网页标题:采集网页的标题。即网页<title>中的内容。
3.网页内文字文本:采集整个页面中所有可见的文字文本。
4.网页内容:采集网页全部文本,包含html标签等,即整个页面的源代码。
5.网页创建时间:文档创建或网页发布的时间。
6.网页更新时间:文档或网页更新的时间。
7.网页获取时间:ForeSpider采集该网页的时间。
8.当前系统时间:数据采集入库的时间。
9.文档数据大小:采集对象的质量大小[单位:字节]。
10.文档名称:采集对象的文件名,如.html,.doc。
11.文档后缀:文档的文件名后缀,如html、pdf等。
12.文档视宽:文档的宽[如果是图片数据则为图片的宽]。
13.文档视高:文档的高[如果是图片数据则为图片的高]。
14.文档层级:自动获取从入口页当当前数据页的跳转层级数目。
15.频道ID:采集当前频道的ID。
16.频道名称:采集当前频道的名称。

二,取值方法

1.标准定位

(1)标准定位含义
通过在内置浏览器上,定位有所需数据的区域,为字段取值。大多数情况都选择“标准定位”。
(2)定位方法
①选择:按Ctrl点击页面上相应数据的区域。
②扩大选区:按Shift再次点击页面相应区域。
③确认选区:点击“确认选区”按钮,选区生效。

标准定位

clipboard.png

2.特征定位

(1)特征定位含义
当所需数据在不同网页的位置不固定,且数据前后具有特征性文字时,用标准定位容易错位,需要使用特征定位。
举例:对于字符串“作者:*”,采集作者名称时,可用“作者:”作为特征来定位。

(2)特征定位的操作方法

① 选择:按Ctrl点击页面上所需数据的区域。
② 识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征字符串时确认。
③ 点击“确认选区”按钮,选区生效。

(3)特征定位的类型

特征定位分为四种方式:
① 局部关键词
当页面的数据前有特定的关键词,而各个页面的表格内容、各行次序、行数又各不相同时,采用标准定位的方式就会错乱。可以根据表头特征,采集表格后的数据。与全文关键词的区别是,局部关键词只在选定区域的附近采集。
② 全文关键词
根据选定的特征关键词,在全页面采集该特征关键词前后对应的数据,如果出现多个特征关键词,以第一个为主。如果想采集多个的话,可以设定多值。>>查看多值的配置方式
③ 大文本
选定大文本区域后,自动识别各页面的大文本,相比标准定位更加精确。
④ 特殊标签
采集页面中只出现一次的特殊标签,如标题的<h1>标签等。

三,字段清洗方式

在采集数据之前,通过使用字段处理,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。

字段处理

clipboard.png

字段清洗的方式如下:

clipboard.png

字段处理脚本是字段处理中选择“脚本处理”后,通过脚本进一步把需要的数据清洗干净。具体配置方法需要参考脚本文档。

转载地址:http://cdfex.baihongyu.com/

你可能感兴趣的文章
何为敏捷
查看>>
HA集群之四:Corosync+Pacemaker+DRBD实现HA Mysql
查看>>
服务器定义
查看>>
我的友情链接
查看>>
分布式系统的面试题15
查看>>
个人代码库の创建快捷方式
查看>>
由strcat函数引发的C语言中数组和指针问题的思考
查看>>
无锁编程
查看>>
如何在loadrunner中做关联
查看>>
二叉树的六种遍历方法汇总(转)
查看>>
用wxpython制作可以用于 特征筛选gui程序
查看>>
【转载】 [你必须知道的.NET]目录导航
查看>>
数据存储小例
查看>>
C++中构造函数详解
查看>>
电商网站中添加商品到购物车功能模块2017.12.8
查看>>
android 模拟器 hardWare 属性说明
查看>>
六款值得推荐的android(安卓)开源框架简介
查看>>
max_element( )
查看>>
java中的类
查看>>
pthread_create线程创建的过程剖析(转)
查看>>