注册
登录
论坛
搜索
社区银行
帮助
导航
私人消息 (0)
公共消息 (0)
系统消息 (0)
好友消息 (0)
帖子消息 (0)
黑色海岸线论坛
»
网络安全
» 信息采集关键算法
返回列表
发帖
发短消息
加为好友
chinanic
(黑冰cn)
当前离线
巡海头狼
帖子
6440
我的爱好
阅读权限
150
来自
贵州遵义
在线时间
456 小时
总版主
主题
0
积分
854
贝壳
854 个
性别
男
来自
贵州遵义
注册时间
2005-3-26
最后登录
2011-2-26
楼主
跳转到
»
倒序看帖
打印
字体大小:
t
T
chinanic
发表于 2007-5-15 04:43
|
只看该作者
[转载]
信息采集关键算法
//查找单个链结地址
BOOL FindHref(LPCTSTR lpszFind,LPCTSTR lpszString,CString& lpszResult,UINT nLen)
//从整个网页文本中查找所有链结地址
BOOL GetHref(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)
//获取整个网页中的Email地址
BOOL GetEmail(LPCSTR szBuffer,LPCSTR szfind, CStringList& list)
//获取网页中的正文
BOOL GetHTMLText(LPCSTR szBuffer, CStringList& list)
//将网页中的正文拼成字符串返回
CString GetHTMLText(CString sStr)
//判断一行文本是否为空行
bool isBlankLine(char *line)
//过滤掉正文中的空行
CString FilterBlankLine(CString sStr)
//由于网页中链结往往有重复的,因此要用函数去除重复链结,当然也可以在找链结的时候就抛弃重复的
void FilterList(CStringList &list)
//根据前后关键字获取信息文本,例如从文本中获取“标题”,“联系人”关键字之间的文本
CString FilterByMark(CString sStr,CString mark1,CString mark2)
//按关键字过滤掉多余空格,例如按关键字“邮件”可把文本中“邮 件”中的多余空格全部剔除,便于
进行下一步采集信息
CString FilterSpaceByMark(CString sStr,CString mark)
收藏
分享
天行健,君子以自强不息
地势坤,君子以厚德载物
黑色海岸线欢迎您
QQ群:7212260
致力于探索WEB技术精髓:http://www.bitechcn.com
点这里加我!
发短消息
加为好友
花无缺
(admin)
当前离线
第八野战排
帖子
1133
我的爱好
阅读权限
100
来自
黑色海岸线
在线时间
235 小时
大版主
主题
0
积分
2
贝壳
2 个
性别
男
来自
黑色海岸线
注册时间
2004-5-25
最后登录
2010-5-18
沙发
花无缺
发表于 2007-5-23 15:30
|
只看该作者
收到
我的博客,大家都来顶顶哦>>>>>>>>>>>
TOP
返回列表
回复
发帖
使用交流
网络安全
网络技术
娱乐休闲
灌水乐园
文学天地
美图欣赏
网站办公
站务处理
[收藏此主题]
[关注此主题的新回复]
[通过 QQ、MSN 分享给朋友]