首页
第1741章 别被技术细节吓
返回

第1741章 别被技术细节吓住

章节报错(免登陆)
下载APP,无广告、完整阅读

一秒记住【笔趣阁小说网】
biquge678.com,更新快,无弹窗!


    第1741章别被技术细节吓住(第1/2页)
    办公室的白板上写满了字。
    李明的粉笔停在半空,眉头皱成一个疙瘩。
    他转身看向另外四个同伴,又看看坐在会议桌旁的贾瀞雯。
    “贾总,这个‘网页爬虫’的概念……我们研究了三天,还是有点不明白。”他放下粉笔,拍了拍手上的粉灰,“文档上说,要让程序像蜘蛛一样在网上爬,自动发现和收集网页。
    但具体怎么实现?”
    张涛推了推眼镜,翻开陈浩写的技术框架文档:“这里写了一些思路--从几个种子网站开始,提取页面上的链接,然后访问这些链接,再提取新链接。
    理论上可行,但实际做起来问题很多。”
    “什么问题?”贾瀞雯问。
    “比如,有些网站不允许被访问。”说话的是王磊,团队里最年轻的一个,北大研究生在读,“还有,网页格式千奇百怪,怎么准确提取链接?再比如,如果程序陷入死循环怎么办?”
    贾瀞雯点点头。
    这些她也不懂,但她知道该问谁。
    “今天先到这里。”她看看表,“晚上我打电话问问陈总。
    大家继续研究其他部分,分词算法那边有进展吗?”
    张涛摇摇头:“更难。
    英文有空格分隔单词,中文是连在一起的。
    ‘中华人民共和国’怎么分?是‘中华’‘人民’‘共和国’,还是‘中华人民’‘共和国’?不同的分法,意思差别很大。”
    会议室里一阵沉默。
    五个年轻人你看看我,我看看你,都从对方眼里看到同样的困惑--这个项目,比他们想象的要难得多。
    晚上八点,贾瀞雯在办公室拨通了陈浩的电话。
    “喂?”陈浩的声音有点喘,背景里有嘈杂的人声。
    “在忙?”
    “刚下戏,换衣服呢。”陈浩走到安静的地方,“说吧,今天遇到什么问题了?”
    贾瀞雯把白天的讨论复述了一遍。
    陈浩听完,笑了:“正常,这些确实是难点。
    你记一下,我一个个说。”
    贾瀞雯拿起笔。
    “第一,爬虫的伦理问题。
    我们要遵守rObOtS协议,就是网站根目录下的一个文本文件,告诉爬虫哪些页面可以访问,哪些不行。
    这个必须遵守,不然我们会惹麻烦。”
    “第二,网页格式问题。
    现在网页主要是HTML,虽然各家写法不一样,但基本结构是固定的。
    链接都在<ahref=>标签里,用正则表达式可以提取。”
    贾瀞雯打断:“正则表达式是什么?”
    “一种文本匹配的方法。”陈浩解释,“比如你要找所有以‘http://’开头的字符串。
    这个让技术人员去查资料,他们懂。”
    “第三,防止死循环。
    每个访问过的链接都要记录下来,下次遇到就直接跳过。
    还要设置深度限制,不能无限爬下
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭