您的位置:首页 >  新闻中心 > 开发者专区
  开发者专区
 

网络爬虫无孔不入,不经意间让你的隐私无处安放

来源:原创    时间:2018-03-03    浏览:0 次

         一位朋友曾困惑地问:“据说谷歌可以搜索私人邮件,真的吗?”“在你回答之前,你需要解释一下网络爬虫的作用”。如今,搜索引擎已经成为上网冲浪的标准,甚至“不问百度”。外事不问谷歌:“搜索引擎可以根据用户的需要提供丰富的在线信息。与传统的纸质信息媒体相比,搜索引擎从根本上改变了人们获取和处理信息的习惯。它基于一个收集大量网络信息的网络爬虫。在搜索引擎的早期,程序员的小兄弟们互相炫耀的指标之一,就是他们自己的爬虫收集的网页数量。

blob.png

        搜索引擎收集在线信息的主要手段是网络爬虫(也称为网络蜘蛛、网络机器人等)。这是一个程序,“自动浏览网页”,根据一定的规则。自动抓取互联网信息,如:网页、各种文档、图片、音频、视频等。搜索引擎通过索引技术组织这些信息,并根据用户的查询快速提供搜索结果。如果互联网上的网页或网站被理解为节点,那么大量的网页或网站将通过超链接形成网格结构。当人们浏览网页时,他们通过点击页面上的链接从一个节点跳到另一个节点。
        就像在网上散步。网络爬虫模拟了这种行为,但是它更快,跳的节点更全面,所以它们被生动地称为网络爬虫或网络蜘蛛。不断优化的网络爬虫技术有效地应对了各种挑战,为有效搜索用户关注的特定领域和主题提供了强有力的支持,并为推广中小型网站提供了一种有效的途径。该网站是针对搜索引擎爬虫的优化曾经非常流行。
   需要注意的是,Web爬虫开始从一些初始Web页面(URL)抓取页面,并在此过程中继续从当前页面中提取新链接供爬行,并来回循环以扩展到整个网络。为搜索引擎或大型网络服务提供商收集数据。网络爬虫的爬行范围和数量都很大,爬行速度和存储空间都很大。同时,因为有很多页面需要刷新,所以通常是并行的。这是一个常见的爬虫框架。首先,仔细选择一些网页,并使用这些页面的链接地址作为种子URL放入要获取的URL队列中。
        爬虫依次从URL队列读取每个URL,通过DNS解析将其解析到相应的IP地址。一方面,下载的内容存储在数据库中,等待后续处理;另一方面,将页面的URL添加到爬行队列中(此队列记录下载的页面URL以避免重复爬行)。此外,如果链接未被获取,则从新下载的页面中提取新的URL。添加到要获取的URL队列,并在以后的计划中下载相应的页面。这个循环来回循环,直到要获取的URL队列为空(实际上不是空的。
       将有其他条件来停止爬行,这表示完成了完整的爬行过程。这是一个通用爬虫的整个过程。由于互联网上的网页数量如此之多,所以在实践中往往会有不同的爬行策略。常用的策略有:深度优先策略、广度优先策略。
        一个典型的网页层次关系通常就像一棵树,如果主页被认为是树的根,那么其他的网页就会在树枝上留下。具体来说,深度优先策略是垂直爬行,逐个分支,然后依次访问页面的下一个级别,直到您不能更进一步为止。返回到上一个链接节点以搜索其他分支。当遍历所有分支时,爬行任务就会结束。这种策略更适合于垂直搜索或站内搜索.。
        但是,爬行一个内容层次更深的网站会造成资源的巨大浪费。)广度优先策略是水平地、一个接一个地爬行,然后在较低的层次上先爬行。在一定层次上对所有页面进行爬行时,该策略可以有效地控制页面的爬行深度,避免了不能以无限深的分支结束爬行的问题。爬虫技术也面临着一系列的困难,如:大量的重复网页在互联网上,动态页面,动画特效页面等。现有的搜索引擎只能爬行互联网上的网页总数的一半,而极限估计值不到16个。
          坚持在这里看到宝宝问,无聊的技术结束了吗?爬行动物有什么用?众所周知,许多电子商务平台都具有价格自动调整的功能。他们将依靠爬虫程序扫描类似网站的价格,并相应地调整它们,从而获得价格优势。例如,苏宁的“棱镜”系统是一个实时的价格比较工具。它使用网络爬虫来获取其他电子商务平台上同类产品的价格、促销、评论和其他产品的信息。这对商人来说是个极大的方便。事实上,自从亚马逊在十多年前推出这种自动定价模式以来,机器人驱动的定价已经彻底改变了整个零售业。零售商店每周最多调整一次价格,因为更换标签的成本和时间成本都很高。
        在电子商务世界里,零售商可以随时调整价格,有时一天调整几次.。这是由于相互竞争的价格数据。在电子商务中,爬虫的使用已经成为一种猫捉老鼠的游戏.。公司希望阻止竞争对手爬上他们的网站。另一方面,我想渗透我对手的网站。尽管采取了各种技术措施,但机器人爬行的数量仍然令人震惊。
        除了竞争对手,一些流量来自研究机构,研究竞争,搜索引擎,广告服务,甚至非法分子试图侵入网站帐户。在这里,我们必须谈谈网络爬虫的安全性。因为网络爬虫的策略是尽可能地“抓取”更多的高价值信息。根据特定的策略访问尽可能多的页面,这将占用网络带宽,增加网络服务器的处理开销。许多小型网站管理员发现,当网络爬虫光顾时,访问流量将明显增加。
例如,有一个10 MB的网站(如PDF格式)文件,该文件使用爬虫1000次,将使网站产生大量出站流量(可在几分钟内达到GB级),后果可能是灾难性的。一旦这种攻击效果达到了类似的熟人。声名狼藉的DDoS攻击,使Web服务在获取大量暴力、资源枯竭的同时停止提供服务。此外,恶意用户还可以通过Web爬虫对所有敏感数据进行不正当的抓取,主要表现在以下几个方面:(1)网站入侵,大部分基于Web服务的系统都附加到测试页面和调试后门。
        通过这些页面或程序甚至可以绕过认证服务器敏感的数据,已经成为恶意用户分析攻击的有效信息源。文件存储本身就意味着网站中存在潜在的安全漏洞。(2)搜索管理员登录页面,许多在线管理系统提供了一个基于Web的界面,使管理员能够远程控制和管理管理员。
        如果管理员登录页面被恶意用户搜索,将面临巨大的威胁(3)搜索互联网用户的个人信息,包括姓名、ID号、电话号码、电子邮件地址、QQ地址等个人信息,恶意用户可能在实施攻击或欺诈后获得。因此,采取适当措施限制对网页爬虫的访问,推广网页打开网页爬虫,屏蔽敏感,维护网站的安全运行,保护用户的隐私是非常重要的。所以,在正常情况下不应该被谷歌抓取一条私密消息,但不排除特例,因为服务器管理漏洞和信息可能会被泄露。
        要想看到最后的孩子们,一定要鼓励他们推荐一个叫“黑暗”谷歌的Shodan搜索引擎,它也被称为世界上最糟糕的搜索引擎。它与一般的搜索引擎相比,可在互联网路由器、摄像头、数据采集和打印机监控系统上找到,并根据各自的国家、操作系统、分类等品牌属性进行分类。如果谷歌和百度搜索网页内容,那么就是网络设备的搜索,应用探究物联网中的场景。