大數據時代的信息獲取

2019-10-21 09:20 來源:算法與編程之美
瀏覽量: 收藏:0 分享

  為什么要學習爬蟲?

  人們最初,信息獲取的方式單一,但是獲取信息的準確性更加的高。互聯網時代,亦是大數據時代。新時代的數據有以下幾點基本特征,數據量大、類型繁多、價值密度低、速度快、時效高。所以,我們在獲取信息的時候,往往會得到很多的廢物信息。就像我想長胖,打開百度一搜,各種各樣的內容都會有,甚至有一半的廣告。這就是信息量的龐大,不利于我們對信息的分析利用。

  為此,爬蟲技術就誕生了。來自百度百科的解釋:網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。爬蟲技術就是為了更好給我們提供數據分析。

  Python是爬蟲最強大的語言要掌握爬蟲這個技術,有很長的路要走,主要會用到:

  1. Python基礎語法學習(基礎知識);

  2. HTML頁面的內容抓取(數據抓取);

  3. HTML頁面的數據提取(數據清洗);

  4. Scrapy框架以及scrapy-redis分布式策略(第三方框架);

  6. 爬蟲(Spider)、反爬蟲(Anti-Spider)、反反爬蟲(Anti-Anti-Spider)之間的斗爭。

  爬蟲分類

  爬蟲通常分為以下幾類:

image.png

  基本思路

  爬蟲的基本思路:

image.png

  示例

  import requests

  from bs4 import BeautifulSoup

  #確定待爬取url

  url="http://www.mafengwo.cn/wenda/ "

  #網頁請求

  response=requests.get(url)

  response.encoding='utf-8'

  html=response.text

  #問答標題提取

  soup=BeautifulSoup(html,features="lxml")

  title=soup.select('div class').get_text()

  #結果存儲

  with open('topic.txt','w',encoding='utf-8')as f:

  f.write(title)

  附:

  Python爬蟲涉及的第三方庫:Beautiful Soup。關于該庫的基本知識及安裝方法,詳見同期文章《人工智能|庫里那些事兒》

標簽:

責任編輯:bozhihua
在線客服
香港频果报彩图