緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的1篇網絡爬蟲的用戶信息提取方法范文,希望它們能為您的寫作提供參考和啟發。
網絡中有海量的數據,要想快速而精準獲取相應數據,才能對其中的數據進行詳細的分析,數據的獲取需要使用一定的方法。目前獲取數據比較有效的方式當屬網絡爬蟲。也可以稱網絡爬蟲為網絡蜘蛛,抑或網絡信息采集器。網絡爬蟲是一種計算機程序或者自動化的腳本,可以給它制定一種規則,讓其自動的抓取或者下載指定頁面的數據或內容。秦雅琴[1]等人詳細介紹了什么是網絡爬蟲技術,也闡述了其基本內容,總結了各類交通信息獲取方法的研究,從不同方面綜述了國內外應用網絡爬蟲技術解決交通信息獲取問題的研究歷史和現狀。張立鑒[2]認為現有的適合處理結構化數據的應用程序很難直接使用網頁上的數據。可以手動收集數據,并且可以根據預定義的格式對從互聯網收集的各種信息進行分類和轉換。劉多林[3]等人利用網頁爬蟲技術,協助瀏覽器抓取網絡頁面,統計訪問模式和網頁瀏覽內容,獲取歷史行為數據,挖掘用戶感興趣的關聯大數據。陳小彪[4]等人對網絡爬蟲技術原理及其運用進行分解,可以分為數據抓取行為、數據儲存行為、信息提取行為、信息使用行為與信息刪除行為,借助此分類以探討各行為的法律性質其刑法適用。郭嘉[5]等人提出新的大數據下面向網絡用戶資源的資源信息提取方法。對用戶歷史行為進行分析,求用戶間相似度,獲取資源信息提取列表。邱云飛[6]等人提出一種基于Web挖掘技術以網上評論文本為挖掘對象,對用戶個人信息進行自動提取以自動分析用戶行為的改進方法。
1網絡爬蟲工具介紹
利用網絡爬蟲可以快速抓取網頁數據,但在抓取數據的時候,不能過多向網頁發送請求,因為頻繁的抓取數據會給提供數據的服務器造成不良影響[7]。還需要注意,獲取到的數據在使用的時候是否涉及商業利益和法律問題。當下使用最多的當屬八爪魚采集器和WebScraper。
1.1八爪魚采集器
八爪魚采集器[8]是一款基于網頁數據的采集軟件,在使用上簡單易懂,實現的功能也很強大。利用八爪魚采集器可以方便將網頁中的數據按照一定規則轉化為結構化數據,可以以Excel、CSV、HTML、JSON等文件的格式導出,也可以將其導出到數據庫中。八爪魚采集器中可以使用智能模式操作獲取數據,主要的做法是將網址輸入到對應的位置,設置完相應的參數,即可實現全自動的獲取數據操作。它也是目前中國國內第一個一鍵方便快速獲取大數據的采集平臺。八爪魚采集器主要利用了人類的思維模式去配置相應的流程,在操作習慣上也是能滿足用戶的需求。它主要提供自定義模式、向導模式、智能模式、簡易模式四種操作模式,如圖1所示,可以滿足不同用戶的不同需求。很多用戶都喜歡其中的簡易模式,因為操作者只需要選擇對應的模板去設置相應的參數,即可方便快捷獲取想要的數據,大大提高了獲取數據的效率。本文對數據的獲取采用的即是簡易模式。
1.2WebScraper
WebScraper[9]是一個輕量級的谷歌瀏覽器的爬蟲插件,對其他瀏覽器暫不適用。主要用來抓取谷歌瀏覽器中的網絡頁面中的數據,并實現動態的獲取。用戶可以對WebScraper進行相應的參數配置,實現運行,將抓取到的數據以XML或CSV等格式保存下來。WebScraper可以實現對一般數據的爬取需求,也能滿足用戶的操作習慣,因此被廣大用戶所喜愛和使用[10]。
2利用網絡爬蟲獲取數據
2.1利用八爪魚采集器獲取用戶數據
本文主要利用八爪魚采集器的簡易模式進行操作,采集新浪微博中的用戶信息,為網絡中用戶分類分析打下基礎。首先要下載八爪魚APP并注冊個人信息,然后利用注冊的信息進行登錄。進入登錄界面后,在首頁即可清楚的看到熱門采集模板,如天貓、京東、淘寶、今日頭條、微博網頁等。在這里選擇微博網頁選項,打開后看到內置了如微博頭條、微博超話、微博熱搜榜、微博博文評論等13條規則,想要的數據信息基本涵蓋。本文獲取的是微博用戶信息,因此選擇“微博搜索博主”規則。“微博搜索博主”頁面包括了模板介紹、采集字段預覽、采集參數預覽、示例數據信息,方便用戶簡單快速上手。“采集字段預覽”里面包含了獲取的數據字段信息,如用戶名、用戶ID、標簽、簡介、微博數等信息。設置完任務名、任務組、關鍵詞、翻頁次數等信息即可保存并啟動微博搜索博主規則。啟動本地采集后,網頁會按照設定的規則進行數據的采集,中間可以隨時單擊“停止采集”按鈕以完成數據的采集。最后,在采集結束后,可以單擊“導出數據”按鈕將獲取到的數據按照指定格式導出到本地。具體操作流程圖和抓取到的數據
2.2利用WebScraper獲取用戶數據
2.2.1WebScraper使用步驟
由于要用到谷歌瀏覽器,因此電腦的運行內存要足夠大,且網速要足夠好。在電腦上下載并安裝好谷歌瀏覽器,如果網絡足夠好可以到谷歌瀏覽器的網上應用商店下載WebScraper,如果網絡狀況不夠好,也可以到網絡上搜索并下載。下載之后要保存有一個.crx的文件。打開谷歌瀏覽器,在右上角找到三個點,打開找到更多工具里面的擴展程序,將頁面中右上角的開發者模式按鈕打開,將下載并解壓好的WebScraper文件直接拖拽到頁面中,即可完成插件的部署和安裝。
2.2.2WebScraper獲取數據過程
打開需要獲取數據的頁面,單擊鼠標右鍵,在彈出的對話框中選擇“檢查”選項,打開調試窗口,為便于后續的抓取操作和查看,將調試工具欄放在窗口的最下方。單擊菜單的最后一項“WebScraper”,顯示三個子菜單,分別為Sitemaps、Sitemap、Createnewsitemap。單擊第三個子菜單Createnewsitemap,選擇CreateSitemap,創建一個新網站地圖,將要獲取的頁面地址URL輸入到對應位置,并設置一個英文名稱。未添加節點的網站地圖只有一個根節點,因此要為其添加新的選擇器,并給該選擇器取好名稱,因為要抓取的是元素節點,因此要將Type設置為“Element”,由于根節點下還有元素、元素屬性、文本等節點的類型,因此設置完其他選項,在頁面中框選的是一整個條目,里面包含多個元素。接下來再在選擇器里面添加元素,設置相應的屬性,框選相應的位置,即可完成抓取設置。在添加的元素中屬于文本類型的可以進行預覽,查看獲取到的數據。對于完成的選擇器可以再次進行編輯和刪除操作,也可以進行抓取數據的預覽。最后將抓取的數據以.xlsx的格式導出并保存到本地。具體操作流程及抓取到的數據。
3利用Excel對獲取的數據進行整理并分析
以上兩種方式獲取到的數據都可以以.xlsx的格式導出到本地,對得到的數據預先用人工篩選的方式進行整理,刪除掉無用或者重復的數據,對剩余較完整的數據統一保存到一個文檔中,可對相應數據進行分析。本文利用整理好的1300條數據,對微博用戶關注情況、粉絲情況及微博數量進行分析,經過對以上圖表進行分析可以得知,微博中跟關鍵詞“美食”有關的大多數用戶關注了較少的人,擁有的粉絲數也較少,發布的微博數量也不多。
4結束語
當下互聯網技術的發展速度飛快,分析網絡中的大量數據對各行各業的運轉產生一定的積極作用,因此利用搜索引擎技術收集網絡中的數據顯得尤為重要。本文利用了當下最熱門的網絡爬蟲工具八爪魚采集器和WebScraper詳細介紹了抓取微博中用戶信息的過程,為后續分析和研究用戶的行為打下基礎,也為其他行業做好網絡信息安全提供技術支持。
參考文獻:
[1]秦雅琴,馬玲玲.網絡爬蟲技術在交通信息獲取中的應用綜述[J].武漢理工大學學報(交通科學與工程版),2020,44(03):456-461.
[2]張立鑒.淺談網絡爬蟲的網站信息采集技術[J].信息記錄材料,2021,22(07):199-200.
[3]劉多林,呂苗.基于網絡爬蟲結合關聯大數據的用戶信息提取[J].計算機仿真,2021,38(08):482-486.
[4]陳小彪,儲虎.論網絡爬蟲行為的刑法應對[J].河南警察學院學報,2020,29(05):83-92.
[5]郭嘉,郭曉峰,沈建京.關于大數據中用戶資源信息提取仿真研究[J].計算機仿真,2018,35(07):414-417.
[6]邱云飛,王雪,劉大有,等.基于Web評論的用戶個人信息提取方法研究[J].計算機應用與軟件,2012,29(05):44-47+72.
[7]吳虎.基于網絡爬蟲技術的企業社交媒體情報獲取分析[D].黑龍江大學,2017.
[8]吳濤.巧用八爪魚采集器開展政務公開審計[J].審計月刊,2019(11):32-33.
[9]魏少鵬.基于Chrome瀏覽器插件的爬蟲系統[D].東華大學,2016.
[10]KOVIAZINMIKHAIL.可視化網絡爬蟲發展的開發[D].哈爾濱工業大學,2020.
作者:李新煥 單位:江西開放大學江西工程職業學院