網(wǎng)絡(luò)爬蟲的用戶信息提取方法

時(shí)間：2023-03-21 09:37:41

緒論：寫作既是個(gè)人情感的抒發(fā)，也是對(duì)學(xué)術(shù)真理的探索，歡迎閱讀由發(fā)表云整理的1篇網(wǎng)絡(luò)爬蟲的用戶信息提取方法范文，希望它們能為您的寫作提供參考和啟發(fā)。

網(wǎng)絡(luò)中有海量的數(shù)據(jù)，要想快速而精準(zhǔn)獲取相應(yīng)數(shù)據(jù)，才能對(duì)其中的數(shù)據(jù)進(jìn)行詳細(xì)的分析，數(shù)據(jù)的獲取需要使用一定的方法。目前獲取數(shù)據(jù)比較有效的方式當(dāng)屬網(wǎng)絡(luò)爬蟲。也可以稱網(wǎng)絡(luò)爬蟲為網(wǎng)絡(luò)蜘蛛，抑或網(wǎng)絡(luò)信息采集器。網(wǎng)絡(luò)爬蟲是一種計(jì)算機(jī)程序或者自動(dòng)化的腳本，可以給它制定一種規(guī)則，讓其自動(dòng)的抓取或者下載指定頁面的數(shù)據(jù)或內(nèi)容。秦雅琴[1]等人詳細(xì)介紹了什么是網(wǎng)絡(luò)爬蟲技術(shù)，也闡述了其基本內(nèi)容，總結(jié)了各類交通信息獲取方法的研究，從不同方面綜述了國(guó)內(nèi)外應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)解決交通信息獲取問題的研究歷史和現(xiàn)狀。張立鑒[2]認(rèn)為現(xiàn)有的適合處理結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序很難直接使用網(wǎng)頁上的數(shù)據(jù)。可以手動(dòng)收集數(shù)據(jù)，并且可以根據(jù)預(yù)定義的格式對(duì)從互聯(lián)網(wǎng)收集的各種信息進(jìn)行分類和轉(zhuǎn)換。劉多林[3]等人利用網(wǎng)頁爬蟲技術(shù)，協(xié)助瀏覽器抓取網(wǎng)絡(luò)頁面，統(tǒng)計(jì)訪問模式和網(wǎng)頁瀏覽內(nèi)容，獲取歷史行為數(shù)據(jù)，挖掘用戶感興趣的關(guān)聯(lián)大數(shù)據(jù)。陳小彪[4]等人對(duì)網(wǎng)絡(luò)爬蟲技術(shù)原理及其運(yùn)用進(jìn)行分解，可以分為數(shù)據(jù)抓取行為、數(shù)據(jù)儲(chǔ)存行為、信息提取行為、信息使用行為與信息刪除行為，借助此分類以探討各行為的法律性質(zhì)其刑法適用。郭嘉[5]等人提出新的大數(shù)據(jù)下面向網(wǎng)絡(luò)用戶資源的資源信息提取方法。對(duì)用戶歷史行為進(jìn)行分析，求用戶間相似度，獲取資源信息提取列表。邱云飛[6]等人提出一種基于Web挖掘技術(shù)以網(wǎng)上評(píng)論文本為挖掘?qū)ο螅瑢?duì)用戶個(gè)人信息進(jìn)行自動(dòng)提取以自動(dòng)分析用戶行為的改進(jìn)方法。

1網(wǎng)絡(luò)爬蟲工具介紹

利用網(wǎng)絡(luò)爬蟲可以快速抓取網(wǎng)頁數(shù)據(jù)，但在抓取數(shù)據(jù)的時(shí)候，不能過多向網(wǎng)頁發(fā)送請(qǐng)求，因?yàn)轭l繁的抓取數(shù)據(jù)會(huì)給提供數(shù)據(jù)的服務(wù)器造成不良影響[7]。還需要注意，獲取到的數(shù)據(jù)在使用的時(shí)候是否涉及商業(yè)利益和法律問題。當(dāng)下使用最多的當(dāng)屬八爪魚采集器和WebScraper。

1.1八爪魚采集器

八爪魚采集器[8]是一款基于網(wǎng)頁數(shù)據(jù)的采集軟件，在使用上簡(jiǎn)單易懂，實(shí)現(xiàn)的功能也很強(qiáng)大。利用八爪魚采集器可以方便將網(wǎng)頁中的數(shù)據(jù)按照一定規(guī)則轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)，可以以Excel、CSV、HTML、JSON等文件的格式導(dǎo)出，也可以將其導(dǎo)出到數(shù)據(jù)庫(kù)中。八爪魚采集器中可以使用智能模式操作獲取數(shù)據(jù)，主要的做法是將網(wǎng)址輸入到對(duì)應(yīng)的位置，設(shè)置完相應(yīng)的參數(shù)，即可實(shí)現(xiàn)全自動(dòng)的獲取數(shù)據(jù)操作。它也是目前中國(guó)國(guó)內(nèi)第一個(gè)一鍵方便快速獲取大數(shù)據(jù)的采集平臺(tái)。八爪魚采集器主要利用了人類的思維模式去配置相應(yīng)的流程，在操作習(xí)慣上也是能滿足用戶的需求。它主要提供自定義模式、向?qū)Ｊ健⒅悄苣Ｊ健⒑?jiǎn)易模式四種操作模式，如圖1所示，可以滿足不同用戶的不同需求。很多用戶都喜歡其中的簡(jiǎn)易模式，因?yàn)椴僮髡咧恍枰x擇對(duì)應(yīng)的模板去設(shè)置相應(yīng)的參數(shù)，即可方便快捷獲取想要的數(shù)據(jù)，大大提高了獲取數(shù)據(jù)的效率。本文對(duì)數(shù)據(jù)的獲取采用的即是簡(jiǎn)易模式。

1.2WebScraper

WebScraper[9]是一個(gè)輕量級(jí)的谷歌瀏覽器的爬蟲插件，對(duì)其他瀏覽器暫不適用。主要用來抓取谷歌瀏覽器中的網(wǎng)絡(luò)頁面中的數(shù)據(jù)，并實(shí)現(xiàn)動(dòng)態(tài)的獲取。用戶可以對(duì)WebScraper進(jìn)行相應(yīng)的參數(shù)配置，實(shí)現(xiàn)運(yùn)行，將抓取到的數(shù)據(jù)以XML或CSV等格式保存下來。WebScraper可以實(shí)現(xiàn)對(duì)一般數(shù)據(jù)的爬取需求，也能滿足用戶的操作習(xí)慣，因此被廣大用戶所喜愛和使用[10]。

2利用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)

2.1利用八爪魚采集器獲取用戶數(shù)據(jù)

本文主要利用八爪魚采集器的簡(jiǎn)易模式進(jìn)行操作，采集新浪微博中的用戶信息，為網(wǎng)絡(luò)中用戶分類分析打下基礎(chǔ)。首先要下載八爪魚APP并注冊(cè)個(gè)人信息，然后利用注冊(cè)的信息進(jìn)行登錄。進(jìn)入登錄界面后，在首頁即可清楚的看到熱門采集模板，如天貓、京東、淘寶、今日頭條、微博網(wǎng)頁等。在這里選擇微博網(wǎng)頁選項(xiàng)，打開后看到內(nèi)置了如微博頭條、微博超話、微博熱搜榜、微博博文評(píng)論等13條規(guī)則，想要的數(shù)據(jù)信息基本涵蓋。本文獲取的是微博用戶信息，因此選擇“微博搜索博主”規(guī)則。“微博搜索博主”頁面包括了模板介紹、采集字段預(yù)覽、采集參數(shù)預(yù)覽、示例數(shù)據(jù)信息，方便用戶簡(jiǎn)單快速上手。“采集字段預(yù)覽”里面包含了獲取的數(shù)據(jù)字段信息，如用戶名、用戶ID、標(biāo)簽、簡(jiǎn)介、微博數(shù)等信息。設(shè)置完任務(wù)名、任務(wù)組、關(guān)鍵詞、翻頁次數(shù)等信息即可保存并啟動(dòng)微博搜索博主規(guī)則。啟動(dòng)本地采集后，網(wǎng)頁會(huì)按照設(shè)定的規(guī)則進(jìn)行數(shù)據(jù)的采集，中間可以隨時(shí)單擊“停止采集”按鈕以完成數(shù)據(jù)的采集。最后，在采集結(jié)束后，可以單擊“導(dǎo)出數(shù)據(jù)”按鈕將獲取到的數(shù)據(jù)按照指定格式導(dǎo)出到本地。具體操作流程圖和抓取到的數(shù)據(jù)

2.2利用WebScraper獲取用戶數(shù)據(jù)

2.2.1WebScraper使用步驟

由于要用到谷歌瀏覽器，因此電腦的運(yùn)行內(nèi)存要足夠大，且網(wǎng)速要足夠好。在電腦上下載并安裝好谷歌瀏覽器，如果網(wǎng)絡(luò)足夠好可以到谷歌瀏覽器的網(wǎng)上應(yīng)用商店下載WebScraper，如果網(wǎng)絡(luò)狀況不夠好，也可以到網(wǎng)絡(luò)上搜索并下載。下載之后要保存有一個(gè).crx的文件。打開谷歌瀏覽器，在右上角找到三個(gè)點(diǎn)，打開找到更多工具里面的擴(kuò)展程序，將頁面中右上角的開發(fā)者模式按鈕打開，將下載并解壓好的WebScraper文件直接拖拽到頁面中，即可完成插件的部署和安裝。

2.2.2WebScraper獲取數(shù)據(jù)過程

打開需要獲取數(shù)據(jù)的頁面，單擊鼠標(biāo)右鍵，在彈出的對(duì)話框中選擇“檢查”選項(xiàng)，打開調(diào)試窗口，為便于后續(xù)的抓取操作和查看，將調(diào)試工具欄放在窗口的最下方。單擊菜單的最后一項(xiàng)“WebScraper”，顯示三個(gè)子菜單，分別為Sitemaps、Sitemap、Createnewsitemap。單擊第三個(gè)子菜單Createnewsitemap，選擇CreateSitemap，創(chuàng)建一個(gè)新網(wǎng)站地圖，將要獲取的頁面地址URL輸入到對(duì)應(yīng)位置，并設(shè)置一個(gè)英文名稱。未添加節(jié)點(diǎn)的網(wǎng)站地圖只有一個(gè)根節(jié)點(diǎn)，因此要為其添加新的選擇器，并給該選擇器取好名稱，因?yàn)橐ト〉氖窃毓?jié)點(diǎn)，因此要將Type設(shè)置為“Element”，由于根節(jié)點(diǎn)下還有元素、元素屬性、文本等節(jié)點(diǎn)的類型，因此設(shè)置完其他選項(xiàng)，在頁面中框選的是一整個(gè)條目，里面包含多個(gè)元素。接下來再在選擇器里面添加元素，設(shè)置相應(yīng)的屬性，框選相應(yīng)的位置，即可完成抓取設(shè)置。在添加的元素中屬于文本類型的可以進(jìn)行預(yù)覽，查看獲取到的數(shù)據(jù)。對(duì)于完成的選擇器可以再次進(jìn)行編輯和刪除操作，也可以進(jìn)行抓取數(shù)據(jù)的預(yù)覽。最后將抓取的數(shù)據(jù)以.xlsx的格式導(dǎo)出并保存到本地。具體操作流程及抓取到的數(shù)據(jù)。

3利用Excel對(duì)獲取的數(shù)據(jù)進(jìn)行整理并分析

以上兩種方式獲取到的數(shù)據(jù)都可以以.xlsx的格式導(dǎo)出到本地，對(duì)得到的數(shù)據(jù)預(yù)先用人工篩選的方式進(jìn)行整理，刪除掉無用或者重復(fù)的數(shù)據(jù)，對(duì)剩余較完整的數(shù)據(jù)統(tǒng)一保存到一個(gè)文檔中，可對(duì)相應(yīng)數(shù)據(jù)進(jìn)行分析。本文利用整理好的1300條數(shù)據(jù)，對(duì)微博用戶關(guān)注情況、粉絲情況及微博數(shù)量進(jìn)行分析，經(jīng)過對(duì)以上圖表進(jìn)行分析可以得知，微博中跟關(guān)鍵詞“美食”有關(guān)的大多數(shù)用戶關(guān)注了較少的人，擁有的粉絲數(shù)也較少，發(fā)布的微博數(shù)量也不多。

4結(jié)束語

當(dāng)下互聯(lián)網(wǎng)技術(shù)的發(fā)展速度飛快，分析網(wǎng)絡(luò)中的大量數(shù)據(jù)對(duì)各行各業(yè)的運(yùn)轉(zhuǎn)產(chǎn)生一定的積極作用，因此利用搜索引擎技術(shù)收集網(wǎng)絡(luò)中的數(shù)據(jù)顯得尤為重要。本文利用了當(dāng)下最熱門的網(wǎng)絡(luò)爬蟲工具八爪魚采集器和WebScraper詳細(xì)介紹了抓取微博中用戶信息的過程，為后續(xù)分析和研究用戶的行為打下基礎(chǔ)，也為其他行業(yè)做好網(wǎng)絡(luò)信息安全提供技術(shù)支持。

參考文獻(xiàn)：

[1]秦雅琴，馬玲玲.網(wǎng)絡(luò)爬蟲技術(shù)在交通信息獲取中的應(yīng)用綜述[J].武漢理工大學(xué)學(xué)報(bào)（交通科學(xué)與工程版），2020，44（03）：456-461.

[2]張立鑒.淺談網(wǎng)絡(luò)爬蟲的網(wǎng)站信息采集技術(shù)[J].信息記錄材料，2021，22（07）：199-200.

[3]劉多林，呂苗.基于網(wǎng)絡(luò)爬蟲結(jié)合關(guān)聯(lián)大數(shù)據(jù)的用戶信息提取[J].計(jì)算機(jī)仿真，2021，38（08）：482-486.

[4]陳小彪，儲(chǔ)虎.論網(wǎng)絡(luò)爬蟲行為的刑法應(yīng)對(duì)[J].河南警察學(xué)院學(xué)報(bào)，2020，29（05）：83-92.

[5]郭嘉，郭曉峰，沈建京.關(guān)于大數(shù)據(jù)中用戶資源信息提取仿真研究[J].計(jì)算機(jī)仿真，2018，35（07）：414-417.

[6]邱云飛，王雪，劉大有，等.基于Web評(píng)論的用戶個(gè)人信息提取方法研究[J].計(jì)算機(jī)應(yīng)用與軟件，2012，29（05）：44-47+72.

[7]吳虎.基于網(wǎng)絡(luò)爬蟲技術(shù)的企業(yè)社交媒體情報(bào)獲取分析[D].黑龍江大學(xué)，2017.

[8]吳濤.巧用八爪魚采集器開展政務(wù)公開審計(jì)[J].審計(jì)月刊，2019（11）：32-33.

[9]魏少鵬.基于Chrome瀏覽器插件的爬蟲系統(tǒng)[D].東華大學(xué)，2016.

[10]KOVIAZINMIKHAIL.可視化網(wǎng)絡(luò)爬蟲發(fā)展的開發(fā)[D].哈爾濱工業(yè)大學(xué)，2020.

作者：李新煥單位：江西開放大學(xué)江西工程職業(yè)學(xué)院

上一篇文化產(chǎn)業(yè)高質(zhì)量發(fā)展下一篇順豐盈利能力分析

返回列表

網(wǎng)絡(luò)爬蟲的用戶信息提取方法

精選范文