<dfn id="a4kkq"></dfn>
<ul id="a4kkq"></ul>
    • 網(wǎng)絡(luò)爬蟲的用戶信息提取方法

      時(shí)間:2023-03-21 09:37:41

      緒論:寫作既是個(gè)人情感的抒發(fā),也是對(duì)學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的1篇網(wǎng)絡(luò)爬蟲的用戶信息提取方法范文,希望它們能為您的寫作提供參考和啟發(fā)。

      網(wǎng)絡(luò)爬蟲的用戶信息提取方法

      網(wǎng)絡(luò)中有海量的數(shù)據(jù),要想快速而精準(zhǔn)獲取相應(yīng)數(shù)據(jù),才能對(duì)其中的數(shù)據(jù)進(jìn)行詳細(xì)的分析,數(shù)據(jù)的獲取需要使用一定的方法。目前獲取數(shù)據(jù)比較有效的方式當(dāng)屬網(wǎng)絡(luò)爬蟲。也可以稱網(wǎng)絡(luò)爬蟲為網(wǎng)絡(luò)蜘蛛,抑或網(wǎng)絡(luò)信息采集器。網(wǎng)絡(luò)爬蟲是一種計(jì)算機(jī)程序或者自動(dòng)化的腳本,可以給它制定一種規(guī)則,讓其自動(dòng)的抓取或者下載指定頁面的數(shù)據(jù)或內(nèi)容。秦雅琴[1]等人詳細(xì)介紹了什么是網(wǎng)絡(luò)爬蟲技術(shù),也闡述了其基本內(nèi)容,總結(jié)了各類交通信息獲取方法的研究,從不同方面綜述了國(guó)內(nèi)外應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)解決交通信息獲取問題的研究歷史和現(xiàn)狀。張立鑒[2]認(rèn)為現(xiàn)有的適合處理結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序很難直接使用網(wǎng)頁上的數(shù)據(jù)。可以手動(dòng)收集數(shù)據(jù),并且可以根據(jù)預(yù)定義的格式對(duì)從互聯(lián)網(wǎng)收集的各種信息進(jìn)行分類和轉(zhuǎn)換。劉多林[3]等人利用網(wǎng)頁爬蟲技術(shù),協(xié)助瀏覽器抓取網(wǎng)絡(luò)頁面,統(tǒng)計(jì)訪問模式和網(wǎng)頁瀏覽內(nèi)容,獲取歷史行為數(shù)據(jù),挖掘用戶感興趣的關(guān)聯(lián)大數(shù)據(jù)。陳小彪[4]等人對(duì)網(wǎng)絡(luò)爬蟲技術(shù)原理及其運(yùn)用進(jìn)行分解,可以分為數(shù)據(jù)抓取行為、數(shù)據(jù)儲(chǔ)存行為、信息提取行為、信息使用行為與信息刪除行為,借助此分類以探討各行為的法律性質(zhì)其刑法適用。郭嘉[5]等人提出新的大數(shù)據(jù)下面向網(wǎng)絡(luò)用戶資源的資源信息提取方法。對(duì)用戶歷史行為進(jìn)行分析,求用戶間相似度,獲取資源信息提取列表。邱云飛[6]等人提出一種基于Web挖掘技術(shù)以網(wǎng)上評(píng)論文本為挖掘?qū)ο螅瑢?duì)用戶個(gè)人信息進(jìn)行自動(dòng)提取以自動(dòng)分析用戶行為的改進(jìn)方法。

      1網(wǎng)絡(luò)爬蟲工具介紹

      利用網(wǎng)絡(luò)爬蟲可以快速抓取網(wǎng)頁數(shù)據(jù),但在抓取數(shù)據(jù)的時(shí)候,不能過多向網(wǎng)頁發(fā)送請(qǐng)求,因?yàn)轭l繁的抓取數(shù)據(jù)會(huì)給提供數(shù)據(jù)的服務(wù)器造成不良影響[7]。還需要注意,獲取到的數(shù)據(jù)在使用的時(shí)候是否涉及商業(yè)利益和法律問題。當(dāng)下使用最多的當(dāng)屬八爪魚采集器和WebScraper。

      1.1八爪魚采集器

      八爪魚采集器[8]是一款基于網(wǎng)頁數(shù)據(jù)的采集軟件,在使用上簡(jiǎn)單易懂,實(shí)現(xiàn)的功能也很強(qiáng)大。利用八爪魚采集器可以方便將網(wǎng)頁中的數(shù)據(jù)按照一定規(guī)則轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),可以以Excel、CSV、HTML、JSON等文件的格式導(dǎo)出,也可以將其導(dǎo)出到數(shù)據(jù)庫(kù)中。八爪魚采集器中可以使用智能模式操作獲取數(shù)據(jù),主要的做法是將網(wǎng)址輸入到對(duì)應(yīng)的位置,設(shè)置完相應(yīng)的參數(shù),即可實(shí)現(xiàn)全自動(dòng)的獲取數(shù)據(jù)操作。它也是目前中國(guó)國(guó)內(nèi)第一個(gè)一鍵方便快速獲取大數(shù)據(jù)的采集平臺(tái)。八爪魚采集器主要利用了人類的思維模式去配置相應(yīng)的流程,在操作習(xí)慣上也是能滿足用戶的需求。它主要提供自定義模式、向?qū)J健⒅悄苣J健⒑?jiǎn)易模式四種操作模式,如圖1所示,可以滿足不同用戶的不同需求。很多用戶都喜歡其中的簡(jiǎn)易模式,因?yàn)椴僮髡咧恍枰x擇對(duì)應(yīng)的模板去設(shè)置相應(yīng)的參數(shù),即可方便快捷獲取想要的數(shù)據(jù),大大提高了獲取數(shù)據(jù)的效率。本文對(duì)數(shù)據(jù)的獲取采用的即是簡(jiǎn)易模式。

      1.2WebScraper

      WebScraper[9]是一個(gè)輕量級(jí)的谷歌瀏覽器的爬蟲插件,對(duì)其他瀏覽器暫不適用。主要用來抓取谷歌瀏覽器中的網(wǎng)絡(luò)頁面中的數(shù)據(jù),并實(shí)現(xiàn)動(dòng)態(tài)的獲取。用戶可以對(duì)WebScraper進(jìn)行相應(yīng)的參數(shù)配置,實(shí)現(xiàn)運(yùn)行,將抓取到的數(shù)據(jù)以XML或CSV等格式保存下來。WebScraper可以實(shí)現(xiàn)對(duì)一般數(shù)據(jù)的爬取需求,也能滿足用戶的操作習(xí)慣,因此被廣大用戶所喜愛和使用[10]。

      2利用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)

      2.1利用八爪魚采集器獲取用戶數(shù)據(jù)

      本文主要利用八爪魚采集器的簡(jiǎn)易模式進(jìn)行操作,采集新浪微博中的用戶信息,為網(wǎng)絡(luò)中用戶分類分析打下基礎(chǔ)。首先要下載八爪魚APP并注冊(cè)個(gè)人信息,然后利用注冊(cè)的信息進(jìn)行登錄。進(jìn)入登錄界面后,在首頁即可清楚的看到熱門采集模板,如天貓、京東、淘寶、今日頭條、微博網(wǎng)頁等。在這里選擇微博網(wǎng)頁選項(xiàng),打開后看到內(nèi)置了如微博頭條、微博超話、微博熱搜榜、微博博文評(píng)論等13條規(guī)則,想要的數(shù)據(jù)信息基本涵蓋。本文獲取的是微博用戶信息,因此選擇“微博搜索博主”規(guī)則。“微博搜索博主”頁面包括了模板介紹、采集字段預(yù)覽、采集參數(shù)預(yù)覽、示例數(shù)據(jù)信息,方便用戶簡(jiǎn)單快速上手。“采集字段預(yù)覽”里面包含了獲取的數(shù)據(jù)字段信息,如用戶名、用戶ID、標(biāo)簽、簡(jiǎn)介、微博數(shù)等信息。設(shè)置完任務(wù)名、任務(wù)組、關(guān)鍵詞、翻頁次數(shù)等信息即可保存并啟動(dòng)微博搜索博主規(guī)則。啟動(dòng)本地采集后,網(wǎng)頁會(huì)按照設(shè)定的規(guī)則進(jìn)行數(shù)據(jù)的采集,中間可以隨時(shí)單擊“停止采集”按鈕以完成數(shù)據(jù)的采集。最后,在采集結(jié)束后,可以單擊“導(dǎo)出數(shù)據(jù)”按鈕將獲取到的數(shù)據(jù)按照指定格式導(dǎo)出到本地。具體操作流程圖和抓取到的數(shù)據(jù)

      2.2利用WebScraper獲取用戶數(shù)據(jù)

      2.2.1WebScraper使用步驟

      由于要用到谷歌瀏覽器,因此電腦的運(yùn)行內(nèi)存要足夠大,且網(wǎng)速要足夠好。在電腦上下載并安裝好谷歌瀏覽器,如果網(wǎng)絡(luò)足夠好可以到谷歌瀏覽器的網(wǎng)上應(yīng)用商店下載WebScraper,如果網(wǎng)絡(luò)狀況不夠好,也可以到網(wǎng)絡(luò)上搜索并下載。下載之后要保存有一個(gè).crx的文件。打開谷歌瀏覽器,在右上角找到三個(gè)點(diǎn),打開找到更多工具里面的擴(kuò)展程序,將頁面中右上角的開發(fā)者模式按鈕打開,將下載并解壓好的WebScraper文件直接拖拽到頁面中,即可完成插件的部署和安裝。

      2.2.2WebScraper獲取數(shù)據(jù)過程

      打開需要獲取數(shù)據(jù)的頁面,單擊鼠標(biāo)右鍵,在彈出的對(duì)話框中選擇“檢查”選項(xiàng),打開調(diào)試窗口,為便于后續(xù)的抓取操作和查看,將調(diào)試工具欄放在窗口的最下方。單擊菜單的最后一項(xiàng)“WebScraper”,顯示三個(gè)子菜單,分別為Sitemaps、Sitemap、Createnewsitemap。單擊第三個(gè)子菜單Createnewsitemap,選擇CreateSitemap,創(chuàng)建一個(gè)新網(wǎng)站地圖,將要獲取的頁面地址URL輸入到對(duì)應(yīng)位置,并設(shè)置一個(gè)英文名稱。未添加節(jié)點(diǎn)的網(wǎng)站地圖只有一個(gè)根節(jié)點(diǎn),因此要為其添加新的選擇器,并給該選擇器取好名稱,因?yàn)橐ト〉氖窃毓?jié)點(diǎn),因此要將Type設(shè)置為“Element”,由于根節(jié)點(diǎn)下還有元素、元素屬性、文本等節(jié)點(diǎn)的類型,因此設(shè)置完其他選項(xiàng),在頁面中框選的是一整個(gè)條目,里面包含多個(gè)元素。接下來再在選擇器里面添加元素,設(shè)置相應(yīng)的屬性,框選相應(yīng)的位置,即可完成抓取設(shè)置。在添加的元素中屬于文本類型的可以進(jìn)行預(yù)覽,查看獲取到的數(shù)據(jù)。對(duì)于完成的選擇器可以再次進(jìn)行編輯和刪除操作,也可以進(jìn)行抓取數(shù)據(jù)的預(yù)覽。最后將抓取的數(shù)據(jù)以.xlsx的格式導(dǎo)出并保存到本地。具體操作流程及抓取到的數(shù)據(jù)。

      3利用Excel對(duì)獲取的數(shù)據(jù)進(jìn)行整理并分析

      以上兩種方式獲取到的數(shù)據(jù)都可以以.xlsx的格式導(dǎo)出到本地,對(duì)得到的數(shù)據(jù)預(yù)先用人工篩選的方式進(jìn)行整理,刪除掉無用或者重復(fù)的數(shù)據(jù),對(duì)剩余較完整的數(shù)據(jù)統(tǒng)一保存到一個(gè)文檔中,可對(duì)相應(yīng)數(shù)據(jù)進(jìn)行分析。本文利用整理好的1300條數(shù)據(jù),對(duì)微博用戶關(guān)注情況、粉絲情況及微博數(shù)量進(jìn)行分析,經(jīng)過對(duì)以上圖表進(jìn)行分析可以得知,微博中跟關(guān)鍵詞“美食”有關(guān)的大多數(shù)用戶關(guān)注了較少的人,擁有的粉絲數(shù)也較少,發(fā)布的微博數(shù)量也不多。

      4結(jié)束語

      當(dāng)下互聯(lián)網(wǎng)技術(shù)的發(fā)展速度飛快,分析網(wǎng)絡(luò)中的大量數(shù)據(jù)對(duì)各行各業(yè)的運(yùn)轉(zhuǎn)產(chǎn)生一定的積極作用,因此利用搜索引擎技術(shù)收集網(wǎng)絡(luò)中的數(shù)據(jù)顯得尤為重要。本文利用了當(dāng)下最熱門的網(wǎng)絡(luò)爬蟲工具八爪魚采集器和WebScraper詳細(xì)介紹了抓取微博中用戶信息的過程,為后續(xù)分析和研究用戶的行為打下基礎(chǔ),也為其他行業(yè)做好網(wǎng)絡(luò)信息安全提供技術(shù)支持。

      參考文獻(xiàn):

      [1]秦雅琴,馬玲玲.網(wǎng)絡(luò)爬蟲技術(shù)在交通信息獲取中的應(yīng)用綜述[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2020,44(03):456-461.

      [2]張立鑒.淺談網(wǎng)絡(luò)爬蟲的網(wǎng)站信息采集技術(shù)[J].信息記錄材料,2021,22(07):199-200.

      [3]劉多林,呂苗.基于網(wǎng)絡(luò)爬蟲結(jié)合關(guān)聯(lián)大數(shù)據(jù)的用戶信息提取[J].計(jì)算機(jī)仿真,2021,38(08):482-486.

      [4]陳小彪,儲(chǔ)虎.論網(wǎng)絡(luò)爬蟲行為的刑法應(yīng)對(duì)[J].河南警察學(xué)院學(xué)報(bào),2020,29(05):83-92.

      [5]郭嘉,郭曉峰,沈建京.關(guān)于大數(shù)據(jù)中用戶資源信息提取仿真研究[J].計(jì)算機(jī)仿真,2018,35(07):414-417.

      [6]邱云飛,王雪,劉大有,等.基于Web評(píng)論的用戶個(gè)人信息提取方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(05):44-47+72.

      [7]吳虎.基于網(wǎng)絡(luò)爬蟲技術(shù)的企業(yè)社交媒體情報(bào)獲取分析[D].黑龍江大學(xué),2017.

      [8]吳濤.巧用八爪魚采集器開展政務(wù)公開審計(jì)[J].審計(jì)月刊,2019(11):32-33.

      [9]魏少鵬.基于Chrome瀏覽器插件的爬蟲系統(tǒng)[D].東華大學(xué),2016.

      [10]KOVIAZINMIKHAIL.可視化網(wǎng)絡(luò)爬蟲發(fā)展的開發(fā)[D].哈爾濱工業(yè)大學(xué),2020.

      作者:李新煥 單位:江西開放大學(xué)江西工程職業(yè)學(xué)院

      友情鏈接
      主站蜘蛛池模板: 亚洲精品一级无码中文字幕| 精品无码日韩一区二区三区不卡| 亚洲AV成人精品一区二区三区| 四虎精品影院4hutv四虎| 亚洲AV无码国产精品色午友在线| 国产精品自产拍在线18禁| 国产成人久久精品一区二区三区 | 久久精品国产影库免费看| 无码国产精品一区二区免费3p| 久久精品无码av| 国产成人精品久久一区二区三区av| 97久久精品国产精品青草| 精品人妻大屁股白浆无码| 亚洲精品色午夜无码专区日韩| 久久激情亚洲精品无码?V| 国产乱人伦偷精品视频不卡| 刺激无码在线观看精品视频| 免费91麻豆精品国产自产在线观看 | 亚洲精品无码专区在线在线播放| 九色精品视频在线观看| 国产精品美女久久久久av爽| 99久久精品国产毛片| 日韩精品成人一区二区三区| 久久久国产精品网站| 欧美日韩精品乱国产538| 国内精品久久久久影院免费| 国产精品亚洲午夜一区二区三区 | 国产产无码乱码精品久久鸭| 久久精品亚洲日本波多野结衣| 无码日韩精品一区二区免费暖暖| 午夜天堂精品久久久久| 无码精品视频一区二区三区| 日本午夜精品一区二区三区电影 | 亚洲国产高清精品线久久| 欧美日韩精品| 亚洲日韩精品A∨片无码| 亚洲AV乱码久久精品蜜桃| 精品国产一区二区三区色欲 | 精品国产麻豆免费人成网站| 亚洲午夜精品久久久久久人妖| 2024最新国产精品一区|