23春學(xué)期(高起本:1709-2103、專(zhuān)升本/高起專(zhuān):1909-2103)《網(wǎng)絡(luò)爬蟲(chóng)與信息提取》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲(chóng)的各種配置信息?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
2.參數(shù)headers=(),把請(qǐng)求頭添加到Scrapy請(qǐng)求中,使爬蟲(chóng)的請(qǐng)求看起來(lái)像是從瀏覽器發(fā)起的。
A.HEADER
B.HEADERS
C.HEAD
D.BODY
3.可以通過(guò)()繞過(guò)網(wǎng)站登錄。
A.session
B.cookies
C.moonpies
D.localstorage
4.下面代碼一共執(zhí)行循環(huán)多少次(): i=0 while i<10: i+=1
A.9
B.10
C.11#0
5.Python并導(dǎo)入uiautomator來(lái)操作設(shè)備的語(yǔ)句是from uiautomator import ()
A.Device
B.Devices
C.Jobs
D.Job
6.Python中的()庫(kù)用于發(fā)送網(wǎng)絡(luò)請(qǐng)求
A.web
B.request
C.requests
D.javascript
7.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成
A.列表
B.元組
C.字典
D.集合
8.HTTP常用狀態(tài)碼表明服務(wù)器上沒(méi)有請(qǐng)求的資源的是()
A.500
B.503
C.403
D.404
9.通常使用()工具來(lái)模擬瀏覽器進(jìn)行爬蟲(chóng)請(qǐng)求
A.Selenium
B.Chrome
C.ChromeDriver
D.WebDriver
10.PyMongo中查詢(xún)所有age > 29的記錄是()
A.collection.find({'age': {'$gt': 29}})
B.collection.find({'age'>29})
C.collection.find_all({'age': {'$gt': 29}})
D.collection.find_all({'age'>29})
11.使用UI Automator獲取屏幕上顯示的文本內(nèi)容的操作是得到相應(yīng)控件后使用命令()
A.content
B.text
C.title
D.body
12.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來(lái)做類(lèi)比的話(huà),MongoDB中庫(kù)相當(dāng)于一個(gè)大字典,大字典里面的每一個(gè)鍵值對(duì)都對(duì)應(yīng)了一個(gè)集合,Key為(),Value就是一個(gè)集合。
A.字典
B.集合的名字
C.集合
D.文檔
13.使用UI Automator打開(kāi)微信的操作是獲取相應(yīng)圖標(biāo)后使用命令()
A.touch
B.click
C.push
D.hover
14.Scrapy自帶的待爬隊(duì)列是()
A.deque
B.queue
C.list
D.lqueue
15.啟動(dòng)MongoDB使用命令mongod --() usr/local/etc/mongod.conf
A.config
B.install
C.start
D.begin
16.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)定義需要爬取的數(shù)據(jù)?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
17.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來(lái)做類(lèi)比的話(huà),MongoDB中庫(kù)相當(dāng)于一個(gè)大字典,大字典里面的每一個(gè)鍵值對(duì)都對(duì)應(yīng)了一個(gè)集合,Key為集合的名字,Value就是一個(gè)()。
A.字典
B.集合的名字
C.集合
D.文檔
18.Python中哪種容器一旦生成就不能修改
A.列表
B.元組
C.字典
D.集合
19.使用xpath方法的返回類(lèi)型是()
A.列表
B.元組
C.字典
D.集合
20.python中可以用來(lái)將圖片中的文字轉(zhuǎn)換為文本的第三方類(lèi)庫(kù)是
A.lxml
B.requests
C.beautifulsoup
D.pytesseract
二、多選題 (共 10 道試題,共 20 分)
21.requests中post請(qǐng)求方法的第二個(gè)參數(shù)可以為()
A.字典
B.列表
C.json數(shù)據(jù)
D.字符串
22.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
23.HTTP常用狀態(tài)碼表明表明客戶(hù)端是發(fā)生錯(cuò)誤的原因所在的有()
A.403
B.404
C.500
D.503
24.下載器中間件的作用有哪些?
A.更換代理IP
B.更換Cookies
C.更換User-Agent
D.自動(dòng)重試
25.最常見(jiàn)的HTTP請(qǐng)求類(lèi)型有()
A.GET
B.POST
C.SEND
D.RECEIVE
26.Python中的容器有()
A.列表
B.元組
C.字典
D.集合
27.如果爬蟲(chóng)爬取的是商業(yè)網(wǎng)站,并且目標(biāo)網(wǎng)站使用了反爬蟲(chóng)機(jī)制,那么強(qiáng)行突破反爬蟲(chóng)機(jī)制可能構(gòu)成()
A.非法侵入計(jì)算機(jī)系統(tǒng)罪
B.非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪
C.非法獲取計(jì)算機(jī)數(shù)據(jù)罪
D.非法獲取系統(tǒng)罪
28.要使用tesseract來(lái)進(jìn)行圖像識(shí)別,需要安裝兩個(gè)第三方庫(kù)
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
29.Python中有哪些實(shí)現(xiàn)多線程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
30.在配置ios使用Charles的操作中,正確的有()
A.對(duì)于蘋(píng)果設(shè)備,首先要保證計(jì)算機(jī)和蘋(píng)果設(shè)備聯(lián)在同一個(gè)Wi-Fi上。
B.選擇“HTTP代理”下面的“手動(dòng)”選項(xiàng)卡,在“服務(wù)器”處輸入計(jì)算機(jī)的IP地址,在“端口”處輸入8888
C.輸入完成代理以后按下蘋(píng)果設(shè)備的Home鍵,設(shè)置就會(huì)自動(dòng)保存。
D.安裝完成證書(shū)以后,在設(shè)置中打開(kāi)“關(guān)于本機(jī)”,找到最下面的“證書(shū)信任設(shè)置”,并在里面啟動(dòng)對(duì)Charles證書(shū)的完全信任
三、判斷題 (共 20 道試題,共 40 分)
31.所有的異步加載都會(huì)向后臺(tái)發(fā)送請(qǐng)求
32.當(dāng)運(yùn)行爬蟲(chóng)代碼后,出現(xiàn)"Forbidden by robots.txt"提示后,說(shuō)明當(dāng)前時(shí)間段被爬取的網(wǎng)站無(wú)法訪問(wèn)。
33.Python中元組生成以后還可以往里面繼續(xù)添加數(shù)據(jù),也可以從里面刪除數(shù)據(jù);
34.PyMongoDB中排序方法sort第二個(gè)參數(shù)-1表示升序
35.通用網(wǎng)絡(luò)爬蟲(chóng)通常采用串行工作方式
36.Python中寫(xiě)CSV文件的writerows方法參數(shù)為字典類(lèi)型
37.在對(duì)XPath返回的對(duì)象再次執(zhí)行XPath的時(shí)候,子X(jué)Path開(kāi)頭需要添加斜線
38.MongoDB URI的格式為: mongodb://服務(wù)器IP或域名:端口@用戶(hù)名:密碼
39.操作文本難以實(shí)現(xiàn)自動(dòng)化,而操作圖形界面可以容易的實(shí)現(xiàn)自動(dòng)化。
40.如果MongoDB運(yùn)行在所在的計(jì)算機(jī)上,MONGODB_HOST應(yīng)該寫(xiě)成"192.168.0.1"
41.在Ubuntu下若要運(yùn)行Redis可以使用CMD進(jìn)入解壓以后的文件夾并運(yùn)行命令redis-server.exe redis.windows.conf啟動(dòng)Redis
42.在發(fā)送請(qǐng)求時(shí)需要注意requests提交的請(qǐng)求頭不能與瀏覽器的請(qǐng)求頭一致,因?yàn)檫@樣才能隱藏好自己達(dá)到獲取數(shù)據(jù)的目的
43.Redis是遵守BSD協(xié)議、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫(kù)
44.HTTP只能通過(guò)POST請(qǐng)求才能發(fā)送數(shù)據(jù)
45.如果目標(biāo)網(wǎng)站本身就是提供公眾查詢(xún)服務(wù)的網(wǎng)站,那么使用爬蟲(chóng)是合法合規(guī)的。
46.使用AJAX技術(shù),可以在不刷新網(wǎng)頁(yè)的情況下更新網(wǎng)頁(yè)數(shù)據(jù)
47.”curl http://爬蟲(chóng)服務(wù)器IP地址:6800/cancel.json -d project=工程名 -d job=爬蟲(chóng)JOBID“該命令的作用是啟動(dòng)爬蟲(chóng)
48.如果通過(guò)爬蟲(chóng)抓取某公司網(wǎng)站的公開(kāi)數(shù)據(jù),分析以后發(fā)現(xiàn)這個(gè)公司業(yè)績(jī)非常好,于是首先把數(shù)據(jù)或者分析結(jié)果出售給某基金公司,然后自己再買(mǎi)被爬公司的股票。此時(shí),涉嫌內(nèi)幕交易,屬于嚴(yán)重違法行為。
49.Redis中查詢(xún)列表長(zhǎng)度命令llen中l(wèi)代表left,即從左側(cè)開(kāi)始數(shù)
50.爬蟲(chóng)中間件的作用對(duì)象是請(qǐng)求request和返回response

