21秋學期(1709、1803、1809、1903、1909、2003、2009、2103)《數(shù)據(jù)科學導論》在線作業(yè) 標準答案

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2022/1/8 12:01:19來源:admin瀏覽: 73 次

21秋學期(1709、1803、1809、1903、1909、2003、2009、2103)《數(shù)據(jù)科學導論》在線作業(yè)

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.只有非零值才重要的二元屬性被稱作:( ),其中購物籃數(shù)據(jù)就屬于這種屬性。

A.計數(shù)屬性

B.離散屬性

C.非對稱的二元屬性#對稱屬性

答案:C


2.BFR聚類是用于處理數(shù)據(jù)集()的k-means變體。

A.大

B.中

C.小

D.所有

答案:A


3.多層感知機是由()層神經(jīng)元組成。

A.二

B.三

C.大于等于二層

D.大于等于三層

答案:D


4.以下屬于關聯(lián)分析的是( )

A.CPU性能預測

B.購物籃分析

C.自動判斷鳶尾花類別

D.股票趨勢建模

答案:B


5.聚類是一種()。

A.有監(jiān)督學習

B.無監(jiān)督學習

C.強化學習

D.半監(jiān)督學習

答案:B


6.在回歸分析中,自變量為(),因變量為()。

A.離散型變量,離散型變量

B.連續(xù)型變量,離散型變量

C.離散型變量,連續(xù)型變量

D.連續(xù)型變量,連續(xù)型變量


7.在k近鄰法中,選擇較小的k值時,學習的“近似誤差”會(),“估計誤差”會()。

A.減小,減小

B.減小,增大

C.增大,減小

D.增大,增大


8.利用最小二乘法對多元線性回歸進行參數(shù)估計時,其目標為()。

A.最小化方差#最小化標準差

B.最小化殘差平方和

C.最大化信息熵


9.聚類的最簡單最基本方法是()。

A.劃分聚類

B.層次聚類

C.密度聚類

D.距離聚類


10.K-means聚類適用的數(shù)據(jù)類型是()。

A.數(shù)值型數(shù)據(jù)

B.字符型數(shù)據(jù)

C.語音數(shù)據(jù)

D.所有數(shù)據(jù)


11.通過構造新的指標-線損率,當超出線損率的正常范圍, 則可以判斷這條線路的用戶可能存在竊漏電等異常行為屬于數(shù)據(jù)變換中的()

A.簡單函數(shù)變換

B.規(guī)范化

C.屬性構造

D.連續(xù)屬性離散化


12.我們需要對已生成的樹()進行剪枝,將樹變得簡單,從而使它具有更好的泛化能力。

A.自上而下

B.自下而上

C.自左而右

D.自右而左


13.對于k近鄰法,下列說法錯誤的是()。

A.不具有顯式的學習過程

B.適用于多分類任務

C.k值越大,分類效果越好

D.通常采用多數(shù)表決的分類決策規(guī)則


14.單層感知機是由()層神經(jīng)元組成。

A.一

B.二

C.三

D.四


15.維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中,持續(xù)強調(diào)了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該注重數(shù)據(jù)中的相關關系,而不是因果關系。其中,數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘( )

A.K-means

B.Bayes Network

C.C4.5

D.Apriori


16.為了解決任何復雜的分類問題,使用的感知機結構應至少包含()個隱含層。

A.1

B.2

C.3

D.4


17.以下哪一項不是特征工程的子問題()

A.特征創(chuàng)建

B.特征提取

C.特征選擇

D.特征識別


18.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產(chǎn)生過程得到4-項集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5


19.在有統(tǒng)計學意義的前提下,標準化偏回歸系數(shù)的絕對值越大,說明相應的自變量對y的作用()。

A.越小

B.越大

C.無關

D.不確定


20.具有偏差和至少()個S型隱含層加上一個()輸出層的網(wǎng)絡能夠逼近任何有理數(shù)。

A.1,線性

B.2,線性

C.1,非線性

D.2,非線性


二、多選題 (共 10 道試題,共 20 分)

21.對于多層感知機,()層擁有激活函數(shù)的功能神經(jīng)元。

A.輸入層

B.隱含層

C.輸出層


22.K-means聚類中K值選取的方法是()。

A.密度分類法

B.手肘法

C.大腿法

D.隨機選取


23.Apriori算法的計算復雜度受()影響。

A.支持度閾值

B.項數(shù)

C.事務數(shù)

D.事務平均寬度


24.k近鄰法的基本要素包括()。

A.距離度量

B.k值的選擇

C.樣本大小

D.分類決策規(guī)則


25.關聯(lián)規(guī)則的評價度量主要有:()。

A.支持度

B.置信度

C.準確率

D.錯誤率


26.下面例子屬于分類的是()

A.檢測圖像中是否有人臉出現(xiàn)

B.對客戶按照貸款風險大小進行分類

C.識別手寫的數(shù)字

D.估計商場客流量


27.一元回歸參數(shù)估計的參數(shù)求解方法有()。

A.最大似然法

B.距估計法

C.最小二乘法

D.歐式距離法


28.數(shù)據(jù)科學具有哪些性質(zhì)()

A.有效性

B.可用性

C.未預料

D.可理解


29.什么情況下結點不用劃分()

A.當前結點所包含的樣本全屬于同一類別

B.當前屬性集為空,或是所有樣本在所有屬性上取值相同

C.當前結點包含的樣本集為空

D.還有子集不能被基本正確分類


30.系統(tǒng)日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可擴展性

D.高效率


三、判斷題 (共 20 道試題,共 40 分)

31.特征選擇和降維都是用于減少特征數(shù)量,進而降低模型復雜度、防止過度擬合。


32.信息熵越大,數(shù)據(jù)信息的不確定性越小。


33.在數(shù)據(jù)預處理時,無論什么情況,都可以直接將異常值刪除


34.標準BP算法是在讀取全部數(shù)據(jù)集后,對參數(shù)進行統(tǒng)一更新的算法。


35.當訓練集較大的時候,標準BP算法通常會更快的獲得更好的解。


36.每個類的先驗概率可以通過屬于該類的訓練記錄所占的比例來估計。


37.具有雙隱層的感知機足以用于解決任何復雜的分類問題。


38.子集產(chǎn)生本質(zhì)上是一個搜索過程,該過程可以從空集、隨機產(chǎn)生的一個特征子集或者整個特征集開始。


39.探索性數(shù)據(jù)分析的特點是研究從原始數(shù)據(jù)入手,完全以實際數(shù)據(jù)為依據(jù)。


40.利用K近鄰法進行分類時,使用不同的距離度量所確定的最近鄰點都是相同的。


41.階躍函數(shù)具有不光滑、不連續(xù)的特點。


42.分拆方法是自底向上的方法。


43.EDA可以最大化數(shù)據(jù)分析者對數(shù)據(jù)集和數(shù)據(jù)集底層結構的洞察力,并且為分析者提供數(shù)據(jù)集中包含的各類信息。


44.剪枝是決策樹學習算法對付“過擬合”的主要手段


45.單層感知機對于線性不可分的數(shù)據(jù),學習過程也可以收斂。


46.一般而言,信息增益越大,則意味著使用屬性a來進行劃分所獲得的“純度提升越大”,因此我們可用信息增益來進行決策樹的最優(yōu)特征選擇。


47.給定關聯(lián)規(guī)則A→B,意味著:若A發(fā)生,B也會發(fā)生。


48.支持度是衡量關聯(lián)規(guī)則重要性的一個指標。


49.方差過小的特征對數(shù)據(jù)的區(qū)分能力強


50.隨著特征維數(shù)的增加,樣本間區(qū)分度提高。


  • 上一篇:
  • 下一篇:
  • 作業(yè)咨詢 論文咨詢
    微信客服掃一掃

    回到頂部