【南開】20春學期《數(shù)據(jù)科學導論》在線作業(yè)(標準答案)

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時間:2020/8/29 23:43:29來源:admin瀏覽: 64 次

可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請?zhí)砑観Q:3230981406      微信:aopopenfd777




20春學期(1709、1803、1809、1903、1909、2003)《數(shù)據(jù)科學導論》在線作業(yè)

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.以下屬于關聯(lián)分析的是( )

A.CPU性能預測

B.購物籃分析

C.自動判斷鳶尾花類別

D.股票趨勢建模


2.哪一項不屬于規(guī)范化的方法()

A.最小-最大規(guī)范化

B.零-均值規(guī)范化

C.小數(shù)定標規(guī)范化

D.中位數(shù)規(guī)范化


3.實體識別屬于以下哪個過程()

A.數(shù)據(jù)清洗

B.數(shù)據(jù)集成

C.數(shù)據(jù)規(guī)約

D.數(shù)據(jù)變換


4.具有偏差和至少()個S型隱含層加上一個()輸出層的網(wǎng)絡能夠逼近任何有理數(shù)。

A.1,線性

B.2,線性

C.1,非線性

D.2,非線性


5.某超市研究銷售紀錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?()

A.關聯(lián)規(guī)則發(fā)現(xiàn)

B.聚類

C.分類

D.自然語言處理


6.層次聚類適合規(guī)模較()的數(shù)據(jù)集

A.大

B.中

C.小

D.所有


7.下面不是分類的常用方法的有()

A.K近鄰法

B.樸素貝葉斯

C.決策樹

D.條件隨機場


8.BFR聚類用于在()歐氏空間中對數(shù)據(jù)進行聚類

A.高維

B.中維

C.低維

D.中高維


9.只有非零值才重要的二元屬性被稱作:( ),其中購物籃數(shù)據(jù)就屬于這種屬性。

A.計數(shù)屬性

B.離散屬性

C.非對稱的二元屬性#對稱屬性


10.為了解決任何復雜的分類問題,使用的感知機結構應至少包含()個隱含層。

A.1

B.2

C.3

D.4


11.在回歸分析中,自變量為(),因變量為()。

A.離散型變量,離散型變量

B.連續(xù)型變量,離散型變量

C.離散型變量,連續(xù)型變量

D.連續(xù)型變量,連續(xù)型變量


12.維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中,持續(xù)強調(diào)了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該注重數(shù)據(jù)中的相關關系,而不是因果關系。其中,數(shù)據(jù)之間的相關關系可以通過以下哪個算法直接挖掘( )

A.K-means

B.Bayes Network

C.C4.5

D.Apriori


13.一元線性回歸中,真實值與預測值的差稱為樣本的()。

A.誤差

B.方差

C.測差

D.殘差


14.以下哪個不是處理缺失值的方法()

A.刪除記錄

B.按照一定原則補充

C.不處理

D.隨意填寫


15.數(shù)據(jù)庫中相關聯(lián)的兩張表都存儲了用戶的個人信息,但在用戶的個人信息發(fā)生改變時只更新了一張表中的數(shù)據(jù),這時兩張表中就有了不一致的數(shù)據(jù),這屬于()

A.異常值

B.缺失值

C.不一致的值

D.重復值


16.根據(jù)映射關系的不同可以分為線性回歸和()。

A.對數(shù)回歸

B.非線性回歸

C.邏輯回歸

D.多元回歸


17.在k近鄰法中,選擇較小的k值時,學習的“近似誤差”會(),“估計誤差”會()。

A.減小,減小

B.減小,增大

C.增大,減小

D.增大,增大


18.考慮下面的頻繁3-項集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定數(shù)據(jù)集中只有5個項,采用 合并策略,由候選產(chǎn)生過程得到4-項集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5


19.單層感知機模型屬于()模型。

A.二分類的線性分類模型

B.二分類的非線性分類模型

C.多分類的線性分類模型

D.多分類的非線性分類模型


20.特征選擇的四個步驟中不包括()

A.子集產(chǎn)生

B.子集評估

C.子集搜索

D.子集驗證


二、多選題 (共 10 道試題,共 20 分)

21.對于多層感知機,()層擁有激活函數(shù)的功能神經(jīng)元。

A.輸入層

B.隱含層

C.輸出層


22.Apriori算法的計算復雜度受()影響。

A.支持度閾值

B.項數(shù)

C.事務數(shù)

D.事務平均寬度


23.一元回歸參數(shù)估計的參數(shù)求解方法有()。

A.最大似然法

B.距估計法

C.最小二乘法

D.歐式距離法


24.層次聚類的方法是()

A.聚合方法

B.分拆方法

C.組合方法

D.比較方法


25.相關性的分類,按照相關的方向可以分為()。

A.正相關

B.負相關

C.左相關

D.右相關


26.數(shù)據(jù)科學具有哪些性質(zhì)()

A.有效性

B.可用性

C.未預料

D.可理解


27.k近鄰法的基本要素包括()。

A.距離度量

B.k值的選擇

C.樣本大小

D.分類決策規(guī)則


28.下列選項是BFR的對象是()

A.廢棄集

B.臨時集

C.壓縮集

D.留存集


29.什么情況下結點不用劃分()

A.當前結點所包含的樣本全屬于同一類別

B.當前屬性集為空,或是所有樣本在所有屬性上取值相同

C.當前結點包含的樣本集為空

D.還有子集不能被基本正確分類


30.系統(tǒng)日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可擴展性

D.高效率


三、判斷題 (共 20 道試題,共 40 分)

31.在一元線性回歸中,輸入只包含一個單獨的特征。


32.sigmoid函數(shù)屬于階躍函數(shù),是神經(jīng)網(wǎng)絡中常見的激活函數(shù)。


33.多層感知機的學習能力有限,只能處理線性可分的二分類問題。


34.BFR聚類簇的坐標可以與空間的坐標保持一致。


35.支持度是衡量關聯(lián)規(guī)則重要性的一個指標。


36.利用K近鄰法進行分類時,使用不同的距離度量所確定的最近鄰點都是相同的。


37.信息熵越小,樣本結合的純度越低


38.在數(shù)據(jù)預處理時,無論什么情況,都可以直接將異常值刪除


39.決策樹的輸入為訓練集,輸出為以node為根結點的一棵決策樹


40.單層感知機對于線性不可分的數(shù)據(jù),學習過程也可以收斂。


41.樸素貝葉斯分類器有簡單、高效、健壯的特點,但某些屬性可能會降低分類器的性能


42.隨著特征維數(shù)的增加,樣本間區(qū)分度提高。


43.選擇較小的k值,相當于用較小的鄰域中的訓練實例進行預測,學習的“近似誤差”會減小,“估計誤差”會增大,預測結果會對近鄰的點實例點非常敏感。


44.一般而言,信息增益越大,則意味著使用屬性a來進行劃分所獲得的“純度提升越大”,因此我們可用信息增益來進行決策樹的最優(yōu)特征選擇。


45.決策樹內(nèi)部結點表示一個類,葉結點表示一個特征或屬性


46.為了更加準確地描述變量之間的線性相關程度,可以通過計算相關系數(shù)來進行相關分析。


47.K均值(K-Means)算法是密度聚類。


48.Apriori算法是一種典型的關聯(lián)規(guī)則挖掘算法。


49.當特征為離散型時,可以使用信息增益作為評價統(tǒng)計量。


50.EDA可以最大化數(shù)據(jù)分析者對數(shù)據(jù)集和數(shù)據(jù)集底層結構的洞察力,并且為分析者提供數(shù)據(jù)集中包含的各類信息。


  • 上一篇:
  • 下一篇:
  • 作業(yè)咨詢 論文咨詢
    微信客服掃一掃

    回到頂部