最新試題
訓(xùn)練神經(jīng)網(wǎng)絡(luò)具有過度擬合訓(xùn)練數(shù)據(jù)的潛在問題。
對(duì)于文本數(shù)據(jù)和多媒體數(shù)據(jù)進(jìn)行特征提取是為了方便對(duì)于這類數(shù)據(jù)的觀察和理解。
假設(shè)屬性的數(shù)量固定,則可以在時(shí)間上以線性方式學(xué)習(xí)基于高斯的貝葉斯最優(yōu)分類器,而該數(shù)量是數(shù)據(jù)集中記錄的數(shù)量。
根據(jù)數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師對(duì)于問題的理解并相互討論,然后確定需要收集數(shù)據(jù)的范圍以及種類,然后數(shù)據(jù)工程師使用數(shù)據(jù)收集工具,架構(gòu),甚至編程的形式來進(jìn)行數(shù)據(jù)收集的工作,然后并把數(shù)據(jù)收集的數(shù)據(jù)放置到對(duì)應(yīng)的存儲(chǔ)系統(tǒng)。
通常,當(dāng)試圖從大量觀察中學(xué)習(xí)具有少量狀態(tài)的HMM時(shí),我們幾乎總是可以通過允許更多隱藏狀態(tài)來增加訓(xùn)練數(shù)據(jù)的可能性。
經(jīng)常跟管理層打交道并進(jìn)行有效地關(guān)于商業(yè)領(lǐng)域的討論有助于數(shù)據(jù)科學(xué)項(xiàng)目的成功。
最大似然估計(jì)的一個(gè)缺點(diǎn)是,在某些情況下(例如,多項(xiàng)式分布),它可能會(huì)返回零的概率估計(jì)。
使用偏差較小的模型總是比偏差較大的模型更好。
由于決策樹學(xué)會(huì)了對(duì)離散值輸出而不是實(shí)值函數(shù)進(jìn)行分類,因此它們不可能過度擬合。
由于分類是回歸的一種特殊情況,因此邏輯回歸是線性回歸的一種特殊情況。