講座論壇 / Lecture Forum

智慧分享|【人工智能方法及應用系列講座】第二講——機器學習與神經網絡

機器學習與神經網絡

人工智能是引領未來的戰略性技術,了解人工智能領域的發展過程及現狀,了解機器學習、神經網絡、深度學習的基本原理、適用場景、算法方法,

通過課程學習能夠結合自身工作用人工智能思維思考、解決實際問題。

0.png

【人工智能方法及應用系列講座】(將分為第一講、第二講、第三講、第四講共四篇章逐步分享給大家),主講人是合肥工業大學博士、博士后呂增威為大家帶來的全面

了解人工智能的純干貨分享,值得學習與收藏(致謝:由于參考來源轉載或改編,版權歸原作者所有,在此對原作者表示感謝!)。此篇為第二講——機器學習與神經網絡。


1、機器學習原理

——概述

機器學習是一類算法的總稱,這些算法企圖從大量歷史數據中挖掘出其中隱含的規律,并用于預測或者分類。

更具體的說,機器學習可以看作是尋找一個函數,輸入是樣本數據,輸出是期望的結果,只是這個函數過于復雜,以至于不太方便形式化表達。

需要注意的是,機器學習的目標是使學到的函數很好地適用于“新樣本”,而不僅僅是在訓練樣本上表現很好。

1.11.png

機器學習≈ 尋找一個函數

1.12.png

1、選擇一個合適的模型,這通常需要依據實際問題而定,針對不同的問題和任務需要選取恰當的模型,模型就是一組函數的集合。

 2、判斷一個函數的好壞,這需要確定一個衡量標準,也就是我們通常說的損失函數(Loss Function)。

 3、找出“最好”的函數,如何從眾多函數中最快的找出“最好”的那一個,這一步是最大的難點,做到又快又準往往不是一件容易的事情。

學習得到“最好”的函數后,需要在新樣本上進行測試,只有在新樣本上表現很好,才算是一個“好”的函數。

1.13.png

沒有免費午餐定理(No Free Lunch,簡稱NFL)意思是沒有付出,就沒有收獲,該理論用于比較兩種優化算法之間的關系,

該如何確定一種算法比另外一種算法好。該定理暗指,沒有其它任何算法能夠比搜索空間的線性列舉或者純隨機搜索算法更優。

1.14.png

——術語

從市場上隨機選取的芒果樣本(訓練數據),列出每個芒果的所有特征:如顏色,大小,形狀,產地,品牌

以及芒果質量(輸出變量):甜蜜,多汁,成熟度。設計一個學習算法來學習芒果的特征輸出變量之間的相關性模型

下次從市場上買芒果時,可以根據芒果(測試數據)的特征,使用前面計算的模型來預測芒果的質量。

1574926296130835.png

——泛化能力是指一個機器學習算法對于沒有見過的樣本的識別能力。我們也叫做舉一反三的能力,或者叫做學以致用的能力。

——欠擬合是和過擬合相對的現象,可以說是模型的復雜度較低,沒法很好的學習到數據背后的規律。

——過擬合是所建的機器學習模型或者是深度學習模型在訓練樣本中表現得過于優越,導致在驗證數據集以及測試數據集中表現不佳。

——不收斂是指如果說一個機器學習算法的效果和瞎蒙的差不多那么基本就可以說這個算法沒有收斂,也就是根本沒有去學習。

圖片關鍵詞

圖片關鍵詞

2、機器學習分類、流派

······機器學習的流派

2.11.png

——機器學習的流派如今,各學派開始相互借鑒融合

——21 世紀的頭十年,最顯著的就是連接學派和符號學派的結合,由此產生了記憶神經網絡以及能夠根據知識進行簡單推理的智能體。基礎架構也向大規模云計算轉換。

——第二個十年,連接學派、符號學派和貝葉斯學派也將融合到一起,實際上我們現在已經看到了這樣的趨勢,比如 DeepMind 的貝葉斯 RNN,

而主要的局面將是感知任務由神經網絡完成,但涉及到推理和行動還是需要人為編寫規則。

······機器學習的流派類型

2.2.png

3、機器學習算法

——回歸

統計在一定程度上,破壞了數學的嚴謹性。統計研究的是一種非確定性關系

確定性關系:給定輸入,一定會得到某個輸出。

非確定關系:給定輸入,概率上得到某個輸出。

為了勾勒出這種“非確定性關系”,產生了相關分析和回歸分析

3.1.png

線性回歸(Linear Regression)   三要素:模型、評價、求解

3.2.png

如何評價?殘差?

3.3.png

如何求解?

在最簡單的線性回歸中,損失函數為凸,容易求得可采用梯度下降法。線性回歸對異常值非常敏感。它可以極大的影響回歸線最終的預測值。

3.4.png

若函數非常復雜該如何求解?

image.png

image.png

image.png

智能優化算法、元啟發式算法、進化算法、群智能算法

智能優化算法一般都是建立在生物智能或物理現象基礎上的隨機搜索算法,目前在理論上還遠不如傳統優化算法完善,往往也不能確保解的最優性,因而常常被視為只是一些“元啟發式方法”(meta-heuristic)。

但從實際應用的觀點看,這類新算法一般不要求目標函數和約束的連續性與凸性,甚至有時連有沒有解析表達式都不要求,對計算中數據的不確定性也有很強的適應能力。

進化算法,又稱“演化算法” (Evolutionary Algorithms, EAs) 是一個“算法簇”,是以達爾文的進化論思想為基礎,通過模擬生物進化過程與機制的求解問題的自組織、自適應的人工智能技術。

生物進化是通過繁殖、變異、競爭和選擇實現的;而進化算法則主要通過選擇、重組和變異這三種操作實現優化問題的求解。

群智能算法無智能的主體通過合作表現出智能行為的特性,在沒有集中控制且不提供全局模型的前提下,為尋找復雜的分布式問題求解方案提供了基礎。

image.png

邏輯回歸(Logistic Regression)

邏輯回歸雖然被稱為回歸,但其實際上是分類模型,并常用于二分類。因其簡單、可并行化、可解釋強深受工業界喜愛。

Logistic 回歸的本質是:假設數據服從這個分布,然后使用極大似然估計做參數的估計。

邏輯回歸就是將線性回歸的(-∞,+∞) 結果,通過Sigmoid函數映射到(0,1) 之間。

image.png

如何評價?

線性回歸的損失函數為平方損失函數,如果將其用于邏輯回歸的損失函數,則其數學特性不好,有很多局部極小值,難以用梯度下降法求最優。

image.png

邏輯回歸損失函數:對數損失函數

為什么要用對數:樣本集中有很多樣本,要求其概率連乘,概率為(0,1)間的數,連乘越來越小,利用log變換將其變為連加,不會溢出,不會超出計算精度。

在邏輯回歸模型中,我們最大化似然函數和最小化對數似然損失函數實際上是等價的。

邏輯回歸與線性回歸的關系

相似點:本質上,邏輯回歸都是以線性回歸為理論支持的,僅在線性回歸的基礎上,在特征到結果的映射中加入了一層sigmoid函數(非線性)映射。

不同點:1、經典線性模型的優化目標函數是最小二乘,而邏輯回歸則是似然函數。

2、線性回歸模型無法做到sigmoid的非線性形式,sigmoid可以輕松處理0/1分類問題。

3、線性回歸在整個實數域范圍內進行預測,敏感度一致。邏輯回歸在線性回歸的實數范圍輸出值上施加sigmoid函數將值收斂到0~1范圍, 

其損失函數也因此從差平方和函數變為對數損失函數, 以提供最優化所需導數。它是將預測值限定為[0,1]間的一種回歸模型。

邏輯曲線在z=0時,十分敏感,在z>>0或z<<0處,都不敏感,將預測值限定為{0,1},其魯棒性比線性回歸的要好。


多項式回歸(Polynominal Regression )

對于線性回歸,數據都是線性的,目標是尋找一條直線,盡可能的擬合樣本。但實際任務中,數據往往是非線性,因此需對線性回歸算法進行一些轉換改造,即多項式回歸。

image.png

怎么評價?

image.png

嶺回歸(Ridge Regression) 

Lasso回歸(Lasso Regression)

彈性網絡回歸(ElasticNet Regression)

image.png

正則化方法(規則化)一般是模型復雜度的單調遞增函數,模型越復雜,規則化值就越大,例如,可以使用范數

image.png

范數(Norm)

image.png

image.png

——分類

分類方法是一種對離散型隨機變量建模或預測的監督學習方法。其中分類學習的目的是從給定的人工標注的分類訓練樣本數據集中學習出一個分類函數或者分類模型,

也常常稱作分類器(classifier)。當新的數據到來時,可以根據這個函數進行預測,將新數據項映射到給定類別中的某一個類中。

image.png

KNN算法(K Nearest Neighbors)

KNN的原理就是當預測一個新的值x的時候,根據它距離最近的K個點是什么類別來判斷x屬于哪個類別。

image.png

KNN算法最簡單粗暴的就是將預測點與所有點距離進行計算,然后保存并排序,選出前面K個值看看哪些類別比較多。但其實也可以通過一些數據結構來輔助,比如最大堆。

模式識別、機器學習、數據挖掘當中的各種“距離” 總結

image.png

image.png

決策樹 決策樹(decision tree)是一種基本的分類與回歸方法。

——決策樹模型呈樹形結構,在分類問題中,表示基于特征對實例進行分類的過程,可以認為是if-then規則的集合, 也可以認為是定義在特征空間與類空間上的條件概率分布。

主要優點是模型具有可讀性,分類速度快。

——學習時,利用訓練數據,根據損失函數最小化的原則建立決策樹模型。預測時,對新的數據,利用決策樹模型進行分類。

決策樹學習通常包括3個步驟:特征選擇、決策樹的生成和決策樹的修剪。

決策樹是一個有監督分類模型,本質是選擇一個最大的特征值進行分割,直到達到結束條件或葉子節點純度達到閾值。

image.png

如何決策?

image.png

如何生成決策樹?

image.png

支持向量機Support Vector Machines(SVM)

image.png

image.png

什么是SVM(Support Vector Machines)

image.png

間距怎么定?

image.png

如何處理非線性數據

image.png

如何解決多分類問題

image.png

貝葉斯分類器

image.png

——聚類

image.png

image.png

K-Means聚類

均值偏移(Mean shift)聚類算法

DBSCAN聚類算法

高斯混合模型(GMM)

image.png

層次方法

image.png

K-Means聚類

1、距離公式是什么?

2、k怎么選?

3、初始中心怎么定的?

4、是全局最優解還是局部最優解?

5、啥時候停止計算?

6、算法性能高嗎?為啥?算法的性能怎么提高?

image.png

image.png

均值偏移(Mean shift)聚類算法

image.png

DBSCAN聚類算法

image.png

層次聚類算法B樹、B+樹、B*樹、R樹、K-D樹、球樹、M樹、VP樹、MVP樹

image.png

R樹(Rectangle、超矩形)

1984年,加州大學伯克利分校的Guttman提出了R樹這種處理高維空間存儲問題的數據結構,R樹在數據庫等領域做出的功績是非常顯著的。

它很好的解決了在高維空間搜索等問題。R樹是B樹在高維空間的擴展,是一棵平衡樹。

image.png

image.png

干成一件事情的代價是一定的,好的數據結構性能優越,得益于其巧妙的預處理。

高斯混合模型(GMM)

image.png

image.png


4、神經網絡原理

人工神經網絡Artificial Neural Network(ANN)

image.png

神經元

image.png

變換函數(激活函數)

Activation function 翻譯成激活函數,不要誤解是指這個函數去激活什么,而是指如何把“激活的神經元的特征”通過函數把特征保留并映射出來,這是神經網絡能解決非線性問題關鍵

image.png

image.png

激活函數可以引入非線性因素,解決線性模型所不能解決的問題

①閾值函數 ( Threshold Function )

image.png

②Sigmoid函數

image.png

——ReLU (Rectified linear unit,ReLU)

image.png

——Softplus是ReLU的圓滑版

image.png

——Maxout

image.png

image.png


5、神經網絡算法

神經網絡

——神經網絡類型

image.png

image.png

神經網絡發展歷程

image.png

全連接神經網絡

image.png

image.png

image.png

image.png

image.png

BP神經網絡( Back Propagation反向傳播)后者對具有非線性連續變換函數的多層感知器的誤差反向傳播(Error Back Propagation)算法進行了詳盡的分析,實現了 Minsky 關于多層網絡的設想

Error Back Propagation算法的簡稱就是BP算法,以BP算法實現的多層感知器網絡就是BP網絡。既然我們無法直接得到隱層的權值,能否先通過輸出層得到輸出結果和期望輸出的誤差來間接調整隱層的權值呢?

BP算法就是采用這樣的思想設計出來的算法,它的基本思想是,學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

RBF神經網絡

1988年, Moody和Darken提出了一種三層前向神經網絡結構,即RBF神經網絡,屬于前向神經網絡類型,它能夠以任意精度逼近任意連續函數,特別適合于解決分類問題。

image.png

image.png

image.png

image.png

image.png

免責聲明:本篇文章屬于學習交流參考,部分內容為轉載,并不用于商業目的,文章版權歸原作者及原出處所有,

如有涉及侵權等,請及時聯系我們,我們會盡快處理。本公眾號擁有對此聲明的最終解釋權。

點擊次數:  更新時間:2019-11-08 15:19:18  【打印此頁】  【關閉
手机彩票投注平台赚钱