ディープラーニング、AI（人工知能）の用語まとめ　ーG検定ー

G検定取得のための用語まとめ、覚書になります。

人工知能とその変遷
機械学習の手法
ディープラーニングの概要
参考文献

人工知能とその変遷

・特化型人工知能：弱いAI
・汎用型人工知能：強いAI

有名なAIソフト
・AlphaGo：人工知能の囲碁プログラム。Google, DeepMind社が開発した。2015年に人間のプロ棋士に初めて勝利した。
・Ponanza：将棋のソフトウェア。2015年、2016年に世界コンピュータ将棋選手権で優勝した
・Stockfish：チェスAI。TCEC（Top Chess Engine Championship）で優勝した。
・elmo：将棋AI。2017年にトップクラスだった。
・AlphaZero：囲碁、将棋、チェスのできるAI。elmoやStockfishにも少しの学習時間で勝つことができる。

・ダートマス会議：1956年、ダートマス大学で行われた人工知能に関する研究会。ジョン・マッカーシーが初めて人工知能という言葉を使ったとされる。（参考：アラン・チューリング）

「エージェントアプローチ人工知能」（共立出版）でのAIの分類
レベル1. シンプルな制御工学（エアコン、洗濯機）
レベル2. 古典的な人工知能（掃除ロボット、診断プログラム）探索推論知識データを用いる状況によって複雑な振る舞いをする。
レベル3. 機械学習を取り入れたもの。多くのデータをもとに入力と出力の関係を学習したもの。（検索エンジン、交通渋滞予測）
レベル4. ディープラーニングを取り入れたもの（画像認識、音声認識、翻訳機能）特徴量と呼ばれる変数を自動的に学習する。

AIブームについて
第一次AIブーム：推論と探索の時代、迷路などのトイプロブレムを扱った時代。複雑な問題は解けない。
第二次AIブーム：知識の時代。エキスパートシステム（大規模な条件分岐で作られるプログラム）が話題になる。用途が限定的。
第三次AIブーム：機械学習・特徴表現学習の時代またはディープラーニングの時代。ILSVRC（ImageNet Large Scale Visual Recognition Challenge）という画像認識の大会でディープラーニングをもちいたチーム（トロント大学のAlex net）が圧勝したことがブームのきっかけ。

探索木
深さ優先探索（縦型探索）：記憶容量が少なくなりやすい
幅優先探索（横型探索）：ステップ数が少なければ早く答えが見つかりやすい

Mini-Max法：相手はこちらのスコアが低くなるように手を打つと仮定して探索する方法。
αβ法：Mini-Max法でαカット、βカットという枝切りを導入したもの
Nega Mini-max法：相手は相手のスコアが高くなるように手を打つと仮定して探索する方法（Nega αβ法も同じ）

モンテカルロ法：ある時点からランダムに数多くプレイしてスコアを定義する方法。

ナレッジグラフ：人間の脳を模倣しようとした意味ネットワーク。

フレーム問題：1969年にジョンマッカーシーとパトリックヘイズが提唱した問題。今、何をしなければならないのかを選び出すのはロボットには難しいだろうとする問題。ロボットと時限爆弾の例

シンボルグラウンディング問題：記号とその対象がいかにして結びつくかという問題。シマウマの例。人間はシマのある馬でシマウマと認識するが、画像認識のAIは画像と言葉をそのような形で結びつけて判断しているわけではない。

ルールベース機械翻訳→統計的機械翻訳→ニューラル機械翻訳

特徴量エンジニアリング：無意味な特徴量（説明変数）を与えると学習の妨げになるので、あらかじめ特徴量を加工すること

強化学習：特徴量の加工・抽出も機械に行わせる機械学習。

機械学習の手法

機械学習の種類
大きく分けて、教師あり学習、教師なし学習、強化学習がある
教師あり学習→回帰問題（解答が量的変数）と分類問題（解答が質的変数）に分けられる。
分類問題→２値分類（正解データが２種類）と多値分類（３種類以上の正解データ）に分けられる
多値分類→マルチクラス分類（重複なし）、マルチラベル分類（重複あり）

教師なし学習の例：オートエンコーダ、k-means法（k-平均法ともいう）、主成分分析
教師あり学習の例：

線形回帰：
多重共線性：説明変数同士の相関が高いときに起こる現象で、通常の感覚とは異なる係数が現れることがある。これを避ける方法は説明変数同士の主成分を見たり、変数同士の平均や差を取って考える。リッジ回帰を用いる方法もある。

正則化：過学習を避ける方法の１つ。最小化したい関数（損失関数）にパイパーパラメータからなる項（ペナルティ項）を加えて、それを最小化する学習方法。代表的なものは以下の２つ。
L1正則化：ラッソ回帰（Lasso回帰）。正則化項は説明変数の係数の絶対値からなる。一部のパラメータを0にする。
L2正則化：リッジ回帰（Ridge回帰）。正則化項は説明変数の係数の２乗からなる。パラメータの大きさに応じて０に近づける。
参考：機械学習で「分からん！」となりがちな正則化の図を分かりやすく解説
スパースデータ：要素に0が多くなるようなデータ（cf. 遺伝子発現量データの解析、Lasso回帰）

ロジスティック回帰：名前に回帰とついているが、回帰問題ではなく、分類問題に用いる。シグモイド関数を用いる。（閾値）。線形回帰を拡張した一般化線形モデルに含まれるモデル。（リンク関数、ベータ回帰）

説明変数の線形結合をリンク関数と呼ばれる関数で変換することによって、目的変数

スクリー基準、カイザー基準：主成分分析においてどの程度、次元削減をすべきかを測る指標

ランダムフォレスト：一部のデータを取り出して複数のモデルを作成し、それぞれのモデルに対して複数の決定木をつくる。それぞれの決定木から得られた予測の多数決をとって決める。
ブートストラップサンプリング：全てのデータを用いて学習するのではなく、一部のデータをランダムに取り出して学習すること。（重複はあってもよい）
バギング：全体から一部のデータを取り出し、複数のモデルを用いて学習させる方法。
ブースティング：データを一部だけ取り出し、複数のモデルを学習させる方法。バギングとの違い。学習させてから、誤ったデータに重みをつけて次の部分的なデータを抽出する。勾配ブースティングが有名。
アンサンブル学習：ランダムフォレストのように、弱い学習モデルを複数合わせて汎化性能を高めること。
スタッキング：

サポートベクトルマシン（SVM）について
教師あり学習、分類問題
境界線を描いてその境界線とデータ点との距離をマージンという。マージンを最大化するように境界線を引くのがサポートベクトルマシンのコンセプト。（マージン最大化）
カーネル法：データ点の数に比べて次元の数が大きければ超平面（線形関数）で境界線を引けることを利用して、サポートベクトルマシンでは高次元にデータを埋め込むことがポイント。その高次元に埋め込むための関数をカーネル関数と呼ぶ。またその際の計算をうまく処理するための方法をカーネルトリックという。カーネルトリックとはカーネル関数を内積とみなすことで、計算量の削減を行うことができること。
サポートベクトル：マージン境界線上にある点のこと。
スラック変数：実際のデータでは境界線付近で異なるクラスのデータが入り混じることがある。このときに、ある程度の誤りを許容して境界線を引くために導入する変数をスラック変数という。
（深層学習　松尾豊(他)監訳　P.102　←むずい、機械学習のエッセンス←数式交えてて分かりやすい。）

ニューラルネットワーク、単純パーセプトロン、多層パーセプトロン、隠れ層、誤差逆伝播法、

自己回帰モデル、時系列データを扱う回帰モデル。時系列分析。ベクトル自己回帰モデル

k-means法（k-平均法）：教師なし学習。非階層型のクラスタリングの一種。k個のグループに分ける。データ同士の距離を測るので、各説明変数のスケールの大きさに注意して前処理する必要がある。
k-近傍法：教師あり学習。分類問題。k個のサンプルの平均、または多数決により識別境界が決まる。kが大きいほど単純なものになる。

ウォード法：階層ありのクラスタリング手法
デンドログラム

決定木、葉ノード、根ノード、不純度（異なる分類の混ざり具合）、情報利得（枝を進んでいくときに解消される不純度の量）
特徴量の重要度：ある特徴量で分割したときにどれだけ不純度が下げられるか。

主成分分析、第一主成分、第二主成分、上位の主成分を残して次元削減。主成分どうしの相関は0になる（軸が直交するようにとる）。
寄与率：主成分のばらつき表すもの。主成分に対する固有値の大きさらしい。
カイザー基準：主成分の数を決めるための基準。固有値が１以上である主成分を選ぶ。（cf.スクリープロット）
スクリー基準：スクリープロットの推移が滑らかになる直前で決める基準
平行分析：正規乱数行列の固有値と比較する基準

協調フィルタリング
コールドスタート。

トピックモデル：潜在的ディリクレ配分法が代表的な手段

活用、探索、
バンデットアルゴリズム：活用と探索のバランスを取るためのアルゴリズム。ε-greedy方策（εは活用と探索のどちらの手段をとるかの確率を表す）やUCB方策などがある。

マルコフ性：将来の状態にどのように変化するかの確率は現在の状態にのみ依存し、過去にどのような遷移があったかには依存しないとする仮定。
マルコフ決定過程：マルコフ性を仮定したモデル

価値関数、状態価値関数、行動価値関数、Q学習、SARSA

方策学習、方策勾配法

モデルの評価

汎化性能

ホールドアウト検証：訓練データとテストデータをはじめから２つに分ける
k-分割交差検証法：訓練データとテストデータの分割を複数回行い、それぞれで学習・検証を繰り返す。データの数が少ないときに用いられる。
層化交差検証法：

回帰問題の評価指標
MSE：二乗平均誤差
RMSE：二乗平均平方根誤差
MAE：平均絶対値誤差
RMSLE：二乗平均平方根対数誤差、出力の値が非常に大きいときや、出力の割合に注目したいとき
決定係数：

混同行列：

正確率または正解率（accuracy）=(TP+TN)/(TP+TN+FP+FN)
適合率または精度（precision）=TP/(TP+FP)
再現率（recall）=TP/(TP+FN)
F値（F measure）=2*precision*recall/(precision+recall)　適合率と再現率の調和平均

↑の覚え方
precision → 適合、正確さ → 今ある検索結果の正確さを表している
recall → 思い出す、再現する → すでに出回ってしまった製品（真に正）をどれだけ回収できたか
参考：PrecisionとRecallを何度も調べ直さないために

ROC曲線：真陽性率TPR=TP/(TP+FN)を縦軸に偽陽性率FPR=FP/(FP+TN)を横軸にとったときに閾値を0から1に変化させたときにできる曲線。（真陽性率TPRは再現率recallと同じ。またTPRは感度ともいう。）
AUC：曲線の下の面積

logloss（logarithmic loss）=\( \displaystyle -\frac{1}{n}\sum_{i=1}^n(y_i \log p_i +(1-y_i)\log (1-p_i))\)
連続知を予測値とするモデルの評価に使える。高い確信度を持った予測が謝るとペナルティが大きくなる指標

オッカムの剃刀：モデルは必要以上に複雑にすべきではないとする考え方。複雑にしすぎると、余計なノイズを拾って過学習を起こしてします可能性がでてくる。
赤池情報量基準：モデルの複雑さと汎化性能のバランスを図る基準