葉っぱ天国で規制された男の独り言4

294名無しさん
2023-08-23 02:50:20
ID:SFM0A4jQ

多変量解析は、2つ以上の結果変数、すなわち多変量確率変数の同時観測と分析を包含する統計学の下位区分である。多変量解析は、それぞれの異なる多変量解析の目的と背景を理解し、それらが互いにどのように関連しているかを理解することが重要である。特定の問題に対する多変量解析の実際的な適用には、変数間の関係や研究対象の問題との関連性を理解するために、いくつかのタイプの単変量解析や多変量解析が含まれることがある。
さらに、多変量解析は以下の点で多変量確率分布に関係する。
・多変量確率分布は、観測データの分布を表現するためにどのように使用できるか。
・統計的推論の一部としてどのように使用できるか、特に、複数の異なる量が同じ解析に関係する場合にどのように使用できるか。
多変量データを含むある種の問題、例えば単回帰や重回帰は、分析が他の変数を与えられた単一の結果変数の(単変量)条件分布を考慮することによって扱われるため、通常、多変量解析の特別なケースとはみなされない。

多変量解析
関連記事: 単変量解析
多変量解析(MVA)は、多変量統計の原理に基づいている。通常、MVAは、各実験単位で複数の測定が行われ、これらの測定値とその構造間の関係が重要である状況に対処するために使用される。MVAの現代的で重複する分類には、以下が含まれる:
・正規および一般的な多変量モデルと分布理論
・関係の研究と測定
・多次元領域の確率計算
・データ構造とパターンの探索
多変量解析は、階層的な「システム・オブ・システムズ」に対する変数の影響を計算するために、物理学に基づいた解析を含むことを望むために複雑になることがある。多変量解析を使おうとする研究が、問題の次元性によって行き詰まることはよくある。このような懸念は、物理ベースのコードを高精度に近似したサロゲートモデルを使用することで緩和されることが多い。サロゲートモデルは方程式の形をとるため、非常に迅速に評価することができる。これは、大規模なMVA研究を可能にする:物理ベースのコードでは設計空間全体にわたるモンテカルロ・シミュレーションが困難であるのに対し、応答曲面方程式の形をとることが多いサロゲートモデルを評価する場合は、それが些細なことになる。

分析の種類
さまざまなモデルがあり、それぞれに分析のタイプがある:
1. 多変量分散分析(MANOVA)は、同時に分析される従属変数が1つ以上ある場合をカバーするために、分散分析を拡張する。
2. 多変量回帰は、変数のベクトルの要素が、他の変数の変化に対してどのように同時に応答するかを記述できる式を決定しようとするものである。線形関係については、ここでの回帰分析は、一般線形モデルの形式に基づいている。多変量回帰は多変量回帰とは異なるという意見もあるが、それは議論されていることであり、科学分野全体で一貫して正しいわけではない。
3. 主成分分析(PCA)は、元の集合と同じ情報を含む直交変数の新しい集合を作成する。変動の軸を回転させ、変動の比率を要約するように並べた新しい直交軸の集合を与える。
4. 因子分析はPCAに似ているが、ユーザーは、元の集合よりも少ない指定された数の合成変数を抽出することができ、残りの説明できない変動を誤差として残す。抽出された変数は、潜在変数または因子として知られる。各変数は、観察された変数のグループの共分散を説明すると考えられる。
5. 正準相関分析は、2つの変数集合の間の線形関係を見つける;これは2変量相関の一般化(つまり正準)バージョンである。
6. 冗長性分析(RDA)は、正準相関分析と似ているが、ある(独立)変数集合から、別の(独立)変数集合のできるだけ多くの分散を説明する、指定された数の合成変数を導出することができる。これは回帰の多変量アナログである。
7. コレスポンデンス分析(CA)または逆平均は、(PCAのように)元の集合を要約する合成変数の集合を見つける。基礎となるモデルは、レコード(症例)間のカイ2乗非類似性を仮定する。
8. 正準(または "制約")コレスポンデンス分析(CCA)は、2つの変数集合の共同変動を要約する(冗長性分析のような);コレスポンデンス分析と多変量回帰分析の組み合わせ。基本モデルは、レコード(ケース)間のカイ2乗非類似性を仮定する。
9. 多次元尺度構成法は、レコード間のペアワイズ距離を最もよく表現する合成変数の集合を決定するためのさまざまなアルゴリズムからなる。オリジナルの手法は、主座標分析(PCoA;PCAに基づく)である。
10. 判別分析(正準変量解析)は、変数の集合が2つ以上の症例群を区別するために使用できるかどうかを確立しようとするものである。
11. 線形判別分析 (LDA) は、新しいオブザベーションの分類を可能にするために、正規分布データの2つのセットから線形予測変数を計算する。
12. クラスタリング・システムは、オブジェクトをグループ(クラスタと呼ばれる)に割り当てて、同じクラスタのオブ ジェクト(ケース)が、異なるクラスタのオブジェクトよりも互いに似ているようにする。
13. 再帰的分割は、二項従属変数に基づいて母集団のメンバーを正しく分類しようとする決定木を作成する。
14. 人工ニューラルネットワークは、回帰法やクラスタリング法を非線形多変量モデルに拡張する。
15. ツアー、平行座標プロット、散布図行列などの統計グラフィックは、多変量データを探索するために使用することができる。
16. 連立方程式モデルは、異なる従属変数を持つ2つ以上の回帰方程式を一緒に推定する。
17. ベクトル自己回帰は、さまざまな時系列変数を、それら自身と互いのラグ値に対して同時回帰する。
18. 主反応曲線分析(PRC)は、RDAに基づく手法で、対照処理の経時的変化を補正することによって、経時的な治療効果に焦点を当てることができる。
19. 相関の図像学は、相関行列を、「顕著な」相関が実線(正の相関)または点線(負の相関)で表される図に置き換えることからなる。

不完全なデータへの対処
実験的に得られたデータセットにおいて、あるデータポイントのいくつかの成分の値が欠落していることはよくあることである。データポイント全体を破棄するのではなく、欠落している成分の値を「埋める」のが一般的で、これは「インピュテーション」と呼ばれるプロセスである。

重要な確率分布
多変量解析で使用される確率分布のセットは、正規分布がデータ集合に適切である場合に単変量解析で使用される分布の対応するセットと同様の役割を果たす。これらの多変量分布は:
・多変量正規分布
・ウィシャート分布
・多変量スチューデントt分布。
逆ウィシャート分布は、ベイズ多変量線形回帰などのベイズ推論で重要である。さらに、ホテリングのT二乗分布は、スチューデントのt分布を一般化した多変量分布で、多変量の仮説検定で使用される。

歴史
アンダーソンの1958年の教科書「多変量解析入門」は、理論家と応用統計学者の世代を教育した。アンダーソンの本は、尤度比検定とべき関数の特性(許容性、不偏性、単調性)による仮説検定を強調している。
MVAは、その基礎となるデータセットの大きさ、複雑さ、計算量の多さから、かつては統計理論の領域にのみ存在していた。計算能力が飛躍的に向上した現在、MVAはデータ解析においてますます重要な役割を果たすようになり、OMICSの分野でも幅広く応用されている。

名前:

メール欄:

内容:


文字色

File: