banner
ホームページ / ニュース / 次元削減、バッチ統合、および単一の可視化のための対応分析
ニュース

次元削減、バッチ統合、および単一の可視化のための対応分析

May 16, 2023May 16, 2023

Scientific Reports volume 13、記事番号: 1197 (2023) この記事を引用

3634 アクセス

1 引用

20 オルトメトリック

メトリクスの詳細

単一細胞 RNA-seq (scRNAseq) 解析には、効果的な次元削減が不可欠です。 主成分分析 (PCA) は広く使用されていますが、連続した正規分布したデータが必要です。 したがって、scRNAseq アプリケーションでは対数変換と組み合わせて使用​​されることが多く、データが歪められ、意味のある変動が不明瞭になる可能性があります。 PCA に代わるカウントベースのコレスポンデンス分析 (CA) について説明します。 CA はカイ 2 乗残差行列の分解に基づいており、歪みのある対数変換を回避します。 scRNAseq データの過分散と高いスパース性に対処するために、9 つのデータセットのうち 8 つでより高いパフォーマンスまたは同等のクラスタリング精度でセル埋め込みを計算するために、高速でスケーラブルで標準的な CA および glmPCA を上回る 5 つの CA の適応を提案します。 特に、Freeman-Tukey 残差を使用した CA は、多様なデータセットにわたって特に優れたパフォーマンスを発揮することがわかります。 CA フレームワークのその他の利点には、「CA バイプロット」における遺伝子と細胞集団間の関連性の視覚化、およびマルチテーブル分析への拡張が含まれます。 scRNAseq データの統合的なマルチテーブル次元削減のための corralm を導入します。 当社は、Bioconductor の単一細胞クラスと直接接続する R/Bioconductor パッケージである corral に scRNAseq データ用の CA を実装しています。 PCA から CA への切り替えは、単純なパイプライン置換を通じて実現され、scRNAseq データセットの次元削減が向上します。

単一細胞 mRNA シーケンス (scRNAseq) は、数千の個々の細胞の遺伝子の転写レベルを同時に測定し、組織または実験における細胞の転写および機能の多様性を知る手段を提供します。 これらの複雑なデータセットは、組織サンプルからの「バルク」RNAseq データを分析するときに遭遇するデータセットよりも桁違いに大きいです。 このような高解像度のデータは、新たな生物学的知見を明らかにする可能性を秘めていますが、scRNAseq データは、バルク RNA サンプルで見られるものを超える疎性、ノイズ性、および技術的アーティファクトを示し 1,2、scRNAseq 固有の前処理と正規化が必要になります 3,4。 通常、scRNAseq 解析にはノイズを軽減し、計算の扱いやすさを確保するために次元削減の使用が含まれますが、方法の選択は下流の解析、結果、結論に大きく影響します 3,5。

適切な次元削減方法を選択することが重要です。 効果的な方法は、データ内の潜在的な構造とパターンを明らかにする意味のある信号を明らかにしながら、ノイズと冗長性を最小限に抑えるデータの表現を見つけます6、7。 scRNAseq データから定義する場合、意味のある生物学的に関連するバリエーションを保存する場合、縮小次元の埋め込み表現が最も役立ちます。 これは、新しいが類似した観測値の分解により、一貫して同様の埋め込み空間が得られることを意味します。 そして、一般化して新しいデータに転送し、同様の生物学的プロセスから生じる新しい観察を同じ潜在空間に投影できるようにします。

ScRNAseq カウントは通常、多項分布としてモデル化され、多くの場合、データが連続的でも近似ガウス分布でもないという事実を反映して、負の二項分布または Poisson2 として近似されます。 そのため、主成分分析 (PCA) を使用するには、この方法による次元削減の前に、離散的でまばらな scRNAseq カウント データを変換する必要があります 6。 PCA は、各軸で考慮される分散の割合がユークリッド空間で最大化されるように、直交する線形軸に沿って低次元のデータ表現を取得する線形次元削減手法です4、8、9、10、11。 PCA は、ほぼ正規分布する連続データに最適であるため、勾配のあるデータや非連続データ (カウントなど) に適用するとアーチファクトが発生する可能性があります。 このようなアーティファクトの 1 つは、「アーチ」または「馬蹄」効果と呼ばれ、PCA が対数変換なしで scRNAseq データに適用された場合に発生します 4,6,12。 そのため、実際には、scRNAseq カウント データに対数変換を適用する際の既知の問題にも関わらず、ほとんどの単一細胞ワークフローはカウント行列の log(x + 1) 変換から始まり、次に PCA を使用して結果のデータを分解します。 「ログカウント」データ3. ログカウントの使用には理論的正当性が乏しく、場合によっては意味のある変動が不明瞭になる可能性があります 2,14 が、それでも結果として得られる PCA からのデータの次元削減埋め込みは、scRNAseq クラスタリング、トラジェクトリー分析、および細胞型分類に使用されます 3。 scRNAseq カウントに合わせたいくつかの次元削減アプローチが提案されています。これには、カウントの分解のためのゼロインフレート負の二項モデルに基づくカウントでの使用に適した最初の方法である ZINB-WaVE のような方法や、ゼロインフレート因子分析 (ジファ)2、15、16、17。 それでも、主にその単純さ、速度、計算効率により、PCA は依然として最も広く使用されている方法です。 18 の次元削減手法の比較では、下流解析の精度とパフォーマンスが計算のスケーラビリティとともに考慮された場合、PCA が高く評価されました 18。

PCA を含む古典的な行列分解法は、1970 年代にベンゼクリとフランスの多変量統計学派によって提案された一般双対図アプローチの例であり、行列から列として焦点を移します。固定変数を内積空間間の演算子として行列に追加し、PCA のような古典的な多変量手法と最新のカーネル手法を同じフレームワークに統合します 8,21。 双対性図のフレームワークで登場するもう 1 つの行列因数分解手法は、コレスポンデンス分析 (CA) です。これは、非負のカウントベースのデータに適した高速次元削減手法であり、種を分析するために生態学者の間で人気のあるカテゴリデータ タイプ間の関係を識別できます。サイト別存在量カウント行列8,24。 実際には、PCA は列中心または Z スコア正規化データの特異値分解 (SVD) によって計算されることが多く (図 1A)4,25、CA はピアソン残差の SVD によって計算され、行と列の関連性が明らかになります。予想から外れる26. CA の主コンポーネントは、重みが大きいほど行と列の間の依存性または関連性が強いことを示すように、行と列の間の共依存を分割します。 scRNAseq データの場合、CA 主成分は遺伝子発現数と特定の細胞の間の共依存性を特定できます。 この観点から見ると、主な違いは、データが変換されて分解される空間です。 PCA が分散をユークリッド空間で分割するのに対し、CA は総分割カイ二乗表を線形加法成分に沿って分割します27。 CA には、言語学、ビジネスおよびマーケティング研究、考古学など、さまざまな環境や分野で長い伝統があり、大規模でまばらなカウント データに適用され、さらに最適化されています。 CA は、コドン使用分析を実行するためにバイオインフォマティクスにも適用されています 29,30。 マイクロアレイのトランスクリプトミクスデータ31を分析する。 GO ラベルをマイクロアレイ データと統合する 32。 そしてメタゲノムデータとマイクロバイオームデータを分析する33。 made4 では、Culhane ら。 マイクロアレイおよびバルク RNA-seq データに対して CA を実装しました 34、35、36。 私たちは今回、scRNAseq 解析への応用を提案します。

コレスポンデンス分析 (CA) は、生のカウントと対数正規化されたカウントでの使用に堅牢なカウント データ用の PCA の代替手段です。 (A) 標準 CA および PCA を含む、行列因数分解による次元削減の手順の図式的な概要。 標準 CA と PCA は、それぞれピアソン残差または Z スコア残差の特異値分解 (SVD) を使用して計算できます。 (B) プロットは、8 つのグループを含む合成ベンチマーク mRNA 混合物に適用された PCA (ログカウント、左) と CA (カウント、右) から生成された最初の 2 つの成分を示しています (CellBench R パッケージで配布されているデータ、3 から適応) 。 「セル」はグループごとに色分けされています。 CA はグループをクラスターに解決しますが、標準 PCA は 2 番目のコンポーネントの勾配によって駆動されるため、グループを解決できません。 (C) プロットは、Zhengmix4eq データセットのカウント (左の列) とログカウント (右の列) の両方について、CA (囲い、上の行) と PCA (下の行) によって生成された最初の 2 つのコンポーネントを示しています。等しい混合物。 セルは種類ごとに色分けされています。 CA はカウントまたはログカウントでの使用に対して堅牢ですが、カウントに対する PCA は馬蹄形 (アーチ) 効果をもたらします。 (D) CA (緑) と PCA (紫) は、6 つのベンチマーク データセット (SCMixology、Zhengmix) からのカウント (左の列) とログカウント (右の列) に適用されました。 すべてのアプローチからのエンベディングが NNGraph クラスタリングの入力として使用され、公開されたクラスターの回復のパフォーマンスが Adjusted Rand Index (ARI) を使用して評価されました。 CA は一貫して PCA のパフォーマンスを満たすか、それを上回っています。 オレンジ色の円は、各データセットで達成された最高の ARI を示しています。

PCA 適用時の対数変換 scRNAseq カウントの問題に焦点を当て、Townes ら 2、Hafemeister および Satija13、Lause ら 14 は、歪んだ対数変換の代替としてピアソン残差正規化に基づく scRNAseq 解析のアプローチを提示しました。 Townes ら 2 は、平均二乗誤差 (MSE) ではなく逸脱を最小化し、非標準リンク関数に対応する PCA の一般化である glmPCA を提案しました。これは、ピアソンの PCA または逸脱残差 2 で近似できます。 ラウセら。 は、ピアソン残差の計算に回帰ベースのアプローチを使用した Hafemeister と Satija の研究を拡張した、分析的ピアソン残差正規化 14 を提案しました 13。 ラウセら。 CA について説明したオープンソースの Bioconductor ワークショップを引用しました。 CA、PCA、SVD 間の関係。 TownesらのglmPCA、2、HafemeisterおよびSatijaのSCTransform 13、およびそれらのアプローチがCAまたはCAに非常に近似していることを裏付けるscRNAseqデータへの適用14,37。 ただし、標準化されたピアソン残差に基づいて SVD によって計算できる CA は、分割表に過分散がある場合には最適なアプローチではない可能性があります 38。

我々は、scRNAseq 数の過剰分散に対処するための CA の 5 つの適応を提案し、評価します。 これらのそれぞれのパフォーマンスを、標準 CA およびこの分野で一般的な手法である glmPCA2 と比較してベンチマークを行います。 特に、代替カイ二乗統計量であるフリーマン・テューキー残差を使用した CA が、さまざまなテスト ケースにわたって特にパフォーマンスが高いことがわかりました。 細胞のクラスタリングと特性評価はほとんどの scRNAseq ワークフローの重要な部分であるため、複雑な細胞集団の識別と注釈付けを容易にする埋め込み表現を見つけることをベンチマーク タスクの目標として設定しました。 CA バイプロットが同じ空間内のフィーチャとオブジェクトの幾何学的解釈を提供し、それによって効率的な探索的データ分析とクラスター解釈が容易になることを示します。 私たちは、Bioconductor クラス (SingleCellExperiment を含む) と直接接続する R/Bioconductor パッケージである corral に scRNAseq の標準および適応 CA を実装しました。 計算のスケーラビリティを考慮して設計された corral は、PCA や glmPCA などの他の次元削減手法と比較して高速でパフォーマンスが優れています。 corral を使用した PCA から CA への切り替えは、単純なパイプライン置換を通じて実現され、scRNAseq データセットの次元削減が向上します。

標準対応分析(CA)は、scRNAseq リード数を分割表分析フレームワークにキャストし、その標準形式では 2 段階の手順として概念化できます(図 1A に概略を図示し、「方法」で詳細を示します)。 カウント行列はまずピアソンのカイ 2 乗残差に変換され、その後、結果の残差行列が特異値分解 (SVD) で因数分解されます。

scRNAseq の CA 解析では、対数変換されたリード カウント (logcounts) は必要ありませんが、互換性があります。 広く使用されている PCA はデータ変換を必要とするため、一般に logcounts データに適用されます。ただし、scRNAseq カウントの対数変換により潜在空間表現が歪み、最初の次元が個々のセルの疎らさ、または特徴の数によって左右される場合があります。観測カウントがゼロの場合(「ゼロフラクション」)2. セルの埋め込みを見つけるための PCA のより適切な代替手段として CA を提案するため、CA を広く使用されている相関ベースの PCA4 と比較しました。

我々は、CA と PCA の両方を、8 つの異なるグループからの mRNA を含む疑似細胞混合物の CEL-seq2 シークエンシングによって得られたグランドトゥルース scRNAseq ベンチマーク データセット (カウントとログカウントの両方) に適用しました 39。 図 1B は、PCA と CA の両方の最初の 2 つの主成分を示しています。 最初の PCA コンポーネントは 8 つのクラスターのうち 3 つのクラスターからセルを明確に分離しましたが、PC2 はグループ内の勾配のみを捕捉します。 対照的に、CA は 2 つのコンポーネント内のすべてのグループを明確にクラスター化し、分離しました。 同様に、精製された PBMC の結果 (Zhengmix4eq ベンチマーク データセット) は、CA をカウントまたはログカウントに直接適用しても良好なクラスタリングと分離を達成できることを実証しましたが、カウントに対する PCA は「アーチ」または「馬蹄形」効果を生成します。潜在的な逐次順序付けまたは勾配の 12,25。 ログカウントに対する PCA は、カウントまたはログカウントに対する CA と同様に実行されます。

CA は、カウント データまたはログカウント データに適用すると堅牢であるため、ログ変換の必要性がなくなり、それに関連する問題が回避されます。 図 1C に示されている 4 つのパイプライン構成 (カウントとログカウントに関する CA および PCA) のパフォーマンスを、6 つの参照ベンチマーク データセット、つまり SCMixology の 3 つの scRNAseq データセット (3 つのテクノロジーで配列決定された 3 つの癌株の既知の細胞混合物)39 と 39 つで比較しました。 Zhengmix PBMC データセット 40、41。 (データセットは「メソッド」のベンチマークセクションにリストされています)。 研究における注釈付きの細胞タイプに基づくクラスターの回復は、2 セットのデータ パーティション間の類似性を評価する Adjusted Rand Index (ARI) を使用して評価されました (図 1D)。 すべての比較において、CA は PCA のパフォーマンスを上回るか、それに匹敵します (オレンジ色の円は、データセットあたりの最高の ARI を示します)。

CA は「まれなオブジェクト」または外れ値の影響を受ける可能性があります38。 さまざまな細胞型内および細胞型間での遺伝子発現の根本的な不均一性が高いため、scRNAseq データには、ノイズの多いデータによるアーチファクトとは対照的に、生物学的に「実際の」外れ値が含まれることがよくあります。 たとえば、専門的な分泌細胞は、膵島細胞のインスリンや免疫細胞の免疫グロブリンなど、1 つまたは 2 つのタンパク質の異常に高い産生によって駆動されることが多い、独特の生物学的プロファイルを持っています。 同様に、老化細胞または静止細胞は、急速に分裂する細胞または高悪性度腫瘍細胞と比較して、遺伝子発現プロファイルが異なります。

我々は、scRNAseq 数の過剰分散に対処するための CA の 5 つの独自の適応を提案し、評価します。 合計 6 つの CA メソッド (標準 CA と 5 つの適応) が、3 つの Zhengmix ヒト PBMC ベンチマーク データセットと、ヒト膵臓、ヒト脳、アフリカツメガエル尾からの細胞を含む 9 つのデータセットに適用されました (表 1)。 各特定の方法から生成された細胞包埋表現でのクラスター回復パフォーマンスは、各データセットからの元の注釈付き細胞集団との新しいクラスターのパーティション類似性に基づいて、glmPCA2 を参照して比較およびベンチマークされました (ARI で測定; 詳細は「方法」 –ベンチマーク)。

CA の 5 つの適応は、3 つの一般的なアプローチに分類されます (図 2A)。 最初のクラスのアプローチは、ピアソン残差を計算する前に、カウント行列に分散安定化変換を明示的に適用することでした。 Lause et al.14 は分散安定化変換をピアソン残差正規化と比較して議論しましたが、彼らの研究では行列分解の前に分散安定化とピアソン残差正規化を組み合わせていませんでした。 彼らは、分散安定化変換だけによる補正の程度はパイプライン構成の scRNAseq データには不十分であり、分析ピアソン残差による正規化のみが分散安定化のみを適用するより効果的であることを発見したと報告しました 14。 scRNA-seq カウントはポアソン分布として近似されることが多いことを考慮して、カウント データに通常適用される 3 つの分散安定化変換を検討しました。 これら 3 つの平方根ベースの変換はすべて、多項確率の平方根に対して逆余弦変換を実行すると、超球面上でほぼ正規分布する角度が得られるという RA Fisher の観察に由来しています。 1 つ目はカウント データ (図 2A の行 3) の平方根変換で、ポアソン カウントの過分散を補正するために使用されています 43。 2 つ目はアンスコムの分散安定化カウント変換 (図 2A の行 4) で、元々はポアソン、二項、負の二項データで使用するために 1948 年に提案されました 44。 第三に、1950 年に最初に提案されたフリーマン・テューキー分散安定化計数変換 (図 2A の行 5) を、ポアソンおよびその他の計数データにも使用しました 45。

カウント データの過分散に対処するための CA 適応。 (A) 標準 CA 手順と過分散に対処するための 5 つの適応をまとめた表。 最初のセット (行 1 および 2) には、カイ 2 乗残差の計算以外に変換を含まないメソッドが含まれています。 2 番目のセット (行 3 ~ 5) は、標準 CA の前にカウントに対して実行される分散安定化変換を特徴としています。 3 番目のアプローチ (行 6) は、SVD による分解の前に、マイナーな「パワー デフレーション」を使用してカイ 2 乗残差行列を平滑化します。 (B) 9 つのデータセット (列) で、各方法 (行) によって達成された NNGraph クラスター回復パフォーマンスの表。さまざまな PC にわたって選択された最大 ARI (PC ごとの ARI の完全な結果を図 2C に示します) をレポートします。ARI最大値を選択する前に、glmPCA の 10 回の実行から平均化されました。 各データセットの最高 ARI (小数点第 2 位まで) が丸で囲まれており、元のデータセットのセル クラスターが参照グループとして使用されます。 Freeman-Tukey 残差は全体的に最高のパフォーマンスを示し、9 つのデータセットのうち 6 つで ARI が最も高くなります。 (C) メソッドごとに色分けされた、9 つのデータセットそれぞれの成分数による ARI のプロット (B と同じ)。 glmPCA (灰色) の結果には 10 個のシードが含まれます。

私たちの結果は、分散安定化により標準 (古典) CA のパフォーマンスが向上することを示しています。 ピアソン残差を計算する前のカウントの分散安定化により、2 つの研究 (Zhengmix4uneq、Aztekin Xenopus tail) で ARI が 0.4 増加し、下流クラスタリングに大きな利益がもたらされました。 CA 前の平方根変換は 7 つのデータセットで ARI を増加させましたが、アンスコム数またはフリーマン・テューキー数への変換は、標準 CA と比較した場合、すべてのデータセットで ARI を増加させました (ピアソン残差を計算する前にカウントの分散安定化を行わなかった場合)。 実際、Anscombe の分散安定化カウント変換は、9 つ​​のテスト データセットのうち 1 つ (膵臓: Lawlor) で観察された最高の ARI を達成し、Freeman-Tukey 分散安定化カウント変換は、9 つ​​のデータセットのうち 3 つで最高の全体的なパフォーマンスを示しました (Zhengmix4uneq; 膵臓: Muraro、Lawlor) )。 平方根カウント変換は、どの比較においても他の 2 つの変換を上回るパフォーマンスはありませんでしたが、その ARI は 9 つのデータセットのうち 7 つで他の 2 つの変換の 0.05 以内でした。 さらに、膵臓データセットでは、標準 CA と組み合わせた分散安定化カウント変換により、全体として最高の ARI が得られ、glmPCA を上回りました。

私たちが検討した 2 番目のバリエーションは、データ平滑化方法としての「パワー デフレーション」です。 パワー デフレーションでは、SVD を実行する前に、符号を維持しながら、変換されたすべての残差値を α に累乗することで、カイ二乗残差行列の極端な外れ値を処理します (図 2A の下の行)。 概念的には、この手順は Tukey のラダー変換 46 に似ており、カイ二乗距離の行列に平滑化効果をもたらし、値の順序を維持しながら範囲外の値の影響を軽減します。 「ソフトな」平滑化効果を実現するために、\(\mathrm{\alpha }\in \left[0.9, 0.98\right]\) (データは示されていません) を検討し、 \(\mathrm{\alpha }= の結果を示します)図 2 では、0.9\) です。このアプローチは、 \(\mathrm{\alpha }= 0.5\) という特殊なケースを伴う、ポアソン数の古典的な平方根分散安定化変換にも似ていますが、変換が次の点で異なります。は、カウント行列ではなくカイ二乗残差行列に適用されます。 9 つのデータセットすべてで、このパワー デフレーション平滑化アプローチは、標準 CA と同等か、それよりも優れたパフォーマンスを示しましたが、CA パフォーマンスへの影響は分散安定化カウント変換よりも小さかったです。

3 番目に、高レベルの疎性と過分散を持つデータをカウントするのに適した代替カイ二乗統計量を検討しました。 フリーマン・テューキー残差を使用した CA (CA-FT) は、考古学遺跡データに適用され、分散安定化効果を示し、まばらで過剰に分散した遺物データの分析において標準 CA (ピアソン残差の SVD) を上回りました。 (遺跡ごとの考古学的遺物の数)45,47,48。 ピアソン残差とフリーマン・テューキー残差は両方とも、多項分布計数データの適合度をテストするための検出力発散統計の Cressie-Read ファミリーのメンバーであり、二乗すると、両方の残差はカイ二乗分布確率変数になります 47,49。 CA-FT は scRNAseq カウントに適しており (図 2A の行 2)、9 つのデータセットすべてで標準 CA を上回り、そのパフォーマンスは 9 つのベンチマークのうち 8 つで glmPCA と同等 (ARI が 0.02 以内) またはそれを上回っていることがわかりました。データセット。 ほとんどのデータセットで、CA-FT は、分散安定化変換を使用した標準 CA よりも高い、または同等のクラスタリング精度 (ARI) を示しました。 CA-FT は、9 つ​​のデータセットのうち 6 つで総合的に最高の ARI を達成しました。 標準の CA とは異なり、CA-FT と分散安定化変換 (平方根、アンスコム、またはフリーマン・テューキー) を組み合わせることにはほとんど利点がありません (図 S1)。 標準 CA のパフォーマンスは分散安定化変換によって劇的に向上しますが、CA-FT は過分散データに合わせて調整され、過分散データでの使用に適しています。

コンポーネントの選択は下流のセルのクラスタリング分析に大きな影響を与える可能性があるため、選択したコンポーネントの数の関数としてクラスタリングのパフォーマンスを考慮しました (図 2C、S2)。 「既知の」クラスターを回復する能力 (クラスタリング出力と公開された細胞タイプの間で ARI で測定) は、既知の精製された細胞タイプの単純な混合物 (Zhengmix データセット) の方が高かった。 調べた複雑な組織 (脳、膵臓、アフリカツメガエルの尾) については、細胞型の「真の」数が scRNAseq データから実験的に推定されます。 おそらく、細胞アノテーションが低解像度 (例: T 細胞) または高解像度 (例: CD4 T 細胞、枯渇した CD8 T細胞など)、特定の研究課題に応じて。 たとえば、膵臓データセット Lawlor、Muraro、Baron では、それぞれの分析で 8 種類、11 種類、および 14 種類の細胞が記述されています (表 1)。 私たちは、コンポーネントの数とクラスタリング タスクの複雑さとの間に関連性があることを観察しました。 コンポーネントが増えると、より多くのデータの変動をキャプチャできるため、高解像度のアノテーションを実行する際のパフォーマンスが向上する可能性があります。 図 2C は、より複雑な組織において、より多くの成分が一般的に ARI を増加させることを示しています。 ただし、参照セル タイプ アノテーションの解像度が低い (セル タイプが少ない) データセットの場合、より多くのコンポーネントを含めると ARI が低下する可能性があります。これは、その結果が高解像度 (より多くのセル タイプ) になり、したがって元の参照との技術的な一致性が低くなるためです。 これは、現在のベンチマーク手法の限界を明らかにしています。 新しい方法では、生物学的に意味のあるグループを見つけることができますが、低解像度のベンチマーク データセットで ARI を使用してスコア付けすると、パフォーマンスが低下します。 私たちの結果では、どちらも低解像度でアノテーションが付けられた Lawlor データセットと Darmanis データセットでは、より多くの PC が含まれる場合に ARI クラスタリングのパフォーマンスが最も急激に低下することがわかりました。

対照的に、シーケンス前に選別および精製された異なる PBMC 細胞タイプの組み合わせで構成される Zhengmix データセットのコンポーネントが増えたことにより、ARI はほとんど増加せず、一部では減少しました。 単純なデータセットでは、生物学的分散を十分に捉えるコンポーネントを超える追加コンポーネントが含まれると、システムに確率的、技術的、または体系的なノイズが追加される可能性があります。 最大 ARI によるランキングによる各メソッドのベンチマークは、コンポーネントの数に対して堅牢でした。 最初の 30 または 50 (図 S2、2B) コンポーネントが下流クラスタリングに含まれているかどうかにかかわらず、CA-FT は一貫して最もパフォーマンスが高かった。

CA、CA-FT、およびその他のバリエーションは、安定して再現されるほぼ決定的な結果を生成します。 対照的に、glmPCA は決定論的ではないため、同じデータセットに対してこの方法を再実行すると、結果が大幅に異なる可能性があります (図 2C および S3)。 再現性を高めるために、glmPCA の 10 回のランダム シード開始をテストしました (図 2C)。これにより、glmPCA の結果は、より単純なデータセットでは一貫していますが、アフリカツメガエルの尾のデータセットなどの他のデータセットでは、反復間でパフォーマンスが大幅に異なることが明らかになりました。 Lawlor 膵臓データセットでは、1 回の反復が失敗しました。これは、結果が「幸運の種」の発見に多少依存していることを示唆しています。 Zhengmix などのより単純なデータセットでは、すべてのメソッドで高い ARI スコアが生成され、glmPCA の結果は個々の実行間で一貫性がありました (図 2C)。 ただし、データの複雑さが増すにつれて、glmPCA のパフォーマンスの変動が大きくなりました。 各データセットについて、glmPCA の 10 回の実行ごとに達成された最大 ARI の平均を示します。

過分散に適応した CA のバリエーションは、下流のクラスタリングにおいて標準の CA または glmPCA よりも優れたパフォーマンスを発揮します (図 2B)。 私たちが検討したアプローチの中で、CA-FT が最もパフォーマンスが高く、分散安定化変換とパワー デフレーション アプローチを使用した標準 CA を上回りました。

CA バイプロットは、クラスター解釈のための自然なフレームワークを提供し、遺伝子発現パターンと細胞集団の間の生物学的に意味のある関係を強調し、特徴選択のガイドとして拡張することができます。 CA 行列内のすべての変換カウント (残差) は、特定の行 (遺伝子の発現) と列 (細胞) の間の関連の強さを表すカイ二乗検定統計量であるため、直観的に解釈できます。 CA マトリックスは、遺伝子発現と細胞の間の最も強い関連性を捉え、個々の細胞および細胞の部分集団ごとの機能のコントラストを強調します。 バイプロットは、特徴とオブジェクト、この場合は遺伝子と細胞の間の関連を視覚化します。 バイプロットは、フィーチャとオブジェクトのエンベディングを個別に調べるのではなく、エンベディングの両方のセットを同じ軸上に配置し、行または列の間に個別に存在する可能性がある関連付けと、特定の行と列の間に存在する可能性のある関連付けの両方を明らかにします6,50。 原点からの距離は関連性の大きさを示します。 角度回転距離 (コサイン類似度) は、細胞 (または遺伝子) 相互の類似性、または細胞と遺伝子間の関連性を反映します。

Zhengmix8 PBMC ベンチマーク データセットに対して標準 CA を実行し、得られた細胞と遺伝子の埋め込みの最初の 2 次元をプロットしました (図 3)。 最初の 2 次元で L2 ノルムによる重みが最も高い 20 個の遺伝子が青色に色付けされ、対応する遺伝子ラベルが付けられます。 細胞集団は細胞の種類ごとに色分けされています。 バイプロットは、特定の細胞集団と強い関連性があり、それらを区別する可能性のある遺伝子を強調表示します。 たとえば、ナチュラルキラー (NK) 細胞は遺伝子 GNLY によってコードされるグラニュライシンを恒常的に発現しており、これらはグラニュライシンの独占的な生産者ではありませんが、細胞傷害性 T 細胞集団などの他の細胞における GNLY 発現は免疫活性化によって駆動されます 51。 CA バイプロットは、GNLY が PC2 で高い重みを持ち (原点から遠い)、NK 細胞集団と同様の角度回転を持っている (コサイン類似性が高い) ことを示しています。 同様に、細胞集団における対数発現のヒストグラムを示す図 3 の差し込み尾根プロットは、NK 細胞集団において特異的に高度に発現していることを確認しています。

対応分析の幾何学的解釈: 遺伝子と細胞集団の間の関連性を説明します。 Zhengmix8 データセット内の CA の最初の 2 次元のバイプロット。 8 つの細胞集団は種類ごとに色分けされており、遺伝子は青色でラベル付けされて色付けされています。 重量の上位 20 個の遺伝子 (最初の 2 つの成分の起源から最も遠い遺伝子) が表示されます。 6 つの生物学的に重要な遺伝子が強調表示され、リッジ プロットはそれらの対数発現を示しています。GNLY は NK 細胞で高度に発現しているのに対し、TYROBP は NK 単球と CD14 単球の両方で高度に発現しています。 LYZ と S100A8 はどちらも高発現の単球特異的遺伝子です。 それぞれのリッジプロットに示されているように、CD74 と HLA-DRA はどちらも B 細胞で高度に発現され、単球では中程度に発現されます。

カルシウム結合タンパク質 S100A8 および S100A9 (それぞれ MRP8 および MRP14) は、単球および好中球で構成的に発現されます 52,53。 対応して、図 3 の CA バイプロットでは、両方の遺伝子の発現は単球集団と強く関連しており (同じ方向、大きさが大きい)、細胞集団間の S100A8 の相対対数発現と一致しています (挿入図)。 同様に、LYZ は単球によって高度に分泌される分子であるリゾチームをコードします 54。 挿入図に示されている単球集団間での遺伝子の差次的発現の上昇を反映して、遺伝子は起源から遠く離れていますが、細胞集団に近い角度でもあります。

バイプロットは、複数の細胞集団で高度かつ差次的に発現している遺伝子についても情報を提供します。TYROBP はシグナル伝達アダプタータンパク質 (KARAP/DAP12) をコードしており、これは当初、NK の抗ウイルスおよび抗腫瘍機能における配線要素として同定されました 55。 KARAP/DAP12 関連表面タンパク質である TREM-1 は、LPS 刺激後のサイトカインおよびケモカインによる単球、マクロファージ、顆粒球の活性化を増幅します 55。 他のリンパ系細胞や骨髄系細胞でも TYROBP が発現する可能性がありますが、主に NK、単球/マクロファージ、樹状細胞で観察されており、予想される細胞型である NK と単球での発現レベルの高さと一致しています。 遺伝子はこれらの細胞集団間に投影されます。 発現リッジ プロットにより、特に NK および単球細胞集団で発現の上昇が示されることが確認されます。

CD74 は MHC クラス II 複合体の一部であり、そのバイプロットの位置と発現プロットの両方と一致しています。角度的には、B 細胞集団に最も近くにありますが、単球集団に向かってわずかに回転しています 56。 同様に、CD74 の発現はあらゆる種類の細胞で見られますが、B 細胞と一部の単球で最も増加しています。 同様に、HLA-DRA は、MHC クラス II 複合体の細胞表面受容体である HLA-DR タンパク質のアルファ鎖をコードします 57。 B 細胞と単球は両方とも、MHC クラス II 複合体のすべての機構を必要とする専門的な抗原提示細胞であるため、これらの遺伝子は両方の細胞タイプの機能にとって重要であり、バイプロット内の両方の遺伝子は最も関連性の高い細胞タイプの間で角度を付けられています。遺伝子と細胞亜集団の間の関連性の生物学的に意味のある要約。

CA バイプロットは、細胞と遺伝子の埋め込みの統合分析を容易にし、クラスターの解釈に情報を提供し、遺伝子セット濃縮分析や共有潜在空間への補足データの投影などの他の方法と統合 (および拡張) するための基礎として機能します。

複数のバッチからの細胞を統合する必要性により、CA10、35、58 の継続的な改良と開発が促進されます。 CA のマルチテーブル適応は、corral R/Bioconductor パッケージの corralm として実装されており、インデックス付き残差または Freeman-Tukey 残差を使用して動作し、結合マルチテーブル埋め込みを見つけます。 これは、軽度から中程度の統合タスク (実験のさまざまなシーケンス実行など) に適しています。 実質的なバッチ効果を伴う複雑な統合タスクの場合、corralm はデータを完全に統合できない場合があります。これは、corralm が CA 次元削減のマルチテーブル拡張であり、バッチ統合用に最適化されておらず、明示的な統合ステップが含まれていないためです。 CA 埋め込みはパイプライン内の PCA の代わりに簡単に使用できるため、バッチ統合における包含囲みが PCA ステップを含む一般的な統合方法のパフォーマンスを向上させるかどうかを調査しました。 たとえば、広く使用されているバッチ修正方法である FastMNN と Harmony には PCA ステップが含まれています。 私たちは、LIGER59、MNNCorrect、Harmony、Seurat (SCTransform 正規化と CCA 統合を含む推奨パイプライン) など、広く使用されているバッチ統合手法 (図 4) と corralm のパフォーマンスを比較しました。これらはすべて、最近のベンチマーク調査で良好なパフォーマンスを示しました 59,60,61。 62、63。 PCA パイプラインの代替として corralm を評価するために、Harmony および MNN と組み合わせた corralm を比較に含めました。

CA のコラルム マルチテーブル適応は、共有の低次元潜在空間を見つけることによってバッチ全体のカウント行列を統合します。 (A) SCMixology ベンチマーク データセット上の 9 つの統合ワークフローの比較 (それぞれ、Dropseq、Celseq2、および 10X の 3 つのライブラリー調製プロトコルと Illumina シーケンスで使用された 3 つの細胞株の混合物: H2228、H1975、および HCC827 で構成)最初の列はカウントに関する結果を示し、2 番目の列はログカウント (該当する場合) を示します。 corralm は高速かつパフォーマンスが高く、Harmony (3 行目) などのメソッドと組み合わせてパフォーマンスをさらに向上させることができます。 (B) 3 つの SCMixology ライブラリ調製プラットフォームを表すバッチのスケール分散 (SV)。図 4A に示すカウントとログカウントの最初の 3 つの要素に基づいて計算され、バッチごとに色分けされています。 SV が 1 に近い場合は、エンベディングがバッチ間で同様の分布を示していることを示します。 corralm、Harmony with corralm、および SCTransform は良好なバッチ アライメントを示しますが、Harmony with PCA は 1 から遠く離れた値を示しており、エンベディングがバッチ間で正常に統合されていないことを示唆しています (ランク付けされたコンポーネントを持つすべてのメソッドが含まれます)。 (C) 膵臓データのバッチ統合。 選択したメソッドのセットごとに、左の列にはデータセット (バッチ) ごとに色分けされた UMAP が表示され、右の列にはセル タイプごとに色分けされた UMAP が表示されます。 (D) ASWcell タイプは生物学的コンテキストの保存に基づいて埋め込みを評価しますが、1-ASWbatch は統合を評価し、それぞれ x 軸と y 軸上にあります。 すべての方法で、これは 8 台の PC で計算されます。

まず、明確でシンプルなグラウンドトゥルースのシナリオでパフォーマンスを比較するために、各メソッドを、3 つの細胞株 (H2228、H1975、HCC827) の混合物からの scRNAseq プロファイルを含む SCMixology ベンチマーク データセットのバッチ統合に適用しました。さまざまなライブラリー調製プラットフォーム (Dropseq; Celseq2; 10X)39。 次に、より複雑で生物学的に現実的な例でのパフォーマンスを比較するために、別の研究で異なるプラットフォームで取得された 3 つのヒト膵臓データセット (Baron、Lawlor、および Muraro) の統合にメソッドを適用しました (詳細は、以下の「メソッド」のベンチマークを参照)。 。

SCMixology データセットでは、「グラウンド トゥルース」は明確であり、低次元表現によってバッチ全体でデータが整列され、異なる細胞株クラスターが識別されることが期待されます。 図 4A は、corralm による結果の縮小次元表現の最初の 2 つのコンポーネントを示しています。Harmony with corralm embeddings、SCTransform with CCA、および MNNCorrect with PCA は、細胞株クラスターを保存しながらバッチを正常に統合します (図 4A、行 1、3、4、 6)。 対照的に、Harmony (公開されているように PCA 埋め込みを使用) は、これらの同じデータに対するデータ統合とクラスター検出の両方で失敗します (図 4A、行 2)。 UMAP で視覚化されているように、LIGER はクラスターの分離には成功しますが、統合には失敗します (図 4A、行 5)。 定性的には、CCA を使用した SCTransform はバッチごとに最良のアラインメントを示し、セルタイプごとに最も緊密なクラスターを示しますが、実行時間は corralm および Harmony with corralm よりも一桁遅くなります。 CCA を使用した SCTransform は 45 秒で実行されますが、同等のタスクに対して corralm と corralm を使用した Harmony は 7 秒で実行され、ラップトップの 1 コアが割り当てられました (「メソッド」-ベンチマーク)。 LIGER と MNNCorrect は大幅に遅く、それぞれ約 6 分と 1.25 分で実行されます。 SCMixology データセットは比較的小さい (1401 セル) ものの、大規模な場合、この実行時間の違いはパイプライン全体の速度に大きな影響を与えるため、コラルムとコラルムとの調和の利点が実証されています。

ARI のようなクラスター評価尺度は、クラスターを再識別できるかどうかを評価しますが、データセットが低次元の埋め込み表現にどの程度統合されているかを直接定量化するものではありません。 我々は、バッチ間で同様の細胞集団を含むデータセットのバッチ統合を評価するための新しい指標であるスケーリング分散(SV)を提案します(図4B;方法で詳述)。 各エンベディングの各次元について、各バッチからの観測値のサブセットの分散を計算し、その次元におけるサブセットのエンベディングの過小分散または過大分散の尺度として、その次元の全体的な分散によってスケールします。 たとえば、SCMixology ベンチマーク データセットでは、生物学的に同一のサンプルが 3 つのライブラリー調製方法 (Dropseq、Celseq2、10X) を使用してアッセイされ、各バッチは同じ細胞分布を持つと予想されました。 SV 値が 1 に近いほど、バッチごとに特定の次元での統合が良好である (分散がより類似している) ことを示します。 図4Aと一致して、SVプロット(図4B)は、SCTransformが最良の積分を有し、すべてのSV点が1に非常に近いことを示した。 同様に、corralm と Harmony with corralm も良好なバッチ統合を示し、どちらも SV 値が 1 から遠く離れていた Harmony with PCA を上回りました。

より複雑で現実的な膵臓 scRNAseq 統合タスクでは、以前のベンチマーク研究 62 と同様に、データ統合手法のパフォーマンスが UMAP を比較することによって定性的に評価され (図 4C および S5)、ASW クラスターメトリックス 64 (図 4D) と定量的に評価されました。 各データセットからの特定のセル タイプ ラベルがグラウンド トゥルースであると仮定すると、セル タイプがコンパクトで完全に分離されたクラスターを形成する埋め込みでは、ASWcell タイプは 1 に近いはずです。バッチ統合は 1 – ASWbatch によって測定され、値は 1 (ASWbatch) に近くなります。 0 に近い) は、統合とバッチごとのクラスタリングが少ないことを示します。 Corralm は、バッチの最適化も明示的なバッチ統合ステップも含まない単純な結合次元削減であるため、バッチ補正用に最適化されたメソッドを上回るパフォーマンスは期待できません。 ただし、corralm がマルチバッチ PCA よりも優れていることがわかります (図 4D)。 さらに、corralm は統合パイプラインとうまく組み合わせられます。Harmony または MNN 補正と corralm 埋め込みを組み合わせると、corralm 単独および PCA を使用した元のパイプラインの両方と比較して、埋め込みが向上します。 図 4D では、Harmony と組み合わせた Corralm (Freeman-Tukey 残差あり) が、積分と生物学的クラスター分離の点で Seurat ルーチンと同等のパフォーマンスを示すことを報告します。 定性的には、これらの UMAP は類似しています (図 4C)。 対照的に、図4Cに示す他の方法は、生物学的構造の少なくとも一部を保存しているように見えましたが、バッチの統合にはあまり成功しませんでした。

CA の囲い込み実装で​​は、irlba R パッケージの高速で近似的な部分 SVD を利用します65。 ラップトップに 1 つのコアが割り当てられている場合でも (「メソッド」-ベンチマーク)、1,500 のフィーチャと 20,000 を超えるセル (50 コンポーネント) のデータセットに対して corral は 1 分以内に実行されます。 図 5A は、同様のタスクの場合、glmPCA には 1 時間以上かかること、およびさまざまなデータセット サイズ (1500 フィーチャ) にわたって、glmPCA の実行時間がセル数に応じて急速に増加するのに対し、CA (corral) はより有利にスケーリングされることを示しています。 SVD の実装が改善されると、これらをモジュール式に囲いパイプラインに組み込むことで、実行時間やメモリの使用量がさらに削減される可能性があります。 標準 CA と私たちが検討したバリエーションはスパース実装ではありません。 スパース性を適応させると、計算パフォーマンスがさらに向上する可能性があります。 CA には PCA と同様の計算要件があるため、PCA を CA に置き換えるのは簡単なパイプラインの置き換えです。

CA の計算パフォーマンスとその適応。 (A) 10 個のデータセットで標準 CA と glmPCA のランタイムを比較し、それぞれの特徴を 1500 個まで選択してプロットします。 標準 CA は、20,000 セルを超えるデータセットであっても一貫して 1 分以内に実行されますが、glmPCA はスケーリングがあまり良くなく、同等の入力行列 (1500 フィーチャ x ~ 22,000 セル) に 1 時間以上かかります。 (B) CA 適応方法全体で、アステキン アフリカツメガエル尾部データセット内の特徴の数を増加させながら実行時間を比較するプロット。 これらは同様のルーチンを使用しているため、実行時間もかなり似ています。 (C) CA 適応方法全体で、Zhengmix8 データセット内の特徴の数を増加させながらランタイムを比較するプロット。 (B) と (C) の両方で、特徴量が 1 桁多くても、CA とその適応が glmPCA にかかる時間のほんの一部で実行されることは注目に値します。

コレスポンデンス分析 (CA) は、約 1 世紀前に初めて提案され、数学的に特徴付けられた豊富な理論的基盤を持つ統計手法であり 66、開発と拡張が続けられています。 CA は定期的に「再発見」され、さまざまな分野で採用され 20,28,67,68,69、最近では scRNAseq 解析の分野で採用されています。いくつかのグループが、PCA による行列分解の前にピアソン残差に基づく正規化を提案しています 2,13。 14 は、標準 CA と概念的に似たルーチンです。残差の計算方法の違いは別として、このルーチンのもう 1 つの特徴は、SVD で残差行列を直接分解するのではなく、ピアソン残差を計算した後の PCA の追加の Z スコア正規化ステップ 4 です。 。

Freeman-Tukey カイ 2 乗残差 (CA-FT) を使用した対応分析は、scRNAseq カウントの次元削減に CA を適応させる簡単かつ効果的な方法です。 CA と、scRNAseq の過分散に対処する 5 つの CA バリエーションのパフォーマンスを比較し、この分野で一般的な方法である glmPCA2 と比較してベンチマークを行いました。 CA-FT は、scRNAseq クラスター回復タスクにおいて全体的に最も高いパフォーマンスを示しました。 私たちの分析では、標準 CA (ピアソン残差) と組み合わせて、分散安定化変換と「パワー デフレーション」平滑化を組み込むことで、標準 CA 単独と比較して、下流のクラスタリング タスクのパフォーマンスが向上することも示しました。 したがって、scRNAseq データの次元削減には、CA-FT を使用するか、標準 CA を使用する場合は分散安定化および/または平滑化を組み込むことをお勧めします。

データの正規化と次元削減は、下流の scRNAseq 解析に大きな影響を与えます。 次元削減アプローチのパフォーマンスは、データセットの分散構造、ノイズ、その他の特性に依存します。 他の場所で報告されているように 18、手法のパフォーマンスは個々のデータセットの特性に応じて異なることがわかりました。 実際の生物学研究における複雑さと微妙なニュアンスの深さを反映する堅牢な参照データセットの欠如により、ベンチマーク研究は制限されています。 高品質の「グラウンドトゥルース」ベンチマーク データセットのほとんどは、単純な「疑似」細胞混合物、または異なる細胞タイプのプールから得られます。 どちらも、組織内の細胞型の真の多様性や、現実世界の研究データの特性を反映していません。 通常、「真の」クラスターの数などのパラメーターは先験的に不明であり、特定の研究課題と状況に依存します。 補完的なアプローチは、複雑な組織サンプルを配列決定することによって得られるベンチマーク データセットを検討することですが、これらのデータセットには独自の欠点もあります。 このような研究における細胞には、割り当てを独立して検証する方法がなく、1 つの分析方法 (および特定の一連の研究目的) に基づいて ID が割り当てられます。 したがって、これらの単一コンテキストのアノテーションは、他のメソッドの将来のベンチマーク研究に対して非常に狭い基準を設定し、最初の割り当てに使用されたメソッドを超えることはできません。 さまざまなコンテキストにおける複雑なデータセットに対する体系的なベンチマーク フレームワークの進歩により、各アプローチのメリットをテストし、データの特性に基づいて最適なアプローチを特定する能力が向上します。

そのため、ここで紹介する分析は、ベンチマーク データセットのコンテキスト固有のアノテーションによってある程度制限されます。これは、これらのデータセットで公開された元のアノテーションをグラウンド トゥルース ラベルとして使用するためです。 SCMixology と Zhengmix (どちらも明確に定義された細胞クラスターで構成され、複雑な組織からのデータよりも設計が単純です) を除いて、私たちが分析したデータセットには独立して検証された細胞タイプのアノテーションがなかったため、パフォーマンスは元の細胞タイプの割り当てによって制限されます。 たとえ特定の方法がクラスタリングから重要な部分集団または稀な細胞タイプをよりよく区別したとしても、これらの利点は ARI に反映されない可能性があり、その方法は実際には「参照」との違いに対して小さなペナルティを受けることになります。 細胞クラスターのアノテーションの複雑さと主観性を考慮すると、研究者は研究目的に応じて、同じデータセットから異なる細胞集団またはクラスターを呼び出す場合があります。 単細胞生物学における研究課題とデータの課題は多様であるため、幅広い統計的および計算的アプローチが必要です。 CA の堅牢な概念フレームワークと、PCA と比較したその経験的なパフォーマンス上の利点により、scRNAseq 解析での CA の応用が主張されています。

R/Bioconductor パッケージ囲い (ドキュメント、チュートリアル、ビネットを含む) に scRNAseq データの過剰分散を調整する CA、CA-FT、およびその他のバリエーションを実装し、一般的に使用される分析パイプラインへの統合を可能にしました 3,37。 最後に、将来の開発に関するアイデアについて説明します。CA は、特により広範な双対性図のフレームワーク内に位置する場合、さらなるメソッド開発のプラットフォームおよび豊富なソースの両方として機能します。 CA バイプロットは、細胞と遺伝子の両方の埋め込みを同時に視覚化することで、これらのデータに固有の行と列の二重性を強調し、遺伝子と細胞の共同解析を容易にします。 遺伝子および細胞の埋め込みを分析するための統一されたアプローチは、遺伝子セット濃縮分析、教師付き分解、共有潜在空間への補足データの射影など、他のアプローチを拡張および/または統合するための自然なフレームワークを提供します。たとえば、同様のアプローチを使用します。以前に mogsa と ocade で使用されていたものと同様です410,34,36。 埋め込みを行列演算子として使用して、補足データを共有潜在空間に射影することができ、マルチモーダルおよびマルチバッチ統合、および高速近似手法が可能になります。 乗算による行列投影は、非常に大規模なデータセットであっても高速かつスケーラブルであり、将来の拡張では、データの代表的なサブセットを分解してから完全な行列を空間に投影することに基づく、高速で近似的な次元削減アプローチの基礎として機能できます。 。 ライブラリー調製方法の進歩により、ますます多くの個々の細胞の配列決定が可能になるため、分析方法の選択と scRNAseq パイプラインの設計において計算上の考慮事項が重要になります。

他の多くの行列分解法と同様に、コレスポンデンス分析は、データ変換ルーチン (図 1A も参照) と行列分解操作 (SVD または固有分析など) の 2 つの主要なステップで構成されます。 scRNAseq カウントデータに「標準」CA を適用する際、SVD を使用して遺伝子ごとの発現カウント行列のピアソン残差を分解します。ここで、残差は観察されたデータと予想されるデータの差を定量化します。 この場合、期待値は、元のカウント行列の行と列の重みの積です。 正の残差は、その特徴/遺伝子と細胞のペアの観察値 (カウント) が予想よりも高いことを示し、関連性または共依存性を示唆します。 対応して、負の残差は予想よりも低い値を示し、遺伝子発現の発現と細胞部分集団の間に負の関連があることを示唆しています。 二乗すると、残差はカイ二乗分布確率変数となり、その二乗和は (n-1)(m-1) 自由度のカイ二乗適合度検定統計量を構成します 47,70。

コレスポンデンス分析は、各カウント行列の行と列に沿った二重スケーリングです。

scRNAseq カウント データに適用される CA は、次の 2 つの個別のステップを経て進行します。

カウントから標準化された残差への変換。 \(\mathbf{X}\) が \(m\times n\) 行列で、列に \(n\) 個のセル (\(j\) でインデックス付け) と \(m\) 個の特徴量 (\(j\) でインデックス付け) があるとします。行内の \(i\)) は観測値 \({x}_{ij}\) で構成されます。 存在量 \({p}_{ij}\)、\(i\) 番目の行の重み \({p}_{i.}\)、および \(j\) 番目の列の重み特定の観測値 \({x}_{ij}\) に対する \({p}_{.j}\) は次のとおりです。

観測値 \({x}_{ij}\) の予想存在量は \({p}_{i.}\hspace{0.25em}{p}_{.j}\) であり、これは私たちが期待するものです。行と列の間に関係がないと仮定して、セル内を参照してください。 標準化 (ピアソン) 残差 \({r}_{p;ij}\) は、観測値と期待値の差であり、次のように計算できます。

この変換は、行と列の要素間の関連の強さを測定するカテゴリ データの分割表分析に適用される計算と同等です。 これは行列 \({\mathbf{M}}_{\mathbf{S}}\) を生成します。ここで、点の重心までの距離の合計 (「総慣性」) が行列のカイ二乗統計量になります26 、28。 この変換の結果、\({\mathbf{M}}_{\mathbf{S}}\) は中央に配置され、よりガウス的に見えるはずなので、SVD の入力として適切です。

行列分解。 \({\mathbf{M}}_{\mathbf{S}}\) は、特異値分解 (SVD) を使用して分解され、左特異値行列 \(\mathbf{U}\)、特異値の対角行列 \( \mathbf{D}\) と右特異行列 \(\mathbf{V}\) は次のようになります。

そして

結果として得られる \(\mathbf{U}\) 行列は、各列が新しい潜在空間の次元を表す埋め込みとして直接使用することも、座標スコアを計算することもできます。 標準座標スコアは、行列 \(\mathbf{U}\) と \(\mathbf{V}\) をそれぞれ行の重みと列の重みのベクトルで割ることによって得られます。 主座標スコアは、標準座標スコアに行列 \(\mathbf{D}\) の対角値のベクトルを乗算して求められます。 主な座標スコアは、各次元のスカラーだけ標準座標スコアとは異なり、両方ともフィーチャとセルの順序スコアを反映します38。 埋め込みの差がユークリッド距離に近似する PCA とは異なり、対応分析ではカイ二乗統計全体が分解されます。 テーブルの行と列のペア間に関連がある場合、基になるカイ二乗統計量の値は高くなります。

scRNAseq 数の過剰分散に対処するために、CA の 5 つのバリエーションを検討しました (図 2A にもグラフでまとめています)。

Freeman-Tukey カイ 2 乗残差を使用した CA 上記のピアソン残差を計算する代わりに、残差が計算されます。

これらの残差値の行列は、上記のステップ 2 で説明したように SVD で分解されます。

分散安定化変換を使用した CA: 平方根 残差変換を実行する前に、カウントの行列 \(\mathbf{X}\) の平方根が計算されます。

分散安定化変換を使用した CA: Anscombe カウント行列 \(\mathbf{X}\) の各要素 \({x}_{ij}\) は \({x}_{ij}^{* に変換されます) }=2\sqrt{{x}_{ij}+\frac{3}{8}}\)。 残差変換は、分散安定化カウント行列 \({\mathbf{X}}^{*}\) に基づいて計算されます。

分散安定化変換を使用した CA: Freeman–Tukey カウント行列 \(\mathbf{X}\) の各要素 \({x}_{ij}\) は \({x}_{ij}^ に変換されます) {*}=\sqrt{{x}_{ij}}+\sqrt{{x}_{ij}+1}\)。 残差変換は、分散安定化カウント行列 \({\mathbf{X}}^{*}\) に基づいて計算されます。

パワー デフレーションを使用した CA ピアソン残差変換を実行した後、残差行列の各値は、符号を維持したまま \(\alpha \in \left(0,1\right)\) の累乗に変換されます。 残差行列の各要素 \({r}_{ij}\) は \({r}_{ij}^{*}={\text{sgn}}\left({\text{r} }_{\text{ij}}\right) {\left|{r}_{ij}\right|}^{\mathrm{\alpha }}\)。 「ソフト」スムージング効果には \(\alpha \in [0.9,0.99]\) を選択し、 \(\alpha =0.9\) の結果を表示することをお勧めします。

複数のテーブルを統合するための対応分析の適応は、追加の行列連結操作を備えた単一テーブルの方法と同様です。 データセットを統合する場合、標準化された残差を予想される比率の平方根で割ることにより、インデックス付き残差を使用して、scRNAseq 研究におけるバッチ効果の原因として知られている、より大きな質量(ライブラリの深さ)を持つカラムの影響を軽減します。 インデックス付き残差は簡単に解釈できます。たとえば、値 0.5 は、観測値が期待値より 50% 高いことを示します。 値 - 0.5 は、観察された値が遺伝子と細胞の関連性がある可能性が予想より 50% 低いことを示しました。

テーブルを照合し、特徴を選択します。 統合する \(k\) 行列全体の特徴の交差部分を特定し、それらの \({m}^{*}\) の特徴のみに対してテーブルをサブセット化します。 これらの分析ではバッチ統合に焦点を当てているため、特徴に基づいて照合しますが、表はバッチ間の統合の場合は特徴ごとに照合することも、「オミックタイプ」にわたるマルチモーダル統合の場合はセルごとに照合することもできます。

カウントからインデックス付き残差への変換。 \(n\) 個のセルと \({m}^{*}\) の特徴を持つ各テーブルを考えると、行の重みは \({p}_{i.}\)、列の重みは \({p}_{. j}\) と各観測値の存在量 \({p}_{ij}\) は、標準 CA について上で説明したように計算されます。 インデックス付き残差 \({r}_{ij}\) は次のように計算できます。

各データセットの内部構造を維持するために、各テーブルは個別にスケーリングされます。

行列を連結します。 次に、インデックス付き残差の変換行列が一致する特徴に沿って連結されて、 \({m}^{*}\) を含む新しい行列 \({\mathbf{M}}_{\mathbf{C}}\) が形成されます。特徴と \(k\) 行列内のセルの総数 (つまり、 \(k\) 全体の \(n\) の合計)。

行列分解。 特異値分解 (SVD) をインデックス付き残差の連結行列 \({\mathbf{M}}_{\mathbf{C}}\) に適用して、対角の左特異行列 \(\mathbf{U}\) を見つけます。特異値の行列 \(\mathbf{D}\) と右特異値行列 \(\mathbf{V}\) は次のようになります。

そして

\(\mathbf{U}\) 行列の列は、この手順によって生成された埋め込みとして機能し、セルは連結された行列 \({\mathbf{M}}_{\mathbf{C) 内のインデックスに対応します。 }}\)。

下流の分析によっては、適切な数の PC を選択することが重要になる場合があります。 PCA と同様に、コンポーネントの数は、たとえば findPC R パッケージで実装されているように、スクリー プロットを使用してエルボ法を使用して選択できます (Harmony による囲い込みの図 4C のように)71。

バッチ全体の埋め込み表現を統合する場合、クラスター評価の尺度は、クラスター化によるグループのコンパクトさと細胞集団の回復を評価するのに効果的です。 ただし、データセットの埋め込みがバッチ間でどの程度統合されているかを直接評価することはありません。 特にバッチ統合に焦点を当てるために、データセット全体に対する各バッチの相対的な分散を捕捉する、ヒューリスティックなスケール分散メトリックを開発して適用しました。 バッチ \({b}^{*}\)、\(S{V}_{{b}^{*) 内の観測値のサブセットの成分次元 \({d}^{*}\) のスケーリングされた分散},d}\) は次のように計算されます。

ここで、 \(\mathbf{E}\) は埋め込みの行列であり、 \(b\) は行 (バッチによる観測値) にインデックスを付け、 \(d\) は列にインデックスを付けて、どのコンポーネントの次元を評価するかを示します。 データセットが適切に統合されている場合、各バッチの SV 値は 1 に近くなります。これは、各バッチが埋め込み全体と比較して同様の分散を持っていることを示しています。 このメトリクスは、異なるデータセットで表されるセルのタイプが類似していると予想される場合に適していますが、セル タイプ (したがって埋め込み) の予想される分布がバッチ間で根本的に異なる状況を考慮することはできません。

表 1 に示す 10 個の scRNA-seq ベンチマーク データセットを検討しました。各手法からの縮小次元埋め込みは、bluster パッケージのデフォルト NNGraph パ​​ラメーター セットで実装されているウォークトラップ最近傍グラフ クラスタリングを使用してクラスター化されました72、73。 クラスタリング タスクのパフォーマンスは、元のデータセットからのセル タイプ ラベルを「グラウンド トゥルース」として使用し、Adjusted Rand Index (ARI)74 で評価されました。 Walktrap は、パフォーマンスに基づいたクラスタリングの主な方法として選択されました。 他のアルゴリズムと同様に、ウォークトラップ アルゴリズムはルーヴァン クラスタリングよりも階層構造をより良く保存し、全体的により高い ARI75 を達成することを観察しました。 Louvain クラスタリングとウォークトラップ クラスタリングを比較した結果は図 S4 に含まれています。 クラスターと ARI には実行間で多少の変動が観察されましたが、CA-FT はデータセットの範囲全体で最もパフォーマンスの高い手法として一貫してランク付けされていることに注目します。 図 2C に示す結果は、さまざまな数の PC を使用したクラスタリングからのものです。 図 2B に示される結果は、図 2C からテストされたすべての PC の最大値を取ることによって計算されます。glmPCA の場合、示される値は各シード (合計でテストされた 10 個のシード) によって達成された最大値の平均です。 データセット (詳細は下記) は、CellBench、DuoClustering2018、scRNAseq の 3 つの R/Bioconductor データ パッケージから取得されました。 これらのそれぞれへのリンクは、以下の「データの利用可能性」セクションに含まれています。

SCMixology 統合 (図 4A、B) では、ベンチマークされた各メソッドは、それぞれのドキュメント/ビネットで提案されているデフォルト設定で実行されます。 バッチチェラー R/Bioconductor パッケージの mnnCorrect は、logcounts 行列に対して実行され、PCA60 で分解されます。 LIGER の結果は、NMF ベースの方法であるため、UMAP の視覚化として示されています。埋め込みの次元はパフォーマンスによってランク付けされておらず、正の値のみに制限されているため、UMAP 埋め込みを直接視覚化するのは困難であることがわかりました59。 。 同様に、LIGER は同じ理由でスケーリングされた分散プロットには表示されません。ランク付けされたコンポーネントを生成しない他の方法でスケーリングされた分散プロットのアプローチを使用することはお勧めしません。

膵臓統合 (図 4C、S5) では、すべての UMAP プロットは n_neighbors = 40 または n_neighbors = 50 を使用して生成されました。メソッドは SCMixology 統合結果と同様に実装されました。 PCA (テーブルによるスケール) は、ミニレビューで説明されているように実装されました4。 マルチバッチ PCA は、「 + MNN」メソッド (reducedMNN) と同様に、バッチチェラー実装 (multibatchPCA) で実行されました。 corralm + Harmony の結果では、Harmony61 を実行する前の PC 選択にエルボ法 (findPC で実装、垂直オプション 71) が使用されています。 平均シルエット幅 (ASW) は、ユークリッド距離 64,76 を使用して、クラスター R パッケージで実装されました。 共同評価を可能にするために、データセット全体で一致するセル タイプに同じラベルが割り当てられるように、ラベルが調和されました。 特に、活性化星状体と静止星状体は星状体にマージされました。 gamma/pp と pp は gamma とマージされました。 ダクトとダクトが結合しました。

コードとドキュメントは、corral R/Bioconductor パッケージ (https://www.bioconductor.org/packages/corral) で入手できます。 この原稿の図と分析を再現するための R コードは、Github (https://github.com/laurenhsu1/corral_manuscript) で入手できます。 囲いを含む PCA および CA のさまざまな実装を説明するチュートリアルは、https://aedin.github.io/PCAworkshop で入手できます。 これらの分析で使用されるデータセットの詳細は、「メソッド」の「ベンチマーク」セクションの表 1 に記載されています。これには、引用や R データ パッケージを通じてデータに直接アクセスできる場所も含まれます。 アクセスしやすいように、このペーパーで使用されている各 Bioconductor データ パッケージのリンクを以下に示します。 CellBench: https://bioconductor.org/packages/release/bioc/html/CellBench.htmlDuoClustering2018: https://bioconductor.org/packages /release/data/experiment/html/DuoClustering2018.htmlscRNAseq: https://www.bioconductor.org/packages/release/data/experiment/html/scRNAseq.html

Hicks, SC、Townes, FW、Teng, M. & Irizarry, RA 単一細胞 RNA シーケンス実験におけるデータの欠落と技術的ばらつき。 生物統計学 19、562–578 (2018)。

記事 Google Scholar

Townes, FW、Hicks, SC、Aryee, MJ & Irizarry, RA 多項モデルに基づく単一細胞 RNA-Seq の特徴選択と次元削減。 ゲノムバイオル。 20、295 (2019)。

記事 CAS Google Scholar

アメスキータ、RA 他。 生体伝導体を使用した単一細胞分析の調整。 ナット。 方法 17、137–145 (2020)。

記事 CAS Google Scholar

Hsu、LL および Culhane、AC 単一セル データの統合行列因数分解に対するデータ前処理の影響。 フロント。 オンコル。 10、973 (2020)。

記事 Google Scholar

Kiselev, VY、Andrews, TS & Hemberg, M. 単一細胞 RNA-seq データの教師なしクラスタリングにおける課題。 ナット。 ジュネ牧師。 20、273–282 (2019)。

記事 CAS Google Scholar

Nguyen, LH & Holmes, S. 効果的に次元を削減するための 10 の簡単なヒント。 PLOS コンピューティング。 バイオル。 15、e1006907 (2019)。

記事 ADS CAS Google Scholar

スタイン・オブライエン、GL 他マトリックスに入る: 因数分解はオミクスから知識を明らかにします。 トレンドジュネット。 34、790–805 (2018)。

Holmes, S. 多変量データ分析: フランスの方法。 数理統計研究所コレクション 219–233 (数理統計研究所、2008)。 土井:https://doi.org/10.1214/193940307000000455。

Hotelling, H. 2 セットの変量間の関係。 バイオメトリカ 28、321 (1936)。

記事 MATH Google Scholar

Meng, C. et al. マルチオミクスデータの統合分析のための次元削減技術。 簡単な。 バイオインフォーム。 17、628–641 (2016)。

記事 CAS Google Scholar

Pearson, K. 空間内の点の系に最も近い直線と平面について。 ロンド。 エディンブ。 ダブリンのフィロス。 マグ。 J.Sci. 2、559–572 (1901)。

記事 MATH Google Scholar

Diaconis, P.、Goel, S. & Holmes, S. 多次元スケーリングとローカル カーネル法におけるホースシュー。 アン。 応用統計 2、777–807 (2008)。

記事 MATH Google Scholar

Hafemeister, C. & Satija, R. 正則化された負の二項回帰を使用した単一細胞 RNA-seq データの正規化と分散の安定化。 ゲノムバイオル。 20、296 (2019)。

記事 CAS Google Scholar

Lause, J.、Berens, P. & Kobak, D. 単一細胞 RNA-seq UMI データの正規化のための分析的ピアソン残差。 ゲノムバイオル。 黙示録 22、258 (2021)。

記事 CAS Google Scholar

Durif, G.、Modolo, L.、Mold, JE、Lambert-Lacroix, S. & Picard, F. 単一細胞発現データ分析のための確率的カウント行列因数分解。 バイオインフォマティクス 35、4011–4019 (2019)。

記事 CAS Google Scholar

Pierson, E. & Yau, C. ZIFA: ゼロインフレート単一細胞遺伝子発現解析のための次元削減。 ゲノムバイオル。 16、241 (2015)。

記事 Google Scholar

リッソ、D.、ペロードー、F.、グリブコバ、S.、デュドワ、S.、ヴェール、J.-P. 単一細胞 RNA-seq データからシグナルを抽出するための一般的で柔軟な方法。 ナット。 共通。 9、284 (2018)。

記事 ADS Google Scholar

Sun、S. 単一細胞 RNA-seq 解析のための次元削減法の精度、堅牢性、およびスケーラビリティ。 ゲノムバイオ.20, 269 (2019)。

記事 Google Scholar

Benzecri, J.-P. 統計的問題と幾何学的手法。 ああ。 アナル。 データ 3、131 ~ 146 (1978)。

Google スカラー

ベンゼクリ、J.-P.、他。 データ分析。 フライト。 2 (デュノー・パリ、1973)。

De la Cruz, O. & Holmes, S. データ分析における双対性図: 最新のアプリケーションの例。 アン。 応用統計 5、2266–2277 (2011)。

記事 MATH Google Scholar

Escoufier, Y. 双対性図: より優れた実用的なアプリケーションの手段。 『数値生態学の開発』 (P. ルジャンドルおよび L. ルジャンドル編) (Springer、1987)。

Escoufier, Y. データ マトリックスに関連するオペレーター: 調査。 Compstat 2006 - Proceedings in Computational Statistics (Rizzi, A. & Vichi, M. 編) 285–297 (Physica HD、2006)。 土井:https://doi.org/10.1007/978-3-7908-1709-6_22。

ルジャンドル、P. & ルジャンドル、L. 数値生態学。 (エルゼビア、2012)。

Holmes, S. & Huber, W. 現代生物学のための現代統計。 (ケンブリッジ大学出版局、2019年)。

Google スカラー

Greenacre、MJ 対応分析: 対応分析。 ワイリー・インターディシプ。 Rev.Comput. 統計 2、613–619 (2010)。

記事 Google Scholar

ディグビー、PGN およびケンプトン、RA 生態学的コミュニティの多変量分析 (Springer、1987)。

Google Scholar を予約する

Greenacre、MJ 理論と対応分析の応用。 (アカデミックプレス、1984)。

Grantham, R.、Gautier, C.、Gouy, M.、Mercier, R. & Pavé, A. コドンカタログの使用法とゲノム仮説。 核酸研究所 8、197–197 (1980)。

記事 Google Scholar

Perriere, G. コドン使用研究における対応分析の使用と誤用。 核酸研究所 30、4548–4555 (2002)。

記事 CAS Google Scholar

Fellenberg、K. et al. マイクロアレイデータに適用されるコレスポンデンス分析。 手順国立アカド。 科学。 Rev. 98、10781–10786 (2001)。

記事 ADS CAS Google Scholar

ブソルド、CH et al. 対応分析における GO アノテーションの統合: マイクロアレイ データの解釈を容易にします。 バイオインフォマティクス 21、2424–2429 (2005)。

記事 CAS Google Scholar

McMurdie, PJ & Holmes, S. phyloseq: マイクロバイオーム国勢調査データの再現可能な対話型分析とグラフィックスのための R パッケージ。 PLoS ONE 8、11 (2013)。

記事 Google Scholar

Culhane, AC、Perriere, G.、Considine, EC、Cotter, TG & Higgins, DG マイクロアレイ データのグループ間分析。 バイオインフォマティクス 18、1600–1608 (2002)。

記事 CAS Google Scholar

Culhane, AC、Perrière, G. & Higgins, DG 共慣性解析を使用した遺伝子発現データのクロスプラットフォーム比較および視覚化。 BMC バイオインフォマティクス 15 (2003)。

Meng, C. et al. MOGSA: 複数のオミクスデータの統合的な単一サンプル遺伝子セット分析。 モル。 細胞。 プロテオミクス 18、S153–S168 (2019)。

記事 CAS Google Scholar

Culhane, AC & Hsu, LL 初心者のための次元削減: 行列因数分解と PCA のヒッチハイク ガイド。 (2019) https://github.com/aedin/PCAworkshop。

Greenacre, M. 対応分析における希少天体の貢献。 エコロジー。 94(1)、241–249 (2013)。

記事 Google Scholar

Tian、L.ら。 混合対照実験を使用した単一細胞 RNA シーケンス解析パイプラインのベンチマーク。 ナット。 方法 16、479–487 (2019)。

記事 CAS Google Scholar

鄭、GXYら。 単一細胞の大規模並列デジタル転写プロファイリング。 ナット。 共通。 8、14049 (2017)。

記事 ADS CAS Google Scholar

Duò, A.、Robinson, MD、Soneson, C. 単一細胞 RNA-seq データのクラスタリング手法の体系的なパフォーマンス評価。 F1000リサーチ7、1141(2020)。

Mosteller, F. & Tukey, JW 二項確率紙の用途と有用性。 混雑する。 統計准教授 44、174–212 (1949)。

記事 CAS MATH Google Scholar

Bartlett, MS 変換の使用。 バイオメトリクス 3、39 (1947)。

記事 CAS Google Scholar

Anscombe, FJ ポアソン データ、二項データ、および負の二項データの変換。 Biometrika 35、246–254 (1948)。

記事 MATH Google Scholar

Freeman、MF & Tukey、JW 角度と平方根に関連する変換。 アン。 数学。 統計 21、607–611 (1950)。

記事 MATH Google Scholar

Tukey、JW Exploratory データ分析。 (アディソン・ウェスリー、1977)。

Beh, EJ、Lombardo, R. & Alberti, G. コレスポンデンス分析とフリーマン・テューキー統計: 考古学データの研究。 計算します。 統計データアナル。 128、73–86 (2018)。

記事 MATH Google Scholar

Plackett, RL、Bishop, YMM、Fienberg, SE & Holland, PW 離散多変量解析: 理論と実践。 JR駅社会サー。 Gen. 139、402 (1976)。

記事 Google Scholar

Cressie, N. & Read、TRC 多項適合度検定。 JR駅社会サー。 Bメソドール。 46、440–464 (1984)。

Greenacre, M. によるバイプロット。 J.Comput. グラフ。 統計 22、107–122 (2013)。

記事 Google Scholar

Krensky, AM & Clayberger, C. グラニュライシンの生物学と臨床関連性。 組織抗原 73、193–198 (2009)。

記事 CAS Google Scholar

Gonzalez, LL、Garrie, K. & Turner, MD 健康と病気における S100 タンパク質の役割。 ビオチム。 生物物理学。 アクタBBAモル。 セル解像度 1867年、118677年(2020年)。

Wang, S. et al. 炎症におけるS100A8/A9。 フロント。 イムノール。 1298 年 9 月 (2018 年)。

記事 Google Scholar

Gordon, S.、Plüddemann, A. & Martinez Estrada, F. 組織内のマクロファージの不均一性: 表現型の多様性と機能。 イムノール。 改訂 262、36–55 (2014)。

Tomasello, E. & Vivier, E. KARAP/DAP12/TYROBP: 3 つの名前と多数の生物学的機能。 ユーロ。 J.Immunol. 35、1670–1677 (2005)。

記事 CAS Google Scholar

Su, H.、Na, N.、Zhang, X.、Zhao, Y. 免疫疾患における CD74 の生物学的機能と重要性。 インフラム。 解像度 66、209–216 (2017)。

記事 CAS Google Scholar

Matern、BM、Olieslagers、TI、Voorter、CEM、Groeneweg、M. & Tilanus、MGJ HLA-DRA の多型および HLA ハプロタイプとの進化的関係についての洞察。 HLA 95、117–127 (2020)。

記事 CAS Google Scholar

Doledec, S. & Chessel, D. 共慣性分析: 種と環境の関係を研究するための代替方法。 フレッシュw。 バイオル。 31、277–294 (1994)。

記事 Google Scholar

ウェルチ、JD et al. 単一細胞のマルチオミック統合により、脳細胞の同一性の特徴が比較対照されます。 セル 177、1873-1887.e17 (2019)。

記事 CAS Google Scholar

Haghverdi, L.、Lun, ATL、Morgan, MD & Marioni, JC 単一細胞 RNA 配列データにおけるバッチ効果は、相互最近傍を一致させることによって補正されます。 ナット。 バイオテクノロジー。 36、421–427 (2018)。

記事 CAS Google Scholar

Korsunsky, I. Harmony を使用した単一細胞データの高速、高感度、正確な統合。 ナット。 方法 16、16 (2019)。

記事 Google Scholar

トラン、HTN et al. 単一細胞 RNA シーケンス データのバッチ効果補正法のベンチマーク。 ゲノムバイオル。 21、12 (2020)。

記事 CAS Google Scholar

リュッケン医学博士ら。 単一細胞ゲノミクスにおけるアトラスレベルのデータ統合のベンチマーク。 ナット。 方法 19、41 ~ 50 (2022)。

記事 CAS Google Scholar

Rousseeuw、PJ Silhouettes: クラスター分析の解釈と検証をグラフィカルに支援します。 J.Comput. 応用数学。 20、53–65 (1987)。

記事 MATH Google Scholar

Baglama, J. および Reichel, L. は、Lanczos の二重対角化メソッドを暗黙的に再開しました。 サイアム J. Sci. 計算します。 27、19–42 (2005)。

記事 MATH Google Scholar

ヒルシュフェルト、HO 相関関係と偶然性の関係。 数学。 手順キャンブ。 フィロス。 社会 31、520–524 (1935)。

記事 ADS MATH Google Scholar

Abdi, H. & Valentin, D. 多重対応分析。 エンサイク。 測定。 統計 (2007)。

Beh, EJ & Lombardo, R. 対応分析の系譜: 対応分析の系譜。 8月。 NZJ統計局 54、137–168 (2012)。

記事 MATH Google Scholar

ミズーリ州ヒル 対応分析: 無視された多変量法。 応用統計 23、340 (1974)。

記事 Google Scholar

Pearson, K. 変数の相関システムの場合の確率からの所定の偏差システムが、ランダム サンプリングから生じたと合理的に想定できるようなものであるという基準について。 ロンド。 エディンブ。 ダブリンのフィロス。 マグ。 J.Sci. 50、157–175 (1900)。

Zhuang, H.、Wang, H. & Ji, Z. findPC: 単一細胞解析で主成分の数を自動的に選択する R パッケージ。 バイオインフォマティクス 38、2949–2951 (2022)。

記事 CAS Google Scholar

Lun A. bluster: Bioconductor のクラスタリング アルゴリズム。 R パッケージ バージョン 1.8.0。 (2022年)。 https://bioconductor.org/packages/bluster。

Pons, P. および Latapy, M. ランダム ウォークを使用した大規模ネットワークのコンピューティング コミュニティ。 コンピュータおよび情報科学の博士号 - ISCIS 2005 (Yolum、pInar、Güngör、T.、Gürgen、F.、および Özturan, C. 編) vol. 3733 284–293 (シュプリンガー ベルリン ハイデルベルク、2005)。

Hubert, L. & Allemand, P. パーティションの比較。 J.Classif. 2、193–218 (1985)。

記事 MATH Google Scholar

Barkas、N. et al. 異種単一細胞 RNA-seq データセット コレクションの共同解析。 ナット。 方法 16、695–698 (2019)。

記事 CAS Google Scholar

Maechler, M.、Rousseeuw, P.、Struyf, A.、Hubert, M. & Hornik, K. クラスター: クラスター分析の基本と拡張。 R パッケージ バージョン 2.1.4 (2022)。 https://cran.r-project.org/web/packages/cluster

バロン、M.ら。 ヒトおよびマウスの膵臓の単一細胞トランスクリプトーム マップは、細胞集団内および細胞集団の構造を明らかにします。 セルシステム。 3、346-360.e4 (2016)。

記事 CAS Google Scholar

ムラロ、MJ 他ヒト膵臓の単一細胞トランスクリプトーム アトラス。 セルシステム。 3、385-394.e3 (2016)。

記事 CAS Google Scholar

ローラー、N.ら。 単細胞トランスクリプトームはヒト島細胞の特徴を特定し、2 型糖尿病における細胞型特異的な発現変化を明らかにします。 ゲノム研究所 27、208–222 (2017)。

記事 CAS Google Scholar

Chen, R.、Wu, X.、Jiang, L. & Zhang, Y. 単一細胞 RNA 配列により視床下部細胞の多様性が明らかに。 Cell Rep. 18、3227–3241 (2017)。

記事 CAS Google Scholar

Darmanis, S. et al. 単一細胞レベルでのヒト脳トランスクリプトーム多様性の調査。 手順国立アカド。 科学。 112、7285–7290 (2015)。

記事 ADS CAS Google Scholar

アステキン、C.ら。 アフリカツメガエルの尾における再生組織化細胞の同定。 サイエンス 364、653–658 (2019)。

記事 ADS CAS Google Scholar

リファレンスをダウンロードする

ハーバード大学THチャン公衆衛生大学院のJohn Quackenbush教授と彼の研究室、リムリック大学のAedín Culhane教授の研究室、そしてChan Zuckerberg Initiativeシードネットワークプログラムから資金提供を受けたBioconductorの同僚との有益な議論に感謝します。 また、ダナ・ファーバー癌研究所のジュディス・アグド教授と彼女の研究室からの支援にも感謝しています。

このプロジェクトは、シリコンバレーコミュニティ財団の助言基金であるチャン・ザッカーバーグ・イニシアチブDAFからの助成金番号CZF2019-002443(主任PI:マーティン・モーガン)によって部分的に実現され、ACCはその助成金受領者となっています。 LH は、統計遺伝学/ゲノミクスおよび計算生物学における NIH NIGMS 生物統計トレーニング助成プログラム (博士課程前トレーニング助成金 T32GM135117) によって一部資金提供されています。

ハーバード大学THチャン公衆衛生大学院生物統計学部、ボストン、マサチューセッツ州、米国

ローレン・L・スー

米国マサチューセッツ州ボストンのダナ・ファーバー癌研究所癌免疫学およびウイルス学部

ローレン・L・スー

リムリックデジタルがん研究センター、リムリック大学医学部保健研究所、リムリック、アイルランド

エディン・C・カルヘイン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

LH と ACC は原稿を執筆し、提示された手法を概念化しました。 ACC は、CALH に関する Bioconductor ワークショップのビネットを作成し、R/Bioconductor パッケージ囲いを開発し、分析を実行するコードを作成し、図を作成しました。

アディン・C・カルハネへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Hsu、LL、Culhane、AC 単一細胞 RNA-seq データの次元削減、バッチ統合、視覚化のための対応分析。 Sci Rep 13、1197 (2023)。 https://doi.org/10.1038/s41598-022-26434-1

引用をダウンロード

受信日: 2022 年 9 月 2 日

受理日: 2022 年 12 月 14 日

公開日: 2023 年 1 月 21 日

DOI: https://doi.org/10.1038/s41598-022-26434-1

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。