STOmics STOmics

EN CN

Test编辑器

04/09/2025

空间基因共表达模块使用手册

目录


空间基因共表达简介

空间基因共表达分析旨在识别在空间上具有相似表达模式的基因模块,帮助理解基因间的相互作用、功能分组以及核心基因的挖掘。通过对空间转录组数据的深入挖掘,可以揭示组织结构与功能的空间异质性。

  • 算法测评经验:如果希望快速获得结果,建议首先尝试使用 hdWGCNA 和 NeST 两种方法。hdWGCNA 在共表达基因集的基因功能分析方面表现出更高的一致性,而 NeST 则展现出更精准的空间模式识别能力。此外,若您的数据矩阵过于稀疏,可以考虑尝试使用 Hotspot 来处理。​

快速运行方式

SDAS coexpress nest -i st.h5ad -o outdir --bin_size 100
SDAS coexpress hotspot -i st.h5ad -o outdir --bin_size 100
SDAS coexpress hdwgcna -i st.h5ad -o outdir --bin_size 100

输入文件示例

h5ad数据格式说明

  • st.h5ad:空间转录组表达矩阵,要求包含原始表达矩阵、空间坐标等信息。
    1. 空间转录组表达矩阵要求是raw counts;可以通过–layer参数指定原始表达矩阵,没有指定时会用raw.X的矩阵,raw.X也没有时会使用.X的矩阵
    2. 空转数据要有空间坐标,存在obs里的’x’和’y’列中;或存在obsm里的’spatial’表中

莫兰指数文件格式说明

  • ./moran.csv:已经计算好的基因莫兰指数文件,(包含了squidpy分析的Moran‘s I 指数分析的结果,前2列为必需列:与h5ad一致的基因名称,和moranI),示例内容如下:
moranI pval_norm var_norm pval_norm_fdr_bh real_gene_name
0.8273024881077159 0.0 0.0 0.0001022749701474042 FABP5
0.8203151436536835 0.0 0.0 0.0001022749701474042 STX3
0.7993499975159156 0.0 0.0 0.0001022749701474042 HSPB1
0.797949719212986 0.0 0.0 0.0001022749701474042 S100A9
0.7868677451739036 0.0 0.0 0.0001022749701474042 NTS

NeST算法

NeST运行方式

SDAS coexpress nest -i st.h5ad -o outdir --bin_size 100
SDAS coexpress nest -i st.h5ad -o outdir --bin_size 100 --input_layer raw_counts --selected_genes top5000  --moran_path ./moran.csv --n_cpus 8 --seed 42  --hotspot_min_size 30  --hotspot_min_samples 4 --min_cells 100

NeST输入参数说明

参数 是否必须 默认值 描述
-i / --input Stereo-seq h5ad,要求有原始表达矩阵
-o / --output 输出文件夹
–bin_size 50 分辨率Bin大小(20, 50, 100, 200, cellbin),与输入h5ad一致,画图与计算均需要
–input_layer None 指定h5ad中原始表达矩阵的layer层 (例如layers[‘raw_counts’]
–selected_genes top5000 基因列表(topn高变基因, full全部基因)
–moran_path None 已计算好的基因莫兰指数列表路径
–n_cpus 8 并行计算进程数
–seed 42 随机种子
–hotspot_min_size 30 空间高变单基因覆盖的最少spot/细胞数
–hotspot_min_samples 4 识别空间高变单基因时DBSCAN算法覆盖的最少邻域spot/细胞个数(k neighbor)
–min_cells 100/30 共表达基因集覆盖的最少spot/细胞个数,默认:cellbin/bin20/bin50时为100;bin100/bin200时为30

NeST输出结果展示

文件名 描述
module.csv 空间高变基因对应的共表达基因集(module)
h5ad 含有共表达基因集结果的h5ad文件(adata.obsm[‘module_score_nest’])
png/pdf 共表达基因集关系图、单独module score热图
moran.csv 全部基因的莫兰指数及P值(如使用topn计算)
  • 共表达基因集的结果csv:NeST识别的空间高变基因对应的共表达基因集(module)
Module geneid real_gene_name
Module0 EPAS1 EPAS1
Module0 CHCHD3 CHCHD3
Module0 MDGA2 MDGA2
  • 共表达基因集的基因集打分空间热图:可视化所有共表达基因集(Module)的空间分布模式。图中颜色强度表示共表达基因集表达量的高低

  • 共表达基因集的空间位置与层级结构:展示不同共表达基因集(Module)之间的层级关系。图中颜色表示不同共表达基因集所在的空间区域

  • 共表达基因集的空间位置与基因个数:可视化所有共表达基因集(Module)所在的空间区域以及包含的基因数量

NeST结果解读说明

  • 共表达基因集从Module0开始,没有Module为不符合共表达基因集聚类要求的基因。
  • 若样本bin20/50基因数低于200,或其他特殊样本,识别的空间高变基因较少,建议降低hotspot_min_size到10。
  • 识别的空间共表达基因集较少,建议降低min_cells到10。
  • 若识别pattern过于精细,出现"NumPy Unable to allocate X GiB array"报错,建议升高hotspot_min_size和hotspot_min_samples。

Hotspot算法

Hotspot运行方式

SDAS coexpress hotspot -i st.h5ad -o outdir --bin_size 100
SDAS coexpress hotspot -i st.h5ad -o outdir --bin_size 100 --input_layer raw_counts --selected_genes top5000  --moran_path ./moran.csv --n_cpus 8 --seed 42  --fdr_cutoff 0.05  --model bernoulli

Hotspot输入参数说明

参数 是否必须 默认值 描述
-i / --input Stereo-seq h5ad,要求有原始表达矩阵
-o / --output 输出文件夹
–bin_size 50 分辨率Bin大小(20, 50, 100, 200, cellbin),与输入h5ad一致,画图与计算均需要
–input_layer None 指定h5ad中原始表达矩阵的layer层 (例如layers[‘raw_counts’]
–selected_genes top5000 基因列表(topn高变基因, full全部基因)
–moran_path None 已计算好的基因莫兰指数列表路径
–n_cpus 8 并行计算进程数
–seed 42 随机种子
–fdr_cutoff 0.05 统计检验空间高变基因与共表达基因集的FDR矫正阈值
–model normal 统计检验假设(normal, bernoulli, danb, none)

Hotspot输出结果展示

文件名 描述
module.csv 空间高变基因对应的共表达基因集(module)
h5ad 含有共表达基因集结果的h5ad文件(adata.obsm[‘module_score_hotspot’])
png/pdf 共表达基因集关系图、单独module score热图
moran.csv 全部基因的莫兰指数及P值(如使用topn计算)
  • 共表达基因集的结果csv:Hotspot识别的空间高变基因对应的共表达基因集(module)
index geneid real_gene_name FDR Module
92 SPRR3 SPRR3 0.0 Module-1
1 AKR1C2 AKR1C2 0.0 Module-1
13 FOS FOS 0.0 Module-1
12 FABP5 FABP5 0.0 Module-1
11 DUSP1 DUSP1 0.0 Module-1
  • 共表达基因集的基因集打分空间热图:可视化所有共表达基因集(Module)的空间分布模式。图中颜色强度表示共表达基因集表达量的高低

  • 共表达基因集的相似性热图:展示不同共表达基因集(Module)之间的相似性聚类关系。图中颜色表示不同共表达基因集的相似度,红色为高度相似

Hotspot结果解读说明

  • 共表达基因集从Module1开始,Module-1/没有Module为不符合共表达基因集聚类要求的基因。
  • 若样本bin20/50基因数低于200,或其他特殊样本,识别的空间高变基因/共表达基因集较少,建议将model参数从normal改为bernoulli,并将fdr_cutoff设置为0.05。

hdWGCNA算法

hdWGCNA运行方式

SDAS coexpress hdwgcna -i st.h5ad -o outdir --bin_size 100
SDAS coexpress hdwgcna -i st.h5ad -o outdir --bin_size 100 --input_layer raw_counts --selected_genes top5000  --moran_path ./moran.csv --n_cpus 8 --seed 42  --knn_neighbors 50  --max_shared_cells 15 --soft_power 8

hdWGCNA输入参数说明

参数 是否必须 默认值 描述
-i / --input Stereo-seq h5ad,要求有原始表达矩阵
-o / --output 输出文件夹
–bin_size 50 分辨率Bin大小(20, 50, 100, 200, cellbin),与输入h5ad一致
–input_layer None 指定h5ad中原始表达矩阵的layer层
–selected_genes top5000 基因列表(topn高变基因, full全部基因)
–moran_path None 已计算好的基因莫兰指数列表路径
–n_cpus 8 并行计算进程数
–seed 42 随机种子
–knn_neighbors 50 合并细胞时KNN算法覆盖的邻域spot/细胞个数(k neighbor)
–max_shared_cells 15 合并细胞时KNN算法覆盖的最多交集spot/细胞个数
–soft_power Null 网络构建时使用,默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft_power

hdWGCNA输出结果展示

文件名 描述
module.csv 空间高变基因对应的共表达基因集(module)
rds 含有共表达基因集结果的rds文件
png/pdf 共表达基因集关系图、单独module score热图
moran.csv 全部基因的莫兰指数及P值(如使用topn计算)
module_score.csv 各共表达基因集的module score数值结果
  • 共表达基因集的结果csv:hdWGCNA输出结果展示识别的空间高变基因对应的共表达基因集(module),kME表示某个基因的表达模式与所在模块的​​模块特征基因(Module Eigengene, ME)​​之间的相关性强度,kME值越接近1或-1,表明该基因越可能是枢纽基因(hub gene)
real_gene_name geneid Module color kME_Module1 kME_Module2 kME_grey kME_Module3 kME_Module4 kME_Module5 kME_Module6 kME_Module7 kME_Module8 kME_Module9
A2M A2M Module1 green 0.47946868988301 -0.107096403482606 -0.178114022165641 0.0676792398874597 0.095966109797419 -0.0907050325056857 -0.0529390531160642 -0.150612945887371 0.0878907827651177 0.0249952108382643
A2M-AS1 A2M-AS1 Module1 green 0.54370397007705 -0.150011910577089 -0.254597937099371 0.0926882061841318 0.140032173496191 -0.115227951266487 -0.101675353602963 -0.222107282189061 0.0803636102659976 0.0426306888623326
A2ML1 A2ML1 Module2 yellow 0.0404144692736028 0.479908573141937 0.194701680726881 -0.327610748128114 0.0430624759042059 0.429681007497005 -0.342984504779987 0.145625804577339 -0.386999928188458 0.08281144751312791
A2MP1 A2MP1 grey grey -0.046660656715667 0.20294339804614 0.284819067476003 -0.0506850476403686 -0.205976941174478 0.244779685854094 0.000250607520833238 0.170101997387916 -0.0177549796818324 0.0639042087827032
  • 共表达基因集的基因集打分结果csv:hdWGCNA输出结果展示识别的每个共表达基因集(module)的表达量打分的高低
Module6 Module3 Module8 Module2 grey Module7 Module5 Module9 Module1 Module4
2200_16100 -3.23688863476392 -4.34756288337066 -2.3278151796256 -8.21694142422341 -14.8112682710791 -9.12253218247156 -10.174563894144 -3.09447240000024 0.481660736850741 3.91787079378259
2200_17200 5.77873502485046 0.783016254503074 1.06582091429724 -6.03050203635639 -3.71256039305597 -0.825856084852031 -3.67468239887104 -2.09159016878048 -2.639251117267012 5.41583186417414
2300_16700 7.90521666109811 2.93759207152763 -0.391450035802177 -3.02639637030598 1.63013439679168 1.66371621513915 -1.51360146647437 -0.8975499248414 -4.66703690157902 1.40723191567521
  • 共表达基因集的基因集打分空间热图:可视化所有共表达基因集(Module)的空间分布模式。图中颜色强度表示共表达基因集表达量的高低

  • 构建网络的soft_power阈值图:分析不同软阈值参数的网络构建效果,默认自动选择无标度拓扑模型拟合度达到 0.8 的最低 soft_power

  • 共表达基因集的相似性树状图:展示不同共表达基因集(Module)之间的相似性聚类树状图

hdWGCNA结果解读说明

  • 共表达基因集从Module1开始,grey为不符合共表达基因集聚类要求的基因。
  • 若样本bin20/50基因数低于200,或其他特殊样本,识别的空间共表达基因集较少,可根据soft_power测试图调低阈值。
  • 可自定义knn_neighbors、max_shared_cells参数以获得更多可解读结果。

如需进一步帮助,请参考主项目文档或联系开发团队。