ArviZ 标签使用指南：从基础到高级定制

最新推荐文章于 2025-06-28 09:11:44 发布

宋溪普Gale

最新推荐文章于 2025-06-28 09:11:44 发布

阅读量408

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00088/article/details/148969960

ArviZ 标签使用指南：从基础到高级定制

引言

在数据分析和可视化过程中，清晰、准确的标签对于理解图表内容至关重要。ArviZ 作为贝叶斯分析的重要工具，提供了强大的标签系统来帮助用户更好地展示和解释数据。本文将全面介绍 ArviZ 中的标签使用技巧，从基础配置到高级定制，帮助您掌握这一重要功能。

基础标签配置

默认标签行为

ArviZ 的所有绘图函数和部分统计函数都接受可选的 labeller 参数。默认情况下，标签会显示变量名称。对于多维变量，还会显示坐标值。

import arviz as az
schools = az.load_arviz_data("centered_eight")
az.summary(schools)

基于标签的索引

ArviZ 支持基于 xarray 的标签索引功能，您可以使用标签来绘制选定变量的子集。

# 绘制特定变量和坐标值的轨迹图
az.plot_trace(schools, 
             var_names=["tau", "theta"], 
             coords={"school": ["Choate", "St. Paul's"]}, 
             compact=False)

标签定制

使用 labeller 参数

您可以使用 labeller 参数自定义标签显示方式。例如，将变量名 theta 显示为数学符号 θ：

import arviz.labels as azl
labeller = azl.MapLabeller(var_name_map={"theta": r"$\theta$"})
coords = {"school": ["Deerfield", "Hotchkiss", "Lawrenceville"]}

az.plot_posterior(schools, 
                 var_names="theta", 
                 coords=coords, 
                 labeller=labeller, 
                 ref_val=5)

标签排序

ArviZ 提供了两种标签排序方式：

通过传递给 ArviZ 绘图函数的参数排序
直接对底层的 xarray.Dataset 进行排序

变量名排序

# 方法1：通过函数参数排序
var_order = ["theta", "mu", "tau"]
az.summary(schools, var_names=var_order)

# 方法2：直接排序xarray数据集
schools.posterior = schools.posterior[var_order]
az.summary(schools)

坐标值排序

您可以根据变量的均值对坐标值进行排序：

# 计算各学校的均值
school_means = schools.posterior["theta"].mean(("chain", "draw"))

# 方法1：通过函数参数排序
sorted_schools = schools.posterior["school"].sortby(school_means)
az.summary(schools, var_names="theta", coords={"school": sorted_schools})

# 方法2：直接排序xarray数据集
schools.posterior = schools.posterior.sortby(school_means)
az.summary(schools, var_names="theta")

多维数据排序

对于具有多个维度的变量，您可能需要更复杂的排序方式：

# 创建包含多个维度的示例数据
dim_order = ("chain", "draw", "subject", "date", "experiment")
experiments = experiments.posterior.transpose(*dim_order)
az.summary(experiments)

索引标签

ArviZ 提供了 IdxLabeller 和 DimIdxLabeller，它们显示值的位置索引而非坐标值：

# 使用索引标签
az.summary(schools, labeller=azl.IdxLabeller())

# 使用索引选择子集
az.summary(schools.isel(school=[2, 5, 7]), labeller=azl.IdxLabeller())

混合标签器

在某些情况下，您可能需要组合多个标签器的功能：

# 创建混合标签器
MixtureLabeller = azl.mix_labellers((azl.DimCoordLabeller, azl.NoModelLabeller))

# 使用混合标签器绘图
az.plot_forest(
    (schools, schools2),
    model_names=("centered", "non_centered"),
    coords={"school": ["Deerfield", "Lawrenceville", "Mt. Hermon"]},
    figsize=(10,7),
    labeller=MixtureLabeller(),
    legend=True
)

自定义标签器

当现有标签器无法满足需求时，您可以创建自定义标签器：

# 处理非索引坐标的自定义标签器
class NonIdxCoordLabeller(azl.BaseLabeller):
    """使用非索引坐标作为标签"""
    def __init__(self, coords_ds):
        self.coords_ds = coords_ds
    def sel_to_str(self, sel, isel):
        new_sel = {k: v.values for k, v in self.coords_ds.sel(sel).items()}
        return super().sel_to_str(new_sel, new_sel)

# 使用自定义标签器
labeller = NonIdxCoordLabeller(coords_ds)
az.plot_posterior(idata, coords=coords, labeller=labeller)