Re: [PATCH 2/2] drm/amdgpu: Add support for CPERs on virtualization

"Yi, Tony" <Tony.Yi@xxxxxxx> · Fri, 28 Feb 2025 14:01:24 +0000

[AMD Official Use Only - AMD Internal Distribution Only]






Hi Hawking,





We still use the BM CPER ring (through amdgpu_cper_ring_write) but as SRIOV requires an extra step to query the CPERs, we created a new function amdgpu_debugfs_virt_ring_read within amdgpu_debugfs_virt_ring_fops that does exactly that. It is separate to avoid
 affecting the BM hot path with any extraneous calculations. The debugfs is exactly the same (amdgpu_ring_cper).





Thanks, Tony






From: Zhang, Hawking <Hawking.Zhang@xxxxxxx>

Sent: Friday, February 28, 2025 1:00 AM

To: Yi, Tony <Tony.Yi@xxxxxxx>; Skvortsov, Victor <Victor.Skvortsov@xxxxxxx>; amd-gfx@xxxxxxxxxxxxxxxxxxxxx <amd-gfx@xxxxxxxxxxxxxxxxxxxxx>; Luo, Zhigang <Zhigang.Luo@xxxxxxx>; Liu, Xiang(Dean) <Xiang.Liu@xxxxxxx>; Zhou1, Tao <Tao.Zhou1@xxxxxxx>

Subject: RE: [PATCH 2/2] drm/amdgpu: Add support for CPERs on virtualization
 


[AMD Official Use Only - AMD Internal Distribution Only]



+ 
@Liu, Xiang(Dean)/@Zhou1,
 Tao for the code review
 
+       if (amdgpu_sriov_vf(adev))
+               debugfs_create_file_size(name, S_IFREG | 0444, root, ring,
+                                        &amdgpu_debugfs_virt_ring_fops,
+                                        ring->ring_size + 12);
+       else
+               debugfs_create_file_size(name, S_IFREG | 0444, root, ring,
+                                        &amdgpu_debugfs_ring_fops,
+                                        ring->ring_size + 12);
 
Hi Tony,
 
Is there any reason the VF requires a separate file system node? Is it because the VF has its own CPER ring? If so, can you please check if the VF can reuse the CPER created for bare-metal?
 
Regards,
Hawking
 
-----Original Message-----

From: Yi, Tony <Tony.Yi@xxxxxxx>

Sent: Thursday, February 27, 2025 23:12

To: Yi, Tony <Tony.Yi@xxxxxxx>; Skvortsov, Victor <Victor.Skvortsov@xxxxxxx>; amd-gfx@xxxxxxxxxxxxxxxxxxxxx; Zhang, Hawking <Hawking.Zhang@xxxxxxx>; Luo, Zhigang <Zhigang.Luo@xxxxxxx>

Cc: Yi, Tony <Tony.Yi@xxxxxxx>

Subject: [PATCH 2/2] drm/amdgpu: Add support for CPERs on virtualization
 
Add support for CPERs on VFs.
 
VFs do not receive PMFW messages directly; as such, they need to query them from the host. To avoid hitting host event guard, CPER queries need to be rate limited. CPER queries share the same RAS telemetry
 buffer as error count query, so a mutex protecting the shared buffer was added as well.
 
For readability, the amdgpu_detect_virtualization was refactored into multiple individual functions.
 
Signed-off-by: Tony Yi <Tony.Yi@xxxxxxx>
---
drivers/gpu/drm/amd/amdgpu/amdgpu_device.c |   7 +-
drivers/gpu/drm/amd/amdgpu/amdgpu_ring.c   |  31 ++++-
drivers/gpu/drm/amd/amdgpu/amdgpu_virt.c   | 138 ++++++++++++++++++++-
drivers/gpu/drm/amd/amdgpu/amdgpu_virt.h   |  18 ++-
drivers/gpu/drm/amd/amdgpu/mxgpu_nv.c      |  14 +++
5 files changed, 195 insertions(+), 13 deletions(-)

diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
index 5e1d8f0039d0..198d29faa754 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_device.c
@@ -3099,7 +3099,8 @@ static int amdgpu_device_ip_init(struct amdgpu_device *adev)
 
         amdgpu_fru_get_product_info(adev);
 
-       r = amdgpu_cper_init(adev);
+       if (!amdgpu_sriov_vf(adev) || amdgpu_sriov_ras_cper_en(adev))
+               r = amdgpu_cper_init(adev);
 
init_failed:
 
@@ -4335,10 +4336,8 @@ int amdgpu_device_init(struct amdgpu_device *adev,
          * for throttling interrupt) = 60 seconds.
          */
         ratelimit_state_init(&adev->throttling_logging_rs, (60 - 1) * HZ, 1);
-       ratelimit_state_init(&adev->virt.ras_telemetry_rs, 5 * HZ, 1);
 
         ratelimit_set_flags(&adev->throttling_logging_rs, RATELIMIT_MSG_ON_RELEASE);
-       ratelimit_set_flags(&adev->virt.ras_telemetry_rs, RATELIMIT_MSG_ON_RELEASE);
 
         /* Registers mapping */
         /* TODO: block userspace mapping of io register */ @@ -4370,7 +4369,7 @@ int amdgpu_device_init(struct amdgpu_device *adev,
                 return -ENOMEM;
 
         /* detect hw virtualization here */
-       amdgpu_detect_virtualization(adev);
+       amdgpu_virt_init(adev);
 
         amdgpu_device_get_pcie_info(adev);
 
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_ring.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_ring.c
index 81a7d4faac9c..d55c8b7fdb59 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_ring.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_ring.c
@@ -578,12 +578,32 @@ static ssize_t amdgpu_debugfs_ring_read(struct file *f, char __user *buf,
         return result;
}
 
+static ssize_t amdgpu_debugfs_virt_ring_read(struct file *f, char __user *buf,
+       size_t size, loff_t *pos)
+{
+       struct amdgpu_ring *ring = file_inode(f)->i_private;
+
+       if (*pos & 3 || size & 3)
+               return -EINVAL;
+
+       if (ring->funcs->type == AMDGPU_RING_TYPE_CPER)
+               amdgpu_virt_req_ras_cper_dump(ring->adev, false);
+
+       return amdgpu_debugfs_ring_read(f, buf, size, pos); }
+
static const struct file_operations amdgpu_debugfs_ring_fops = {
         .owner = THIS_MODULE,
         .read = amdgpu_debugfs_ring_read,
         .llseek = default_llseek
};
 
+static const struct file_operations amdgpu_debugfs_virt_ring_fops = {
+       .owner = THIS_MODULE,
+       .read = amdgpu_debugfs_virt_ring_read,
+       .llseek = default_llseek
+};
+
static ssize_t amdgpu_debugfs_mqd_read(struct file *f, char __user *buf,
                                        size_t size, loff_t *pos)
{
@@ -671,9 +691,14 @@ void amdgpu_debugfs_ring_init(struct amdgpu_device *adev,
         char name[32];
 
         sprintf(name, "amdgpu_ring_%s", ring->name);
-       debugfs_create_file_size(name, S_IFREG | 0444, root, ring,
-                                &amdgpu_debugfs_ring_fops,
-                                ring->ring_size + 12);
+       if (amdgpu_sriov_vf(adev))
+               debugfs_create_file_size(name, S_IFREG | 0444, root, ring,
+                                        &amdgpu_debugfs_virt_ring_fops,
+                                        ring->ring_size + 12);
+       else
+               debugfs_create_file_size(name, S_IFREG | 0444, root, ring,
+                                        &amdgpu_debugfs_ring_fops,
+                                        ring->ring_size + 12);
 
         if (ring->mqd_obj) {
                 sprintf(name, "amdgpu_mqd_%s", ring->name); diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.c
index e6f0152e5b08..3832513ec7bf 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.c
@@ -739,7 +739,7 @@ void amdgpu_virt_exchange_data(struct amdgpu_device *adev)
         }
}
 
-void amdgpu_detect_virtualization(struct amdgpu_device *adev)
+static u32 amdgpu_virt_init_detect_asic(struct amdgpu_device *adev)
{
         uint32_t reg;
 
@@ -775,8 +775,17 @@ void amdgpu_detect_virtualization(struct amdgpu_device *adev)
                         adev->virt.caps |= AMDGPU_PASSTHROUGH_MODE;
         }
 
+       return reg;
+}
+
+static bool amdgpu_virt_init_req_data(struct amdgpu_device *adev, u32
+reg) {
+       bool is_sriov = false;
+
         /* we have the ability to check now */
         if (amdgpu_sriov_vf(adev)) {
+               is_sriov = true;
+
                 switch (adev->asic_type) {
                 case CHIP_TONGA:
                 case CHIP_FIJI:
@@ -805,10 +814,39 @@ void amdgpu_detect_virtualization(struct amdgpu_device *adev)
                         amdgpu_virt_request_init_data(adev);
                         break;
                 default: /* other chip doesn't support SRIOV */
+                       is_sriov = false;
                         DRM_ERROR("Unknown asic type: %d!\n", adev->asic_type);
                         break;
                 }
         }
+
+       return is_sriov;
+}
+
+static void amdgpu_virt_init_ras(struct amdgpu_device *adev) {
+       ratelimit_state_init(&adev->virt.ras.ras_error_cnt_rs, 5 * HZ, 1);
+       ratelimit_state_init(&adev->virt.ras.ras_cper_dump_rs, 5 * HZ, 1);
+
+       ratelimit_set_flags(&adev->virt.ras.ras_error_cnt_rs,
+                           RATELIMIT_MSG_ON_RELEASE);
+       ratelimit_set_flags(&adev->virt.ras.ras_cper_dump_rs,
+                           RATELIMIT_MSG_ON_RELEASE);
+
+       mutex_init(&adev->virt.ras.ras_telemetry_mutex);
+
+       adev->virt.ras.cper_rptr = 0;
+}
+
+void amdgpu_virt_init(struct amdgpu_device *adev) {
+       bool is_sriov = false;
+       uint32_t reg = amdgpu_virt_init_detect_asic(adev);
+
+       is_sriov = amdgpu_virt_init_req_data(adev, reg);
+
+       if (is_sriov)
+               amdgpu_virt_init_ras(adev);
}
 
static bool amdgpu_virt_access_debugfs_is_mmio(struct amdgpu_device *adev) @@ -1288,10 +1326,12 @@ static int amdgpu_virt_req_ras_err_count_internal(struct amdgpu_device *adev, bo
          * will ignore incoming guest messages. Ratelimit the guest messages to
          * prevent guest self DOS.
          */
-       if (__ratelimit(&adev->virt.ras_telemetry_rs) || force_update) {
+       if (__ratelimit(&virt->ras.ras_error_cnt_rs) || force_update) {
+               mutex_lock(&virt->ras.ras_telemetry_mutex);
                 if (!virt->ops->req_ras_err_count(adev))
                         amdgpu_virt_cache_host_error_counts(adev,
-                               adev->virt.fw_reserve.ras_telemetry);
+                               virt->fw_reserve.ras_telemetry);
+               mutex_unlock(&virt->ras.ras_telemetry_mutex);
         }
 
         return 0;
@@ -1322,6 +1362,98 @@ int amdgpu_virt_req_ras_err_count(struct amdgpu_device *adev, enum amdgpu_ras_bl
         return 0;
}
 
+static int
+amdgpu_virt_write_cpers_to_ring(struct amdgpu_device *adev,
+                               struct amdsriov_ras_telemetry *host_telemetry,
+                               u32 *more)
+{
+       struct amd_sriov_ras_cper_dump *cper_dump = NULL;
+       struct cper_hdr *entry = NULL;
+       struct amdgpu_ring *ring = &adev->cper.ring_buf;
+       uint32_t checksum, used_size, i, j;
+       int ret = 0;
+
+       checksum = host_telemetry->header.checksum;
+       used_size = host_telemetry->header.used_size;
+
+       if (used_size > (AMD_SRIOV_RAS_TELEMETRY_SIZE_KB << 10))
+               return 0;
+
+       cper_dump = kmemdup(&host_telemetry->body.cper_dump, used_size, GFP_KERNEL);
+       if (!cper_dump)
+               return -ENOMEM;
+
+       if (checksum != amd_sriov_msg_checksum(cper_dump, used_size, 0, 0))
+               goto out;
+
+       *more = cper_dump->more;
+
+       if (cper_dump->wptr < adev->virt.ras.cper_rptr) {
+               dev_warn(
+                       adev->dev,
+                       "guest specified rptr that was too high! guest rptr: 0x%llx, host rptr: 0x%llx\n",
+                       adev->virt.ras.cper_rptr, cper_dump->wptr);
+
+               adev->virt.ras.cper_rptr = cper_dump->wptr;
+               goto out;
+       }
+
+       entry = (struct cper_hdr *)&cper_dump->buf[0];
+
+       for (i = 0; i < cper_dump->count; i++) {
+               amdgpu_cper_ring_write(ring, entry, entry->record_length);
+               entry = (struct cper_hdr *)((char *)entry +
+                                           entry->record_length);
+       }
+
+       if (cper_dump->overflow_count)
+               dev_warn(adev->dev,
+                        "host reported CPER overflow of 0x%llx entries!\n",
+                        cper_dump->overflow_count);
+
+       adev->virt.ras.cper_rptr = cper_dump->wptr;
+out:
+       kfree(cper_dump);
+
+       return ret;
+}
+
+static int amdgpu_virt_req_ras_cper_dump_internal(struct amdgpu_device
+*adev) {
+       struct amdgpu_virt *virt = &adev->virt;
+       int ret = 0;
+       uint32_t more = 0;
+
+       if (!amdgpu_sriov_ras_cper_en(adev))
+               return -EOPNOTSUPP;
+
+       do {
+               if (!virt->ops->req_ras_cper_dump(adev, virt->ras.cper_rptr))
+                       ret = amdgpu_virt_write_cpers_to_ring(
+                               adev, virt->fw_reserve.ras_telemetry, &more);
+               else
+                       ret = 0;
+       } while (more);
+
+       return ret;
+}
+
+int amdgpu_virt_req_ras_cper_dump(struct amdgpu_device *adev, bool
+force_update) {
+       struct amdgpu_virt *virt = &adev->virt;
+       int ret = 0;
+
+       if ((__ratelimit(&virt->ras.ras_cper_dump_rs) || force_update) &&
+           down_read_trylock(&adev->reset_domain->sem)) {
+               mutex_lock(&virt->ras.ras_telemetry_mutex);
+               ret = amdgpu_virt_req_ras_cper_dump_internal(adev);
+               mutex_unlock(&virt->ras.ras_telemetry_mutex);
+               up_read(&adev->reset_domain->sem);
+       }
+
+       return ret;
+}
+
int amdgpu_virt_ras_telemetry_post_reset(struct amdgpu_device *adev)  {
         unsigned long ue_count, ce_count;
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.h b/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.h
index 0f3ccae5c1ab..9f65487e60f5 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.h
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_virt.h
@@ -96,6 +96,7 @@ struct amdgpu_virt_ops {
                                         enum amdgpu_ras_block block);
         bool (*rcvd_ras_intr)(struct amdgpu_device *adev);
         int (*req_ras_err_count)(struct amdgpu_device *adev);
+       int (*req_ras_cper_dump)(struct amdgpu_device *adev, u64 vf_rptr);
};
 
/*
@@ -140,6 +141,7 @@ enum AMDGIM_FEATURE_FLAG {
         AMDGIM_FEATURE_MES_INFO_ENABLE = (1 << 8),
         AMDGIM_FEATURE_RAS_CAPS = (1 << 9),
         AMDGIM_FEATURE_RAS_TELEMETRY = (1 << 10),
+       AMDGIM_FEATURE_RAS_CPER = (1 << 11),
};
 
enum AMDGIM_REG_ACCESS_FLAG {
@@ -242,6 +244,13 @@ struct amdgpu_virt_ras_err_handler_data {
         int last_reserved;
};
 
+struct amdgpu_virt_ras {
+       struct ratelimit_state ras_error_cnt_rs;
+       struct ratelimit_state ras_cper_dump_rs;
+       struct mutex ras_telemetry_mutex;
+       uint64_t cper_rptr;
+};
+
/* GPU virtualization */
struct amdgpu_virt {
         uint32_t                        caps;
@@ -284,8 +293,7 @@ struct amdgpu_virt {
 
         union amd_sriov_ras_caps ras_en_caps;
         union amd_sriov_ras_caps ras_telemetry_en_caps;
-
-       struct ratelimit_state ras_telemetry_rs;
+       struct amdgpu_virt_ras ras;
         struct amd_sriov_ras_telemetry_error_count count_cache;  };
 
@@ -340,6 +348,9 @@ struct amdgpu_video_codec_info;  #define amdgpu_sriov_ras_telemetry_block_en(adev, sriov_blk) \
(amdgpu_sriov_ras_telemetry_en((adev)) && (adev)->virt.ras_telemetry_en_caps.all & BIT(sriov_blk))
 
+#define amdgpu_sriov_ras_cper_en(adev) \ ((adev)->virt.gim_feature &
+AMDGIM_FEATURE_RAS_CPER)
+
static inline bool is_virtual_machine(void)  {  #if defined(CONFIG_X86) @@ -378,7 +389,7 @@ void amdgpu_virt_release_ras_err_handler_data(struct amdgpu_device *adev);  void amdgpu_virt_init_data_exchange(struct
 amdgpu_device *adev);  void amdgpu_virt_exchange_data(struct amdgpu_device *adev);  void amdgpu_virt_fini_data_exchange(struct amdgpu_device *adev); -void amdgpu_detect_virtualization(struct amdgpu_device *adev);
+void amdgpu_virt_init(struct amdgpu_device *adev);
 
bool amdgpu_virt_can_access_debugfs(struct amdgpu_device *adev);  int amdgpu_virt_enable_access_debugfs(struct amdgpu_device *adev); @@ -406,6 +417,7 @@ u32 amdgpu_virt_rlcg_reg_rw(struct amdgpu_device *adev,
 u32 offset, u32 v, u32 f  bool amdgpu_virt_get_ras_capability(struct amdgpu_device *adev);  int amdgpu_virt_req_ras_err_count(struct amdgpu_device *adev, enum amdgpu_ras_block block,
                                   struct ras_err_data *err_data);
+int amdgpu_virt_req_ras_cper_dump(struct amdgpu_device *adev, bool
+force_update);
int amdgpu_virt_ras_telemetry_post_reset(struct amdgpu_device *adev);  bool amdgpu_virt_ras_telemetry_block_en(struct amdgpu_device *adev,
                                         enum amdgpu_ras_block block);
diff --git a/drivers/gpu/drm/amd/amdgpu/mxgpu_nv.c b/drivers/gpu/drm/amd/amdgpu/mxgpu_nv.c
index 4dcb72d1bdda..5aadf24cb202 100644
--- a/drivers/gpu/drm/amd/amdgpu/mxgpu_nv.c
+++ b/drivers/gpu/drm/amd/amdgpu/mxgpu_nv.c
@@ -184,6 +184,9 @@ static int xgpu_nv_send_access_requests_with_param(struct amdgpu_device *adev,
         case IDH_REQ_RAS_ERROR_COUNT:
                 event = IDH_RAS_ERROR_COUNT_READY;
                 break;
+       case IDH_REQ_RAS_CPER_DUMP:
+               event = IDH_RAS_CPER_DUMP_READY;
+               break;
         default:
                 break;
         }
@@ -467,6 +470,16 @@ static int xgpu_nv_req_ras_err_count(struct amdgpu_device *adev)
         return xgpu_nv_send_access_requests(adev, IDH_REQ_RAS_ERROR_COUNT);  }
 
+static int xgpu_nv_req_ras_cper_dump(struct amdgpu_device *adev, u64
+vf_rptr) {
+       uint32_t vf_rptr_hi, vf_rptr_lo;
+
+       vf_rptr_hi = (uint32_t)(vf_rptr >> 32);
+       vf_rptr_lo = (uint32_t)(vf_rptr & 0xFFFFFFFF);
+       return xgpu_nv_send_access_requests_with_param(
+               adev, IDH_REQ_RAS_CPER_DUMP, vf_rptr_hi, vf_rptr_lo, 0); }
+
const struct amdgpu_virt_ops xgpu_nv_virt_ops = {
         .req_full_gpu   = xgpu_nv_request_full_gpu_access,
         .rel_full_gpu   = xgpu_nv_release_full_gpu_access,
@@ -478,4 +491,5 @@ const struct amdgpu_virt_ops xgpu_nv_virt_ops = {
         .ras_poison_handler = xgpu_nv_ras_poison_handler,
         .rcvd_ras_intr = xgpu_nv_rcvd_ras_intr,
         .req_ras_err_count = xgpu_nv_req_ras_err_count,
+       .req_ras_cper_dump = xgpu_nv_req_ras_cper_dump,
};
--
2.34.1