name alertmanager/node-exporter already in use with v16.2.5

Bryan Stillwell <bstillwell@xxxxxxxxxxx> · Thu, 8 Jul 2021 22:06:01 +0000

I upgraded one of my clusters to v16.2.5 today and now I'm seeing these messages from 'ceph -W cephadm':

2021-07-08T22:01:55.356953+0000 mgr.excalibur.kuumco [ERR] Failed to apply alertmanager spec AlertManagerSpec({'placement': PlacementSpec(count=1), 'service_type': 'alertmanager', 'service_id': None, 'unmanaged': False, 'preview_only': False, 'networks': [], 'config': None, 'user_data': {}, 'port': None}): name alertmanager.aladdin already in use
Traceback (most recent call last):
  File "/usr/share/ceph/mgr/cephadm/serve.py", line 582, in _apply_all_services
    if self._apply_service(spec):
  File "/usr/share/ceph/mgr/cephadm/serve.py", line 743, in _apply_service
    rank_generation=slot.rank_generation,
  File "/usr/share/ceph/mgr/cephadm/module.py", line 613, in get_unique_name
    f'name {daemon_type}.{name} already in use')
orchestrator._interface.OrchestratorValidationError: name alertmanager.aladdin already in use
2021-07-08T22:01:55.372569+0000 mgr.excalibur.kuumco [ERR] Failed to apply node-exporter spec MonitoringSpec({'placement': PlacementSpec(host_pattern='*'), 'service_type': 'node-exporter', 'service_id': None, 'unmanaged': False, 'preview_only': False, 'networks': [], 'config': None, 'port': None}): name node-exporter.aladdin already in use
Traceback (most recent call last):
  File "/usr/share/ceph/mgr/cephadm/serve.py", line 582, in _apply_all_services
    if self._apply_service(spec):
  File "/usr/share/ceph/mgr/cephadm/serve.py", line 743, in _apply_service
    rank_generation=slot.rank_generation,
  File "/usr/share/ceph/mgr/cephadm/module.py", line 613, in get_unique_name
    f'name {daemon_type}.{name} already in use')
orchestrator._interface.OrchestratorValidationError: name node-exporter.aladdin already in use

Also my 'ceph -s' output keeps getting longer and longer (currently 517 lines) with messages like these:

    Updating node-exporter deployment (+6 -6 -> 13) (0s)
      [............................]
    Updating alertmanager deployment (+1 -1 -> 1) (0s)
      [............................]

What's the best way to go about fixing this?  I've tried using 'ceph orch daemon redeploy alertmanager.aladdin' and the same for node-exporter, but it doesn't seem to help.

Thanks,
Bryan
_______________________________________________
ceph-users mailing list -- ceph-users@xxxxxxx
To unsubscribe send an email to ceph-users-leave@xxxxxxx