Re: Slow requests triggered by a single node

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

 



Dear Cephers,

Have You both tried to compact RocksDB as mentioned in https://lists.ceph.io/hyperkitty/list/ceph-users@xxxxxxx/thread/RYLKLIOMOQBFCV34TGHVESTWAKWDGDTY/ did it changed anything?

 Cloud Tech <<mailto:cloudtechtr@xxxxxxxxx>

<mailto:cloudtechtr@xxxxxxxxx>cloudtechtr@xxxxxxxxx<mailto:cloudtechtr@xxxxxxxxx>>

writes:

Hi Nico,


How did you solve this problem persistently? Every time we restart OSDs on

this specific node or reboot the node itself, the problem occurs

immediately. We can not plan maintenance on this node to avoid slow

requests. After unsetting the noout flag, we tried to power off the node to

let Ceph auto-heal but the problem arose again.


Thanks in advance,

HC


Nico Schottelius <

<mailto:nico.schottelius@xxxxxxxxxxx>

nico.schottelius@xxxxxxxxxxx

>, 13 Tem 2021 Sal, 14:35

tarihinde şunu yazdı:



HC,


we have seen a very similar problem some months ago on Nautilus, where

our cluster had multiple ours slow client IO. The "solution" was to

re-re-re-start most components. As we often had several OSDs pointed out

to be slow, restarting slow OSD to slow OSD *seemed* to help, however

later restarting the monitors also helped to clean up the situation.


Overall there is no clear pattern of failure, ours started with the

outage of a single node, not with an upgrade.


HTH nonetheless,


Nico



Cloud Tech <

<mailto:cloudtechtr@xxxxxxxxx>

cloudtechtr@xxxxxxxxx

> writes:


Dear Cephers,


I have a Ceph cluster with 16 nodes, 335 OSDs all running Octopus 15.2.13

now. During upgrading from Nautilus last week, a problem was triggered

by a

specific node (Ceph09) and several slow requests were seen after

upgrading

Ceph09. The first 8 nodes have identical hardware and completed the

upgrade

process without problem. After the problem, client IO nearly stopped and

rebooting this Ceph09 node did not help to solve the problem. The only

thing that helped was rebooting monitor nodes one by one to get rid of

these slow requests.


We have seen lots of "fault initiating reconnect" messages like below

from

OSD logs of Ceph09 node.


2021-07-10T13:11:12.333+0300 7f90a5168700  0 --1- [v2:

10.30.3.139:6800/90655,v1:10.30.3.139:6801/90655] >> v1:

10.30.3.132:6833/286861 conn(0x561748e62c00 0x561768cc6800 :-1 s=OPENED

pgs=2366 cs=245 l=0).fault initiating reconnect


We have completed the upgrade process for other Ceph nodes without

problem

and all nodes are running Octopus 15.2.13 now. But when we restart OSDs

of

Ceph09 or reboot the node, the same problem occurs immediately. Any

operation on the remaining nodes including rebooting node, restarting

OSDS

does not trigger the problem. Interestingly, we started to see the "fault

initiating reconnect" messages for other OSDs running on different nodes

after the problem.


To investigate the problem, we tried to reweight all OSDs on Ceph09 to 0,

the same problem has occurred again and we had slow requests and

performance problems on client IO. To fix the problem, restarting all

ceph

daemons on monitors did not help. We rebooted monitor nodes one by one

several times without luck. Finally, rebooting cephmonitor01 twice fixed

the issue.


We have checked all the network settings including MTUs and everything

seems fine. iperf3 tests between any nodes in the cluster provides

expected

results. dmesg and syslog messages do not include any critical message

about disks.


At the time being, any operation on Ceph09 triggers the problem and we

could not find a solution to fix the problem.


Does anyone have any idea about this problem or any advice to trace the

problem?


Any advice and suggestions would be greatly appreciated.


Best regards,

HC

_______________________________________________

ceph-users mailing list --

<mailto:ceph-users@xxxxxxx>

ceph-users@xxxxxxx


To unsubscribe send an email to

<mailto:ceph-users-leave@xxxxxxx>

ceph-users-leave@xxxxxxx




--

Sustainable and modern Infrastructures by ungleich.ch


_______________________________________________

ceph-users mailing list --

<mailto:ceph-users@xxxxxxx>

ceph-users@xxxxxxx


To unsubscribe send an email to

<mailto:ceph-users-leave@xxxxxxx>

ceph-users-leave@xxxxxxx




Spółki Grupy Wirtualna Polska:

Wirtualna Polska Holding Spółka Akcyjna z siedzibą w Warszawie, ul. Żwirki i Wigury 16, 02-092 Warszawa, wpisana do Krajowego Rejestru Sądowego - Rejestru Przedsiębiorców prowadzonego przez Sąd Rejonowy dla m.st. Warszawy w Warszawie pod nr KRS: 0000407130, kapitał zakładowy: 1 454 218,50 zł (w całości wpłacony), Numer Identyfikacji Podatkowej (NIP): 521-31-11-513

Wirtualna Polska Media Spółka Akcyjna z siedzibą w Warszawie, ul. Żwirki i Wigury 16, 02-092 Warszawa, wpisana do Krajowego Rejestru Sądowego - Rejestru Przedsiębiorców prowadzonego przez Sąd Rejonowy dla m.st. Warszawy w Warszawie pod nr KRS: 0000580004, kapitał zakładowy: 320 005 950,00 zł (w całości wpłacony), Numer Identyfikacji Podatkowej (NIP): 527-26-45-593

Administratorem udostępnionych danych osobowych jest Wirtualna Polska Media S.A. z siedzibą w Warszawie (dalej „WPM”). WPM przetwarza Twoje dane osobowe, które zostały podane przez Ciebie dobrowolnie w trakcie dotychczasowej współpracy, w związku z zawarciem umowy lub zostały zebrane ze źródeł powszechnie dostępnych, w szczególności: imię i nazwisko, adres email, numer telefonu. Przetwarzamy te dane w celach opisanych w polityce prywatności<https://onas.wp.pl/poufnosc.html>, między innymi w celu realizacji współpracy, realizacji obowiązków przewidzianych prawem, w celach marketingowych WP. Podstawą prawną przetwarzania Twoich danych osobowych w celach marketingowych jest prawnie uzasadniony interes jakim jest m.in. przesyłanie informacji marketingowych o usługach WP, w tym zaproszeń na konferencje branżowe, informacje o publikacjach. Twoje dane możemy przekazywać podmiotom przetwarzającym je na nasze zlecenie oraz podmiotom uprawnionym do uzyskania danych na podstawie obowiązującego prawa. Masz prawo m.in. do żądania dostępu do danych, sprostowania, usunięcia lub ograniczenia ich przetwarzania, jak również prawo do zgłoszenia sprzeciwu w przewidzianych w prawie sytuacjach. Prawa te oraz sposób ich realizacji opisaliśmy w polityce prywatności<https://onas.wp.pl/poufnosc.html>. Tam też znajdziesz informacje jak zakomunikować nam Twoją wolę skorzystania z tych praw.
_______________________________________________
ceph-users mailing list -- ceph-users@xxxxxxx
To unsubscribe send an email to ceph-users-leave@xxxxxxx




[Index of Archives]     [Information on CEPH]     [Linux Filesystem Development]     [Ceph Development]     [Ceph Large]     [Ceph Dev]     [Linux USB Development]     [Video for Linux]     [Linux Audio Users]     [Yosemite News]     [Linux Kernel]     [Linux SCSI]     [xfs]


  Powered by Linux