hugepageの設定があほちんでメモリが食い尽くされた件

夏休みに入ったことだし、めっちゃ久々の技術メモ(…タイトルがなろう系っぽいなぁ…)。

ちょっと前に、客先サーバで「開発サーバのアプリが起動しないから調べろ」って連絡があって延々とつきあわされて、結局客側で設定したパラメータがあほちんだった件。
といっても、こっちも中々原因に辿り着けなかったので、今後のためにもメモ。

事の発端

システム更改によるvMotion後、ESXi筐体のCPUを正しく認識させるために仮想マシンの上げ落としを実行。
直後にメモリ食い尽くし現象が発生して、客のアプリが起動できなくなった。

原因

犯人は客側のアプリ構築チーム(当時)
sysctl.confで、hugepagesがアホな数字(物理メモリのXX倍)になってた…
どうやら本番環境(開発の数倍のスペック)と同じパラメータ仕込んでだらしい…
(そして仕込むだけ仕込んでおいて、sysctl -pも再起動もしてなかったから、数年経過後に発覚…)

続きを読む

RHEL仮想マシンがdracut…を吐いて起動しなくなった時の対処

今年の1月にこんなことがありまして。

こっちで作ったRHELのテンプレートからデプロイした仮想マシン、用事があって再起動したらいきなし起動しなくなって超焦ったという…
まあ、原因はツイートの通り他の担当者のやらかしなんだけど、修正はオイラがやったので、対応した時の手順をメモとして。

続きを読む