مانیتورینگ چیست؟

مانیتورینگ به معنای کنترل و نظارت بر عملکرد می‌باشد. می‌توان گفت مهم‌ترین فاکتور تصمیم‌گیری برای آینده، آمار گذشته است، لذا مدیران برای اتخاذ بهترین تصمیمات نیاز به آمار دارند. در حوزه آی تی نیز به همین منوال است یعنی اغلب تصمیمات راهبردی بر پایه اطلاعات و آماری است که از سوابق عملکردی عناصر شبکه به‌دست‌آمده است. مانیتورینگ صرفا در حوزه شبکه کاربرد ندارد.

چرا باید از مانیتورینگ استفاده نمود؟

با توجه به تعریفی که ارائه شد، این مهم در هر زمینه کارایی دارد. به‌عنوان مثال در صنایع بزرگ دنیا، مانیتورینگ بخش انسانی و صنعتی، بسیار به روند مثبت فعالیت مجموعه کمک می‌نماید. بدین صورت که با نظارت دقیق بر عملکرد هر بخش، می‌توان نقاط ضعف را پیدا نموده و آن‌ها را برطرف نمود.

همچنین می‌توان نقاط قوت را یافته و با سرمایه‌گذاری روی آن بخش، به‌عنوان یک نقطه تکیه و ویژگی متفاوت از سایر مجموعه‌ها، از آن نهایت بهره را برد. پس تا اینجا علت سرمایه‌گذاری شرکت‌های بزرگ بر روی این زمینه و بها دادن به آن را، ذکر نمودیم. از زمان جهش فناوری در دنیا، متخصصان بسیاری بر روی گسترش مانیتورینگ فعالیت نموده‌اند. می‌توان متصور شد که قبل از ورود فناوری مانیتورینگ به مجموعه‌ها، در هنگام بروز مشکلات در صنایع، زمان بسیار زیادی صرف می‌شد که علت پیدا شود.

تهیه گزارش کامل و جامع

اگر این تصور را در مقیاس صنایع بسیار بزرگ مانند: صنایع خودروسازی و هواپیمایی بسط دهیم، آنگاه درخواهیم یافت که مانیتورینگ خدمت بسیار بزرگی به‌سرعت رشد فناوری در عصر حاضر نموده است. خبر خوب اینکه در حوزه آی تی، تقریبا می‌توان از هر قسمت از شبکه شامل (رایانه‌ها، سرویس‌ها، سرورها، تجهیزات سوئیچینگ و روتینگ و…) گزارش کامل و جامعی داشت.

نحوه عملکرد مانیتورینگ

نحوه عملکرد مانیتورینگ بدین‌صورت است که اطلاعات را از قسمت‌های مختلف در یک پایگاهی متمرکز جمع‌آوری نموده و به شیوه‌های مختلف اعم از نمودار، جدول، متن و … به اطلاع اپراتورهای کنترل‌کننده می‌رساند. همین امر سبب می‌شود که در مجموعه‌ها، در صورت بروز مشکل، خاموشی یا Down Time کمتری وجود داشته باشد. یکی از عوامل سوق مجموعه‌ها به سمت این مهم، همین کاهش خاموشی‌هاست.

اگر مجموع ثانیه‌های Down Time مجموعه‌ها در یک سال محاسبه شود (شامل هزینه‌های نیروی انسانی، افت میزان فروش، عقب ماندن از رقابت با رقبا و …) مطمئنا تمام صنایع با صرف هزینه‌ای بسیار پایین‌تر از این هزینه، اقدام به راه‌اندازی بخش مانیتورینگ می‌کنند.

پرکاربردترین نرم‌افزارهای مانیتورینگ

پرکاربردترین و محبوب‌ترین سامانه‌های مانیتورینگ در جهان که بافاصله کیفیتی بسیار زیاد نسبت به دیگر سامانه‌ها قرار دارند به شرح زیر هستند:

  • SolarWinds
  • PRTG
  • ZABBIX
  • OP Manager

که در این لیست ۲ سامانه PRTG و ZABBIX نیز با اختلاف بسیار از ۲ نمونه‌ی دیگر جلوتر هستند. قدرت این دو نرم‌افزار حتی بر افرادی که به‌صورت کاملا ابتدایی با این دو نرم‌افزار کارکرده‌اند. و یا حتی نقشه آن‌ها را از نزدیک دیده‌اند، پوشیده نیست. تفاوت در قدرت و عملکرد این دو نرم‌افزار با سایر نرم‌افزارهای مانیتورینگ، حجم گسترده استفاده از این دو نرم‌افزار می‌باشد. (جامعه مصرف‌کنندگان پرشمار). در بسیاری از سطوح، اعم از سطح زیرساخت، نام این دو نرم‌افزار در مراکز کنترل (NOC) به چشم می‌خورد.

سامانه مانیتورینگ هوشمند رها – RSMS (Raha Smart Monitoring Solution)

سامانه مانیتورینگ هوشمند رها، توسعه‌یافته بر اساس ZABBIX است که دارای یک محیط زیبا و کاربردی است. که می‌تواند در مقایسه با هر نرم‌افزار مانیتورینگ دیگری مثال‌زدنی باشد. این محیط به‌قدری کاربردی و کاربرپسند است که هر شخصی که در حوزه IT فعالیت می‌کند و با ماهیت مانیتورینگ آشناست، می‌تواند تعامل بسیار خوبی با این سامانه پیدا کند.

از ویژگی‌های این نرم‌افزار آن است که برخلاف نرم‌افزارهای سطح پایین، از اصطلاحات دشوار و بسیار تخصصی در آن دوری شده است. و به‌صورت مداوم نسبت به توسعه هر چه بیشتر و بهتر آن متناسب با نیازهای مجموعه‌های ایرانی به‌روزرسانی می‌شود. در ادامه به‌صورت تخصصی با برخی از قابلیت‌های این سامانه آشنا می‌شویم.

ویژگی‌های جذاب سامانه مانیتورینگ هوشمند رها

ویژگی-های-جذاب-سامانه-مانیتورینگ-هوشمند-رها

با توجه به کارایی و نقش مهم سرورها در مجموعه‌ها و همچنین هزینه‌های سنگین خرید و تعمیر سرور، منطقی است که عملکرد و سلامت سرورها به‌صورت خودکار پایش شود.
به‌عنوان‌مثال در سرورهای HP، با استفاده از قابلیتی به نام iLO که یک Chipset بر روی مادربرد سرور بوده و از پروتکل SNMP پشتیبانی می‌کند، تمام سخت‌افزارهای سرور را کنترل می‌نماید.

با استفاده از ILO موارد زیر را می‌توان کنترل نمود.

وضعیت CPU
سلامت Power
سلامت فن‌های سیستم
دمای اجزای سیستم
Driver های سیستم
و وضعیت پورت‌های سخت‌افزاری سیستم و … را در RSMS نظاره و کنترل نمود.

همچنین در گزارش‌هایی که از ILO به دست می‌آید، می‌توان Slotهای مختلف سیستم اعم از Memory، iSCSI و NIC را کنترل نمود که در صورت رخداد مشکل می‌توان آن‌ها را در اسرع وقت بررسی و برطرف نمود.
به دلیل آنکه معمولا بر روی سرورها Hypervisor نصب می‌شود (سرورها مجازی می‌شوند) گاها ممکن است Virtual Machine ها دچار مشکل شوند.

فرضا اگر سرور در Data Center خود مجموعه نباشد، آنگاه مشخص نمی‌شود که این مشکل از سطح مجازی ساز است (Hypervisor) و یا از سخت افزار سرور. بنابراین می‌توان با استفاده از قابلیت‌های سامانه مانیتورینگ بااتصال به سرور از طریق Telnet و SSH متوجه شد که ایراد از کدام سطح می‌باشد. اگر این مورد پاسخگوی نیاز نباشد، آنگاه می‌توان با استفاده از iLO سخت‌افزار سرور را چک نمود.
تمامی مواردی که در این مبحث ذکر شد، به‌صورت اتوماتیک در سامانه مانیتورینگ پایش می‌شود که این امر باعث می‌شود قبل از حاد شدن یک مشکل اقدام به حل آن نمود.

به‌وسیله سیستم‌عامل می‌توان با سخت‌افزارهای مختلف ارتباط برقرار نمود.
به‌عنوان‌مثال کرنل‌های سیستم‌عامل‌های لینوکسی، در صورت عدم کارکرد صحیح، می‌تواند کل عملیاتی که بر روی آن سیستم عامل در حال انجام است را تحت تاثیر قرار دهد.
سیستم عامل تشکیل‌شده از درایورهای مختلف برای برقراری ارتباط با سخت‌افزار و کدهایی می‌باشد که سرویس‌های مختلف را ارائه می‌نماید.

بنابراین صحت و سلامت درایورها و کدهای سیستم عامل برای آنکه هم بتوانند سخت‌افزارها و هم سرویس‌ها به‌درستی کار کنند بایستی پایش شوند.
به همین دلیل با استفاده از قابلیت‌های RSMS می‌توان درایورها را مانیتور نمود و از صحت سرویس‌ها اطمینان حاصل نمود.
(در ادامه در مبحث Audit مانیتور نمودن فایل‌ها توضیح داده خواهد شد و تغییراتی که بر روی فایل‌ها صورت می‌گیرد را با ریزترین جزئیات، گزارش خواهد نمود.)

مجازی سازهای سرور، یکی از مهم‌ترین ارکان شبکه می‌باشد که می‌توان گفت امروزه، اساس و بنیان فعالیت‌های مختلف را بنا نهاده است.
به‌عنوان‌ مثال با استفاده از مجازی سازها، ماشین‌های مجازی مختلفی راه‌اندازی می‌شود که سرویس‌های مختلفی را ارائه می‌کنند. درنتیجه در صورتی که عملکرد Hypervisor ها پایش نشود می‌تواند مشکلات بزرگی را ایجاد نماید.

Hypervisor ها آیتم‌های بسیار زیادی برای کنترل و پایش دارند.
ازجمله آن‌ها می‌توان به V switch Hosts, Vcenter و … اشاره نمود.
اگر حجم کار را در مقیاسی در نظر بگیریم که فناوری‌های High availability و Fault tolerance (HA, FT) پیاده‌سازی شده باشند، آنگاه می‌توان دریافت که کنترل این مجموعه به‌منظور آنکه قبل از وقوع مشکل از وقوع آن پیشگیری شود، چقدر می‌تواند بار مدیریتی و خسارت‌های گزاف را کاهش دهد.

میزان استفاده از منابع سخت‌افزاری توسط VM ها و خود Hypervisor از دیگر گزارش‌هایی است که RSMS، آن‌ها را ارائه می‌دهد. همچنین صحت و سلامت VM هایی که بر روی این Hypervisor ساخته شده است.
میزان Uptime ماشین‌ها و خود Hypervisor، Overload های سخت‌افزاری ازجمله Memory و …، گزارش‌ها بسیار کاملی است که با مانیتورینگ Hypervisorها برای مدیران شبکه حاصل می‌شود و ایشان می‌توانند اقدامات مقتضی را در این راستا انجام دهند.

در RSMS، جامعیت دستگاه‌ها و سخت‌افزارهایی که این سامانه از آن‌ها پشتیبانی می‌کند، بسیار زیاد است.
همان‌طور که ذکر شد، هر دستگاهی که بتواند از پروتکل‌هایی مانند SNMP، SSH و … پشتیبانی کند، قابلیت مانیتور شدن را دارد.
به‌عنوان‌مثال، فایروال‌های سخت‌افزاری، روترها، سوئیچ‌ها، دستگاه‌های NVR، سرورها، Storage ها و … از هر نوع برندی مانند Cisco, QNAP, FortiGate و … می‌توانند به سرور مانیتورینگ  ZABBIX اضافه شده و مانیتور شوند.

همان‌طور که در معرفی بخش‌های مختلف ZABBIX توضیح داده شد، بخش مهمی به نام Audit وجود دارد که در آن تمام تغییراتی که بر روی فایل‌ها در سیستم‌ها انجام می‌شود، گزارش می‌شود.
علاوه بر آن بخش مهم دیگری وجود دارد که در آن فعالیت‌های کاربران گزارش داده می‌شود.

فعالیت‌ها شامل Login/Logoff، تعداد تلاش‌های ناموفق با استفاده از Username & Password نادرست، میزان ساعت‌های کارکرد کاربر، مشاهده فعالیت‌های وب گردی کاربر، فایل‌هایی که کاربر آن‌ها را ویرایش و یا بازدید نموده است و دیگر فعالیت کاربران را با تمام جزئیات گزارش داده می‌شود.

این ویژگی بسیار کاربردی می‌تواند نظاره‌گر و کنترل‌کننده انواع رفتارها باشد، به‌عنوان مثال می‌تواند بر روی سرویس VoIP مجموعه شما سوار شود و تمام فعالیت‌های آن را رصد کند.
تا چنانچه به‌عنوان مثال ارتباط SIP یک کاربر دچار اختلال شد، سریعا هشدار دهد.

یا به عنوان مثال می‌توان تعریف کرد که اگر طول مکالمه یک کاربر از عدد مشخصی بیشتر شد هشدار بدهد. دامنه این‌گونه نظارت‌ها بر رفتار بسیار وسیع و با جزئیات بسیار زیاد است که یکی از ویژگی‌های جذاب RSMS به شمار می‌رود.

QoS به معنای کیفیت سرویس می‌باشد.
RSMS می‌تواند با استفاده از قابلیت بسیار قدرتمندی که دارد، کاملا این کنترل کیفیت را به نحو احسن انجام دهد.
QOS شامل پایدار بودن ارتباط بین دو Device، پکت‌‎هایی که به مقصد رسیده و یا دارای Error می‌باشند
(Packet Lost) تاخیر در ارسال و دریافت پکت ها و Jitter می‌باشد و RSMS با اندازه‌گیری این آیتم‌ها، QoS را به‌خوبی مانیتورینگ می کند.

برای مدیران شبکه بسیار مهم است که از Router و Switch های مجموعه‌های تحت نظارت آن‌ها چه نوع پکت هایی ارسال و دریافت می‌شود. به‌عنوان مثال گاها نیاز است میزان ترافیک‌های HTTP، ترافیک‌های SMB (Sharing)، ترافیک‌های DNS و … شبکه را مانیتور نموده و گزارشی کامل برای آن تهیه شود.

اصطلاحا این قابلیت NetFlow نامیده می‌شود. (عملکرد این بخش مانند نرم‌افزار Wireshark عمل می‌کند.) با استفاده از این قابلیت علاوه بر آنکه میزان پکت های ارسالی و دریافتی بر روی کارت شبکه کنترل می‌شود، نوع ترافیک‌ها بررسی می‌شود و می‌توان بر اساس این میزان مهندسی‌های لازم برای بهبود و یا کنترل شبکه انجام داد.

می‌توان با معرفی نمودن یک لینک به RSMS، به‌طور پیوسته آن لینک را مانیتور نمود. این لینک می‌تواند لینک میان سایت‌های فیزیکی یک شبکه Enterprise باشد (لینک‌های VPN)، مانیتورینگ رادیوهای بین سایت‌ها و به‌طور جامع هر لینکی که موجب ارتباط میان دونقطه شود را مانیتور نماید. این قابلیت به‌طور بسیار وسیعی در بخش طراحی نقشه به‌کاربرده می‌شود که در صورت Fail و یا کاهش کیفیت لینک، آن لینک به رنگ قرمز درخواهد آمد.

همچنین از قابلیت‌های دیگر RSMS که در ادامه به آن اشاره خواهد شد، مانیتور نمودن Page های وبسایت ها می‌باشد. طبیعتا در هر Page تعدادی لینک برای اتصال به Page های دیگر وبسایت‌ها وجود دارد.
با معرفی URL این لینک‌ها به RSMS می‌تواند به‌صورت لحظه‌ای سلامت کارکرد این لینک‌ها را پایش نماید.

با استفاده از این قابلیت RSMS می‌توان هر نوع بسته اطلاعاتی با هر پروتکلی در بستر شبکه جاری است را نظارت و کنترل نمود. تا از وضعیت جاری آن‌ها مطلع شد و با توجه به سابقه تراکنش‌های آن بسته‌ها، وضعیت رسانایی بسته‌های مذکور در شبکه را بررسی نمود. و برای بهتر کردن میزان رسانایی آن در آینده برنامه‌ریزی کرد.

سلامت سخت‌افزار، بسیار برای مدیران شبکه مهم می‌باشد. از کوچک‌ترین Device های شبکه مانند دوربین‌ها تا بزرگ‌ترین و مهم‌ترین آن‌ها مانند سرور، برای ادامه فعالیت خود، نیازمند سلامت سخت‌افزاری هستند.
همان‌طور که در بخش Server Monitoring ذکر شد، می‌توان بخش‌های مختلف سخت‌افزار را مانیتورینگ نمود.

به‌عنوان‌مثال Chipset هایی که در CPU بکار رفته‌اند، می‌توانند کنترل شوند. به‌طورکلی می‌توان گفت که هر Device ثانویه‌ای به‌صورت مستقیم به مادربورد متصل شود (مانند Disk های اکسترنال)، قابلیت مانیتور شدن رادارند.

می‌توان با معرفی یک نرم‌افزار و Process به RSMS، اقدام به پایش و کنترل آن نمود. همچنین می‌توان تعریف نموده که در صورت Interrupt و Crash کردن آن نرم‌افزار، اقدامات لازم و مقتضی را برای راه‌اندازی آن نرم‌افزار انجام داد.

اهمیت این موضوع، زمانی دوچندان می‌شود که در بستر شبکه، بر اساس App Virtualization & Sharing، به کاربران دسترسی اجرای نرم‌افزار بر روی سرور را داده باشیم.
آنگاه در صورت ازکارافتادن این نرم‌افزار ممکن است در کارکرد کاربران دچار اختلال ایجاد شود. لذا با مانیتورینگ می‌توان این مهم را کنترل نموده و در صورت رخداد هر اتفاقی اقدامات لازم انجام شود.

در بخش Users در معرفی بخش‌های مختلف RSMS ذکر شد که می‌توان به User ها و Operator های مانیتورینگ دسترسی مشاهده بخش‌های مختلف RSMS را داد. همچنین می‌توان برای افراد مختلف تعریف نمود که چه سطحی از اعلام‌ها و اخطارها را دریافت نمایند.

علاوه بر آن می‌توان معین نمود که چه نوعی از اعلام‌ها را دریافت نمایند به‌عنوان‌مثال می‌توان گروهی را معین نمود که صرف SMS دریافت نمایند یا گروهی از طریق تلگرام مطلع شوند. همچنین برای سطح دسترسی این Operator ها به پنل های مختلف RSMS امکان تعریف Rule وجود دارد.

می‌توان RSMS را علاوه بر اینکه بر روی مانیتورهای تحت شبکه خروجی تصویر گرفت، بر روی مانیتورهایی که به‌صورت مستقیم به خود RSMS متصل شده‌اند نیز پیکربندی مجزایی تعریف نمود. این قابلیت وقتی ارزشمند می‌شود که بخواهید نقشه‌های بزرگ و با جزئیات بسیار زیاد را روی یک مانیتور بزرگ نمایش دهید.
که عبور دادن این حجم زیاد از پیکسل‌ها بر روی شبکه پهنای باند زیادی می‌طلبد که برای این‌گونه نقشه‌های جامع توصیه می‌شود از مانیتورهایی که به‌صورت مستقیم به RSMS متصل می‌شود استفاده شود.

RSMS می‌تواند با استفاده از کنترل ترافیک HTTP، Webpage ها را مانیتور نماید. این کنترل می‌تواند میزان مراجعه به وب‌سایت، میزان ماندگاری افراد در Page ها، میزان پکت های ارسالی و دریافتی به وب‌سایت، میزان استفاده از Cookies، حجم دانلود و آپلود کاربران بر روی وب‌سایت، کنترل بالا بودن Page های مختلف و … را گزارش و پایش نماید.

یکی از مهم‌ترین ارکان هر سیستم، واحد پردازش مرکزی آن سیستم می‌باشد. همواره باید در نظر داشت که پایش و نظارت بر عملکرد CPU در اولویت باشد.
گاهی اوقات به دلیل افزایش پردازش سیستم و یا وجود اختلال در عملکرد نرم‌افزار و یا سرویسی در سیستم‌عامل، CPU load بسیار افزایش می‌یابد و همین امر ممکن است موجب Crash کردن سیستم شود.
اهمیت این موضوع زمانی درک می‌شود که بر روی سرور، یک سرویس آنلاین (SAS) در حال خدمت‌دهی باشد.

در صورت افزایش بار CPU می‌توان با اقدامات مناسب از آسیب‌های جدی و هزینه‌بر جلوگیری نمود.
در RSMS، متناسب با پروتکلی که ارتباط میان Node و سرور مانیتورینگ را برقرار می‌کند، آیتم‌های مختلفی وجود خواهد داشت.
ولی می‌توان گفت که کلیت کار یکی است و تفاوت‌ها بر سر جزئیات هست.
به‌عنوان نمونه قصد داریم برای مانیتور کردن CPU که بر روی یک Windows server نصب‌شده است، استفاده کنیم.

آیتم‌های مهمی که RSMS برای مانیتور کردن CPU در نظر گرفته است (در حالت پیش‌فرض)، به‌عنوان نمونه چند مورد را شرح می‌دهیم:

  • Context switches per second
    قابلیت نمایش و ارائه گزارش نرخ Switch کردن Thread های CPU میان پردازش‌های مختلفی که در صف قرارگرفته‌اند را دارد. Switch میان پردازشگرها زمانی رخ می‌دهد که پردازش‌ها یا به پایان می‌رسند و یا پردازشی با اولویت بالاتر برای در اختیار گرفتن منابع سخت‌افزاری به وجود می‌آید.
  • CPU interrupt time
    میزان زمانی که CPU قادر به خدمت‌دهی نبوده است.
    می‌توان این مورد را در سرورها پایش نموده و علت اینکه CPU دچار این اختلال شده است را بررسی نمود.
    سبب این مورد علت‌های مختلفی می‌تواند باشد.
  • CPU privileged time
    میزان صرف منابع CPU در حالتی است که CPU وقت خود را صرف پردازش خود سیستم عامل نموده است.
    به‌عنوان مثال در سیستم‌عامل‌های لینوکسی، این مقدار، برای صرف پردازش کرنل می‌گردد.
  • CPU user time
    میزان زمانی که CPU صرف پردازش در حالت User mode نموده است را گزارش می‌دهد.
  • CPU utilization
    مهم‌ترین فاکتور پایش CPU این مورد است.
    با استفاده از این آیتم می‌توان میزان استفاده از CPU در همه حالات را پایش نموده و یک گزارش جامع ایجاد نمود.
  • Number of cores
    بر اساس گزارش لحظه‌ای، می‌تواند تعداد هسته‌های پردازشگر که آزاد هستند و در حال فعالیتی نمی‌باشد را نمایش دهد.

با استفاده از این قابلیت، می‌توان میزان استفاده از فضای ذخیره‌سازی، مقدار Read & Write، IOpS و میزان باقیمانده از فضای ذخیره‌سازی و … را کنترل نمود.
همچنین در RSMS، صرفا کل Disk مانیتور نمی‌شود.
بلکه هر پارتیشنی که بر روی آن ایجادشده باشد را نیز به‌صورت جداگانه کنترل و پایش می‌نماید.
این آیتم نیز مانند CPU، دارای جزئیات مختلفی می‌باشد که مهم‌ترین آن‌ها را در ادامه ذکر می‌نماییم:

  • Disk read rate
    میزان خواندن از فضای ذخیره‌سازی را نمایش می‌دهد.
    این مورد بسیار برای سیستم‌هایی که به‌عنوان Storage استفاده می‌شوند، حیاتی و کاربردی است.
  • Disk write rate
    میزان ذخیره‌سازی سیستم‌ها بر روی فضای ذخیره‌سازی که به‌صورت اشتراکی و یا به‌صورت اختصاصی به آن‌ها اختصاص یافته است.
  • Disk utilization
    میزان زمانی که Disk در حال فعالیت بوده است را نمایش می‌دهد. این فعالیت شامل Read و Write می‌باشد.
  • Disk read & write request avg waiting time
    به‌طور متوسط درخواست‌هایی که برای خواندن و یا نوشتن بر روی Disk به سمت Disk فرستاده می‌شود را نمایش می‌دهد. می‌توان با نظارت و پایش این مورد، در صورت درخواست‌های بیش‌ازحد سیستم، آن‌ها را سازمان‌دهی نمود.

یکی دیگر از ارکان اصلی پایداری سیستم، Memory می‌باشد.
اهمیت این مورد زمانی دوچندان می‌شود که بخواهیم سیستم‌های سطح Enterprise مانند Data center را که تمام منابع سخت‌افزاری به‌صورت اشتراکی با یکدیگر استفاده می‌شود را مانیتور کنیم.
ضعف در عملکرد Memory می‌تواند موجب تداخل کلی در عملکرد و سلامت سیستم علی‌الخصوص CPU شود.
به همین جهت RSMS نیز توجه ویژه‌ای به مانیتورینگ Memory داشته است.
در ادامه با برخی آیتم‌های مهمی که RSMS اقدام به مانیتورینگ آن‌ها نموده است می‌پردازیم:

  • Cache bytes

مقدار فضایی از Memory که به‌عنوان Cache عمل می‌کند را نمایش می‌دهد.
نکته‌ای که باید به آن توجه داشت آن است که این مقدار، آخرین میزان Cache را نشان می‌دهد و مقدار متوسط نمی‌باشد.

  • Free swap space

این مقدار علی‌الخصوص برای سیستم‌عامل‌های لینوکسی بسیار حائز اهمیت می‌باشد.
در صورت عبور این مقدار از حد مجاز، می‌توان دریافت که میزان استفاده از Memory بسیار بالا رفته است و درنتیجه ممکن است به علت انتقال فرآیندهای در حال انجام به فضای Swap که دارای سرعت بسیار پایین‌تری نسبت به Memory (به علت آنکه فضای Swap، بر روی Disk ایجاد می‌شود.) می‌باشد، می‌تواند باعث کندی بیش‌ازحد سیستم شود.

  • Memory utilization

میزان استفاده از Memory را به درصد نمایش می‌دهد. این آیتم یکی از مهم‌ترین قابلیت‌هایی است که همواره در مراکز کنترل (NOC)، پایش می‌شود.

  • Memory pages per second

این قابلیت میزان خواندن و یا نوشتن از هارددیسک در زمان نیاز CPU به پردازش آن فرایند را نشان می‌دهد.
ممکن است CPU نیاز داشته باشد تا فرآیندی را انجام دهد، لذا RAM اقدام به فراخوانی آن پردازش از حافظه می‌نماید.
درصورتی‌که این انتقال به Memory صورت نگیرد، اصطلاحا سیستم ما هنگ می‌کند.
این مقدار زمانی خطرناک می‌شود که میزان آن از ۱۰۰۰ Page بیشتر شود.

  • Free system page table entries

Page table ساختار داده‌ای است که توسط حافظه مجازی در سیستم عامل مدیریت می‌شود.
مقدار این آیتم، میزانی است که در حال حاضر از این ساختار داده استفاده نمی‌شود.
اگر این مقدار از ۵۰۰۰ کمتر باشد، می‌توان نتیجه گرفت که Memory دچار اشکال و تداخل عملکردی شده است.

از کاربردی‌ترین آیتم‌هایی که می‌توان آن‎‌ها را کنترل و پایش نمود، سرویس‌هایی می‌باشد که بر روی Node ها در حال اجراست.
اهمیت این موضوع بسیار بالاست. همچنین برای سیستم عامل‌های سطح Client نیز، بسیاری از سرویس‌ها برای ادامه کارکرد سیستم‌عامل آن‌ها حیاتی است. درنتیجه بااهمیت این مهم آشنا شدیم.
در ادامه به توضیح تعداد محدودی از مهم‌ترین سرویس‌ها، در یک سیستم‌عامل Windows server می‌پردازیم:

  • CryptSvc (Cryptographic Services)

از مهم‌ترین سرویس‌های Windows می‌باشد. سلامت و پایداری این سرویس، تضمین صحت عملکرد دیگر سرویس‌های امنیتی ازجمله Decoding و Encoding فایل‌ها، بررسی Certificate ها، Windows update، نصب درایور و … سیستم‌عامل می‌باشد.

  • DNS Service

از حیاتی‌ترین سرویس‌های دنیای شبکه، این سرویس می‌باشد.
ماهیت عملکرد این سرویس، تبدیل نام به IP و بالعکس می‌باشد. با توجه به Record هایی که در DNS تعریف می‌شود، این نیاز انجام می‌شود.
در صورت ازکارافتادن این سرویس در شبکه‌های LAN و یا در اینترنت، آنگاه می‌توان این اتفاق را فاجعه‌آمیز دانست، زیرا کل مردم در سراسر دنیا بایستی IP مقصدی که می‌خواهند با آن کار کنند را بدانند!
لزوم سلامت این سرویس، در بالاترین درجه قرار دارد، لذا همواره باید آن‌ها را کنترل و پایش نمود.

  • DHCP Service

به دلیل آنکه دنیای شبکه بر اساس ۰ و ۱ کار می‌کند، لذا ارتباط میان تمام دستگاه‌های شبکه، با استفاده از IP صورت می‌گیرد. لذا بایستی سرویس DHCP به‌درستی کار کند تا بتواند با DHCP Client ها که درخواست IP می‌کنند، IP ارائه دهد.
صحت و درستی عملکرد این سیستم می‌تواند از ایجاد تداخل مانند اختصاص یک IP به دو Client، پاسخگویی به درخواست IP از سمت Client ها و … را تضمین می‌کند.

  • Net Logon Service

سرویس Net Logon از سرویس‌های مهمی می‌باشد که برای احراز هویت کاربران در Domain استفاده می‌شود.
اهمیت این سرویس نیز بسیار بالاست تا کاربران بتوانند از خدماتی که در سطح Domain ارائه می‌شود، استفاده کنند.

  • – Windows Update Service

دلیل ارائه Update برای هر نوع سیستم‌عاملی، رفع نواقص عملکردی و باگ‌های امنیتی می‌باشد.
لذا برای افزایش بهره‌وری سیستم‌ها و حفاظت در برابر خطراتی که در دنیای شبکه سیستم‌ها را تهدید می‌کند، سیستم‌ها بایستی به‌روز باشند.
لذا این سرویس نیز بسیار مهم و حیاتی می‌باشد تا بتواند با Upstream server ها ارتباط برقرار کرده و آپدیت‌ها را دریافت نماید.

  • Server Service

این سرویس در Windows server برای اشتراک‌گذاری فایل‌ها و پرینترهایی که تحت شبکه هستند، استفاده می‌شود. درصورتی‌که این سرویس از کار بیفتد آنگاه Client ها قادر نخواهند بود که از Share و دیگر منابع اشتراکی استفاده نمایند.

  • Windows Defender Firewall Service

از سرویس‌هایی که برای حفاظت از سیستم استفاده می‌شود، این سیستم است.
اگر این سیستم از کار بیفتد، در صورت عدم وجود سایر پارامترهای امنیتی، به خطر افتادن اطلاعات ما حتمی است و این مهم برای سازمان‌هایی که اطلاعات محرمانه دارند، می‌تواند بسیار ترسناک باشد!
تا اینجا فقط تعداد بسیار کمی از سرویس‌ها و اهمیت سلامت آن‌ها را مرور نمودیم.
لذا اهمیت مانیتور نمودن آن‌ها کاملا واضح است.

RSMS باقابلیت‌های عالی می‌تواند تمام این سرویس‌ها را پایش نموده، میزان استفاده از آن‌ها را گزارش نموده و حتی در صورت رخداد مشکلی برای سرویسی معین، اقدامات لازم برای راه‌اندازی مجدد این سرویس‌ها را انجام دهد.
تعداد این سرویس‌ها بسیار زیاد است و همچنین فقط در محدوده سیستم‌عامل Windows اقدام به شرح نمودیم! لذا می‌توان متصور شد که با اضافه شدن سیستم‌عامل‌های Linux و …، چه حجم عظیمی از سرویس‌ها قابلیت کنترل و پایش دارند.

سخت‌افزاری که باعث شده است تمام دنیا، بایکدیگر ارتباط داشته باشند و دنیای عظیمی به نام اینترنت شکل بگیرد، کارت‌های شبکه است! اهمیت وجودی این سخت‌افزار، دلیل کافی است تا لزوم پایش این سخت‌افزار اثبات شود. RSMS پکیج جامعی از آیتم‌های قابل مانیتور را فراهم نموده است که در ادامه به بررسی و توضیح برخی از آن‌ها می‌پردازیم:

  • Bits received & sent
    ترافیک‌های ورودی و خروجی به کارت شبکه را برحسب Bit محاسبه نموده و گزارش کامل آن‌ها را ارائه می‌دهد.
  • Inbound & Outbound packets discarded
    میزان پکت‌هایی که در Inbound و Outbound، Drop شده‌اند را نمایش می‌دهد. یکی از عواملی که باعث می‌شود شبکه
    بهترین عملکرد را داشته باشد و دارای سرعتی بهینه باشد، رساندن Packet loss به حداقل میزان ممکن می‌باشد. لذا با پایش این مورد می‌توان در صورت وجود این عامل، آن‌ها را برطرف نموده و بهبود شبکه کمک نمود.
  • Speed
    سرعت Send و Receive بسیار مهم است. می‌توان این مورد را مانیتور نموده و در صورت افت سرعت، اقدامات لازم را انجام داد.

امروزه تقریبا همه شرکت های کوچک و بزرگ به نوعی از تکنولوژی استفاده می‌کند. در واقع، شبکه و عملکرد سیستم به همراه تجهیزات مناسب برای ادامه فعالیت تجاری ضروری است. اگرچه فناوری برای هر شرکتی ضروری است، اما این بدان معنا نیست که خطایی به آن راه ندارد. ممکن است در هر زمان شکست‌هایی در استفاده از تکنولوژی رخ دهد که باعث ایجاد موقعیت‌های بحرانی شود. بنابراین، برای هر شرکتی که به زیرساخت فناوری اطلاعات خود اهمیت می‌دهد، مانیتورینگ نقش مهمی ایفا میکند تا خطای احتمالی در نهایت بر روند فعالیت سازمان تاثیر نگذارد.

راهکار چیست؟

داشتن یک ابزار مانیتورینگ خوب برای شناسایی و جلوگیری از خرابی‌های احتمالی ضروری است. سیستم‌ مانیتورینگ مسئول نظارت بر فناوری‌هایی است که یک شرکت از آن استفاده می‌کند (سخت‌افزار، شبکه‌ و ارتباطات، سیستم‌ عامل و برنامه‌ها). در نهایت این نظارت عملکرد سیستم را تجزیه و تحلیل کرده و خطاهای احتمالی را شناسایی می‌کند. یک سیستم مانیتورینگ خوب قادر به نظارت بر دستگاه‌ها، زیرساخت‌ها، برنامه‌ها، خدمات و حتی فرآیندهای تجاری است. اساسا یک سیستم مانیتورینگ خوب به افزایش بهره وری کمک می‌کند و این امر از جنبه‌های مختلف آشکار می‌شود:

یک سیستم مانیتورینگ خوب می‌تواند به محض بروز مشکلات به شما هشدار دهد و به شما این امکان را می‌دهد که فورا مشکل را حل کنید و مدت زمان از کار افتادن یا کند شدن را به حداقل برسانید. با این کار تصویر شرکت برای کاربران بهبود می‌یابد.

ابزارهای نظارت بر عملکرد سیستم مانند OpManager به کاهش چالش‌های فناوری کمک می‌کند. علاوه بر به حداقل رساندن منابع مورد استفاده، قابلیت دیدی که مانیتورینگ سیستم ارائه می‌دهد، توانایی شما را برای درک کافی عملکرد شبکه به میزان زیادی افزایش می‌دهد. شما می‌توانید هر دستگاه به طور مستقل درک و با مشاهده دقیق شاخص‌های خرابی دستگاه، از خرابی غیرمنتظره جلوگیری کنید. از آنجایی که مسائل مربوط به عملکرد سیستم که به سرعت شناسایی نمی‌شوند، به زمان و تلاش زیادی برای حل شدن نیاز دارند و عدم انجام این کار ممکن است تهدیدات مالی و فنی ایجاد کند.

سخن آخر

حق مطلب این شاهکار مانیتورینگ در قالب نوشته ادا نمی‌شود، موید این ادعا، نظر مشتریان عزیزی است که در جلسات پرزنت حضوری شرکت کرده‌اند. و از نزدیک باقابلیت‌های بی‌شمار این سامانه هوشمند آشنا شدند، قابلیت‌هایی که همه آن‌ها در یک کنسول کاربرپسند و کاربردی گرد هم آمده‌اند. و این تمام ماجرا نیست، یعنی بسیار مهم است که این سامانه توسط متخصصین رها پیکربندی شود تا بتواند به حداکثر کارایی نقش خود برسد.

اعتقاد کارشناسان فناوری اطلاعات رها بر این است که سامانه مانیتورینگ در شبکه‌ها، همانند قدرت بینایی است. که ارزش آن‌ها را نه کور می‌داند و نه بینا، بلکه آدم بینایی که قدرت بینایی خود را از دست داده باشد. ارزش دیدن را درک می‌کند، پس موکدا توصیه می‌شود با سامانه مانیتورینگ هوشمند رها- RSMS بینایی را تجربه کنید!

۵/۵ - (۹ امتیاز)