Up and Running – You or Your Network?

Dalam dunia IT modern, yang “up and running” bukanlah jaringan, tetapi admin IT. Mengapa?

1. Perkembangan bisnis perusahaan
Dengen berkembangnya bisnis, maka jaringan juga tumbuh semakin kompleks, begitu juga pengelolaannya.

2. Menyeimbangkan tuntutan bisnis dan kemutahiran teknologi
Kita harus terus mengadopsi teknologi baru untuk memenuhi tuntutan bisnis. Dengan bertambahnya teknologi yang diadopsi, maka tuntutan dalam pengelolaannya pun meningkat. Sehingga misal, jika dulu jaringan hanya perlu pengawasan “hidup dan berfungsi”, maka yang sekarang juga dituntut untuk memenuhi SLA, SLM, BSM, dll.

3. Menyelerasakan bisnis dan keinginan end-user
Kita harus berhadapan dengan kebutuhan bisnis dan keinginan end-user yang kadang bertabrakan. Misal, masalah pemblokiran situs yang boros bandwidth (streaming, media sosial, dll) demi kepentingan bisnis, kadang mendapat protes dari end-user.

Apa yang dibutuhkan dalam dunia IT saat ini?

Karena tidak mungkin membatasi penambahan perangkat-perangkat baru, mengadopsi teknologi baru, atau membatasi jumlah kantor cabang, maka solusi yang paling mungkin adalah melakukan monitoring 24×7, dan menjalankan “fault management” cerdas yang dapat mengidentifikasi root cause dari suatu masalah, dan memperbaikinya sebelum berimbas pada bisnis.

Bagaimana NMS yang baik itu?

NMS yang cerdas bukanlah yang menampilkan semua event yang terjadi dalam jaringan, tetapi yang dapat menyaring, mengurutkan, dan hanya menampilkan event-event yang memerlukan tindakan kepada admin.

NMS yang baik adalah NMS yang menampilkan hanya event-event yang memerlukan tindakan saja.

4 Proses Fault Management :

Fault management yang baik setidaknya harus menjalankan 4 mekanisme berikut : 1) Mendeteksi (menangkap event-event), 2) Mengisolasi (hanya menampilkan event-event yang memerlukan tindakan), 3) Menginformasikan (memberi notifikasi kepada admin), 4) Menyelesaikan (membantu mempercepat penyelesaian masalah)

4 langkah dalam fault management

1. Mendeteksi (menangkap event-event)
Ada 2 mode monitoring : Active dan Passive.

a. Active Monitoring artinya NMS secara proaktif mendeteksi event dengan mengatur threshold pada monitor. Contohnya adalah ICMP ping, TCP atau UDP port check, dan performance counters monitoring.
b. Passive Monitoring artinya NMS secara pasif menerima event-event dari perangkat. Contohnya adalah SNMP trap dan syslog.

Opmanager melakukan kedua mode monitoring tsb.

2. Mengisolasi (hanya menampilkan event-event yang perlu tindakan)
Fault isolation membantu mengidentifikasi event-event yang memiliki impact terhadap network. Ada beberapa teknik yang membantu, diantaranya de-duplication, correlation, dan automation.

a. De-duplication
Adalah teknik yang digunakan untuk men-drop event-event yang sama dan berulang (duplicate) lalu menampilkannya sebagai history. Misal, CPU utils dari sebuah server melebihi threshold (high CPU) dalam waktu 20 menit. Jika NMS mengambil data (poll) dari server setiap 2 menit, alih-alih menampilkan 10 event high CPU, NMS hanya akan menampilkan 1 event high CPU, bersama dengan historinya.

Deduplikasi, mendeteksi event-event yang berulang, menampilkan hanya yang terakhir, dan menyimpan event-event sebelumnya sebagai history.

History dari event

b. Correlation
Adalah teknik yang menghubungkan event-event, dan menampilkan event yang perlu saja. Misal, sebuah switch yang terhubung dengan 10 server. Jika switch ini mati, maka server juga akan terdeteksi down oleh NMS. Tetapi, alih-alih menampilkan seluruh event (event switch dan 10 server mati), NMS hanya akan menampilkan event switch mati saja.

Ini dilakukan menggunakan teknik device dependency. Opmanager memiliki fitur yang secara otomatis memetakan perangkat-perangkat (peta perangkat ini juga dapat dicustom), sehingga jika parent device down, maka yang ditampilkan hanyalah event parent down, event child tidak ditampilkan.

Correlation, menggunakan device mapping yang membantu untuk menampilkan hanya event yang terjadi pada parent.

c. Automation

Adalah teknik yang secara otomatis men-drop “unwarranted events”, yaitu event-event yang kemungkinan false atau terjadi hanya sesaat. Contoh unwarranted events antara lain event “spike” mendadak, event-event dalam perangkat yang sedang dalam maintenance , dll.

Automasi, mendrop “wanwarranted events”

Di Opmanager, kita bisa mengabaikan unwarranted event dengan beberapa cara, misal menyetel “consecutive times” dan “re-arm value” pada threshold untuk active monitoring. Atau jika perangkat diketahui sedang dalam maintenance, kita dapat menyetel “Downtime scheduler” agar alarm-alarm yang muncul tidak ditampilkan. Juga “pause status polling” jika kita ingin NMS berhenti mem-poll data dari perangkat yang kita ketahui sedang bermasalah dan dalam proses penyelesaian.

Pengaturan “re-arm value” dan “consecutive times” untuk memastikan bawah suatu event adalah valid, sehingga mengurangi unwarranted events.

3. Menginformasikan (memberi notifikasi kepada admin)
Fungsi utama dari proses ini adalah memberitahu kita masalah apa yang terjadi di jaringan. Untuk mempermudah, Opmanager memvisualisasikannya dalam bentuk dashboard, web alarm, business view, dll. Opmanager juga menginformasikan fault melalui email, sms, RSS feed, dan twitter. Tampilan yang smartphone/iphone friendly juga cukup membantu.

Beragam pilihan notifikasi yang diberikan Opmanager kepada admin atau operator

Untuk trouble ticketing, Opmanager dapat diintegrasikan dengan ManageEngine ServiceDesk Plus.

4. Menyelesaikan (membantu mempercepat penyelesaian masalah)
Kita dapat menyetel Opmanager untuk menjalankan suatu script atau program ketika NMS mendeteksi suatu masalah. Misal, Jika hard disk dalam MS SQL server terdeteksi full, kita dapat menjalankan script untuk menghapus log transaksi dan merestart service melalui NMS.

Program atau script yang dijalankan oleh Opmanager jika mendeteksi suatu masalah dalam jaringan

NMS juga dapat diatur untuk melakukan eskalasi ke admin jika program yang dijalankan mengalami error atau terjadi komplikasi masalah dalam jaringan.

Mudahnya troubleshooting dengan Opmanager

Opmanager dilengkapi beberapa tool untuk mempermudah troubleshooting jaringan. Misalnya untuk troubleshoot server, Opmanager memiliki Remote Process Diagnostic, Device tools, ping, trace route, dll. Untuk switch, Opmanager memiliki Switch Port Mapper yang memetakan setiap port switch. Opmanager juga memiliki fitur NetFlow Traffic Analysis untuk analisa traffic melalui sample traffic (netflow).

Referensi :

___________. 2014. Up and Running – You or your network?. Ditelusuri pada tanggal 25 Agustus 2014 dari http://www.manageengine.com/network-monitoring/fault-management.pdf.

Kumpulan Tutorial Kito

Jumat, 21 Desember 2018

Opmanager tool monitoring DC

Opmanager

Up and Running – You or Your Network?

Tidak ada komentar:

Posting Komentar