Colobridge WIKI

как подробно описать проблему с сервером

Применимость: *


Иногда трудно понять причину проблем с сервером.

Мне говорят, что недостаточно сведений о проблеме.

Как описать проблему чтобы получить помощь?

Какие изменения были перед моментом возникновения проблем?

Можно ли извлечь исправную систему из резервной копии чтобы избавится от проблемы?

Сообщите - обращались ли вы в службу поддержки проблемного приложения и что вам ответили.

Необходимы сведения как воспроизвести вашу проблему.

Будут полезны следующие параметры системы на момент зависания:

  • Точное время зависания
  • Величины параметров в момент проблем - память (cat /proc/meminfo, vmstat -s), cpu %, load average (скриншот top), iowait (iostat -x 5, или dstat, эти утилиты придется установить)
  • Предположительно связанные с этой проблемой сообщения в системных журналах
  • Данные мониторинга с изменениями параметров во времени, если есть.

Лучше всего передать для изучения систему в состоянии с зависшим приложением.

Полезно запустить приложение в режиме дебага (debug) с выводом подробных сообщений и предоставить выборку информации в районе времени фиксации проблемы..

Можно добавить вывод strace (ltrace) на зависшем процессе. Например strace -p 23456

Конечно, можно предполагать ошибку самой системы или среды в которой работает приложение, но вероятность этого обычно крайне мала.

Проблемы вызывают сами приложения в первую очередь и еще чаще, особенно в условиях виртуального сервера - запуск с неверными параметрами не согласованными с ресурсами системы.


Актуальность: 2012/02/14 13:26