высокая нагрузка на сервер
Применимость: Linux
Слова для поиска: тормозит, не хватает ресурсов, виснет, глючит
Задача:
Сервер едва жив, почти не отвечает или тормозит так, что работать невозможно.
Решение:
Обычно это бывает при нехватке каких либо ресурсов.
Есть тысячи способов и методов выявления причин подобного, я предложу для начала лишь несколько популярных приемов.
CPU
Проверьте количество, параметры и мощность ваших процессоров:
cat /proc/cpuinfo
Список из 30 процессов, которые больше всего нагружают процессор:
ps aux --sort=-%cpu | head -31
В динамике увидеть список самых прожорливых процессов можно командой top
Для более подробной информации установите и используйте htop
Память
Команда free показывает в килобайтах общее количество свободной и используемой системой физической памяти и памяти свопинга, а также размеры буферов, используемые ядром.
free total used free shared buffers cached Mem: 962568 734924 227644 0 29040 251592 -/+ buffers/cache: 454292 508276 Swap: 1461872 326604 1135268
Примечание: Для виртуальных серверов VPS/VRS распределение (выделение) памяти выполняется ядром несущей машины (hardware node-HN).
Виртуальная память (swap) для Вашей VPS выделяется, но Вы этого не видите стандартными средствами.
Использование виртуальной памяти (swap) не отображается внутрь VPS в текущей версии Virtuozzo (В будущем это будет возможно). Для VPS выделяется просто память, и внутри VPS не показывается различие между swap и остальной памятью, поэтому в /proc/meminfo (а также в top/free) мы наблюдаем нулевой размер и нулевое использование swap.
Активное использование swap бывает крайне редко в моменты перегрузок и это не считается нормой в работе сервера под OpenVZ.
Топ прожорливых к памяти процессов
ps aux --sort=-rssize | head -20
Есть возможность получить виртуальный размер процесса и резидентный, я предлагаю измерять резидентный - то что реально получает процесс от ядра. Однако есть смысл отсортировать и по виртуальному размеру - то, что процесс просит у ядра, но не получает.
ps aux --sort=-vsz | head -20
Дополнительно используйте top, htop с сортировкой по памяти
Диск
Система может просто висеть по причине переполненного диска. Проверьте сколько места у вас имеется:
df -H Filesystem Size Used Avail Use% Mounted on /dev/simfs 217G 149G 69G 69% /
При недостатке индексных дискрипоторов тоже будут проблемы:
df -i Filesystem Inodes IUsed IFree IUse% Mounted on /dev/simfs 4.8M 1.7M 3.2M 35% /
У меня, как видите, занято только 35%. Сообщите службе технической поддержки провайдера если выделенный лимит исчерпан.
Чаще всего пожирателем пространства бывают системные журналы, уделите время настройке ротации журналов.
А эта команда покажет кто съел пространство (для всего диска используем для указания каталога «/»):
du <имя каталога>| sort -rn | head -n 20
При этом будет вычислен общий объем имеющегося у вас пространства, а также объем, занимаемый каждым каталогом, затем результат сортируется по убыванию объемов и, наконец, показываются только первые 20 строк упорядоченного списка. Подобные команды позволяют вам определить, кто является «пожирателем пространства», но оставляют на ваше усмотрение способы решения этой проблемы.
Чтобы узнать размер всех директорий в заданном каталоге, выполните команду:
find <путь к каталогу> -maxdepth 1 -type d -print | xargs du -sk | sort -rn
Для поиска больших файлов можно использовать find
find <путь к каталогу> -type f -size +100M
эта команда выдаст список файлов с размером более 100М
Команду можно развить до конструкции, выполняющей действия над найденными файлами:
find <путь к каталогу> <опции поиска> <команда> {} \;
На место симвовлов «{}» будут подставлены имена найденных файлов.
Подобная конструкция может вам скомрессировать или удалить ненужные файлы.
Только прежде хорошо анализируйте, что сочинили, - команда не будет задавать вопросы даже если возмется удалять всё с вашего диска.
I/O нагрузка
Ваша система может сильно тормозить если постоянно находится в ожидании ввода/вывода данных. Это происходит при большой нагрузке (утилизации) устройств хранения, каналов связи и т.п. Команда iostat выдает статистику использования процессора, а также статистику ввода/вывода для устройств, разделов и сетевых файловых систем (NFS). В таком варианте она выдает парамтеры с интервалом 5 секунд
iostat -x 5 Linux 2.6.18-028stab053 (vt.helpdesk.by) 10/29/09 avg-cpu: %user %nice %system %iowait %steal %idle 13.52 1.55 3.75 33.44 0.00 47.74 Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %utilПримечание: - на VPS под OpenVZ нагрузка на диск не отображается в версии ядра 2.6.18
На физическом сервере это выглядит так:
iostat -x 5 Linux 2.6.30-gentoo-r6 (k-pex) 29.10.2009 _x86_64_ (1 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 19.86 17.72 6.46 3.69 0.00 52.28 Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util sda 2.56 18.96 8.75 3.30 272.31 178.44 37.41 0.42 34.94 3.62 4.37 sdb 0.21 36.96 2.90 2.29 354.28 265.58 119.26 0.67 128.36 5.60 2.91 СетьПроблемы производительности связанные с сетью могут быть вызваны неверными настройками, например так могут влиять неправильные параметры в файлах:
/etc/hosts /etc/resolv.conf /etc/nsswitch.conf
Проверьте проверьте правильность назначения имени хоста
domainname -f
Вы должны получить имя подобное этому
server1.domain.com
Команды проверки работы DNS
Проверка прямого разрешения имени хоста:
host helpdesk.by helpdesk.by has address 87.118.96.217
Проверка обратного разрешения имени хоста:
host 87.118.96.217 217.96.118.87.in-addr.arpa domain name pointer helpdesk.by.
Проверить канал до сервера командами
ping -c 4 87.118.96.217 traceroute -n 87.118.96.217
Если трассировка не прошла, значит вероятны проблемы с Интернет у провайдера или в магистральном канале.
Примечание: - трассировка может не проходить при ограничениях на фаерволах.
Нагрузка на подключения NFS
iostat -n 5
Интерфейс
Поверьте ваши интерфейсы утилитой ifconfig.
Утилита ethtool (доступно только для физических серверов) покажет важные параметры. Обратите внимание на параметры «Speed» и «Duplex».
ethtool eth0 Settings for eth0: Supported ports: [ MII ] Supported link modes: 10baseT/Half 10baseT/Full 100baseT/Half 100baseT/Full 1000baseT/Full Supports auto-negotiation: Yes Advertised link modes: 10baseT/Half 10baseT/Full 100baseT/Half 100baseT/Full Advertised auto-negotiation: Yes Speed: 100Mb/s Duplex: Full Port: MII PHYAD: 1 Transceiver: external Auto-negotiation: on Supports Wake-on: g Wake-on: d Link detected: yes
Трафик
Оцените трафик на ваших интерфейсах утилитой iftop:
iftop -Pn -i venet0
iftop показывает список самых активных клиентов, но можно измерить и активность отдельного адреса используя фильтры:
iftop -F 212.34.45.56/32 -i venet0
Службы, порты и соединения
Какие службы работают на вашем сервере, какие порты они слушают и на каких адресах?
ss -ln
и еще так:
netstat -lnutp
Атаки
Может быть кто атакует ваш сервер? Сколько соединений создано к вашему серверу?
netstat -ntu | wc -l
Посмотрим список самых агрессивных клиентов:
netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n
Другие популярные средства стевого мониторинга
iptraf – сетевая статистика в режиме реального времени
Команда iptraf запускает цветной интерактивный монитор, следящий за сетевыми IP. Этот монитор сетевых IP базируется на команде ncurses, которая выдает различную сетевую статистику, в том числе информацию о TCP, ведет подсчет UDP, выдает сведения о ICMP и OSPF, информацию о нагрузке на Ethernet, статистику по узлам сети, данные об ошибках контрольных сумм пакетов IP и многое другое.
Монитор предоставляет в удобном для чтения виде следующие данные:
- Статистику сетевого трафика по TCP подключениям
- Статистику IP трафика по сетевым интерфейсам
- Статистику сетевого трафика по протоколам
- Статистику сетевого трафика по портам TCP/UDP и по размерам пакетов
- Статистику сетевого трафика по адресам протоколов второго уровня
tcpdump – детальный анализ сетевого трафика
Команда tcpdump – простая команда, выдающая дамп сетевого трафика. Однако, вам нужно хорошо понимать протоколы TCP/IP для того, чтобы использовать это средство. Например, для того, чтобы показать информацию о трафике DNS, введите следующее:
tcpdump -i eth1 'udp port 53'
Для того, чтобы показать все IPv4 HTTP пакеты, идущие на порт и с порта 80, т.е. выдать только те пакеты, которые содержат данные, и, например, не учитывать пакеты SYN и FIN и пакеты ACK-only, введите следующее:
tcpdump 'tcp port 80 and (((ip[2:2] - ((ip[0]&0xf)<2)) - ((tcp[12]&0xf0)>>2)) != 0)'
Для того, чтобы показать все сессии FTP для адреса 202.54.1.5, введите следующее:
tcpdump -i eth1 'dst 202.54.1.5 and (port 21 or 20'
Для того, чтобы показать все сессии HTTP для адреса 192.168.1.5, введите следующее:
tcpdump -ni eth0 'dst 192.168.1.5 and tcp and port http'
Введите следующую команду и используйте для просмотра подробностей программу анализа wireshark:
tcpdump -n -i eth1 -s 0 -w output.txt src or dst port 80
Лимиты VPS/VRS
Это касается только виртуальных серверов VPS/VRS.
Для них всегда применяются ограничения на некоторые ресурсы.
Попытки превышения отбрасываются системой.
Проверим наличие фактов такого превышения:
cat /proc/user_beancounters
Возможно на вашем сервере есть утилита vzubc она дает более гуманный вывод сведений:
failcnt колонка указывает число неудачных попыток получить какой-то ресурс. Если эти числовые данные увеличиваются после запуска приложений, тогда соответствующий предел ресурса имеет меньший эффект, чем тот, который необходим приложению. Этот счетчик обнуляется только если перезапускается служба виртуализации.
Перезапуск VPS не сбрасывает счетчик.
held колонка показывает текущее использование ресурсов.
maxheld колонка – максимальную величину потребления ресурса для последнего периода, в который проводился подсчет.
limit - предел, который не может быть превышен ни при каких обстоятельствах. barrier предел может быть превышен до limit предела, но по истечению заданного небольшого периода.
Для расшифровки параметров смотрите статью - расшифровка user beancounters
Параметры заданы с учетом разумных обстоятеств для каждого тарифного плана, но в некоторых случаях, требующих обоснования, служба технической поддержки может допустить изменения некоторых лимитов. Это не касается лимитов на память и дисковое пространство - они заданы жестко тарифным планом. Для изменения этих лимитов Вы должны запросить изменение тарифного плана.
Прочее
Иногда подвисание сервера может вызвать совершенно неожиданная причина.
Атака на ваш почтовый сервер может породить очередь сообщений из нескольких сотен тысяч сообщений.
Лекарство - pfqueue для postfix MTA или qmHandle для Qmail MTA.
Иногда заканчивается место на диске, попытки его освободить ничего не дают, пространство снова исчезает. Это случается когда программа пытается создать файл, но для него не хватает места и файл остается открытым.
В такой ситуации занятое файлом место может не учитываться утилитой du и его непросто найти.
Остановите все сервисы, снова используйте du.
Проверьте активные процессы и их аргументы ps -ax | less , используйте lsof для поиска открытых файлов.
Смотрите также
Ссылки
~~DISCUSSION~~
Актуальность: 2011/05/06 09:56