Всем доброго времени суток.Подскажите уважаемые куда копать уже сломал голову. В общем стоит на границе сети каталист 3550-12Т, поднято 2 аплинка: 1-etherchanel (2 порта) 2-й резервный гиговый порт, бгп принимает от аплинков только дефолтные маршруты. в этот же коммутатор воткнуто 3 сервера: 1)NAT 2)Белые адреса бегают 3)BRAS с pppoe клиентами.На данном коммутаторе все работает отлично, по 1м каналу прокачиваем свои 2 гига без проблем. Решили поменять коммутатор на более мощный поставили 4948е-с 4мя 10Гб портами, конфигурация 1 в 1 с 3550, но при установке коммутатора начинаются проблемы, не можем прокачать свои 2 гига, скорости у абонентов нет, а на серверах начинаю наблюдать дикие потери на сетевых интерфейсах
к примеру на сервере где бегают белые ипRX packets:489094294147 errors:46 dropped:203983 overruns:716283 frame:26
ethtool -S eth6 | grep rx
rx_packets: 489097326771
rx_bytes: 540861461684088
rx_broadcast: 54
rx_multicast: 0
rx_crc_errors: 26
rx_no_buffer_count: 0
rx_missed_errors: 203983
rx_long_length_errors: 0
rx_short_length_errors: 0
rx_align_errors: 0
rx_flow_control_xon: 0
rx_flow_control_xoff: 0
rx_long_byte_count: 540861461684088
rx_smbus: 0
os2bmc_rx_by_bmc: 0
os2bmc_rx_by_host: 0
rx_errors: 46
rx_length_errors: 0
rx_over_errors: 0
rx_frame_errors: 0
rx_fifo_errors: 716283
rx_queue_0_packets: 60275438145
rx_queue_0_bytes: 67364653646328
rx_queue_0_drops: 66870
rx_queue_0_csum_err: 862692
rx_queue_0_alloc_failed: 0
rx_queue_1_packets: 59742801332
rx_queue_1_bytes: 66535309734072
rx_queue_1_drops: 132185
rx_queue_1_csum_err: 788196
rx_queue_1_alloc_failed: 0
rx_queue_2_packets: 61087346856
rx_queue_2_bytes: 67571487122583
rx_queue_2_drops: 53690
rx_queue_2_csum_err: 1021215
rx_queue_2_alloc_failed: 0
rx_queue_3_packets: 62018388233
rx_queue_3_bytes: 67839534530503
rx_queue_3_drops: 42516
rx_queue_3_csum_err: 4393512
rx_queue_3_alloc_failed: 0
rx_queue_4_packets: 61935367558
rx_queue_4_bytes: 67771655959457
rx_queue_4_drops: 53519
rx_queue_4_csum_err: 890017
rx_queue_4_alloc_failed: 0
rx_queue_5_packets: 60983872760
rx_queue_5_bytes: 66954520823464
rx_queue_5_drops: 42260
rx_queue_5_csum_err: 1317810
rx_queue_5_alloc_failed: 0
rx_queue_6_packets: 63103739331
rx_queue_6_bytes: 68177826438092
rx_queue_6_drops: 55008
rx_queue_6_csum_err: 842091
rx_queue_6_alloc_failed: 0
rx_queue_7_packets: 59948940847
rx_queue_7_bytes: 66689840760277
rx_queue_7_drops: 66252
rx_queue_7_csum_err: 803654
rx_queue_7_alloc_failed: 0соответственно на циске вижу что она начинает активно вставлять pause frame и дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти. Если я правильно понимаю то дело даже не в циске.
>[оверквотинг удален]
> rx_queue_6_csum_err: 842091
> rx_queue_6_alloc_failed: 0
> rx_queue_7_packets: 59948940847
> rx_queue_7_bytes: 66689840760277
> rx_queue_7_drops: 66252
> rx_queue_7_csum_err: 803654
> rx_queue_7_alloc_failed: 0
> соответственно на циске вижу что она начинает активно вставлять pause frame и
> дропать трафф. Возвращаю 3550 и все нормализуется, счетчики дропов перестают расти.
> Если я правильно понимаю то дело даже не в циске.rx_queue_N_csum_err <очень много>
Где N 0-8
Symptoms
rx_queue_0_csum_err incrementing in ethtool -S output
[Expert@gw]# ethtool -k <interface> shows:
rx-checksumming: on
The interface is using the igb driver
Cause
The cable or port in use may be faulty.This can also be caused by the rx-checksumming option for the interface, in some cases.
>[оверквотинг удален]
> Где N 0-8
> Symptoms
> rx_queue_0_csum_err incrementing in ethtool -S output
> [Expert@gw]# ethtool -k <interface> shows:
> rx-checksumming: on
> The interface is using the igb driver
> Cause
> The cable or port in use may be faulty.
> This can also be caused by the rx-checksumming option for the interface,
> in some cases.Я правильно понял что надо отключить чексумминг на интерфейсе?
сейчас вот так настройки сделаны
ethtool -k eth6
Features for eth6:
rx-checksumming: on
tx-checksumming: on
tx-checksum-ipv4: on
tx-checksum-unneeded: off [fixed]
tx-checksum-ip-generic: off [fixed]
tx-checksum-ipv6: on
tx-checksum-fcoe-crc: off [fixed]
tx-checksum-sctp: on
scatter-gather: on
tx-scatter-gather: on
tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: on
tx-tcp-segmentation: on
tx-tcp-ecn-segmentation: off [fixed]
tx-tcp6-segmentation: on
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: on
loopback: off [fixed]
>[оверквотинг удален]
> highdma: on [fixed]
> rx-vlan-filter: on [fixed]
> vlan-challenged: off [fixed]
> tx-lockless: off [fixed]
> netns-local: off [fixed]
> tx-gso-robust: off [fixed]
> tx-fcoe-segmentation: off [fixed]
> fcoe-mtu: off [fixed]
> tx-nocache-copy: on
> loopback: off [fixed]!!!!
The cable or port in use may be faulty.
!!!!
Порт или кабель могут быть неисправны.Для начала проверить порты 48-ого каталиста
>[оверквотинг удален]
>> tx-gso-robust: off [fixed]
>> tx-fcoe-segmentation: off [fixed]
>> fcoe-mtu: off [fixed]
>> tx-nocache-copy: on
>> loopback: off [fixed]
> !!!!
> The cable or port in use may be faulty.
> !!!!
> Порт или кабель могут быть неисправны.
> Для начала проверить порты 48-ого каталистачто проблема на всех портах в которые включены сервера?
выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно полегчать.
> выключайте flowcontrol, ставьте максимум hold-queue на интерфейсе коммутатора. Должно
> полегчать.flowcontrol Отключал и на rx и на tx легче не становилось. Что то я прихожу к выводу что и не в циске дело, похоже сервера наливают кучу мелких пакетов, 3550 как то жует их, а на 4948 уже получается переполнение буферов, вчера на одном из серверов через ethtool увеличил буфера на rx-tx до 4096 (стояло 256) так у меня сразу порт на циске и слождился с переполненым тх буфером. в данный момент настройки интерфейса на сервера вот такие
ethtool -g eth6
Ring parameters for eth6:
Pre-set maximums:
RX: 4096
RX Mini: 0
RX Jumbo: 0
TX: 4096
Current hardware settings:
RX: 256
RX Mini: 0
RX Jumbo: 0
TX: 256ethtool -k eth6
Features for eth6:
rx-checksumming: on
tx-checksumming: on
tx-checksum-ipv4: on
tx-checksum-unneeded: off [fixed]
tx-checksum-ip-generic: off [fixed]
tx-checksum-ipv6: on
tx-checksum-fcoe-crc: off [fixed]
tx-checksum-sctp: on
scatter-gather: on
tx-scatter-gather: on
tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: on
tx-tcp-segmentation: on
tx-tcp-ecn-segmentation: off [fixed]
tx-tcp6-segmentation: on
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: on
generic-receive-offload: on
large-receive-offload: off [fixed]
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off [fixed]
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: on
loopback: off [fixed]ethtool -i eth6
driver: igb
version: 5.0.5-k
firmware-version: 1.2.1
bus-info: 0000:0a:00.1
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: noможет чего то отключить включить посоветуете?
>[оверквотинг удален]
> driver: igb
> version: 5.0.5-k
> firmware-version: 1.2.1
> bus-info: 0000:0a:00.1
> supports-statistics: yes
> supports-test: yes
> supports-eeprom-access: yes
> supports-register-dump: yes
> supports-priv-flags: no
> может чего то отключить включить посоветуете?А что счетчики ошибок на портах каталиста 48-го говорят?
мне кажется, что дело в QoS. И я бы копал в эту сторону.
у 3550 и 4849 разные архитектуры qos, разный queuing. Судя по тому что каталист дает паузы - у него переполняется очередь. Смотрите статистику qos и input/output drops по очередям,возможно придется его немного подтюнить.
>[оверквотинг удален]
> driver: igb
> version: 5.0.5-k
> firmware-version: 1.2.1
> bus-info: 0000:0a:00.1
> supports-statistics: yes
> supports-test: yes
> supports-eeprom-access: yes
> supports-register-dump: yes
> supports-priv-flags: no
> может чего то отключить включить посоветуете?
> может чего то отключить включить посоветуете?Ну для начала нужно определиться с тем, в какую сторону будете копать проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов _серверов_. Делать предположения что в вашем каталисте происходит, только на основании показаний серверов... ну даже не знаю что сказать...
Либо статистика со свитча, либо разбираем проблему на стороне серверов.
>> может чего то отключить включить посоветуете?
> Ну для начала нужно определиться с тем, в какую сторону будете копать
> проблему. Вы грешите на Cisco, но статистику показываете тольк с интерфейсов
> _серверов_. Делать предположения что в вашем каталисте происходит, только на основании
> показаний серверов... ну даже не знаю что сказать...
> Либо статистика со свитча, либо разбираем проблему на стороне серверов.Спасибо все откликнувшимся на проблему, сейчас 4948 снята и перепрошита другой версией иос, так что счетчики обнулились, выкладываю показания в момент когда она стояла на канале и в нее были включены сервера.
отключил flow control на интерфейсах пропали ошибки TxPauseFrames ,до этого сыпались, потом стал смотреть счетчики на интерфейсах, почему льет в одну очередь когда qos вообще отсутствует в настройках
Port Tx-Bytes-Queue-1 Tx-Bytes-Queue-2 Tx-Bytes-Queue-3 Tx-Bytes-Queue-4
Gi1/8 275988 0 0 0
Port Tx-Bytes-Queue-5 Tx-Bytes-Queue-6 Tx-Bytes-Queue-7 Tx-Bytes-Queue-8
Gi1/8 0 0 0 2234230990749
ну и самое главное откуда сыпятся дропы?
show platform software drop-port
Drop Port Software State
Dequeue Enabled : True
DropQueue Water mark Reg : 0x8000600038001D4C
DropQueue Water mark Reg : 0x7FE32010
(Empty, PreEmpty, Head:0xED, Tail:0xED)
DropActivityCount : 22236165
DropOverrunCount : 0
Drop Event Reason Packets Dropped
----------------- ---------------
RxErrDrop 16
SptDrop 144611
InpL2AclDrop 19
InpL3AclDrop 46123
BridgeToRxPortDrop 3541320
rplErrDrop 6576714
TxQueFullDrop 22799697
show platform health
PacketBufRaw 184.29 100% 184.29 100%
PacketBufRaw 5938.31 100% 5938.31 100%Packets Dropped In Processing Overall
Total 5 sec avg 1 min avg 5 min avg 1 hour avg
-------------------- --------- --------- --------- ----------
2839939 1 0 1 0
Packets Dropped In Processing by CPU event
Event Total 5 sec avg 1 min avg 5 min avg 1 hour avg
----------------- -------------------- --------- --------- --------- ----------
Sa Miss 2839939 1 0 1 0
Packets Dropped In Processing by Priority
Priority Total 5 sec avg 1 min avg 5 min avg 1 hour avg
----------------- -------------------- --------- --------- --------- ----------
Medium 2839939 1 0 1 0
Packets Dropped In Processing by Reason
Reason Total 5 sec avg 1 min avg 5 min avg 1 hour avg
------------------ -------------------- --------- --------- --------- ----------
STPDrop 10 0 0 0 0
Tx Mode Drop 2839929 1 0 1 0
Total packet queues 64
Packets Received by Packet Queue
Queue Total 5 sec avg 1 min avg 5 min avg 1 hour avg
---------------------- --------------- --------- --------- --------- ----------
Input ACL fwd(snooping) 2108 0 0 0 0
Host Learning 2839893 1 0 1 0
L2 Control 1170963 0 0 0 0
Ip Option 98 0 0 0 0
Ttl Expired 3753040 5 0 2 0
Adj SameIf Fail 8805693 0 0 0 0
L2 router to CPU, 7 3297553 2 0 1 0
L3 Glean, 7 3917159 2 0 1 2
L3 Fwd, 7 610579 0 0 0 0
L3 Receive, 7 1106106 0 0 0 0
Packets Dropped by Packet Queue
Queue Total 5 sec avg 1 min avg 5 min avg 1 hour avg
---------------------- --------------- --------- --------- --------- ----------
Adj SameIf Fail 136 0 0 0 0
L3 Glean, 7 13174 0 0 0 0никаких колец нет.
Идей нет? В общем судя по документации циски очередь при переводе порта в L3 становится 75
Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser..., судя посчетчикам у меня все лилось в 8 очередь что на данном коммутаторе является свободным qos. Возможно ли с ПС с гиговым портом нагенерировать под гиг трафика для разбора на стенде, если поставлю в рабочую сеть и будет опять такая петрушка меня уже точно порешат.
> Идей нет? В общем судя по документации циски очередь при переводе порта
> в L3 становится 75
> Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее
> выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser...
> , судя посчетчикам у меня все лилось в 8 очередь
> что на данном коммутаторе является свободным qos. Возможно ли с ПС
> с гиговым портом нагенерировать под гиг трафика для разбора на стенде,
> если поставлю в рабочую сеть и будет опять такая петрушка меня
> уже точно порешат.https://wiki.linuxfoundation.org/networking/pktgen
> Идей нет? В общем судя по документации циски очередь при переводе порта
> в L3 становится 75
> Input queue: 0/75/0/0 (size/max/drops/flushes), и как рекомендует циско не повышать ее
> выше 100 единиц, https://www.cisco.com/c/en/us/support/docs/routers/10000-ser...
> , судя посчетчикам у меня все лилось в 8 очередь
> что на данном коммутаторе является свободным qos. Возможно ли с ПС
> с гиговым портом нагенерировать под гиг трафика для разбора на стенде,
> если поставлю в рабочую сеть и будет опять такая петрушка меня
> уже точно порешат.Первое правило радиолюбителя гласит: нельзя крутить более одной ручки настройки за раз.
В вашем случае: сняли, залили свежий IOS - погоняйте на стенде. Соберите инфу со свежими настройками. В режиме L2, в режиме L3. Посмотрите в эти моменты на очереди, интерфейсы, процессор. Попробуйте через разные интерфейсы. Если используете SFP - меняйте модули, патч-корды и т.д.
Попробуйте зафлудить маленькими пакетами, большими, Jumbo.
Современные компы вполне могут выдать полноценный 1Gb на интерфейсе. Попробуйте iperf-ом погонять.