Connectrix серии B. Как интерпретировать выходные данные Brocade porterrshow и что означают счетчики. Самостоятельное устранение неисправностей
Summary:Объяснение счетчиков команды porterrshow
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Как интерпретировать выходные данные Brocade porterrshow
Что означают счетчики porterrshow?
Интерпретирует и объясняет выходные данные porterrshow (ошибки портов) коммутаторов Brocade SAN и возможные причины ошибок.
Эта команда отображает сводку ошибок для всех портов.
Одна строка выходных данных отображается для каждого порта, а счетчики ошибок отображаются в единицах, тысячах (за номером следует k) или миллионах (за номером следует m).
Cause
-
Resolution
Frames tx Передано кадров: Количество кадров, переданных портом. Это число представляет собой статистику, которая предоставляет основной показатель для счетчиков ошибок.
Frames rx Получено кадров: Количество кадров, переданных портом. Это число представляет собой статистику, которая предоставляет основной показатель для счетчиков ошибок.
Enc in Ошибки кодирования внутри кадров: (RX). Число ошибок кодирования 8b/10b, которые произошли внутри кадров Этот счетчик обычно показывает значение 0, хотя иногда ошибки могут возникать на обычном канале и приводить к ненулевым результатам. Минимальная совместимость со спецификацией частоты появления ошибок link-bit на канале, непрерывно принимающем кадры, будет составлять приблизительно одну ошибку каждые 20 минут для 1 Гбит/с. Повторная инициализация и перезагрузка соответствующего порта NX также могут привести к этим ошибкам. Эти ошибки находятся в сумме ошибок LLI.
Crc err Кадры с ошибками циклической проверки резервирования: (RX) Количество кадров, которые не прошли циклическую проверку резервирования. Циклическая проверка резервирования (CRC) — это четырехбайтовое поле, которое должно немедленно следовать за полем данных и должно использоваться для проверки целостности данных заголовка кадра и поля данных. Разделители SOF (= Start-Of-Frame) и EOF (= End-Of-Frame) не должны включаться в проверку CRC. Поле CRC рассчитывается на заголовке кадра и поле данных до кодирования для передачи и после декодирования при приеме. Поле CRC должно быть выровнено по границе слова. При вычислении CRC бит четырехбайтового поля, выровненного по слову, первый переданный бит считается битом высшего порядка. Кадры, которые не прошли CRC, отмечаются, но не изменяются, и устройство назначения отвечает за отклонение и/или повторный запрос кадра. Статистически, ошибки enc out сами по себе подразумевают проблемы с кабелем, сочетание enc out и crc err подразумевают проблемы GBIC или SFP. Эти ошибки приводятся в сумме ошибок LLI
crc g_eof CRC с хорошим EOF (конец кадра). (Rx). При обнаружении CRC с хорошим EOF коммутатор увеличивает счетчик crc g_eof, помечает кадр таким образом, что ни один другой порт не будет считать этот кадр CRC, и отправляет кадр дальше.
Это позволяет быстро отследить кадры CRC с хорошим EOF до исходного порта.
Too short Счетчик «too short» — это счетчик статистики ошибок, который увеличивается, когда кадр, ограниченный SOF (начало кадра) и EOF (конец кадра), получен, и количество слов между SOF и EOF составляет менее 7 слов (заголовок из 6 слов плюс 1 слово CRC), т.е. 38 байт (не 48), включая SOF и EOF. Это может быть вызвано передатчиком или ненадежным каналом связи. Размер кадра данных это переменная со значением от 0 до 2112. Эти ошибки приводятся в сумме ошибок LLI
Too long Кадры длиннее максимального значения: Количество кадров, превышающих максимальный размер кадра (36 байт + размер кадра данных). Размер кадра данных это переменная со значением от 0 до 2112. Эти ошибки приводятся в сумме ошибок LLI. Кадры FC не превышают 2148 байт. Если EOF поврежден или данные генерируются неправильно, генерируется ошибка too long.
Bad eof Кадры с недопустимыми разделителями конца кадра: Разделитель конца кадра (EOF) — это упорядоченный набор, который следует сразу же за CRC. После ошибки loss-of-synchronization выравнивание в непрерывном режиме позволяет приемнику повторно установить выравнивание слов в любой точке входящего потока битов, когда приемник работает. Такое изменение, скорее всего, (но не гарантировано) приведет к нарушению кода и последующей потере синхронизации. При определенных условиях можно изменить направление входящего потока битов без потери синхронизации. Если такое изменение выравнивания происходит в полученном кадре, обнаружение получившегося условия ошибки зависит от функции более высокого уровня (например, недопустимый CRC, отсутствует разделитель EOF).
Разделитель EOF обозначает конец содержимого кадра, за которым следуют неактивные символы. Существует три категории разделителей EOF. Одна категория разделителя указывает, что кадр действителен с точки зрения отправителей и потенциально действителен с точки зрения получателей. Вторая категория должна указывать на то, что содержимое кадра является допустимым. Эта категория должна использоваться только F-портом, который получает полный кадр и декодирует его перед пересылкой этого кадра в другое место назначения. Третья категория указывает на повреждение содержимого кадра и усечение кадра во время передачи. Третья категория должна использоваться как N-портами, так и F-портами для обозначения внутренней неисправности, например, отказа передатчика, которая не позволяет передать весь кадр в обычном режиме. Эти ошибки приведены в сумме ошибок LLI.
enc out Ошибки кодирования 8 бит/10 бит, произошедшие в словах (упорядоченных наборах) за пределами кадра FC. Слова за пределами кадра кодируются. Если кодировка повреждена или обнаружена ошибка, генерируется enc out.
Ошибка кодирования за пределами кадров: Число ошибок кодирования 8b/10b, которые произошли за пределами кадров. Этот счетчик может стать ненулевым во время инициализации канала, но указывает на проблему, если он увеличивается быстрее, чем позволяет частота ошибок link-bit (один раз в 20 минут для 1 Гбит/с). Это вызвано поврежденными примитивными последовательностями, то есть: LIP f7,f7.
ПРИМЕЧАНИЕ. Ошибки loss sig, loss sync и enc out ожидаются при каждом отключении и включении порта путем перезагрузки хоста, выключении и повторном подключении подсистемы хранения, отсоединения и/или повторного подключения кабеля или вызова команды portDisable/portEnable. Также важно помнить, что эти ошибки также увеличиваются, когда коммутатор 2 Гбит/с согласовывает скорость соединения с подключенным устройством. Статистически, ошибки enc out сами по себе подразумевают проблемы с кабелем, сочетание enc out и crc err подразумевают проблемы SFP. Эти ошибки приводятся в сумме ошибок LLI.
Disc c3 Число сброшенных кадров класса 3 (Rx). Счетчик включает сумму следующих счетчиков сброса C3, сообщенных командой portstatshow:
er_rx_c3_timeout, er_tx_c2_timeout, er_c2_dest_unreach и er_other_disc
Ошибки сброса класса 3 могут быть сгенерированы коммутатором, когда устройства отправляют кадры без выполнения процесса FLOGI или с недопустимым назначением. Эта ошибка сообщает о том, что произошел такой сброс.
Кадры класса 3 могут быть сброшены из-за истечения времени ожидания или недопустимых или недоступных мест назначения. Этот счетчик увеличивается при нормальной работе. Он также может использоваться для демонстрации влияния перегрузки порта, т.е. хорошие кадры последовательных S-ID и D-ID не направляются напрямую от порта к порту, а вместо этого кадр исключения направляется через внутренний порт (обычно это не должно происходить при маршрутизации от порта к порту в ASIC, но происходит, когда порт D-ID имеет состояние «buffer full» и больше не может принимать кадры). Кроме того, если место назначения заблокировано из-за высокой рабочей нагрузки ISL (то есть, длительный период времени с BB Credit Buffer = 0), это может привести к состояниям «buffer full», поэтому порт S-ID может (в экстремальных обстоятельствах) столкнуться с превышением времени ожидания, и поэтому счетчик диска c3 увеличится. Эти ошибки приведены в сумме ошибок LLI.
Дополнительная информация. Порт может принимать только один кадр за раз (за пределами соединений xWDM невозможно одновременно отправить 2 световых импульса через оптический кабель). Поэтому, если два источника света пытаются использовать один порт, они должны использовать алгоритм организации доступа, в котором один источник света проходит, а второй ожидает своей очереди. Когда первый источник завершил передачу, второй источник получает разрешение. Это означает, что источники могут работать только при коэффициенте использования 50% (или при равном времени занятости и готовности). Если источник может передавать данные со скоростью D-ID (многие современные HBA-адаптеры способны на это), любая попытка другого такого же быстрого HBA-адаптера приведет к снижению производительности на 50%.
В журнале регистрируются сбросы er_unreachable, так как не удалось достичь места назначения или из-за отключения и/или подключения устройств к месту назначения.
er_other_disc — это фактические сбросы, которые не попадают ни в одну из других определенных категорий сброса кадров. По мнению Brocade, они незначительны и не влияют на производительность.
Link fail Сбои каналов (состояния LF1 или LF2): Количество раз, когда порт достиг состояния «Link fail1» и/или «Link fail 2». Получено (Rx). Если порт остается в состоянии приема LR в течение периода времени, превышающего период ожидания (R_T_TOV), будет обнаружено истечение времени ожидания протокола сброса связи, что приведет к состоянию «Link Failure» (введите состояние передачи NOS).
Сбой канала также указывает на то, что потеря сигнала или потеря синхронизации, которая длится дольше, чем значение R_T_TOV, были обнаружены не в автономном состоянии
Loss sync Потеря синхронизации: Количество случаев потери синхронизации. Сбои синхронизации в битовых или Transmission-Word границах не определяются отдельно и приводят к ошибкам потери синхронизации.
ПРИМЕЧАНИЕ. Ошибки «loss sig», «loss sync» и «enc out» ожидаются при каждом отключении и включении порта (путем перезагрузки хоста, выключения и повторного подключения подсистемы хранения, отсоединения и/или повторного подключения кабеля или вызова команды portDisable или portEnable). loss sig = Потеря сигнала: Количество случаев потери сигнала. Когда работающий приемник распознает состояние потери сигнала, он переходит в состояние потери синхронизации (если приемник в данный момент не находится в этом состоянии). Приемник должен оставаться в этом состоянии до возникновения одного из следующих условий: Состояние потери сигнала исправлено и синхронизация снова выполняется — или — выполнен сброс приемника.
Loss sig Количество случаев, когда получена ошибка потери сигнала, происходит когда сигнал передается, но не принимается на том же порте.
frjt Кадры, отклоненные с F_RJT: Количество кадров Fabric Port Reject. Означают, что доставка кадра отклонена. Вот некоторые причины возникновения F_RJT: Класс не поддерживается; недопустимые поля заголовков; и N-Port недоступен.
fbsy Если фабрика не может доставить кадр класса 2 в пределах E_D_TOV, кадр будет сброшен и возвращена F_BSY. (Tx) Кадры, загруженные F_BSY: Кадр Fabric Port Busy. Этот кадр выдается фабрикой, указывая на то, что определенный объект не может быть доставлен, так как фабрика или целевой N-порт заняты.
c3-timeout tx Количество передаваемых кадров класса 3, сброшенных на порте передачи из-за истечения времени ожидания (зависит от платформы и порта).
c3-timeout rx Количество принимаемых кадров класса 3, полученных через этот порт и сброшенных на порте передачи из-за истечения времени ожидания (зависит от платформы и порта).
pcs err Количество ошибок блокировки подуровня физического кодирования (PCS). Этот счетчик записывает нарушения кодирования на портах 10 Гбит/с или 16 Гбит/с.
В счетчике porterrshow ER_PCS_BLK это применимо только к платформам, которые поддерживают порты 10 Гбит/с или 16 Гбит/с (6505/6510/6520/DCX-8510), функция представлена в платформе GEN5 Condor3 ASIC. Этот счетчик эквивалентен enc_out для канала 8 Гбит и/или 4 Гбит и используется только для скорости 10 Гбит и 16 Гбит.
Каналы 10 Гбит/с и 16 Гбит/с используют кодировку 64B или 66B вместо 8B или 10B для передачи данных, а счетчик «pcs err» (=er_pcs_blk) записывает нарушения кодирования на портах 10 Гбит/с или 16 Гбит/с, обнаруженные во время декодирования.
uncor err Количество неустранимых ошибок пересылки (FEC).
Additional Information
См. следующее видео:
ПРИМЕРЫ наиболее распространенных счетчиков BROCADE.
Пример 1 ENC OUT с LINK FAIL и LOSS SYNC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Среди ошибок можно увидеть ошибки link fail и loss of sync PLUS enc out, а также ошибку loss sig.
Эти сочетания ошибок обычно указывают на перезагрузку хоста или сброс внешнего канала коммутатора. Ошибки enc out возникают во время согласования скорости в процессе инициализации канала.
Ожидаемые действия. Убедитесь, что подключенное к порту устройство имеет обоснованную причину для перехода в автономный и оперативный режим, т.е. для перезагрузки хоста. Если нет, откройте SR.
Пример 2 ENC OUT:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Ошибки Enc out без связанных с ними ошибок указывают на загрязненный кабель.
Ожидаемые действия. Осмотрите и очистите все оптические поверхности кабеля и SFP, подключенных к этому порту и присоединенным устройствам.
Пример 3 CRC и CRC G_EOF:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Кадр входит в порт коммутатора с неисправным CRC, но конец кадра по-прежнему отмечен как исправный.
Это указывает на то, что это первый порт, зарегистрировавший неисправный кадр, поэтому проблема заключается в SFP / кабеле / интерфейсе подключенного устройства на данном конкретном порте.
Ожидаемые действия. См. действие по умолчанию в решении.
Для порта ISL удалите статистику с помощью команд statsclear и slotstatsclear, подождите 4–6 часов, соберите данные с помощью команды supportsaves с обоих коммутаторов и откройте SR для обычного поиска и устранения неисправностей.
Пример 4 CRC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Порт записывает кадр, поступающий в коммутатор, с неисправным кадром CRC, но кадр уже помечен как неисправный. Обычно это отображается на портах ISL и F-портах NPIV.
Ожидаемые действия. Если ошибки CRC регистрируются на порте NPIV, запросите у поставщика обслуживание устройства.
Для порта ISL проверьте все порты в фабрике на наличие любых портов, регистрирующих crc g_oef, и выполните действия, как показано в примере 3.
Пример 5 PCS ERR с LINK FAIL и LOSS SYNC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Это применимо только к платформам, которые поддерживают порты 10 Гбит/с или 16 Гбит/с (6505/6510/6520/DCX-8510), и было внедрено в состав платформы GEN5 Condor3 ASIC. ER_PCS_BLK показывает количество ошибок блокировки подуровня физического кодирования (PCS). Этот счетчик эквивалентен enc_out для канала 8 Гбит или 4 Гбит и используется только для скорости 10 Гбит и 16 Гбит.
Среди ошибок можно увидеть link fail, loss of sync и pcs err, а также ошибку loss sig.
Эти сочетания ошибок обычно указывают на перезагрузку хоста или сброс внешнего канала коммутатора.
Ошибки pcs err возникают во время согласования скорости в процессе инициализации канала.
Ожидаемые действия. Убедитесь, что подключенное к порту устройство имеет обоснованную причину для перехода в автономный режим и в оперативный режим, т.е. перезагрузки хоста. Если нет, откройте SR.
Пример 6 PCS ERR:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Ошибки PCS ERR без связанных с ними ошибок указывают на загрязненный кабель.
Ожидаемые действия. Осмотрите и очистите все оптические поверхности кабеля и SFP, подключенных к этому порту и присоединенным устройствам.
Пример 7 C3timout PLUS Disc c3:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 2.4k 0 0
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
C3TIMEOUT сбрасывается, показывая, что кадры сбрасываются на этом порте по истечении времени ожидания по умолчанию: 500 мс.
TX — невозможно отправить кадры из этого порта коммутатора.
RX — кадры не принимаются портом коммутатора и сбрасываются по истечении времени ожидания по умолчанию: 500 мс.
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 0 0 0
Общая причина. Действительно, только если статистика порта была очищена в течение последних 24 часов. В противном случае эти счетчики следует классифицировать как архивные. Очистите статистику портов (https://support.emc.com/kb/304525) и повторите попытку через 4–6 часов.
Накопление кадров «unreachable», «other» или «unroutable», которые сбрасываются. (Подробные сведения о сбросе см. в выводе команды portstatsshow.)
Ожидаемые действия. Сбрасывает C3 самостоятельно, в целом, не влияет на SAN.
Пример 9 Uncorr err:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
xx: 1.1g 468.4m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 48
Количество блоков, не исправленных FEC
Если также присутствуют ошибки CRC, enc_out, bad eof (pcs err), которые могут повлиять на кадры данных и упорядоченные наборы соответственно (r_rdy может быть потеряно, что приведет к истечению разрешения на передачу данных). Для устранения этих ошибок выполните рекомендованные действия.
Если ни одно из этих значений не увеличивается, неисправленные ошибки имеют минимальный эффект, но являются признаком того, что на канале есть ошибки, поэтому может возникнуть проблема с кабелем или SFP.
Если присутствует только ошибка uncorr err, в первую очередь следует проверить и очистить кабель.