Получается что ошибки в тексте, ошибки в тексте связанные с разметкой затрудняют корректную индексацию и негативно влияют на ранжирование сайта. Необходимо выявить какие HTML теги приводят к склеиванию слов. Дополнением к исследованию будет проверка последовательностей ( . , ? ! : ; \n \t & nbsp;) с разметкой которые также приводят к склейке слов.
Из Национального корпуса русского языка, было взято 1000 биграмм (пар слов) наиболее часто встречающихся в корпусе.
| HTML | HTML | HTML | HTML | HTML |
|---|---|---|---|---|
| <a> | <abbr> | <acronym> | <b> | <basefont> |
| <big> | <br> | <cite> | <code> | <dfn> |
| <em> | <font> | <i> | <kbd> | <q> |
| <s> | <samp> | <small> | <span> | <strike> |
| <strong> | <sub> | <sup> | <tt> | <u> |
| <var> | <address> | <blockquote> | <center> | <div> |
| <h1> | <h2> | <h3> | <h4> | <h5> |
| <h6> | <ol> | <p> | <pre> | <table> |
| <ul> | <article> | <aside> | <footer> | <header> |
| <mark> | <menu> | <nav> | <section> | <time> |
На начальном этапе использовали проверочные запросы без уточнения. Результаты наблюдений по ним считаем не корректными, т.к. поисковые системы делают предобработку запросов, и показывают результат в случаях частичного совпадения с искомым запросом.
Было принято решение использовать уточняющую формулировку в проверочных запросах к поисковым системам.
Выбранные для исследования теги относятся к следующим типам:
Разделители можно группировать следующим образом:
<address>, <blockquote>, <center>, <div>, <h1>, <h2>, <h3>, <h4>, <h5>, <h6>, <ol>, <p>, <pre>, <table>, <ul>.
Ошибка в разметке текста блочными элементами прячет всю фразу, взятую в «» от поисковой системы. Нет результатов ни с пропуском пробела, ни со знаками препинания, ни с символами переноса строки, табуляция, неразрывный пробел.
При этом поисковые системы находят каждое отдельное слово фразы. Таким образом мы полагаем что блочные элементы делят слова разделяя сам текст на блоки, каждое отдельное слово попадает в соседние блоки, поэтому не находятся по строгим запросам, и видны поисковой машине по обычному запросу без «»
<article>, <aside>, <footer>, <header>, <mark>, <menu>, <nav>, <section>, <time>.
Все ошибки в тегах HTML5 для Google делают фразу "" не видимой. Поисковая система не показала результата ни с одним вариантом размещения.
Yandex в основном относится к тегам HTML5 аналогично блочным, за исключением mark и time
PRESS P
<a>, <abbr>, <acronym>, <b>, <basefont>, <big>, <br>, <cite>, <code>, <dfn>, <em>, <font>, <i>, <kbd>, <q>, <s>, <samp>, <small>, <span>, <strike>, <strong>, <sub>, <sup>, <tt>, <u>, <var>.
Наибольшее количество различных вариантов индексации встретилось именно на строчных элементах. Именно строчные элементы зачастую используются для стилевого оформления текста, и именно они требуют повышенного внимания.
Стоит сразу отметить, что к тегам basefont, br Google относится аналогично блочным. В силу особенностей назначения этих тегов, такое отношение можно считать оправданным.
PRESS P
Yandex
После точки в предложении обязательно ставить пробел, иначе предложение не будет разделено поисковой системой на пассажи, будет синтаксическая ошибка.
PRESS P
Нами создана программа для нахождения описанных выше ошибок в строчных элементах HTML разметки страниц.
Правописание