ГЛАВНАЯ Визы Виза в Грецию Виза в Грецию для россиян в 2016 году: нужна ли, как сделать

Очистить html от word online. Очистить текст от html тегов

Здравствуйте!

При написании своего WYSIWYG редактора возникла проблема копирования текста из Ворда. Собственно проблем три:

  • Ворд вставляет много мусорного html кода, который необходимо чистить
  • Для представления списков Ворд почему-то использует параграфы вместо тегов UL и LI
  • Собственно как определить, что вставленный текст является вставленным из Ворда.
В общем, для решения этих проблем, был написан jquery-плагин, полный исходный код которого доступен в конце статьи. Пример использования:

$(‘#editor’). msword_html_filter();
Плагин вешается на событие keyup и проверяет, является ли исходный код внутри редактора вставленным из Ворда, если да, то запускается функция очистки. В результирующем html прибивается все что только можно – неразрывные пробелы, атрибуты style и align , теги span , все Mso -классы, пустые параграфы.

Детали реализации под катом.

Большинство используемых регулярок были подсмотрены у TinyMCE .

Как определить, есть ли в строке html-код вставленный из Ворда:

If (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w:WordDocument/i.test(content)) { ... }

Функция чистки кода (в функцию передается jquery объект редактора):

Function word_filter(editor){ var content = editor.html(); // Word comments like conditional comments etc content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|style|\w:\w+)(?=[\s\/>]))[^>]*>/gi, ""); // Convert into <(\/?)s>/gi, "<$1strike> ___ ([\s\u00a0]*)<\/span>/gi, function(str, spaces) { return (spaces.length > "; if (/^\s*\w+\./.test(txt)) { var matches = /()\./.exec(txt); if (matches) { var start = parseInt(matches, 10); list_tag = start>1 ? "" : ""; }else{ list_tag = ""; } } if(cur_level>" + $(this).html() + "") $(this).remove(); last_level = cur_level; }else{ last_level = 0; } }) $("", editor).removeAttr("style"); $("", editor).removeAttr("align"); $("span", editor).replaceWith(function() {return $(this).contents();}); $("span:empty", editor).remove(); $("", editor).removeAttr("class"); $("p:empty", editor).remove(); }

Полный исходный текст плагина под спойлером, сохранять в файл jquery.msword_html_filter.js

исходный текст плагина

(function($) { $.fn.msword_html_filter = function(options) { var settings = $.extend({}, options); function word_filter(editor){ var content = editor.html(); // Word comments like conditional comments etc content = content.replace(//gi, ""); // Remove comments, scripts (e.g., msoShowComment), XML tag, VML content, // MS Office namespaced tags, and a few other tags content = content.replace(/<(!|script[^>]*>.*?<\/script(?=[>\s])|\/?(\?xml(:\w+)?|img|meta|link|style|\w:\w+)(?=[\s\/>]))[^>]*>/gi, ""); // Convert into for line-though content = content.replace(/<(\/?)s>/gi, "<$1strike>"); // Replace nbsp entites to char since it"s easier to handle //content = content.replace(/ /gi, "\u00a0"); content = content.replace(/ /gi, " "); // Convert ___ to string of alternating // breaking/non-breaking spaces of same length content = content.replace(/([\s\u00a0]*)<\/span>/gi, function(str, spaces) { return (spaces.length > 0) ? spaces.replace(/./, " ").slice(Math.floor(spaces.length/2)).split("").join("\u00a0") : ""; }); editor.html(content); // Parse out list indent level for lists $("p", editor).each(function(){ var str = $(this).attr("style"); var matches = /mso-list:\w+ \w+(+)/.exec(str); if (matches) { $(this).data("_listLevel", parseInt(matches, 10)); } }); // Parse Lists var last_level=0; var pnt = null; $("p", editor).each(function(){ var cur_level = $(this).data("_listLevel"); if(cur_level != undefined){ var txt = $(this).text(); var list_tag = ""; if (/^\s*\w+\./.test(txt)) { var matches = /()\./.exec(txt); if (matches) { var start = parseInt(matches, 10); list_tag = start>1 ? "" : ""; }else{ list_tag = ""; } } if(cur_level>last_level){ if(last_level==0){ $(this).before(list_tag); pnt = $(this).prev(); }else{ pnt = $(list_tag).appendTo(pnt); } } if(cur_level" + $(this).html() + "") $(this).remove(); last_level = cur_level; }else{ last_level = 0; } }) $("", editor).removeAttr("style"); $("", editor).removeAttr("align"); $("span", editor).replaceWith(function() {return $(this).contents();}); $("span:empty", editor).remove(); $("", editor).removeAttr("class"); $("p:empty", editor).remove(); } return this.each(function() { $(this).on("keyup", function(){ var content = $(this).html(); if (/class="?Mso|style="[^"]*\bmso-|style="[^""]*\bmso-|w:WordDocument/i.test(content)) { word_filter($(this)); } }); }); }; })(jQuery)


Работоспособность проверялась только в последнем Фаерфоксе.

Get rid of your dirty markup with the free online HTML Cleaner. It’s very easy to compose, edit, format and minify the web code with this online tool. Convert Word docs to tidy HTML and any other visual documents like Excel, PDF, Google Docs etc. It’s extremely simple and efficient to work with the two attached visual and source editor which respond instantly to your actions.

HTML Cleaner is equipped with many useful features to make HTML cleaning and editing as easy as possible. Just paste your code in the text area, set up the cleaning preferences and press the Clean HTML button. It can handle any document created with Microsoft Excel, PowerPoint, Google docs or any other composer. It helps you easily get rid of all inline styles and unnecessary codes which are added by Microsoft Word or other WYSIWYG editors. This HTML editor tool is useful when you’re migrating the content from one website to the other and you want to clean up all alien classes and IDs the source site applies. Use the find and replace tool for your custom commands. The gibberish text generator lets you easily add dummy text to the editor.

On the top of the page you can see the visual editor and the source code editor next to each other. Whichever you modify the changes will be reflected on the other in real time. The visual HTML editor allows beginners to easily compose their content just like when using any other word processor program, while on the right the source editor with highlighted code markup helps the advanced users to adjust the code. This makes this online program a nice tool to learn HTML coding.

Convert Word Documents To Clean HTML

To publish online PDFs, Microsoft Word, Excel, PowerPoint or any other documents composed with different word editor programs or just to copy the content copied from another website, paste the formatted content in the visual editor. The HTML source of the document will be immediately visible in the source editor as well. The control bar above the WYSIWYG editor controls this field while all other source cleaning settings are for editing the source code. Click the Clean HTML button after setting up the cleaning preferences. Copy the cleaned code and publish it on your website.

There’s no guarantee that the program corrects all errors in your code exactly the way you want so please try to enter a syntactically valid HTML.

Convert the HTML tables to structured div elements activating the corresponding checkbox.

Очистка HTML кода от тегов Microsoft Word (2000-2007)?

In the past web designers used to build their websites using tables to organize page layout, but in the era of responsive web design tables are outdated and DIV’s are taking their place. This online tool helps you turn your tables to structured div elements with a few simple clicks.

You can make your source code more readable by organizing the tabs hierarchy in a tree view.

Become A Member

This website is a fully functional tool to clean and compose HTML code but you have the possibility to purchase a HTML G membership and access even more professional features. Using the free version of the HTML Cleaner you consent to include links in the edited documents. This cleanup tool might add a promotional third party link to the end of the cleaned documents and you need to leave this code unchanged as long as you use the free version.

Cleaner – сервис очистки тегов от «мусора», который остается в документе после сохранения страницы в формате из программы .

Давным давно я написал подобный плагин, но он был сделан на скорую руку, сейчас механизм полностью переписан.

Очистка кода происходит методом перебора введенной строки из которой формируется новая, содержащая «чистый» . Плагин удаляет абсолютно все из тегов, в том числе и из тегов . В непарных тегах проставляется символ /(слеш). Удаляются пустые теги, например конструкция будет удалена, так как она ничего не содержит.

Как работает html cleaner?

Есть два способа:

  1. В программе MS Word выберите данные, которые хотите очистить от мусора, чтобы выбрать все, нажмите Ctrl + A. Вставьте скопированный текст в поле ниже(должна быть выбрана вкладка «Вставить данные MS Office»), нажмите кнопку «Готово».
  2. Перед тем, как оптимизировать код выберите в Word «Сохранить как…», далее укажите Тип файла «Веб-страница с фильтром», затем откройте сохраненный файл в текстовом редакторе, скопируйте код и вставьте в поле ниже(должна быть выбрана вкладка «Вставить HTML»), нажмите кнопку «Готово».

В результате Вы получите девственно чистый html код.
Не тронутыми остаются следующие атрибуты:

"colspan", "rowspan", "href", "src", "type", "value", "lang", "tabindex", "title", "code", "alt", "target", "dir", "span", "action", "method"

День добрый, дорогие читатели! Надеюсь у вас также хорошо, как и у нас - солнце светит, птички поют, тепло и наступило лето! У меня пока диссертация, поэтому последних месяца полтора я пишу только раз в неделю, физически не успеваю. Но не будем о грустном, перейдём к делу!

Когда-то давно я копался в интернете на тему поиска скрипта, очищающего код HTML от мусора, который, в частности, оставляет всеми нами "горячо любимый" в этом плане Microsoft Word. Ранее я использовал очистку кода посредством Adobe Dreamweaver , но у него было два недостатка :

    Порой очищает далеко не всё, что хотелось бы.

    При очень большом количестве кода скрипт очистки выдаёт ошибку.

Второй пункт стал для меня критичен, так как мне приходилось работать с большими таблицами html, от которых на одном сайте никак нельзя было отойти, а всю информацию они предоставляли в Ворде.

Таким образом, блуждая долго по интернету, я нашёл скрипт, который справляется со всем этим хозяйством на ура, и при этом полностью настраиваем.

Exel / Word в HTML - идеальный инструмент для редактирования исходного кода статей WordPress или любой другой системы управления контентом, когда их встроенный композитор не предоставляет всех необходимых нам функций. Составьте контент прямо в окне браузера без установки расширения или плагина для обработки подсветки синтаксиса и других функций редактирования текста.

Как использовать?

Вставьте документ, который вы хотите преобразовать, в редактор Word, а затем перейдите к просмотру HTML, используя большие вкладки в верхней части страницы, чтобы сгенерировать код.

Очистите грязную разметку большой кнопкой, которая выполняет активные (проверенные) параметры в списке. Вы также можете применять эти функции один за другим с помощью значка CLEAN.

Проблемы конвертации которые легко решает наш онлайн-конвертер HTML

Проблема конвертации word в html пожалуй всегда существовала наряду с Microsoft Word. Огромнео число стилей присвоенных текстам, типа mso-spacerun:yes, и классы, вроде MsoNormal, а также нагромождение всяческих span style="font-size:10.0pt" сильно засоряют код. И нередко перебивают родные стили заданные в сайте. Если с простым текстом еще можно справиться вставляя текст через редакторскую кнопку "Вставить только текст", то с таблицами такой способ не прокатит. Наш же конвертер способен без труда вычистить любые лишние комментарии и стили из будущего html файла, путем не сложных нажатий на кнопки.


Онлайн чистка HTML от лишних CSS стилей
  • Удаляем любые ненужные стили из всего текста или выделенного фрагмента
  • Удаляем лишние коды отсупов, символов и пр. коды Юникод
  • Чисти код от лишних пробелов и дублей тегов
  • Если требуется полностью удаляем HTML разметку.

Конвертация файлов Word, Excel, TxT в чистый исходный HTML код. Без лишних стилей и комментариев для прямой корректной вставки в страницы сайта.

Поддерживаемые форматы для онлайн-конвертации:

  • 97–2004 и более новые DOC в HTML, DOCX в HTML;
  • XLS в HTML, XLSX в HTML;
  • PPT в HTML, PPTX в HTML;
  • TXT в HTML и многие другие форматы.

Еще одно полезное использование сервиса вместо того чтобы часами делать себе таблицу в HTML сделайте её за 15 минут в Excel или Word и конвертните в чистый красивый HTML код для вставки на сайт.