Я слышал про утилиту zalgo, которая справляется с подобным парсингом. Нет ли у неё каких-нибудь побочных эффектов?
Вы не можете распарсить [X]HTML регулярными выражениями, потому что HTML не может быть распаршен регулярными выражениями. Регулярные выражения - не тот инструмент, который может быть использован для парсинга HTML. Как я уже много раз отвечал на HTML-регулярко-парсинговые вопросы, использование регулярных выражений не позволит вам использовать HTML. Регулярные выражения - это инструмент, который недостаточно сложен для понимания конструкций, используемых в HTML. HTML не является обычным языком и, следовательно, не может быть проанализирован с помощью регулярных выражений. Регулярные выражения не имеют возможности разбивать HTML на обособленные части. (так много раз я говорил это, но до меня это не заденет) Даже улучшенные "нерегулярные" регулярные выражения, используемые Perl, не справляются с задачей синтаксического анализа HTML. (ты не сломаешь меня) HTML - это язык с достаточной сложностью, поэтому его нельзя проанализировать с помощью регулярных выражений. Даже Джон Скит не может анализировать HTML с помощью регулярных выражений. Каждый раз, когда вы пытаетесь распарсить HTML с помощью регулярных выражений, дьявольский ребенок плачет кровью девственниц, а китайские хакеры взламывают ваше веб-приложение. Анализ HTML с помощью регулярного выражения вызывает сатанинские души в царство живых. HTML и регулярные выражения так же сочетаемы, как любовь, брак и ритуальное детоубийство, и <center> не может удержать их. Силы регулярных выражений и HTML вместе в одном концептуальном пространстве превратит ваш разум в жидкая кашицу. Если вы разбираете HTML с помощью регулярных выражений, вы поддаетесь Им и их кощунственным методам, обрекающим всех нас на бесчеловечный труд для Того, чье Имя не может быть выражено в Основном Многоязычном Плане, он придет HTML+regexp разжижает нервы разума, и пока вы наблюдаете, как ваша психика увядает под натиском ужаса. HTML-парсеры на основе рег̵у̴л̴я̶р̶н̴ых выражений - это рак, убивающий Кью слишком поздно, уже слишком поздно мы не можем спасти жертвоприношение р̵е̸б̶е̷н̵к̸а̸ ̶гарантирует, что регулярное выражение будет поглощать всю живую ткань (кроме HTML, который он не может поглотить, как предсказано ранее) Господи, помоги нам, как можно выжить от этой напасти, используя регулярные выражения для анализа HTML мы обрекаем человечество на вечность ужасных пыток и дыр в безопасности, используя регулярные выражения в качестве инструмента для обработки HTML, устанавливает разрыв между этим миром и ужасным царством и̵с̸п̵о̷р̷ч̴е̶н̶н̵ы̶х̴ ̶ сущностей (как SGML, но более испорченные), простой взгляд на мир регулярных парсеров для HTML мгновенно перенесет сознание программиста в мир неостановимого воя умерших душ, он идёт, ядовитая сли̷з̸ь̸ ̷р̸е̴г̶у̸л̵я̷р̶н̴ы̶х̷ ̶в̴ы̴р̸а̸жений пожрет ваш парсер HTML, приложение и существование навсегда, как Visual Bas̶i̷c, только хуже, он идёт, он идёт, не пытайтесь бороться, он иде̶̗̑̄т̵̳̐, е̷̡̪̓г̷̜͙͑о порабощающее излучение разрушает все разумное, HTML-теги вы̶̥̭̚т̵̧̚͝екаю̵̧̞̄̀̍̕т̴̘͍́ ̷̨̛͖̣͚̲̺̎̒̒̇̚ӥ̵̣̦̠̤̆̊̈́̓͝з ваши̷х̴ ̸г̵л̷аз как жидкая боль, песне̵й̵ ̴р̸е̷г̴у̵л̶я̶р̸н̴о̷г̴о̷ ̸в̶ы̸р̵а̸ж̴е̸н̵и̸я̶ ̶и̷з̴г̶оняет голоса смертных из сферы я вижу это оно видит тебя э̴т̸о̵ ̵прекрасный по ̶с̶ ̶л̶ ̵е̸ ̵д̶ ̶н̸ ̸и̶ ̶й̸ ̶ ̵з̴ ̷а̶ ̸п̵ ̷ах человеческой лжи ВСЁ ПОТЕРЯНО ПОТЕРЯНО ВСЁ̵ ̴о̵н идёт он идёт̸ ̷о̷н̴ ̶и̴д̵ёт гной вытекает из МОЕГО ЛИЦА МОЁ ЛИЦО боже нет НЕЕ̵Е Е Е НЕ становитест а̶̧͕̤͇̠͖̀̈́̒͜н̴̙̲̦͇͈̗̘̭͘ ̶̯͔̘͚̼͔̭̹̳̘̝̈́͋̈̉̉͗̽͂̒̕͝г̴̛̰̪͓͎͎̋̓̉̚̚͘͜е̷͎̲̦̼̩̐͒̅л̷̤̎͂̕о̸̠̟̟̤͕̝̙͖̌в̵̨̧̹̭͚̠̫̩͕̋̓ͅͅ н е существует З̸А̷Л̴Г̷О̵ ̷ЭТ̶̯͉͚̞̫̗̘̮̑͂̿̎̿̋̾̒̕̚̚О̸̪̬̏̋́̏ ̷̡̢͔̱̗̫̬̦̘̺̣̓̃̽́̊͝О̶̛̱̳̗̭͙̞̲͍̓̈́͗ͅНИ̶̘͝ ̷̗͗Э̸̯̕Т̴̻̆О̸̗̃ О̵̢̛̳̺̯̗̠̋̄̄͘ͅН̷͇͈͌̓̄̍̕ ̷̰̝̋̐̎̏̾̍͂̉̚Й̷̣̰͎̰̥͛̆̌̚Д̷̙͉̓͜Е̸̝̜̉Т̴̬̼̭̼͑̌̀̍̋͝
---------------------------
Не хотите попробовать вместо этого XML-парсер?