Как разделить многобайтовую строку на несколько частей?

0

1

Как разделить многобайтовую строку на несколько составляющих ее подстрок? Первое, что приходит в голову - преобразовать mb строку в wc строку, wc строку порезать на нужное число частей, получившиеся кусочки wc строк преобразовать обратно в mb строки.

Ссылка

←

i^{th}

Нужна программа для анализа исходника

→

В utf-8 легко отличить первый байт символа от продолжения: байты продолжения в побитовом представлении обязательно имеют вид 10xxxxxx. Поэтому если хочешь считать именно символы, а не байты, то когда просматриваешь строку нужно пропускать байты вида 10xxxxxx.

Manhunt ★★★★★
(08.06.12 14:45:15 MSK)

как резать-то? почему нельзя порезать например по 140 символов, моя мобила так и режет. Вот sed-код

sed -r 's/.{,140}/&\n/g'

(используется стандартная библиотека из glibc)

~~drBatty~~ ★★
(08.06.12 14:47:51 MSK)

Ответ на: комментарий от Manhunt 08.06.12 14:45:15 MSK

ИМХО разве нет стандартной функции для задачи ТС? (самой задачи нет, потому мне это не слишком понятно).

~~drBatty~~ ★★
(08.06.12 14:49:00 MSK)

Ссылка

Ответ на: комментарий от drBatty 08.06.12 14:47:51 MSK

Какой функцией на C можно порезать на эти 140 (или неважно сколько) символов? Но именно символов, а не байт.

zloy_starper ★★★
(08.06.12 14:53:28 MSK) автор топика

готовые функции для utf8 есть в glib. либо делать как написал Manhunt.

waker ★★★★★
(08.06.12 14:56:29 MSK)

Ссылка

Ответ на: комментарий от zloy_starper 08.06.12 14:53:28 MSK

Например, g_utf8_offset_to_pointer в цикле.

akk ★★★★★
(08.06.12 14:57:12 MSK)

Ссылка

Ответ на: комментарий от Manhunt 08.06.12 14:45:15 MSK

В utf-8 легко отличить первый байт символа от продолжения: байты продолжения в побитовом представлении обязательно имеют вид 10xxxxxx. Поэтому если хочешь считать именно символы, а не байты, то когда просматриваешь строку нужно пропускать байты вида 10xxxxxx.

Похоже это самое простое и быстрое в реализации решение.

Ну разве еще попробовать заморочки с mbsrtowcs в цикле.

zloy_starper ★★★
(08.06.12 15:05:18 MSK) автор топика

Ссылка

Что такое «multibyte» - зависит от локали. Если там не mb, а точно UTF-8, то искать байт & 0x80, иначе единственный правильный способ - mbrtowc в цикле.

slovazap ★★★★★
(08.06.12 15:39:32 MSK)