Еще раз о unicode в C++.

1

1

Программа на С++ имеет результатом своей работы файл xml в кодировке windows 1251. Для того чтобы программу можно было портировать на линукс и вообще как лучше хранить строки внутри программы - unicode? А потом перед записью файла переводить их в windows 1251?

Ссылка

←	Аналог yield в c++

Как нарисовать Блок-Схему многопоточного приложения

→

телепаты в отпуске.

уточните, что за программа, чем взаимодействует с пользователем-консоль там, Qt, gtk, winapi etc

~~ckotinko~~ ☆☆☆
(06.06.12 11:41:53 MSK)

Ответ на: комментарий от ckotinko 06.06.12 11:41:53 MSK

Библиотека получает на вход данные, производит с ними некие манипуляции и в том числе генерирует xml который должен быть в windows 1251. Входные строки наверное тоже в том же формате если на виндах. Но так то я хочу чтобы код работал и на линуксе. Выходные данные в любом случае windows 1251.

mio ★★
(06.06.12 11:45:16 MSK) автор топика

Ответ на: комментарий от mio 06.06.12 11:45:16 MSK

тогда вам нужен iconv -f cp1251 -t utf-8

~~ckotinko~~ ☆☆☆
(06.06.12 12:02:53 MSK)

Ссылка

Ответ на: комментарий от mio 06.06.12 11:45:16 MSK

это самый простой способ не меняя программу получить уникод на выходе. на входе iconv -f utf-8 -t cp1251

~~ckotinko~~ ☆☆☆
(06.06.12 12:03:40 MSK)

Ссылка

Ответ на: комментарий от mio 06.06.12 11:45:16 MSK

если ты в любом случае всегда будет работать с cp1251, то почему бы и не хранить внутри программы в cp1251 ?

Reset ★★★★★
(06.06.12 12:04:22 MSK)

В какой кодировке удобнее, в той и обрабатывай. Как это связанно с тем в какой кодировке оно будет храниться в файле?

~~erfea~~ ★★★★★
(06.06.12 12:10:45 MSK)

Ссылка

Ответ на: комментарий от Reset 06.06.12 12:04:22 MSK

Что самое интересное часть выходных файлов для других адресатов должна быть utf-8 а часть для прочих cp1251.

mio ★★
(06.06.12 12:12:30 MSK) автор топика

Внутри оперируй UTF-16. Вывод в UTF-8

Jetty ★★★★★
(06.06.12 12:41:58 MSK)

Ответ на: комментарий от mio 06.06.12 12:12:30 MSK

А UTF8 даже блокнот в винде умеет... развечто кастомный юзерский софт.

Jetty ★★★★★
(06.06.12 12:42:42 MSK)

Ссылка

Ответ на: комментарий от Jetty 06.06.12 12:41:58 MSK

тогда уж UTF-32

Reset ★★★★★
(06.06.12 13:26:46 MSK)

Ответ на: комментарий от Reset 06.06.12 13:26:46 MSK

А в чем прикол UTF32 ?

Jetty ★★★★★
(06.06.12 13:49:28 MSK)

Ответ на: комментарий от Jetty 06.06.12 13:49:28 MSK

В том, что размер постоянен.

Reset ★★★★★
(06.06.12 14:03:05 MSK)

Ответ на: комментарий от Reset 06.06.12 14:03:05 MSK

UTF16 тоже!

Jetty ★★★★★
(06.06.12 14:15:56 MSK)

Ответ на: комментарий от Jetty 06.06.12 14:15:56 MSK

А... да, все верно :) Это я напутал... UTF32 кучерявее :)

Jetty ★★★★★
(06.06.12 14:19:25 MSK)

Ссылка

UTF-8

Как минимум. Изначально спецификация на XML говорит следующее:

[Definition: A parsed entity contains text, a sequence of characters, which may represent markup or character data.] [Definition: A character is an atomic unit of text as specified by ISO/IEC 10646:2000 [ISO/IEC 10646]. Legal characters are tab, carriage return, line feed, and the legal characters of Unicode and ISO/IEC 10646. The versions of these standards cited in A.1 Normative References were current at the time this document was prepared. New characters may be added to these standards by amendments or new editions. Consequently, XML processors MUST accept any character in the range specified for Char. ]

Взято из http://www.w3.org/TR/REC-xml/, раздел 2.2 Characters

Таким образом, указание кодировки в виде windows 1251 является извращением на почве necrosoft'а.

mr_noone
(06.06.12 15:14:44 MSK)

Ответ на: UTF-8 от mr_noone 06.06.12 15:14:44 MSK

Тьфу, чёрт!!!

Прошу прощения. Промазал с цитатой:

The mechanism for encoding character code points into bit patterns may vary from entity to entity. All XML processors MUST accept the UTF-8 and UTF-16 encodings of Unicode [Unicode]; the mechanisms for signaling which of the two is in use, or for bringing other encodings into play, are discussed later, in 4.3.3 Character Encoding in Entities.

mr_noone
(06.06.12 15:16:43 MSK)

Ссылка

Ответ на: комментарий от Jetty 06.06.12 14:15:56 MSK

Code points U+10000 to U+10FFFF

Code points from the other planes (called Supplementary Planes) are encoded in UTF-16 by pairs of 16-bit code units called a surrogate pair

Deleted
(06.06.12 20:06:17 MSK)