LINUX.ORG.RU

C++: codecvt + UTF-8 - не работает преобразование.


0

0

Написал програмку для тестирования:

#include <iostream>
#include <locale>
#include <string>
#include <limits>
#include <climits>

using namespace std;

int main()
{
// Please choose:
locale const loc = locale(""); // System locale (ru_RU.UTF-8)
// OR :
// locale const loc = locale::classic(); // C locale (default for C++ cin/cout streams)

typedef codecvt_base::result res;
typedef codecvt<wchar_t, char, mbstate_t> my_codecvt; // internal, external, state
locale const new_locale(loc, new my_codecvt); // locale with codecvt facet
const my_codecvt& cdcvt = use_facet<my_codecvt>(new_locale);
mbstate_t state;
res r;

const char *in_next = 0;
wchar_t *out_next = 0;

string s("Строка!");
// string s("String!");
const int bytes = s.length();
const int symbols = 7;

wstring ws(L'.', symbols);
cout << "Bytes: " << bytes << endl;
cout << "Symbols: " << symbols << endl;

r = cdcvt.in(state, s.c_str(), s.c_str()+s.size(), in_next,
&ws[0], &ws[0] + ws.size(), out_next);

cout << "Encoding result: ";
cout << (r == codecvt_base::ok ? "Succes!" : "Fail!") << endl;

cout.imbue(locale("")); // Set for stream system locale
cout << "Was: " << s << endl;

wcout.imbue(locale("")); // Set for stream system locale
wcout << "Is: " << ws << endl;

return 0;
}



Если роскоментировать string s("String!"); то все работает как надо.
Создаестся строка с wide char.
И результат:
Bytes: 7
Symbols: 7
Encoding result: Succes!
Was: String!
Is: String!
Т.е. преобразование работает.

Но если раскоментировать string s("Строка!"); то оно не может преобразовать multi byte symbols в wide chars....

Результат выполнения:
Bytes: 13
Symbols: 7
Encoding result: Fail!
Was: Строка!
Is:

Вот.


локаль UTF-8

Почему оно не может string c multi bytes characters (где один символ занимает несколько байт, но не каждый) UTF-8 перенести в whar_t ?



....

anonymous
Ответ на: комментарий от anonymous

У меня есть примерчик конвертера из одной локали в другую, 
может поможет:

 
#include <iostream> // C++ IO
#include <locale>   // std::locale
#include <string>   // std::string, std::wstring

typedef std::codecvt_base::result res;
typedef std::codecvt<wchar_t, char, mbstate_t> codecvt_type; // internal, external, state

std::mbstate_t state;

std::codecvt_base::result toWstring (const std::string & str, 
   const std::locale & loc, std::wstring & out)
{ 
  const codecvt_type& cdcvt = std::use_facet<codecvt_type>(loc);
  std::codecvt_base::result r;
  
  wchar_t * wchars = new wchar_t [str.size () + 1];
  
  const char *in_next = 0;
  wchar_t *out_next = 0;
  
  r = cdcvt.in (state, str.c_str (), str.c_str () + str.size (), in_next,
                wchars, wchars + str.size () + 1, out_next);
  *out_next = '\0';
  out = wchars;    
  
  delete [] wchars;
  
  return r;
}

std::codecvt_base::result fromWstring (const std::wstring & str, 
   const std::locale & loc, std::string & out)
{
  const codecvt_type& cdcvt = std::use_facet<codecvt_type>(loc);
  std::codecvt_base::result r;
   
  const wchar_t *in_next = 0;
  char *out_next = 0;
  
  std::wstring::size_type len = str.size () << 2;

  char * chars = new char [len + 1];
  
  r = cdcvt.out (state, str.c_str (), str.c_str () + str.size (), in_next,
                 chars, chars + len, out_next);
  *out_next = '\0';
  out = chars;
  
  delete [] chars;
  
  return r;
}

int main(int argc, char ** argv)
{
  // Set program locale to system locale
  std::locale::global (std::locale ("") );
  
  // Define input locale
  std::locale const iloc = std::locale (argc > 1 ? argv [1] : ""); 
  
  // Define output locale
  std::locale const oloc = std::locale (argc > 2 ? argv [2] : ""); 
  
  std::string  s;
  std::wstring ws;

  // Read a string and convert it to wide chars 
  std::cin.imbue (iloc);
  std::cin >> s;

  std::codecvt_base::result r = toWstring (s, iloc, ws);
  
  if (r != std::codecvt_base::ok && r != std::codecvt_base::noconv)
  {
    std::cerr << "Conversion error: can't convert input data from encoding '" 
              << iloc.name () << "' to wide string." 
              << std::endl;
    return 1;
  }

  // Convert wide chars to target encoding
  r = fromWstring (ws, oloc, s);
  if (r != std::codecvt_base::ok && r != std::codecvt_base::noconv)
  {
    std::cerr << "Conversion error: can't convert data to encoding '" 
              << oloc.name () << "'" << std::endl;
    return 2;
  } 
  
  std::cout.imbue (oloc);
  std::cout << s << std::endl;
  
  return 0;
} 

проверяется как:
# echo привет | ./a.out '' ru_RU.koi8r | iconv -f KOI8R

P.S. Выводить строки напрямую через std::wcout у меня тогда сразу
не получилось, а разбираться не было времени

romanSA
()
Ответ на: комментарий от romanSA

> Выводить строки напрямую через std::wcout у меня тогда сразу не получилось, а разбираться не было времени

Я помню, тоже воевал с iwstream/owstream и юникодом в gcc4... что-то там у них в libc++ поломано =(

int19h ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.