Индексный файл для текстовой БД

0

1

Есть База в текстовом варианте, например

NAME=name1
CNT=5
PRICE=6000
NAME=name2

.................... и т.д. и есть индексный файл

name1
1
name2
4

число означает номер строки. как мне из текстового файла зная номер строки (напр 100500) сделать как бы seek. Я функции не нашел для перемещения по строчно, и есть ли такая функция вообще? или придется каждую строку делать фиксированного размера?Но от этого размер файла увеличится...

Ссылка

←	[kernel] Кто пользует шину?

Проблема с kernel debugging (пусто на serial console, не работает kexec/kdump)

→

Оооо, воьмите перл.

visual ★★★
(27.07.11 16:46:29 MSK)

Так как не сказана какая СУБД, то давайте я наугад скажу что-нибудь.
Например sed, или, что уж там мелочиться - awk

zolden ★★★★★
(27.07.11 16:46:43 MSK)

Ответ на: комментарий от visual 27.07.11 16:46:29 MSK

мне эту процедуру нужно внедрить в готовую программу на c++ и на java se

pozitiffcat ★★★
(27.07.11 16:47:08 MSK) автор топика

Ответ на: комментарий от zolden 27.07.11 16:46:43 MSK

Это не СУБД просто файл с данными

pozitiffcat ★★★
(27.07.11 16:47:38 MSK) автор топика

Ответ на: комментарий от pozitiffcat 27.07.11 16:47:08 MSK

тогда используй реализации регекспов

visual ★★★
(27.07.11 16:48:33 MSK)

Ответ на: комментарий от visual 27.07.11 16:48:33 MSK

а как они мне могут почмочь в данном слкчае

pozitiffcat ★★★
(27.07.11 16:49:09 MSK) автор топика

Ответ на: комментарий от pozitiffcat 27.07.11 16:49:09 MSK

правльно составленный регексп может помошь скокнуть на нужную строку, и выбрать нужные данные

visual ★★★
(27.07.11 16:50:11 MSK)

Ссылка

а пишите в индекс не номер строки а позицию в файле. Тогда будет не как бы seek а просто seek

~~AIv~~ ★★★★★
(27.07.11 16:50:22 MSK)

только последовательное чтение и подсчет \n

П.С. хреновый индексный файл

~~aho~~
(27.07.11 16:50:53 MSK)

Ссылка

Ответ на: комментарий от AIv 27.07.11 16:50:22 MSK

форпируется файл на паскале в UTF-8 с русскими и англ символами, командой WriteLn. Как мне узнать текущий байт, чтоб потом записать в индексный файл

pozitiffcat ★★★
(27.07.11 16:56:08 MSK) автор топика

Ссылка

Ответ на: комментарий от pozitiffcat 27.07.11 16:47:38 MSK

Больше 10 лет не писал на С под линупс, неужели всякие system() выпилили?
Это костыль, но при любви к ~~извраще~~ухищрениям, ничего не мешает вам либо вызвать скрипт из программы, либо целиком его запихать в программу

zolden ★★★★★
(27.07.11 16:57:31 MSK)

Ответ на: комментарий от zolden 27.07.11 16:57:31 MSK

а я придумал, я на c++ запущу костыль который проиндексирует мне мои строки и запишет номер байта в индексный файл

pozitiffcat ★★★
(27.07.11 16:58:54 MSK) автор топика

Ответ на: комментарий от pozitiffcat 27.07.11 16:58:54 MSK

Может кому пригодится, как я реализовал

vector<int> lines;

void split(const string& str, vector<string>& tokens, const string& delimiters = ".")
{
    string::size_type lastPos = str.find_first_not_of(delimiters, 0);
    string::size_type pos = str.find_first_of(delimiters, lastPos);
    while (string::npos != pos || string::npos != lastPos)
    {
        tokens.push_back(str.substr(lastPos, pos - lastPos));
        lastPos = str.find_first_not_of(delimiters, pos);
        pos = str.find_first_of(delimiters, lastPos);
    }
}

string itoa(int i)
{
	char* str = (char*)malloc(8);
	sprintf(str,"%i",i);
	return str;
}

string format2(string one, string two)
{
	string ret = one;
	ret+=";";
	ret+=two;
	ret+="\n";
	return ret;
}

void indexation()
{
	cout << "Indexation" << endl;
	FILE* fil = fopen("C:/revitovars.txt","r");
	FILE* fil2 = fopen("C:/revitovars.indx","w");

	fpos_t pos=0;
	int line=0;
	char buf[500];
	while(!feof(fil))
	{
		fgetpos(fil,&pos);
		fgets(buf,500,fil);
		fputs(format2(itoa(line),itoa(pos)).c_str(),fil2);
		line++;
	}

	fclose(fil2);
	fclose(fil);
}

string readline(int line)
{
	char buf[500];
	FILE* fil = fopen("C:/revitovars.txt","r");
	fseek(fil,lines[line],SEEK_SET);
	fgets(buf,500,fil);
	string str = buf;
	fclose(fil);
	return str;
}

void loadindex()
{
	char buf[500];
	FILE* fil = fopen("C:/revitovars.indx","r");
	while(!feof(fil))
	{
		fgets(buf,500,fil);
		vector<string> spl;
		split(buf,spl,";");
		lines.push_back(atoi(spl[1].c_str()));
	}
	fclose(fil);
}



int main()
{
	int ch;
	cout << "loading" << endl;
	loadindex();
	cout << "Ready! enter line" << endl;
	cin >> ch;
	cout << readline(ch).c_str() << endl;
	cin >> ch;

	return 0;
}

pozitiffcat ★★★
(27.07.11 19:11:06 MSK) автор топика

Ссылка

Ответ на: комментарий от AIv 27.07.11 16:50:22 MSK

Тогда будет не как бы seek а просто seek

не на всех платформах с java есть RandomAccessFile

например, в блэкберри нужно сначала mark на начало файла, потом skip до нужной позиции, потом read сколько надо и наконец reset в начало файла. И учитывая, что все файлы лежат внутри jar-файлов (это такие зипники), тот reset+skip выполняется жутко медленно

с другой стороны, кое-где есть нативные реализации loadString(int stringNumber)

т.е. выбор между seek'ом и loadString'ом в контексте скорости зависит от особенностей платформы

~~stevejobs~~ ★★★★☆
(27.07.11 19:38:02 MSK)

Ссылка

Ответ на: комментарий от zolden 27.07.11 16:57:31 MSK

ничего не мешает вам либо вызвать скрипт из программы

ничего кроме головы ;) Ты представляешь, сколько стоит на каждое чтение вызывать внешний скрипт?

~~stevejobs~~ ★★★★☆
(27.07.11 19:39:52 MSK)

Ответ на: комментарий от stevejobs 27.07.11 19:39:52 MSK

по сравнению с plain text DB, думаю, немного.
угадал?

zolden ★★★★★
(27.07.11 20:03:52 MSK)

Ответ на: комментарий от zolden 27.07.11 20:03:52 MSK

эээ, она же у него не plain, вот даже индекс имеется... Оракл ведь тоже бд в файлах хранит =) Или ты разочаровался в способности ТСа нафигачить быструю БД? =)

~~stevejobs~~ ★★★★☆
(27.07.11 20:06:27 MSK)

Ссылка

я чет не понял почему нельзя строки зачитать в массив и обращаться к нему по индексу?

Rastafarra ★★★★
(27.07.11 20:39:53 MSK)

Ответ на: комментарий от Rastafarra 27.07.11 20:39:53 MSK

Типа предполагается что файл бааальшй? Если фалй маленький и все в память лезет так класть увсе в ассоциативный массив и не мучаться, индекс то нафига...

~~AIv~~ ★★★★★
(27.07.11 20:54:38 MSK)

никак, надо не номер строки, а номер байта сохранять

Reset ★★★★★
(27.07.11 21:22:26 MSK)

Ссылка

Короче, будешь ты писать аналог
grep -A 2 «NAME=nameX» filename.ext

anonymous
(27.07.11 22:23:50 MSK)

Ответ на: комментарий от AIv 27.07.11 20:54:38 MSK

файл огромнейший. Поэтому нужда в индексе. На устройстве доступно 10 мб памяти. Ну вобщем я все реализовал,все работает, всем спасибо за участие

pozitiffcat ★★★
(27.07.11 23:34:03 MSK) автор топика

Ответ на: комментарий от anonymous 27.07.11 22:23:50 MSK

ТС пишет аналог

grep -bi -e '^NAME=' filename.ext | sed -r 's/([0-9]+):NAME=(.*)/\2\n\1/i'

IMHO более удобны индексные ключи в виде '№строки:смещение:имя', по одному ключу на строку. То есть то что получается при

grep -bni -e '^NAME=' filename.ext | sed 's/:NAME=/:/i'

такой файл просто обрабатывать стандартыми утилитами а-ля sort awk и так далее, к тому-же загрузка файла в память упрощается.

MKuznetsov ★★★★★
(27.07.11 23:41:20 MSK)

Ссылка

Ответ на: комментарий от pozitiffcat 27.07.11 23:34:03 MSK

> Ну вобщем я все реализовал,все работает, всем спасибо за участие

Ты бы хоть кратко сказал, что в конечном итоге сделал.

anonymous
(28.07.11 01:13:37 MSK)

Ответ на: комментарий от anonymous 28.07.11 01:13:37 MSK

я же выше код выложил!

pozitiffcat ★★★
(28.07.11 08:37:03 MSK) автор топика

Ссылка

Ответ на: комментарий от pozitiffcat 27.07.11 23:34:03 MSK

> устройстве доступно 10 мб памяти

А чем SQLite не угодил?

anonymous
(28.07.11 09:39:55 MSK)

Ссылка

http://www.linux.org.ru/news/opensource/6546853

anonymous
(28.07.11 11:33:24 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	[kernel] Кто пользует шину?

Development

Проблема с kernel debugging (пусто на serial console, не работает kexec/kdump)

→

Похожие темы