ベストアンサー

※ ChatGPTを利用し、要約された質問です（原文：【c言語】テキストファイルからバイト数を算出したい）

【c言語】テキストファイルからバイト数を算出したい

2022/06/18 17:03

このQ&Aのポイント

自然言語処理について勉強しています。Wikipediaのdumpデータから本文を抜き出して処理をしようと思っています。xmlの処理について試しているのですが、欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．
プログラミング構成: jawiki-20211220-pages-articles-multistream2.xml（読み込み先のテキストファイル）, Wiki_getter1_Byte.c(バイト数を算出するプログラム，<Page>〜〜</page>間は取得できています), Wikigetter2_text.c(getter1の出力ファイル（get_text_Byte.txt系列）からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できています)。
読み取ったシークポイントとバイトからxmlを抽出するプログラムは既にできているのでこの出力が正しくできるようになりたいです．よく言われますが外部ライブラリは利用しない方向でお願いします。

【c言語】テキストファイルからバイト数を算出したい

やりたいこと自然言語処理について勉強しています。 Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。 xmlの処理について試しているのですが、欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．シークポイントとバイト数さえわかれば後述の２つ目のプログラムを使って後述の実行結果のpb[0]部分が0と表示されていて困ってます．プログラミング構成 jawiki-20211220-pages-articles-multistream2.xml（読み込み先のテキストファイル） Wiki_getter1_Byte.c(バイト数を算出するプログラム，<Page>〜〜</page>間は取得できている．) Wikigetter2_text.c(getter1の出力ファイル（get_text_Byte.txt系列）からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている．) 以下にソースコードを貼り付けます。＝＝＝＝＝＝＝＝やりたいこと自然言語処理について勉強しています。 Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。 xmlの処理について試しているのですが、欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．シークポイントとバイト数さえわかれば後述の２つ目のプログラムを使って後述の実行結果のpb[0]部分が0と表示されていて困ってます．プログラミング構成 jawiki-20211220-pages-articles-multistream2.xml（読み込み先のテキストファイル） Wiki_getter1_Byte.c(バイト数を算出するプログラム，，欲しいのは<text>~~</text>,<title>~~</title>,<id>~~</id>間のバイト．) Wikigetter2_text.c(getter1の出力ファイル（get_text_Byte.txt系列）からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できるプログラム．) 以下にソースコードを貼り付けます。 #include <stdio.h> #include <stdlib.h> #include <string.h> #define SIZE 256 * 1024 * 1024 int main() { size_t p, pb[2]; char *line = malloc(SIZE); FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte.txt", "w"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, SIZE, fp)) { if (strstr(line, "<page>")) { pb[0] = p; if (strstr(line, "</page>")) { pb[1] = pーpb[0]; } printf("%zu\t%zu\n", pb[0], pb[1]); } printf("process ok"); free(line); fclose(fw); fclose(fp); } ＝＝＝＝＝＝＝＝読み取ったシークポイントとバイトからxmlを抽出するプログラムは既にできているのでこの出力が正しくできるようになりたいです．＊よく言われますが外部ライブラリは利用しない方向でお願いします．追記に出力の一例を記載しておきます．補足出力一例です．pb[1]が取得できてないようです． 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 1536318555 0 process ok%

study_prg
お礼率25% (3/12)

C・C++・C#
回答数6
ありがとう数1

みんなの回答 （6）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

_kappe_
ベストアンサー率68% (1583/2308)

2022/06/19 09:27 回答No.4

>具体的にはどのようにしたらアンサーの問題を解決できますか？他の人も指摘しているとおり、まずは実際に実行したプログラムを補足に貼ってください。手入力し直すのではなく、コピー&ペーストを使ってください。 >pb[1] = p-pb[0]; <page>と</page>が同じ行に書かれていた場合はpとpb[0]の値が同じですから、引き算するとpb[1]の値は0になります。 <page>や</page>が現れた行内の位置を考慮する必要がありそうです。最後に、単なる書き間違いだと思いますけど、プログラムでは<page>タグを調べようとしているのに、質問文では >欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．と書かれていますね。

質問者

補足 2022/06/19 13:24

編集はできなそうなので正式なソースコードをここに貼ります．＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ #include <stdio.h> #include <stdlib.h> #include <string.h> #define SIZE 256 * 1024 * 1024 int main() { int p, pb[2]; char *line = malloc(SIZE); FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte.txt", "w"); // printf(fw,"startbyte\t記事のbyte \n"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, SIZE, fp)) { if (strstr(line, "<text")) { pb[0] = p; if (strstr(line, "</text>")) { pb[1] = p-pb[0]; } // fprintf(fw, "%zu\t%zu\n", pb[0], pb[1]); // ... // fprintf(fw, "%d\t%d\n", pb[0], pb[1]); ... テキスト形式で観察可能 } printf("%d\t%d\n", pb[0], pb[1]); } printf("process ok"); free(line); fclose(fw); fclose(fp); }

その他の回答 (5)

_kappe_
ベストアンサー率68% (1583/2308)

2022/06/19 19:45 回答No.6

チェックするタグが<title>や<page>から今度は<text>に変わっています。他意はないのでしょうけれど、いい加減だなという印象を受けます。とりあえず<text>ということにして、入力データの仕様を確認させてください。下記のパターンのうちのどれですか。 [A]<text>〜</text>は必ず同じ行内に現れる [A']同じ行内に<text>〜</text>が複数回現れることがありえる [B]<text>と対応する</text>は必ず別の行に現れる [C]<text>と対応する</text>は同じ行に現れることも別の行に現れることもある [A]の場合は、今貼られているプログラムのpb[0]やpb[1]の計算方法を変えれば対応できそうです。しかし、それ以外の場合はpb[0]やpb[1]の計算方法だけでなく他の部分も変える必要があります。

wormhole
ベストアンサー率28% (1626/5665)

2022/06/19 16:10 回答No.5

「<title>~~</title>のシークポイント」というのは、「<title>」の先頭の「<」の前の時点のシークポイントの意味ですか？とりあえずは、fgets(line, SIZE, fp)で読み込まれたlineが ________<title>～～～～</title> だった場合、p,pb[0],pb[1]はどう設定されるのか考えてみてください。

wormhole
ベストアンサー率28% (1626/5665)

2022/06/19 01:29 回答No.3

fgets(line, SIZE, fp) で読み込んだlineの中に"<page>"と"</page>"が両方存在する場合には、その結果は別段おかしくないコードになっていますけど？Ｃ言語は変数定義しただけでは初期化まではやってくれないので pb[1]が設定されていないならpb[1]が0で出力される可能性は限りなく低いので >pb[1] = pーpb[0]; で設定はされているはずです。後は#2の方も書かれていますが、質問に書いているコード写し間違えしていませんか？{}の数もあっていないですし。

質問者

補足 2022/06/19 13:23

asuncion
ベストアンサー率33% (2127/6289)

2022/06/19 01:01 回答No.2

＞pb[1] = pーpb[0]; ここの引き算がどうしても全角にしか見えないのですが、持っているソースコードは「正確に」ここにアップされた物と同じですか？

質問者

補足 2022/06/19 13:23

_kappe_
ベストアンサー率68% (1583/2308)

2022/06/18 20:50 回答No.1

fgets()は行単位でデータを読み込みます。質問文にあるプログラムの書き方だと、if (strstr(line, "</page>"))のチェックはその前のif (strstr(line, "<page>"))が成功したlineに対してだけ行われます。つまり、<page>と</page>が別の行に置かれているデータの場合、pb[1]がセットされることはありません。

質問者

補足 2022/06/18 21:24

わかりやすい解答ありがとうございます。具体的にはどのようにしたらアンサーの問題を解決できますか？

【c言語】テキストファイルからバイト数を算出したい

【c言語】テキストファイルからバイト数を算出したい

質問者が選んだベストアンサー

補足 2022/06/19 13:24

その他の回答 (5)

補足 2022/06/19 13:23

補足 2022/06/19 13:23

補足 2022/06/18 21:24

関連するQ&A

【c言語】ファイルの読み込みエラーについて

C#テキストファイルから1バイト除去する

【C#】テキストファイルを2進数で取得&配列に格納

【緊急】xmlからデータの取得についての質問です。

C言語のファイル読み込みに関して。

複数のC言語プログラムが，一つのファイルに書き込み

複数テキストファイルを読み込み、複数テキストファイルの出力

Ｃ言語の質問です。クイズをテキストファイルに書き、それを読み込むという

「このファイルはSimple Textで・・・」

javaで16進数のバイナリデータ4バイトを10進数に変換する方法

VBAでバイト型データをファイルとして保存

C言語

c言語についての質問です

C言語初心者の質問　fscanf

バイナリファイルをテキストファイルに変換する方法を教えて頂けませんか。

C言語でファイルから特定の文字を抽出

c言語についての質問です

C言語　教えてください

Android テキストファイルの読み込み

Ｃ言語　ファイルポインタ

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

【c言語】テキストファイルからバイト数を算出したい

【c言語】テキストファイルからバイト数を算出したい

質問者が選んだベストアンサー

補足 2022/06/19 13:24

その他の回答 (5)

補足 2022/06/19 13:23

補足 2022/06/19 13:23

補足 2022/06/18 21:24

関連するQ&A

【c言語】ファイルの読み込みエラーについて

C#テキストファイルから1バイト除去する

【C#】テキストファイルを2進数で取得&配列に格納

【緊急】xmlからデータの取得についての質問です。

C言語のファイル読み込みに関して。

複数のC言語プログラムが，一つのファイルに書き込み

複数テキストファイルを読み込み、複数テキストファイルの出力

Ｃ言語の質問です。クイズをテキストファイルに書き、それを読み込むという

「このファイルはSimple Textで・・・」

javaで16進数のバイナリデータ4バイトを10進数に変換する方法

VBAでバイト型データをファイルとして保存

C言語

c言語についての質問です

C言語初心者の質問 fscanf

バイナリファイルをテキストファイルに変換する方法を教えて頂けませんか。

C言語でファイルから特定の文字を抽出

c言語についての質問です

C言語 教えてください

Android テキストファイルの読み込み

Ｃ言語 ファイルポインタ

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVE セレクト

C言語初心者の質問　fscanf

C言語　教えてください

Ｃ言語　ファイルポインタ

カテゴリ
一覧

専門家に質問してみよう
専門家登録