社内独自用語の表記ゆれ抽出方法とは?

このQ&Aのポイント
  • 業務で行っている表記ゆれの統一について、具体的な方法を探しています。表記ゆれとは、同じことや同じものを違った言葉で書くことを指します。
  • 例えば、漢字やかな書き、送り仮名、カタカナ語、社内独自の用語などによる表記ゆれがあります。漢字の統一や送り仮名の統一はJust Rightの表記ゆれチェックで確認できますが、社内独自の用語による表記ゆれは機械的に見つけることができません。
  • そのため、専門用語抽出ツールを使って抽出し、EXCELでソートして似たものを見つける方法を考えています。また、他にも良い方法があれば教えていただきたいです。
回答を見る
  • ベストアンサー

社内独自用語の表記ゆれ抽出方法について

業務で、マニュアル中にある表記ゆれを統一するという取り組みを行っています。表記ゆれとは、”同じこと、同じものを違った言葉で書くこと”であり、例としては以下のようなものがあげられます。 (1)漢字、かな書きによるもの(すべて、全て) (2)送り仮名によるもの(組み立て、組立て、組立) (3)カタカナ語によるもの(インターフェイス、インタフェース) (4)社内独自の用語によるもの(フラッシュROM、Flash ROM) 用語統一に取り組まれた方ならおわかりになるとは思いますが、(1)(2)(3)はJust Rightの表記ゆれチェックにより、チェックすることができます。 しかし、(4)については、機械的に見つけることはできませんが、専門用語抽出ツールによる抽出後、EXCELでソート後、比較的似たものを見つけるという方法を考えました。http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html 他にあれば教えていただきたく思います。 よろしくお願いいたします。

noname#222683
noname#222683

質問者が選んだベストアンサー

  • ベストアンサー
  • KuMa_bEaR
  • ベストアンサー率38% (5/13)
回答No.1

キーワード&キーフレーズ抽出ソフトTerm & Phrase Extractor http://www15.big.or.jp/~t98907/termphrase/ 用語Ex http://www15.big.or.jp/~t98907/yougox/ Variant Detector http://www15.big.or.jp/~t98907/variantdetector/ 上記のツールではどうでしょうか。

noname#222683
質問者

お礼

PDFをテキスト書き出ししてから教えていただいたソフトで抜き出したところ、 用語を抜き出すことができました。 用語を抜き出すことよりも、抜き出した用語から何を用語集に採用するかの 採用基準をどうやって決めるかというところの方が悩ましいところかもしれません。 一般的な内容ではなくかなり社内的な内容となりますので、 相談できるような内容ではなさそうですね。 このたびはありがとうございました。

関連するQ&A

  • 送り仮名のゆれまたは送り仮名の使い方

    お早う~ 私は韓国の大学生です。 日本語の送り仮名について質問があり、よろしくお願いいたします。 日本語の中で送り仮名の表記のゆれが分かりませんが、 例えば 行う、行なう とか 曇、曇り とか 書き抜く、書抜く これらが規則で決まっているのか使い方があるのか分かりませんけど、 送り仮名のゆれについてもっと知りたいんです。 http://www.konan-wu.ac.jp/~kikuchi/kanji/okuri.html こちらの資料はもう読みましたが。。 もし送り仮名の中で削除ができる単語の例なんか、具体的に知りたいんです。 よろしくお願いします。

  • 用語のゆれのチェックをサポートするツール

    用語のゆれのチェックをサポートするツール 文書内の単語/用語の統一化を図るため(チェック)のため、WORDで作成した文書の中で 例えば、”弊社“と"当社”という語を使用していた場合、どちらかに決め置換したりして統一を図るのですが、 類似の言葉がないかをまずチェックする作業が必要であり、通常は文書を読んでいって、この言葉は類似のものがあったななどとやると思います。 そこで機械的に何かツールで文書で使用している単語一覧を出力できるようなものはないでしょうか。 なお文書は、WORD2003で作っています。

  • ワードで送り仮名をカタカナにする方法

    現在、戦前の法令を引用した文書をワードで作成しています。 当時の条文の送り仮名は全てカタカナ表記なのですが、ワードで普通に入力・変換すると送り仮名は当然ひらがなで表記されてしまいます。そのため、今はひらがなで表記される送り仮名をカタカナに再度変換し直しています。「依ル」「付テ」「之ヲ」など、割合頻出する語彙は単語登録の方法をとったのですが、条文全体を入力するのには手間がかかって大変です。 そこで、ワードの設定で、送り仮名自体を最初からカタカナにすることは可能なのでしょうか? また可能だとすればどのようにすれば良いのでしょうか?  ヘルプやネットで調べてみても方法が分かりません。どなたかご存知の方がいらっしゃいましたら、どうかご教示ください。

  • 文字の表記について

    『大文字と小文字のどちらにしようか。 半角と全角のどちらにしようか。』 ホームページ、ワード、エクセル等の中の文章や、 個々のファイル名を付ける時に皆さんは上記のように迷わないでしょうか? 個々の書類等ならその書類の中だけ同じ表記に統一すればいいのですが、 ホームページ等だと複数のページ全てを同じ表記に統一したくなるので、 後から全て直していくのは大変な作業になるので… (神経質でしょうか?) 句読点や「・」といったものにも半角・全角はありますし、 Windowsも、WINDOWS、ウィンドウズとも表記できます。 数字でも全角・半角以外にも漢数字を使うかどうかまで 表記の仕方はいろいろあります。 「こういう文書は、こうした方がいい」とか、 「半角カナや機種依存文字はパソコンによって見えない場合があるから、 使わない方がいい。」等の、 ある程度の指針・ルールが欲しいんです。 皆さんはどういったルールで表記していますか? 皆さんの意見や、参考になるホームページを教えて下さい。 御願いします。

  • phpMysqlの画面操作で抽出データを一度に削い

    さくらサーバのMysql、phpMysqlを利用しています SQL文を勉強してSQL文で書けばいいのでしょうが phpMysqlのマンマシンインターフェースが便利なのでいつもそれを 利用しています 今回、あるテーブルからある条件に合致するレコード約2000件を 一度に削除しようとしています phpMysqlの検索タブを利用してある条件を指定して、条件に合致する レコードは2000件表示されてきます その抽出された2000件のレコードを削除したいのですが・・・ phpMysqlでは抽出レコードの表示について、初期値では1画面、 30件毎に表示されるようになっています その画面毎に一番下にメニューがあり各レコードごとにチェックボックス があり、レコード毎にチェックして、チェックがついたレコードを削除 できるようになっていますが 1レコードずつ全部をしていくのは大変のため、画面下にすべてのレコード にチェックをつけるメニューがあります 初期値の1画面30件の表示では、70回弱の操作が必要となるため大変です このため、1画面2000レコード表示に指定すると、表示はしてくるのですが 30表示の場合に一番下に出ていた、「すべてチェックする」表示が出て きません Sql文でなく、マンマシンインターフェースで簡単に抽出してきた2000件の レコードを削除する方法はないでしょうか あれば教えていただきたいのですが・・

  • 「取付」の正しい送り仮名は?

    取説の原稿をチェックしていて思ったのですが、広辞苑第4版(ふ、ふるい^^;)では、「取付け」[名詞?]と「取り付ける」[他下一]とで送り仮名の「り」が異なります。 なぜ、取り付けるのなると「り」が入るのでしょうか? ネット上は「取付け」と「取り付け」が混在していましたので、取説の方は「取付け」で、統一するので良いということにしましたが、この区別は一体どういうことなのか気になります(よね)。ご存知の方がいればお教えください。

  • データとファイルって一緒ですか?

    社内でパソコン用語を統一しようという話があります。 そこで、教えていただきたいのですが、 1. USBメモリとフラッシュメモリ 2. ファイルとデータ 3. ウィンドウズボタンとスタートボタン 上記1-3は全て同じものだと思うのですが、どちらの用語を使うのが正しいのでしょうか? みなさんはどうしています?

  • 「を」は変体仮名?

    「を」の発音は現在では,"o"であり,"wo"ではないとするのが正しいと言われています. そうだとすると,"o"に対する仮名は「お」または「を」と2種類があることになります.この場合,一音一表記の原則からすると,どちらかは変体仮名であるということにならないでしょうか? ※wikipediaによると,変体仮名とは,平仮名の字体のうち、1900年(明治33年)の小学校令施行規則改正以降の学校教育で用いられていないものの総称ということになっております. この説明を根拠に,「を」は学校教育で用いられているので変体仮名ではない,と説明することもできると思います. しかしこの説明では,「ではなぜ,「か」に対する変体仮名はすべて消滅し「か」に統一されたのに,「を」はこのとき残されたのか?」という疑問が残ります.

  • 表記の揺れ

    ワード2003で表記の揺れチェックの操作で対象となる表記の一覧が表示されず文章の構成が終了しましたが表示されるのですが。

  • 自分の姓名の読み方は自由に変えられる?

    いい年をして疑問に思いました。 出生届を漢字で提出した場合、読みは問われないとよく聞きますが、それではいつでも自由に名字も名前も適当に変えることができるのでしょうか? 役所や会社や免許証の名前の記載の多くは、送り仮名を書くようになっていて、これらは統一するのが当たり前のようになってますが、これが違うとどうなるのでしょうか。 国は個人の名前を何で把握しているのでしょうか? 出生届け時に、同姓同名をチェックしているのでしょうか? 同姓同名でも構わないのでしょうか? 国に問題意識はあるのでしょうか? 改善の予定はあるのでしょうか? 判らないことが一杯です。 皆さんは問題とは思いませんか?

専門家に質問してみよう