電子化キーワード
ADFとは
Auto Document Feeder(オート ドキュメント フィーダー)の略。
スキャナの原稿を自動的に給紙するための装置。
原稿をADFにセットすれば、自動的に複数枚の原稿を読み取らせることができ、非常に効率よくスキャニング可能。 ADFにセットするには、事前に原稿を裁断したり、ホチキス・クリップなどを取り除く作業も発生することもあります。
TIFFとは
Tagged Image File Formatの略。
MicrosoftとAldusにより開発された画像データフォーマットのこと。
windows形式、Mac形式の違い、ファイル生成の仕方により互換性が取れないこともおきます。
(互換性のないことを、"方言がある"ともいいます)
JPEG とは
Joint Photographic Experts Groupの略。
自然画など写真の圧縮に適したフォーマット。
PDFとは
portable document formatの略。 アドビシステムズ社によって開発された、電子文書のためのフォーマット。 企業・官公庁・個人ユースも含め、非常にシェアが高く、電子文書ではデファクトスタンダード。
コンピューターのOSや機種に依存せず、元文書のレイアウトイメージをほぼ忠実に再現できる。
OCRとは
Optical Character Readerの略。
文字を光学的に読み取り、文字データとして認識させる装置。
電子文書の分野では、文字ベースの文書を文字認識させ、検索用のテキストとして使うことが多い。
OCRテキスト付PDFとは
表示にはスキャンしたイメージを用い、検索用としてOCR処理のテキストデータを透明に重ねることで任意の全文検索が可能となり、誤変換やレイアウト誤りに関係なく原文と同様のイメージを閲覧できます。
電子化とは
紙文書をスキャナで読み取り、電子データ化すること。
従来はファイルフォーマットが統一されておらず、せっかく変換したファイルが開けなくなるという問題もあったが、PDF(ポータブルドキュメントフォーマット)の普及によりに電子化は進んでいる。
解像度とは
スキャナの読み取り品質(きめ細かさや画質の滑らかさ)を表す単位。
電子文書では、200dpi~400dpiが一般的に良く使われます。
200dpi 内容が確認できる程度であれば、200dpiでOK。
400dpi OCR処理をするなら400dpiが推奨。
フラットベットとは
スキャナの原稿台のこと。
裁断できない冊子・本や、書類を一枚ずつ原稿をガラス面に乗せ、スキャンするやり方。
ADFスキャンに比べて、非常に手間と時間がかかる。
モノクロとは
白黒2値スキャンのこと。
文字ベースの原稿の場合、モノクロスキャンを使います。
濃淡がはっきりでるので、文字も見やすく、OCRには最適です。
グレースケールとは
画像を白から黒までの明暗だけで表現し、色情報は含まない状態のこと。 スキャニングでは、白黒ベースだが写真が含まれるような文書に多く使われます。 モノクロ2値と比べて、データ量は非常に大きくなります。
属性とは
コンピューターで、ファイルのもつ性質。
電子文書では、検索項目のことをいう。
しおりとは
書物の間に挟んで目印とするもののことだが、電子文書では目次に相当する。
PDFのしおりは階層状に作れるので、目次と同じ構成にできます。
全文検索とは
文書に含まれるテキストすべてを対象とした検索です。
文書をPDF化する際に、高精度のOCR処理を行い、文字情報を埋め込みます(透明OCRテキスト付きPDF)
Acrobat、 Adobe Readerでの全文検索、検索システムによる全文検索に活用できます。
インデックス検索とは
見出しや著者など文書に含まれる特定の要素のみを対象に検索する索引データ。
冊子単位・文献単位での検索に有効です。