Robotic Crowd

Robotic Crowd

PDFファイルからテキストを抽出

Author: Asao Nakamura 50 views

この記事では、PDFファイルからテキストを抽出する方法について紹介します。

【できるようになること】

  • PDFファイルのテキストを読み込む
「PDFファイルからテキストを抽出」を利用する場面

請求書や公示情報などのPDFからテキスト(文字情報)が抽出できます。
各種外部ストレージサービスに保存されたPDFからテキストを読み込むことも可能です。

抽出したテキストは、以下のような形で使用できます。
・スプレッドシートに書き込む
・ログインが必要なWebサイトに入力
・SalesforceやBigQueryに入力

 ワークフローの設定例

今回は、会社概要など関係会社のWEBページ情報を取得するケースを例に、ワークフローを作成していきます。

次に開いたブラウザのアウトプットを「PagePDF」アクションに紐付けます。

2.で作成したPDFファイルを「ConvertPDFToText」アクションに紐付けます。

※ストレージに存在するファイルを読み取る場合は、「GetFile」アクションのアウトプットを紐づければ同様の設定が可能です。

  • 「ConvertPDFToText」アクションでは、テキストが抽出できないPDFファイルも存在します。
    例:画像のテキスト/手書きのPDFなど

画像からテキストを抽出したい場合は、以下の記事をご参照ください。

参考:画像からテキストを抽出

 

実行結果:PDF化したページが下記の様に出力されます

# ブラウザを開く
+open_browser_1:
  action>: OpenBrowser
  url: null
  lang: 'ja-JP'
  headless: true

# PDFに出力
+page_p_d_f_1:
  action>: PagePDF
  browser: +open_browser_1
  format: A4
  media: print
  printBackground: false
  scale: 1

# PDFからテキストを抽出
+convert_p_d_f_to_text_1:
  action>: ConvertPDFToText
  pdf: +page_p_d_f_1
<ConvertPDFToText>PDF テキスト 抽出

このページは役に立ちましたか?