Robotic Crowd

Robotic Crowd

PDFファイルをダウンロード

Author: Asao Nakamura 43 views

この記事ではブラウザで開くタイプのPDFを取得し、中のテキストを抽出する方法を記載します。

【できるようになること】

  • ブラウザ表示のPDFファイルをダウンロード
    (URL末尾にに拡張子.pdfが入っているPDF)
  • PDFファイルからテキストを抽出
PDFのダウンロード/テキスト抽出を利用する場面

請求書や明細書などのPDF書類から、テキスト(文字列)情報を抽出する場合に便利です。

 ワークフローの設定例

今回は例として、福岡市の観光地図を紹介しているページに存在するPDFを取得し、中のテキストを抽出してみます。

  • OpenBrowser(ブラウザを開く)アクションを設定します
  • 以下のURLを入力します。
    https://www.welcome-fukuoka.or.jp/travelinfo/2646.html

次に、観光地図のURL(末尾が.pdf)を取得します。

  • PDFのダウンロードリンクから、CSSセレクタを取得(クリップボードにコピー)します。
  • GetAttribute(要素の属性を取得)アクションを設定します。
  • selectorパラメータに、取得したCSSセレクタをペーストします。
  • attributeパラメータに、hrefと入力します

2で取得したURLから、PDFファイルを取得します。

  • DownloadFIle(URL上のファイルを取得)アクションを設定します。
  • パラメータに、GetAttributeのアウトプットを指定します。

ダウンロードしたPDFから、中のテキストを取得します。

  • ConvertPDFToText(PDFからテキストを抽出)を設定します。
  • パラメータに、DownloadFileのアウトプットを指定します。

 

※ConvertPDFToTextのアウトプットは、当該アクションのログ内でスクロールすると確認できます
# ブラウザを開く
+open_browser_1:
  action>: OpenBrowser
  url: 'https://www.welcome-fukuoka.or.jp/travelinfo/2646.html'
  lang: 'ja-JP'
  headless: true

# 要素の属性を取得
+get_attribute_1:
  action>: GetAttribute
  browser: +open_browser_1
  selector: '.article_buttonBlock_pdflink'
  attribute: href
  ignoreError: true

# URL上のファイルを取得
+download_file_1:
  action>: DownloadFile
  url: +get_attribute_1

# PDFからテキストを抽出
+convert_p_d_f_to_text_1:
  action>: ConvertPDFToText
  pdf: +download_file_1
<ConvertPDFToText>PDFからテキストを抽出/URL上のファイルを取得/DownloadFile

このページは役に立ちましたか?