それEFTでできるよー

個人ニュースサイトと言えばCustomFeed::Configだと思っていたのですが、単に本文を抽出したいだけならEntryFullText(通称:EFT)でいいらしい。例えば

こちらで解説されてるように、抽出用のYAML
/Plagger/assets/plugins/Filter-EntryFullText/
に入れて、こんな感じのconfigで呼び出します。

config.maeda-y.yaml

plugins:
  - module: Subscription::Config
    config:
      feed:
        - url: http://movie.maeda-y.com/

  - module: Filter::EntryFullText
  - module: Filter::BreakEntriesToFeeds

publishはお好みで。Gmailだとこんな感じです。

で、CustomFeed::ConfigよりEntryFullTextの方がイイのは、デフォルトで100以上のサイトに対応してる点。先程の
/Plagger/assets/plugins/Filter-EntryFullText/
の中にたくさんファイルが入ってますが、その中に入ってるサイトなら

plugins:
  - module: Subscription::Config
    config:
      feed:
        - url: (お好みのURL)

  - module: Filter::EntryFullText
  - module: Filter::BreakEntriesToFeeds

という感じで同様に書き出せます。新聞社やIT系のニュースサイトは大体網羅されてます。EntryFullTextは主にRSSを配信しないサイト用ですが、RSSがあるけど全文配信ではない場合も活用されてるみたいです。

ちなみに

  - module: Filter::BreakEntriesToFeeds

これはエントリごとに分割するオプションなので、まとめて1枚(1通)でいい人は外して下さい。