Stockmark Tech Blog

自然言語処理テクノロジーで社会を進化させる ストックマークのテックブログです。

ML

Instruction Tuningを行なった130億パラメータの日本語LLMの公開:Stockmark-13b-instruct

ML

Research部門の近江崇宏です。 先日、ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)であるStockmark-13bを公開しました(Stockmark-13bの詳細に関しては、こちらのブログを参照くだ…

ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

ML

Research部門の近江崇宏です。 ストックマークではビジネスのドメインや最新情報(2023年9月まで)に対応した130億パラメータの大規模言語モデル(LLM)を商用利用も可能なライセンスで公開しました。 モデルはHuggingface Hubからダウンロードいただけます…

より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -

ML

Stockmark の Researcher の広田です。 Stockmark には自然言語処理の研究開発を行う Research チームがあり、 その中の1つの組織に知識グラフの自動構築をテーマとする Knowledge Unit があります。 この記事では Knowledge Unit の取り組みを紹介します。 …

最近の話題にも詳しい14億パラメータの日本語LLMの公開

ML

Research部門の近江崇宏です。 今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM(大規模言語モデル)をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。 https://hu…

Extractive Noise Removal from Scraped News Articles using BERT and comparison with ChatGPT

ML

Motivation Input Description Data Annotation Annotation Statistics Model Architecture Processing Steps Boundary removal Intrinsic Evaluation Extrinsic Evaluation (Query based evaluation) Comparison with ChatGPT / GPT3 Prompt Design for New…

Multi-purpose Recomender Platform using Perceiver IO

ML

Introduction Perceiver IO Our Approach Designing Input Features Experiments Conclusion Introduction Web services usually require many different types of recommender systems using large amount of user log and content data. It is no differen…

日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介

ML

はじめに BART とは Stockmark の BART 事前学習 事前学習済モデルの出力 文順入れ替えタスク マスク穴埋めタスク パターン1 パターン2 終わりに 謝辞 はじめに Research部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 …

キーフレーズ抽出で振り返る2022年の業界別ニュース

ML

Anews について 業界別2022年のキーフレーズ キーフレーズの抽出 キーフレーズのスコアリング さいごに 参考文献 本記事は、Stockmark Advent Calendar 2022 の 12 日目の記事です。 年の瀬といえば流行語大賞ですね。今年 2022 年も 大谷ルール や オミクロ…

顧客体験の向上に向けた自然言語処理技術の活用: 定義文抽出

ML

はじめに 自然言語処理とは 構造化事例: 定義文抽出 定義文のニーズ 定義文抽出の流れ 抽出結果 今後の展望 記事の出典 はじめに こんにちは、Researcherの北山です。今回は自然言語処理技術を用いてAstrategyにおける顧客体験向上のための取り組みを行った…

日本語ニュース分類から見る多言語モデル

ML

ニュースタイトル分類タスクでの実験 英語での fine-tuning の効果 クラス別の精度評価 NAC での degradation おわりに 引用 Appendix: モデルの設定 グローバル化が進む現代において、様々な言語で情報収集を行う必要性がこれまで以上に高まっています。Sto…

検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約

ML

はじめに 類似性グラフの構築 グラフの構成要素の抽出 バッチ計算 まとめ 本記事は Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms の翻訳記事です。以前の記事である More Like This Query を活用した類似記事…

Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms

ML

Introduction Building Similarity Graph Extracting Graph Components Batch computations Concluding Remarks Please refer here for a related post in Japanese. Introduction In Stockmark, we collect tens of thousands of news articles from thousa…

ボケて電笑戦への挑戦〜AIで画像大喜利〜

ML

ボケて電笑戦とは お笑いモデルの構築 教師データの準備 教師データの前処理 画像の前処理 テキストの前処理 お笑いモデルの構成と学習 お笑いモデルの構成 お笑いモデルの学習 生成したボケの後処理 生成したボケの評価 学習データにビジネスニュースを入れ…

Anewsへの応用を見越した既存ニュース推薦手法の性能確認実験

ML

背景 MINDデータセット 性能確認を行ったモデル モデルの基本構造 NAML User Encoder (NAML) News Encoder (NAML) NRMS News Encoder (NRMS) User Encoder (NRMS) 行った実験について 具体的な実験設定 利用するデータセットについて 訓練方法について 評価…

Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム

ML

Anewsとは 事前準備:ことばの定義 Anewsのニュース推薦システム 基本コンセプト 要素技術: 概要 要素技術1. ニュース記事の意味をベクトルによって表現する 要素技術2. 嗜好記事群をクラスタリングする 要素技術3. 配信候補記事をスコアリングする 補足:そ…

GPT-2におけるテキスト生成

ML

はじめに 自然言語処理におけるテキスト生成 GPT-2とは StockmarkのGPT-2 テキスト生成 終わりに 謝辞 参考リンク はじめに Machine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 昨今、OpenAIからGPT-3が発…

Cloud TPUを用いたBERT推論処理基盤の開発

ML

はじめに Cloud TPUを用いた推論処理基盤 システム概要 MLOps Cloud Runを用いた全件処理時の工夫 Cloud TPU導入の効果 TPUとGPUのパフォーマンス比較 TransformersのBERTをTPUで動かす。 TPUを用いる上での工夫 まとめ ML事業部の近江崇宏です。 Stockmark…

TPU VS GPU(日本語版)

ML

はじめに Processsing Unitの紹介 GPU TPU ハードウェアリソース タスク TPUとGPUの比較 Task 1: BERTの事前学習 Task 2: BERTのファインチューニング 終わりに 謝辞 参考文献 はじめに (この記事の英語版はTPU VS GPU(English Edition)にあります。) Machin…

TPU VS GPU(English Edition)

ML

Introduction Processing Unit Graphics Processing Unit The Tensor Processing Unit Hardware Resources Tasks Comparison Task 1: Pretraining the BERT Task 2: Fine-tuning the BERT Conclusion Acknowledgement Bibliography Introduction In this era…

BERTによるニュース記事の構造化:企業名抽出

ML

はじめに ニュース記事の構造化 企業名抽出の難しさ 機械学習を用いた企業名抽出 BERTを用いた企業名抽出に関する私たちの取り組み 学習データのアノテーション おわりに 参考文献 はじめに Machine Learning部門の近江です。ストックマークでは、自然言語処…

ストックマークが公開した言語モデルの一覧と振り返り

ML

言語モデルとは 弊社で公開している言語モデル一覧 ELMo ELMoとは ELMo日本語モデルの作成 ELMoの効果 BERT BERTとは BERT日本語モデルの作成 BERTの効果 XLNet XLNetとは XLNet日本語モデルの作成 XLNetの効果 ALBERT ALBERTとは ALBERT日本語モデルの作成 …