Instruction Tuningを行なった130億パラメータの日本語LLMの公開：Stockmark-13b-instruct

ML

Research部門の近江崇宏です。先日、ストックマークではビジネスのドメインや最新情報（2023年9月まで）に対応した130億パラメータの大規模言語モデル（LLM）であるStockmark-13bを公開しました（Stockmark-13bの詳細に関しては、こちらのブログを参照くだ…

2023-10-26

ビジネスのドメインや最新情報に対応した130億パラメータの日本語LLMの公開

ML

Research部門の近江崇宏です。ストックマークではビジネスのドメインや最新情報（2023年9月まで）に対応した130億パラメータの大規模言語モデル（LLM）を商用利用も可能なライセンスで公開しました。モデルはHuggingface Hubからダウンロードいただけます…

2023-08-22

より多くの “気づき” を届ける- 世界中のテキストの構造化に挑む Knowledge Unit の紹介 -

ML

Stockmark の Researcher の広田です。 Stockmark には自然言語処理の研究開発を行う Research チームがあり、その中の1つの組織に知識グラフの自動構築をテーマとする Knowledge Unit があります。この記事では Knowledge Unit の取り組みを紹介します。 …

2023-08-08

最近の話題にも詳しい14億パラメータの日本語LLMの公開

ML

Research部門の近江崇宏です。今回、ストックマークは最近の話題にも詳しいGPT-NeoXをベースとした14億パラメータの日本語のLLM（大規模言語モデル）をオープンソースとして公開します。モデルはHugging Face Hubからダウンロードいただけます。 https://hu…

2023-05-16

Extractive Noise Removal from Scraped News Articles using BERT and comparison with ChatGPT

ML

Motivation Input Description Data Annotation Annotation Statistics Model Architecture Processing Steps Boundary removal Intrinsic Evaluation Extrinsic Evaluation (Query based evaluation) Comparison with ChatGPT / GPT3 Prompt Design for New…

2023-04-20

Multi-purpose Recomender Platform using Perceiver IO

ML

Introduction Perceiver IO Our Approach Designing Input Features Experiments Conclusion Introduction Web services usually require many different types of recommender systems using large amount of user log and content data. It is no differen…

2023-01-24

日本語ビジネスニュースコーパスを学習したBART事前学習済モデルの紹介

ML

はじめに BART とは Stockmark の BART 事前学習事前学習済モデルの出力文順入れ替えタスクマスク穴埋めタスクパターン1 パターン2 終わりに謝辞はじめに Research部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。 …

2022-12-12

キーフレーズ抽出で振り返る2022年の業界別ニュース

ML

Anews について業界別2022年のキーフレーズキーフレーズの抽出キーフレーズのスコアリングさいごに参考文献本記事は、Stockmark Advent Calendar 2022 の 12 日目の記事です。年の瀬といえば流行語大賞ですね。今年 2022 年も大谷ルールやオミクロ…

2022-12-02

顧客体験の向上に向けた自然言語処理技術の活用: 定義文抽出

ML

はじめに自然言語処理とは構造化事例: 定義文抽出定義文のニーズ定義文抽出の流れ抽出結果今後の展望記事の出典はじめにこんにちは、Researcherの北山です。今回は自然言語処理技術を用いてAstrategyにおける顧客体験向上のための取り組みを行った…

2022-05-02

日本語ニュース分類から見る多言語モデル

ML

ニュースタイトル分類タスクでの実験英語での fine-tuning の効果クラス別の精度評価 NAC での degradation おわりに引用 Appendix: モデルの設定グローバル化が進む現代において、様々な言語で情報収集を行う必要性がこれまで以上に高まっています。Sto…

2022-04-27

検索エンジンのMore-Like-Thisクエリとグラフアルゴリズムによる類似記事集約

ML

はじめに類似性グラフの構築グラフの構成要素の抽出バッチ計算まとめ本記事は Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms の翻訳記事です。以前の記事である More Like This Query を活用した類似記事…

2022-04-14

Grouping Similar Articles with Search Engine More-Like-This Queries and Graph Algorithms

ML

Introduction Building Similarity Graph Extracting Graph Components Batch computations Concluding Remarks Please refer here for a related post in Japanese. Introduction In Stockmark, we collect tens of thousands of news articles from thousa…

2022-03-18

ボケて電笑戦への挑戦〜AIで画像大喜利〜

ML

ボケて電笑戦とはお笑いモデルの構築教師データの準備教師データの前処理画像の前処理テキストの前処理お笑いモデルの構成と学習お笑いモデルの構成お笑いモデルの学習生成したボケの後処理生成したボケの評価学習データにビジネスニュースを入れ…

2021-12-08

Anewsへの応用を見越した既存ニュース推薦手法の性能確認実験

ML

背景 MINDデータセット性能確認を行ったモデルモデルの基本構造 NAML User Encoder (NAML) News Encoder (NAML) NRMS News Encoder (NRMS) User Encoder (NRMS) 行った実験について具体的な実験設定利用するデータセットについて訓練方法について評価…

2021-06-07

Anewsの裏側で動く、自然言語処理を活用したビジネスニュースの推薦システム

ML

Anewsとは事前準備：ことばの定義 Anewsのニュース推薦システム基本コンセプト要素技術: 概要要素技術1. ニュース記事の意味をベクトルによって表現する要素技術2. 嗜好記事群をクラスタリングする要素技術3. 配信候補記事をスコアリングする補足：そ…

2021-02-03

GPT-2におけるテキスト生成

ML

はじめに自然言語処理におけるテキスト生成 GPT-2とは StockmarkのGPT-2 テキスト生成終わりに謝辞参考リンクはじめに Machine Learning部門の江間見です。ストックマークでは、自然言語処理技術の研究開発を行っています。昨今、OpenAIからGPT-3が発…

2020-11-04

Cloud TPUを用いたBERT推論処理基盤の開発

ML

はじめに Cloud TPUを用いた推論処理基盤システム概要 MLOps Cloud Runを用いた全件処理時の工夫 Cloud TPU導入の効果 TPUとGPUのパフォーマンス比較 TransformersのBERTをTPUで動かす。 TPUを用いる上での工夫まとめ ML事業部の近江崇宏です。 Stockmark…

2020-10-30

TPU VS GPU(日本語版)

ML

はじめに Processsing Unitの紹介 GPU TPU ハードウェアリソースタスク TPUとGPUの比較 Task 1: BERTの事前学習 Task 2: BERTのファインチューニング終わりに謝辞参考文献はじめに (この記事の英語版はTPU VS GPU(English Edition)にあります。) Machin…

2020-10-30

TPU VS GPU(English Edition)

ML

Introduction Processing Unit Graphics Processing Unit The Tensor Processing Unit Hardware Resources Tasks Comparison Task 1: Pretraining the BERT Task 2: Fine-tuning the BERT Conclusion Acknowledgement Bibliography Introduction In this era…

2020-07-15

BERTによるニュース記事の構造化：企業名抽出

ML

はじめにニュース記事の構造化企業名抽出の難しさ機械学習を用いた企業名抽出 BERTを用いた企業名抽出に関する私たちの取り組み学習データのアノテーションおわりに参考文献はじめに Machine Learning部門の近江です。ストックマークでは、自然言語処…

2020-06-26

ストックマークが公開した言語モデルの一覧と振り返り

ML

言語モデルとは弊社で公開している言語モデル一覧 ELMo ELMoとは ELMo日本語モデルの作成 ELMoの効果 BERT BERTとは BERT日本語モデルの作成 BERTの効果 XLNet XLNetとは XLNet日本語モデルの作成 XLNetの効果 ALBERT ALBERTとは ALBERT日本語モデルの作成 …

Stockmark Tech Blog

自然言語処理テクノロジーで社会を進化させるストックマークのテックブログです。

ML