2021-07-16

Java → Python 実行結果の文字コード

Java Python

以前、Java から Python 実行した時の結果をPython標準出力で Java が受信する方法を投稿したが、
Javaからプロセス起動で実行するPython と文字列の受け渡し - Oboe吹きプログラマの黙示録

Python 標準出力→Ｊａｖａ受け取り - Oboe吹きプログラマの黙示録
このような、Base64 コードに変換して仲介するようなことをしなくても良いことに気がついた。

Python から、Java へ正常時の結果出力（標準出力）は、JSONで出力して
Java側がJSONパースするのが綺麗であろう。
（Python 実行中でエラー発生、エラー出力：標準エラー出力の方は、特殊なので後で記載）
Python スクリプトが以下のような断片コードを実行しているとする。
Pythonの断片コード

import json

#  class の __init__で記述するもの
self.mydict = dict()
# メソッドで記述するもの
self.mydict['A'] = 'A123'
self.mydict['B'] = 24
self.mydict['C'] = '漢字：氏名'
# 
result = json.dumps(self.mydict)
print(result)

以下を標準出力する。

{"A": "A123", "B": 24, "C": "\u6f22\u5b57\uff1a\u6c0f\u540d"}

受信するJava側は、Jackson または、Google gson で読み取れば、

{"A": "A123", "B": 24, "C": "漢字：氏名"}

として読み込める。

自分が作った ScriptExecutor 、
https://github.com/yipuran/yipuran-core/wiki/Script_exec#orgyipuranutilprocessscriptexecutor
で、以下のように、コードを書いて確認できる。

Jackson 使用の場合、先日公開した以下を使って、、
https://github.com/yipuran/yipuran-jack/wiki

StringBuilder sb = new StringBuilder();
int sts = ScriptExecutor.run(()->"python c:/work/forJava/resmain.py"
, t->{
    sb.append(t);
}, (t, e)->{
    // エラー捕捉
    pythonErrorTrace(t).forEach(s->{
       System.out.println(s);
    });
});
String jsonstr = sb.toString();
// Jackson JsonNode を ObjectMapper readTree でJsonNode を求めて解析する処理
JsonNodeParse jp = new JsonNodeParse();
jp.stream(jsonstr).forEach(e->{
   System.out.println(e.getKey() + " --> " + e.getValue() );
});

Python用エラー捕捉→ Stream<String>

public Stream<String> pythonErrorTrace(String error) {
   String estr = error.replaceAll("\r", "").replaceAll("\n", "");
   estr = estr.substring(2, estr.length()-2);
   String[] ary = estr.split("', '");
   return StreamSupport.stream(Spliterators.spliteratorUnknownSize(new Iterator<String>(){
      int x = -1;
      @Override
      public boolean hasNext(){
         return x < ary.length-1;
      }
      @Override
      public String next(){
         x++;
         return ary[x].replaceFirst("\\\\n$", "");
      }
   }, Spliterator.ORDERED), false);
}

Google gson であれば、以前作って公開した
https://github.com/yipuran/yipuran-gsonhelper/blob/master/src/main/java/org/yipuran/gsonhelper/util/JsonEntryParse.java
を使用すれば、JSONの解析は、

String jsonstr = sb.toString();
JsonEntryParse jp = new JsonEntryParse();
jp.read(jsonstr, (k, v)->{
   System.out.println(k + " --> "+ v);
});

このように確認できる。

問題は、Python処理内でエラー発生した時に、
・エラーメッセージをJavaで受信した時に文字化けしないこと。
・Python エラースタックトレースを中途半端ではなく最後まで取得すること
であった。
Python スクリプト

     raise RuntimeWarning("警告エラー")

を発生するように任意にコーディングします。

スタックトレースをエラー発生まで採取するように、Python標準の traceback モジュールを import して
format_exception でスタックトレース採取して、print オプション file=sys.stderr で
スタックトレースを標準エラー出力します。

if __name__ == '__main__':
    try:
        main = Main()
        main.exec()
    except Exception as e:
        (etype, evalue, etb) = sys.exc_info()
        print(traceback.format_exception(etype, evalue, etb), file=sys.stderr)

このままでは、Java 側、ScriptExecutor#run() のエラー捕捉の BiConsumer でダンプすると、

Traceback (most recent call last):
  File "c:\work\forJava\resmain.py", line 21, in <module>\n    main.exec()
  File "c:\work\forJava\resmain.py", line 13, in exec\n    self.stool.func()
  File "c:\work\forJava\tools\jpress.py", line 14, in func\n    raise RuntimeWarning("�x���G���[")
RuntimeWarning: �x���G���[

と、文字化けしてしまいます。

標準エラー出力をUTF-8で出力するように、Python側で最初に宣言します。

import sys

sys.stderr = io.TextIOWrapper(sys.stderr.buffer, encoding='utf-8')

すると、Java 側、ScriptExecutor#run() のエラー捕捉の BiConsumer でのダンプも
結果は以下のとおりになる

Traceback (most recent call last):
  File "c:\work\forJava\resmain.py", line 21, in <module>\n    main.exec()
  File "c:\work\forJava\resmain.py", line 13, in exec\n    self.stool.func()
  File "c:\work\forJava\tools\jpress.py", line 14, in func\n    raise RuntimeWarning("警告エラー")
RuntimeWarning: 警告エラー

標準出力は、同様に sys.stdout を以下のように設定していても

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

Python が出力する全角文字は、 \uXXXX の書式で出力されるので、

{"A": "A123", "B": 24, "C": "\u6f22\u5b57\uff1a\u6c0f\u540d"}

Java側は、JSON として String値を読み込むロジックであれば、sys.stdout の設定は関係ない。

2021-07-15

Java Unicode文字列を通常の文字列（utf-8）に変換する（他の文字が混合しても変換する）

Java

文字列書式、\uXXXX のままの String インスタンスなら、変換処理の必要性なくそのまま
インスタンスを扱うのであるが、文字列として \uXXXX を
通常の文字列（utf-8）に変換する場合の問題です。
文字列書式、\uXXXX

String  str = "\u6f22\u5b57\uff1a\u6c0f\u540d";
// str = 漢字：氏名

\u → \\u になっている文字列を通常の文字列（utf-8）に変換する問題

String  str = "\\u6f22\\u5b57\\uff1a\\u6c0f\\u540d";

\\u の後ろの Hex４文字を char 型に変換して読み込めば良いのだが、
間にASCII文字や他の文字が入っても Unicodeだけを変換する問題

String  str = "\\u6f22\\u5b57_\\uff1a_\\u6c0f\\u540d";
// 期待値 = 漢字_：_氏名

という期待値を求めるには、単純に１文字ループや、\\\\u で区切ったループ処理ではとても辛い。
・\\uXXXX の正規表現 Matcher を生成
・Matcher をイテレータ処理で一致に対してUTF-8に変換
・イテレータを StremSupport でStream生成して、非変換と集約
ということをする必要がある。
以下のメソッドのとおりである。
・必要なインポート

import java.util.Iterator;
import java.util.Spliterator;
import java.util.Spliterators;
import java.util.concurrent.atomic.AtomicInteger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.stream.Collectors;
import java.util.stream.StreamSupport;

・引数に、\\uXXXX が混ざった文字列を指定して変換

public String unicodeToUtf8(String ustr) {
   if (ustr==null) return null;
   AtomicInteger i = new AtomicInteger(0);
   Matcher m = Pattern.compile("\\\\u[0-9a-fA-F]{4}").matcher(ustr);
   return StreamSupport.stream(Spliterators.spliteratorUnknownSize(new Iterator<String>(){
      @Override
      public boolean hasNext(){
         return m.find();
      }
      @Override
      public String next(){
         return ustr.substring(i.getAndSet(m.end()), m.start())
               + (char)(Integer.parseInt(m.group().substring(2), 16));
      }
   }, Spliterator.ORDERED), false).collect(Collectors.joining()) + ustr.substring(i.get());
}

2021-07-09

総称型のクラスを認識する

Java

総称型のインスタンスを与える場合、当たり前だが総称型のクラスは認識できる。

public class Some<T> {
   private Class<T> genericClass;
   
   public Some(T t) {
      genericClass = t.getClass();
   }

このようにコンストラクタで T インスタンスを渡すのではなく、渡さずに genericClass を求めたい。
つまり、

Some<Foo> some = new Some<>();

でも、総称型のクラスを、Some 内部だけの実行範囲で認識したい。（めちゃくちゃな要求だとは思う）

可変長引数のコンストラクタにすることで、解決する。

public class Some<T> {
   private Class<T> genericClass;
   
   @SuppressWarnings("unchecked")
   public Some(T...t) {
      genericClass = (Class<T>)t.getClass().getComponentType();
   }

可変長引数のコンストラクタが気にいらず、インスタンス取得を static メソッドから
生成するようにして、可変長引数のコンストラクタを private コンストラクタにすれば、
利用する側で、可変長引数として使用しないからと思うが、
その方法では、うまくいかず、java.lang.Object しか認識できない。</b>
　　　ダメな方法！！
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

public class Some<T> { private Class<T> genericClass; @SuppressWarnings("unchecked") private Some(T...t) { genericClass = (Class<T>)t.getClass().getComponentType(); } @SuppressWarnings("unchecked") public static <T> Some<T> getInstance() { return new Some<>(); }

posturan 2021-07-09 12:50 読者になる

広告を非表示にする

もっと読む

コメントを書く

2021-07-06

ディレクトリ内のファイルリストを取得

Python

ディレクトリ内のファイルリストは、最も安易な方法は、glob を使うことであるが、
再帰的に全てのファイルリストを得るには、recursive=True が必要である。

import glob files = glob.glob("/var/tmp/**", recursive=True) for f in files: print(f)
再帰的に全てのファイルリストで、尚且つディレクトリではなくファイルに限定するならば、
pathlib の Path から、glob を使うのが良い。
is_file() で、ファイルに限定できる。
is_dir() なら、ディレクトリに限定

from pathlib import Path path = Path("/var/tmp") files = [ v for v in path.glob("**/*") if v.is_file() ] for f in files: print(f)
rglob なら、glob のパターンとして、先頭の "**/" を省略していることになり、

from pathlib import Path path = Path("/var/tmp") files = [ v for v in path.rglob("*.txt") if v.is_file() ] for f in files: print(f)
とすれば、さらに拡張子 .txt だけに絞れる

posturan 2021-07-06 00:30 読者になる

広告を非表示にする

もっと読む

コメントを書く

2021-07-05

Bean の lenient なコピー

Java

親クラスを全て参照する方法を応用すれば、
以前書いた、yipuran-core で FieldUtil なるものを作り、
yipuran-core/FieldUtil.java at master · yipuran/yipuran-core · GitHub
　public static <R, T> R copy(T t, Supplier<R> s)
　public static <R, T> R copylenient(T t, Supplier<R> s)
も、以下のように書けるはずだ。

public static<T,U> U copylenient(T t, U u){ UnaryOperator<Class<?>> superFind = c->c.getSuperclass(); UnaryOperator<String> topUpper = s->s.substring(0, 1).toUpperCase() + s.substring(1); Class<?> c = t.getClass(); try{ do{ for(Field f : c.getDeclaredFields()){ String n = f.getName(); String name = topUpper.apply(n); Method getter = c.getDeclaredMethod( (c.getDeclaredField(n).getType().equals(boolean.class) ? "is" : "get") + name); try{ Method setter = u.getClass().getDeclaredMethod( "set"+ name, getter.getReturnType()); setter.invoke(u, getter.invoke(t)); }catch(NoSuchMethodException e){ } } }while(!(c=superFind.apply(c)).equals(Object.class)); }catch(SecurityException | NoSuchFieldException | NoSuchMethodException | IllegalAccessException | IllegalArgumentException | InvocationTargetException e){ throw new RuntimeException(e); } return u; }

posturan 2021-07-05 00:30 読者になる

広告を非表示にする

もっと読む

コメントを書く

2021-07-04

PyCharm の日本語化の方法

2020年版までの JetBrains PyCharm の日本語化は、
Pleiades日本語化プラグイン
　　 https://mergedoc.osdn.jp/
を使ってましたが、
JetBrains社の公式の言語パックで日本語化するのが正しい方法のようです。
PyCharm をインストールして起動直後

Plugins で Japanese と打ち込んで、Japanese Language Pack / 日本語パック　を見つけます

[install] を実行します。

[Restart IDE] 再起動をクリックして再起動すれば終わりです。

posturan 2021-07-04 15:36 読者になる

広告を非表示にする

もっと読む

コメントを書く

2021-07-04

メモ：Windows においての Python PATH

その他 Python

pip 実行の為のPATH
C:\Users\Xxxxxxx\AppData\Local\Programs\Python\Python39\Scripts\
python 実行の為のPATH
C:\Users\Xxxxxxx\AppData\Local\Programs\Python\Python39\
Xxxxxxx ： Windows ユーザ
ーーーー
python-daemon · PyPI

posturan 2021-07-04 14:41 読者になる

広告を非表示にする

もっと読む

コメントを書く

次のページ

プロフィール

id:posturan
読者です読者をやめる読者になる読者になる

このブログについて

検索

リンク

Java祝日計算

css　nth-child

GitHub help

MDN Docs

Jacob

yipuran-core

yipuran-mybatis

yipuran-gsonhelper

yipuran-csv

yipuran-jack

junit-order

Python情報

Python例外一覧

Table作成

最新記事

INTERSECT の使い道

DBeaver の接続設定情報、ユーザー名とパスワードを参照する

複数の文字列のsplit ⇒ 行処理するSQL （ORACLE）

UNPIVOTで格納される値を日本語にする【Oracle】

文字列のsplit ⇒ 行処理するSQL （PostgreSQL）

文字列のsplit ⇒ 行処理するSQL （ORACLE）

WITH句を使ったINSERTの書き方

月別アーカイブ

▼ ▶
2026

2026 / 2

2026 / 1

▼ ▶
2025

2025 / 12

2025 / 11

2025 / 10

2025 / 9

2025 / 8

2025 / 7

2025 / 6

2025 / 5

2025 / 4

2025 / 3

2025 / 2

2025 / 1

▼ ▶
2024

2024 / 12

2024 / 11

2024 / 10

2024 / 9

2024 / 8

2024 / 7

2024 / 6

2024 / 5

2024 / 4

2024 / 3

2024 / 2

2024 / 1

▼ ▶
2023

2023 / 12

2023 / 11

2023 / 10

2023 / 9

2023 / 8

2023 / 7

2023 / 6

2023 / 5

2023 / 4

2023 / 3

2023 / 2

2023 / 1

▼ ▶
2022

2022 / 12

2022 / 11

2022 / 10

2022 / 9

2022 / 8

2022 / 7

2022 / 6

2022 / 5

2022 / 4

2022 / 3

2022 / 2

2022 / 1

▼ ▶
2021

2021 / 12

2021 / 11

2021 / 10

2021 / 9

2021 / 8

2021 / 7

2021 / 6

2021 / 5

2021 / 4

2021 / 3

2021 / 2

2021 / 1

▼ ▶
2020

2020 / 12

2020 / 11

2020 / 10

2020 / 9

2020 / 8

2020 / 7

2020 / 6

2020 / 5

2020 / 4

2020 / 3

2020 / 2

2020 / 1

▼ ▶
2019

2019 / 12

2019 / 11

2019 / 10

2019 / 9

2019 / 8

2019 / 7

2019 / 6

2019 / 5

2019 / 4

2019 / 3

2019 / 2

2019 / 1

▼ ▶
2018

2018 / 12

2018 / 11

2018 / 10

2018 / 9

2018 / 8

2018 / 7

2018 / 6

2018 / 5

2018 / 4

2018 / 3

2018 / 2

2018 / 1

▼ ▶
2017

2017 / 12

2017 / 11

2017 / 10

2017 / 9

2017 / 8

2017 / 7

2017 / 6

2017 / 5

2017 / 4

2017 / 3

2017 / 2

2017 / 1

▼ ▶
2016

2016 / 12

2016 / 11

2016 / 10

2016 / 9

2016 / 8

2016 / 7

2016 / 6

2016 / 5

2016 / 4

2016 / 3

2016 / 2

2016 / 1

▼ ▶
2015

2015 / 12

2015 / 11

2015 / 10

2015 / 9

2015 / 8

2015 / 7

2015 / 6

2015 / 5

2015 / 4

2015 / 3

2015 / 2

2015 / 1

▼ ▶
2014

2014 / 12

2014 / 11

2014 / 10

2014 / 9

2014 / 8

2014 / 7

2014 / 6

2014 / 5

2014 / 4

2014 / 3

2014 / 2

2014 / 1

▼ ▶
2013

2013 / 12

2013 / 11

2013 / 10

2013 / 9

2013 / 8

2013 / 7

2013 / 6

2013 / 5

2013 / 4

2013 / 3

2013 / 2

2013 / 1

▼ ▶
2012

2012 / 12

2012 / 11

2012 / 10

2012 / 9

2012 / 8

2012 / 7

2012 / 6

2012 / 5

2012 / 4

2012 / 3

2012 / 2

2012 / 1

▼ ▶
2011

2011 / 12

2011 / 11

2011 / 10

2011 / 9

2011 / 8

2011 / 7

2011 / 6

2011 / 5

2011 / 4

2011 / 3

2011 / 2

2011 / 1

▼ ▶
2010

2010 / 12

2010 / 11

2010 / 10

2010 / 9

2010 / 8

2010 / 7

2010 / 6

2010 / 5

2010 / 4

2010 / 3

2010 / 2

2010 / 1

▼ ▶
2009

2009 / 12

2009 / 11

2009 / 10

2009 / 9

2009 / 8

2009 / 7

2009 / 6

2009 / 5

2009 / 4

2009 / 3

2009 / 2

2009 / 1

▼ ▶
2008

2008 / 12

2008 / 11

2008 / 10

2008 / 9

2008 / 8

2008 / 7

2008 / 6

2008 / 4

2008 / 3

2008 / 2

2008 / 1

カテゴリー

Java (551)

Wicket (109)

SQL (74)

mybatis (37)

jQuery (137)

CSS (37)

Chart.js (10)

正規表現 (16)

その他 (139)

Python (213)

Done (1)

gson (41)

Handsontable (40)

PlantUML (28)

ATOM (13)

logback (11)

gradle (6)

bash (5)

Slack (2)