Premiers extracteurs NeTEx (StopPlaces) #4026

thbar · 2024-07-01T08:05:00Z

Cette PR introduit une couche fondamentale pour réaliser différentes choses plus tard:

apprendre à générer des méta-données (type nombre de StopPlace ou Quay etc dans un NeTEx...)
extraction d'éléments terrain pour les réflexions sur le registre d'arrêts
indexation d'arrêts pour la recherche par géographie dans l'API v2 ou le futur moteur de recherche

Les limitations sont documentées sur les modules directement, et le code est testé pour sa plus grande partie.

J'ai intégré un script qui me sert à parcourir la totalité des NeTEx du PAN, que je ferai évoluer.

TODOs

~~Code de traversal d'archive à rendre moins "soudé" au use-case stop places~~ - ça attendra un prochain here
TestCase sur netex_archive_parser.ex (actuellement 0%, embêtant pour refactorer)
Doc sur le fait que c'est incomplet de façon générale en terme d'extraction stop places (des fichiers à 0 alors qu'il y en a), lié au fait que NeTEx
Expliquer ici les usages

ptitfred · 2024-07-23T10:00:27Z

Ca faisait 15 ans que j'avais pas vu un parser Sax et je suis déçu de voir que c'est toujours aussi pénible à review et maintenir :/

thbar · 2024-07-29T09:59:26Z

@ptitfred je pense avoir des idées pour rendre le tout plus lisible dans un prochain tour (ou avec Saxy, ou avec d’autres librairies), donc ne perdons pas espoir 😊

AntoineAugusti

Beau boulot de découverte ! Pas facile à lire le code Saxy

AntoineAugusti · 2024-07-29T13:33:11Z

apps/transport/test/netex/netex_archive_parser_test.exs

+        :zip.create(
+          zip_filename,
+          file_data
+          |> Enum.map(fn {name, content} -> {name |> to_charlist(), content} end)
+        )


Peut-être stocker en mémoire et non sur le disque ? Semble possible en lisant https://www.erlang.org/doc/apps/stdlib/zip.html#zip/2

Permettra de ne pas laisser des fichiers dans le tmp ou de devoir penser à nettoyer

Peut-être stocker en mémoire et non sur le disque ? Semble possible en lisant https://www.erlang.org/doc/apps/stdlib/zip.html#zip/2

Merci pour la suggestion. En fait, notre "traversal de zip" est conçu pour travailler avec des fichiers sur disque uniquement, afin d'éviter une surcharge de la RAM en production (certains fichiers dépassent 500 MB). Le stockage en mémoire n'est donc pas adapté ici.

La codebase inclut plusieurs tests qui ne nettoient pas automatiquement les fichiers tmp. Un helper de nettoyage pourrait être utile à l'avenir (comme Dir.mktmpdir en Ruby), c'est une idée qu'on peut conserver !

Pour éviter tout souci, j'ai toutefois ajouté de l'unicité dans le commit e2ff1c4.

apps/transport/test/netex/netex_archive_parser_test.exs

apps/transport/test/netex/stop_places_streaming_parser_test.exs

AntoineAugusti · 2024-07-29T13:36:48Z

apps/transport/lib/netex/stop_places_streaming_parser.ex

+  end
+
+  def handle_event(:characters, chars, state)
+      when state.current_tree == ["StopPlace", "Centroid", "Location", "Latitude"] do


On ne gère pas le cas d'une frame englobante ? Me semble qu'on n'aurait pas exactement ce tree alors

Merci pour la question ; l'implémentation actuelle va bien gérer correctement tout ce qui est frame englobante au dessus (le StopPlace peut être à n'importe quel niveau des profondeur dans le XML), pas de souci du coup.

Pour mettre ce point plus clairement en évidence (et éviter les régressions), j'ai modulé un peu le test ici 8dba0bf.

AntoineAugusti · 2024-07-29T13:38:14Z

apps/transport/test/netex/netex_archive_parser_test.exs

+    tmp_file = System.tmp_dir!() |> Path.join("temp-netex.zip")
+    ZipCreator.create!(tmp_file, [{"arrets.xml", some_netex_content()}])
+
+    # given a zip netex archive containing 2 files, I want the output I expected


Seulement 1 fichier il me semble ?

Tout à fait, merci pour le catch. Corrigé dans 5858db6

AntoineAugusti · 2024-07-29T13:40:17Z

apps/transport/lib/netex/netex_archive_parser.ex

+    extension = Path.extname(file_name)
+
+    cond do
+      # Entry names ending with a slash `/` are directories. Skip them.
+      # https://github.com/akash-akya/unzip/blob/689a1ca7a134ab2aeb79c8c4f8492d61fa3e09a0/lib/unzip.ex#L69
+      String.ends_with?(file_name, "/") ->
+        []
+
+      extension |> String.downcase() == ".zip" ->
+        raise "Insupported zip inside zip for file #{file_name}"
+
+      extension |> String.downcase() != ".xml" ->
+        raise "Insupported file extension (#{extension}) for file #{file_name}"


Peut-être déplacer ceci ailleurs, après Unzip.list_entries ? On risque d'avoir cette logique à d'autres endroits et ceci ne semble pas spécifique aux stop places

Merci pour la suggestion. J'envisagerai ça quand on généralisera le code (pour l'instant très spécifique stop places), j'aurai davantage de recul à ce moment là.

AntoineAugusti · 2024-07-29T13:45:09Z

apps/transport/test/netex/netex_archive_parser_test.exs

@@ -0,0 +1,46 @@
+defmodule Transport.NeTEx.ArchiveParserTest do


J'aurais tendance à mettre les "helper methods" après les tests pour mettre en évidence le fonctionnement testé

https://softwareengineering.stackexchange.com/q/186418

Je me souviens que tu as levé ce point quelques fois.

Le lien que tu as partagé montre que c'est une question de préférence personnelle.

(d'ailleurs personnellement je trouve ça plus simple cognitivement, dans les tests, où ce code n'est pas réutilisé ailleurs, d'avoir les helpers défini avant leur utilisation, ou encore mieux, dans des modules externes si on peut, plutôt qu'en bas).

Si ce point t'embête et vu que tu l'as évoqué quelques fois déjà, parlons-en tranquille à un point dév pour voir si ça vaut le coup d'homogénéiser les tests là dessus, si tu le souhaites.

AntoineAugusti · 2024-07-29T13:59:09Z

scripts/netex_analyzer.exs

+
+netex =
+  df
+  |> Task.async_stream(


Il semble qu'on avait un disk cache helper lors de précédentes PRs pour le script. Je confonds ?

Il y a bien un helper de ce type (ici: https://github.com/etalab/transport-site/blob/master/apps/shared/lib/req_custom_cache.ex) mais il n'est pas adapté à l'usage ici. Le cache évoqué dans ce lien stocke la totalité de l'objet réponse Elixir Req sur le disque, ce qui empêche d'avoir "juste le body zip" à part.

Pour faire plus simple pour le moment et reporter ce refactoring intéressant, j'ai préféré ne pas modifier le cache, et réimplémenter, le temps d'avoir + de recul et de pouvoir généraliser et modifier le cache (éventuellement).

AntoineAugusti · 2024-07-29T13:59:47Z

scripts/netex_analyzer.exs

+      IO.puts("Processing file #{r.id}")
+
+      try do
+        count =
+          Transport.NeTEx.read_all_stop_places(r.local_path)
+          |> Enum.flat_map(fn {_file, stops} -> stops end)
+          # some stop places have no latitude in NeTEx
+          |> Enum.reject(fn p -> is_nil(p[:latitude]) end)
+          |> Enum.count()
+
+        IO.puts("#{count} StopPlaces detected")
+      rescue
+        e -> IO.puts("Som'thing bad happened")


Tu aurais un output à partager ?

Il y a des cas variés, je préfère ne pas faire de détail pour l'instant car ça prendrait un brin de temps, une prochaine itération capturera ça en détail et j'aurai alors l'opportunité de partager ça (notamment pour améliorer le parser, certains fichiers ne passant pas).

Je contribuerai sur:

Proposition d'organisation du fichier ZIP du profil NeTEx France transport-profil-netex-fr#56

et j'en profiterai alors pour ou bien traiter ces cas, ou bien les afficher clairement.

Co-authored-by: Antoine Augusti <[email protected]>

thbar

Merci pour le retour détaillé @AntoineAugusti ; j'ai pris en compte ou répondu !

thbar · 2024-08-06T14:32:32Z

apps/transport/lib/netex/netex_archive_parser.ex

+    extension = Path.extname(file_name)
+
+    cond do
+      # Entry names ending with a slash `/` are directories. Skip them.
+      # https://github.com/akash-akya/unzip/blob/689a1ca7a134ab2aeb79c8c4f8492d61fa3e09a0/lib/unzip.ex#L69
+      String.ends_with?(file_name, "/") ->
+        []
+
+      extension |> String.downcase() == ".zip" ->
+        raise "Insupported zip inside zip for file #{file_name}"
+
+      extension |> String.downcase() != ".xml" ->
+        raise "Insupported file extension (#{extension}) for file #{file_name}"


Merci pour la suggestion. J'envisagerai ça quand on généralisera le code (pour l'instant très spécifique stop places), j'aurai davantage de recul à ce moment là.

thbar · 2024-08-06T14:33:59Z

apps/transport/lib/netex/stop_places_streaming_parser.ex

+  end
+
+  def handle_event(:characters, chars, state)
+      when state.current_tree == ["StopPlace", "Centroid", "Location", "Latitude"] do


Merci pour la question ; l'implémentation actuelle va bien gérer correctement tout ce qui est frame englobante au dessus (le StopPlace peut être à n'importe quel niveau des profondeur dans le XML), pas de souci du coup.

Pour mettre ce point plus clairement en évidence (et éviter les régressions), j'ai modulé un peu le test ici 8dba0bf.

thbar · 2024-08-06T14:36:44Z

apps/transport/test/netex/netex_archive_parser_test.exs

@@ -0,0 +1,46 @@
+defmodule Transport.NeTEx.ArchiveParserTest do


Je me souviens que tu as levé ce point quelques fois.

Le lien que tu as partagé montre que c'est une question de préférence personnelle.

(d'ailleurs personnellement je trouve ça plus simple cognitivement, dans les tests, où ce code n'est pas réutilisé ailleurs, d'avoir les helpers défini avant leur utilisation, ou encore mieux, dans des modules externes si on peut, plutôt qu'en bas).

Si ce point t'embête et vu que tu l'as évoqué quelques fois déjà, parlons-en tranquille à un point dév pour voir si ça vaut le coup d'homogénéiser les tests là dessus, si tu le souhaites.

thbar · 2024-08-07T15:03:10Z

apps/transport/test/netex/netex_archive_parser_test.exs

+    tmp_file = System.tmp_dir!() |> Path.join("temp-netex.zip")
+    ZipCreator.create!(tmp_file, [{"arrets.xml", some_netex_content()}])
+
+    # given a zip netex archive containing 2 files, I want the output I expected


Tout à fait, merci pour le catch. Corrigé dans 5858db6

thbar · 2024-08-07T15:04:18Z

scripts/netex_analyzer.exs

+      IO.puts("Processing file #{r.id}")
+
+      try do
+        count =
+          Transport.NeTEx.read_all_stop_places(r.local_path)
+          |> Enum.flat_map(fn {_file, stops} -> stops end)
+          # some stop places have no latitude in NeTEx
+          |> Enum.reject(fn p -> is_nil(p[:latitude]) end)
+          |> Enum.count()
+
+        IO.puts("#{count} StopPlaces detected")
+      rescue
+        e -> IO.puts("Som'thing bad happened")


Il y a des cas variés, je préfère ne pas faire de détail pour l'instant car ça prendrait un brin de temps, une prochaine itération capturera ça en détail et j'aurai alors l'opportunité de partager ça (notamment pour améliorer le parser, certains fichiers ne passant pas).

Je contribuerai sur:

Proposition d'organisation du fichier ZIP du profil NeTEx France transport-profil-netex-fr#56

et j'en profiterai alors pour ou bien traiter ces cas, ou bien les afficher clairement.

thbar · 2024-08-07T15:06:55Z

scripts/netex_analyzer.exs

+
+netex =
+  df
+  |> Task.async_stream(


Il y a bien un helper de ce type (ici: https://github.com/etalab/transport-site/blob/master/apps/shared/lib/req_custom_cache.ex) mais il n'est pas adapté à l'usage ici. Le cache évoqué dans ce lien stocke la totalité de l'objet réponse Elixir Req sur le disque, ce qui empêche d'avoir "juste le body zip" à part.

Pour faire plus simple pour le moment et reporter ce refactoring intéressant, j'ai préféré ne pas modifier le cache, et réimplémenter, le temps d'avoir + de recul et de pouvoir généraliser et modifier le cache (éventuellement).

thbar · 2024-08-07T15:41:17Z

apps/transport/test/netex/netex_archive_parser_test.exs

+        :zip.create(
+          zip_filename,
+          file_data
+          |> Enum.map(fn {name, content} -> {name |> to_charlist(), content} end)
+        )


Peut-être stocker en mémoire et non sur le disque ? Semble possible en lisant https://www.erlang.org/doc/apps/stdlib/zip.html#zip/2

Merci pour la suggestion. En fait, notre "traversal de zip" est conçu pour travailler avec des fichiers sur disque uniquement, afin d'éviter une surcharge de la RAM en production (certains fichiers dépassent 500 MB). Le stockage en mémoire n'est donc pas adapté ici.

La codebase inclut plusieurs tests qui ne nettoient pas automatiquement les fichiers tmp. Un helper de nettoyage pourrait être utile à l'avenir (comme Dir.mktmpdir en Ruby), c'est une idée qu'on peut conserver !

Pour éviter tout souci, j'ai toutefois ajouté de l'unicité dans le commit e2ff1c4.

thbar · 2024-08-08T06:42:58Z

Merci @AntoineAugusti pour la review !

thbar added 4 commits June 30, 2024 08:51

Backport stop places streaming parser

3ebe939

Backport NeTEx archive parser

c7e8001

Backport tests

d5e77d8

Add basic analyzer

0250191

thbar added the NeTEx label Jul 1, 2024

thbar self-assigned this Jul 1, 2024

thbar mentioned this pull request Jul 2, 2024

[EPIC] Registre d'arrêts national (NSR) #4034

Open

thbar added 6 commits July 18, 2024 10:03

Merge branch 'master' into implement-netex-extractors

1ff5d83

Add integration test on ZIP archive traversal (before refactoring)

4c98019

Merge branch 'master' into implement-netex-extractors

1774306

Add documentation

f9d5f32

Add doc

a726687

Fix credo warning

b277c72

thbar changed the title ~~Premiers extracteurs NeTEx~~ Premiers extracteurs NeTEx (StopPlaces) Jul 19, 2024

thbar marked this pull request as ready for review July 19, 2024 14:40

thbar requested a review from a team as a code owner July 19, 2024 14:40

AntoineAugusti reviewed Jul 29, 2024

View reviewed changes

thbar and others added 5 commits August 6, 2024 16:38

Update apps/transport/test/netex/netex_archive_parser_test.exs

398bcde

Co-authored-by: Antoine Augusti <[email protected]>

Update apps/transport/test/netex/stop_places_streaming_parser_test.exs

f8f6f31

Co-authored-by: Antoine Augusti <[email protected]>

Fix outdated comment

5858db6

Make file even more unique

e2ff1c4

Make it clearer that the implementation tolerates frames

8dba0bf

thbar commented Aug 7, 2024

View reviewed changes

Merge branch 'master' into implement-netex-extractors

0383944

thbar enabled auto-merge August 7, 2024 16:13

thbar disabled auto-merge August 7, 2024 16:14

thbar requested a review from AntoineAugusti August 7, 2024 16:25

AntoineAugusti approved these changes Aug 8, 2024

View reviewed changes

thbar added this pull request to the merge queue Aug 8, 2024

Merged via the queue into master with commit 63a5e48 Aug 8, 2024
4 checks passed

thbar deleted the implement-netex-extractors branch August 8, 2024 06:48

thbar mentioned this pull request Aug 14, 2024

Notes sur NeTEx accessibilité #4125

Open

ptitfred mentioned this pull request Sep 18, 2024

[Epic] Validation NeTEx #4153

Open

23 tasks

thbar mentioned this pull request Dec 4, 2024

[Very WIP] Consolidation brute pour le registre d'arrêts #4354

Open

11 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Premiers extracteurs NeTEx (StopPlaces) #4026

Premiers extracteurs NeTEx (StopPlaces) #4026

thbar commented Jul 1, 2024 •

edited

Loading

ptitfred commented Jul 23, 2024

thbar commented Jul 29, 2024

AntoineAugusti left a comment

AntoineAugusti Jul 29, 2024

thbar Aug 7, 2024

AntoineAugusti Jul 29, 2024

thbar Aug 6, 2024

AntoineAugusti Jul 29, 2024

thbar Aug 7, 2024

AntoineAugusti Jul 29, 2024

thbar Aug 6, 2024

AntoineAugusti Jul 29, 2024

thbar Aug 6, 2024

AntoineAugusti Jul 29, 2024

thbar Aug 7, 2024

AntoineAugusti Jul 29, 2024

thbar Aug 7, 2024

thbar left a comment

thbar Aug 6, 2024

thbar Aug 6, 2024

thbar Aug 6, 2024

thbar Aug 7, 2024

thbar Aug 7, 2024

thbar Aug 7, 2024

thbar Aug 7, 2024

thbar commented Aug 8, 2024

		@@ -0,0 +1,46 @@
		defmodule Transport.NeTEx.ArchiveParserTest do

Premiers extracteurs NeTEx (StopPlaces) #4026

Premiers extracteurs NeTEx (StopPlaces) #4026

Conversation

thbar commented Jul 1, 2024 • edited Loading

TODOs

ptitfred commented Jul 23, 2024

thbar commented Jul 29, 2024

AntoineAugusti left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

thbar left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

thbar commented Aug 8, 2024

thbar commented Jul 1, 2024 •

edited

Loading