MCP HubMCP Hub
Вернуться к навыкам

implement-audit-trail

pjt222
Обновлено 2 days ago
5 просмотров
17
2
17
Посмотреть на GitHub
Метаaidesigndata

О программе

Этот навык помогает разработчикам внедрять функциональность аудиторского следа в проектах на R для регулируемых сред, таких как фармацевтика. Он предоставляет инструменты для ведения журналов, отслеживания происхождения данных, электронных подписей и проверки целостности данных для соответствия требованиям 21 CFR Part 11. Используйте его, когда вам нужны защищённые от несанкционированного изменения журналы анализа и отслеживание действий, исполнителей и времени для регуляторных подач.

Быстрая установка

Claude Code

Рекомендуется
Основной
npx skills add pjt222/agent-almanac -a claude-code
Команда плагинаАльтернативный
/plugin add https://github.com/pjt222/agent-almanac
Git клонированиеАльтернативный
git clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/implement-audit-trail

Скопируйте и вставьте эту команду в Claude Code для установки этого навыка

Документация

Implement Audit Trail

Add audit trail capabilities to R projects for regulatory compliance.

When to Use

  • R analysis requires electronic records compliance (21 CFR Part 11)
  • Need to track who did what, when, and why in an analysis
  • Implementing data provenance tracking
  • Creating tamper-evident analysis logs

Inputs

  • Required: R project with data processing or analysis scripts
  • Required: Regulatory requirements (which audit trail elements are mandatory)
  • Optional: Existing logging infrastructure
  • Optional: Electronic signature requirements

Procedure

Step 1: Set Up Structured Logging

Create R/audit_log.R:

#' Initialize audit log for a session
#'
#' @param log_dir Directory for audit log files
#' @param analyst Name of the analyst
#' @return Path to the created log file
init_audit_log <- function(log_dir = "audit_logs", analyst = Sys.info()["user"]) {
  dir.create(log_dir, showWarnings = FALSE, recursive = TRUE)

  log_file <- file.path(log_dir, sprintf(
    "audit_%s_%s.jsonl",
    format(Sys.time(), "%Y%m%d_%H%M%S"),
    analyst
  ))

  entry <- list(
    timestamp = format(Sys.time(), "%Y-%m-%dT%H:%M:%S%z"),
    event = "SESSION_START",
    analyst = analyst,
    r_version = R.version.string,
    platform = .Platform$OS.type,
    working_directory = getwd(),
    session_id = paste0(Sys.getpid(), "-", format(Sys.time(), "%Y%m%d%H%M%S"))
  )

  write(jsonlite::toJSON(entry, auto_unbox = TRUE), log_file, append = TRUE)
  options(audit_log_file = log_file, audit_session_id = entry$session_id)

  log_file
}

#' Log an audit event
#'
#' @param event Event type (DATA_IMPORT, TRANSFORM, ANALYSIS, EXPORT, etc.)
#' @param description Human-readable description
#' @param details Named list of additional details
log_audit_event <- function(event, description, details = list()) {
  log_file <- getOption("audit_log_file")
  if (is.null(log_file)) stop("Audit log not initialized. Call init_audit_log() first.")

  entry <- list(
    timestamp = format(Sys.time(), "%Y-%m-%dT%H:%M:%S%z"),
    event = event,
    description = description,
    session_id = getOption("audit_session_id"),
    details = details
  )

  write(jsonlite::toJSON(entry, auto_unbox = TRUE), log_file, append = TRUE)
}

Got: R/audit_log.R created with init_audit_log() and log_audit_event() functions. Calling init_audit_log() creates the audit_logs/ directory and a timestamped JSONL file. Each log entry is a single JSON line with timestamp, event, analyst, and session_id fields.

If fail: If jsonlite::toJSON() fails, ensure the jsonlite package is installed. If the log directory cannot be created, check file system permissions. If timestamps lack timezone, verify %z is supported on the platform.

Step 2: Add Data Integrity Checks

#' Compute and log data hash for integrity verification
#'
#' @param data Data frame to hash
#' @param label Descriptive label for the dataset
#' @return SHA-256 hash string
hash_data <- function(data, label = "dataset") {
  hash_value <- digest::digest(data, algo = "sha256")

  log_audit_event("DATA_HASH", sprintf("Hash computed for %s", label), list(
    hash_algorithm = "sha256",
    hash_value = hash_value,
    nrow = nrow(data),
    ncol = ncol(data),
    columns = names(data)
  ))

  hash_value
}

#' Verify data integrity against a recorded hash
#'
#' @param data Data frame to verify
#' @param expected_hash Previously recorded hash
#' @return Logical indicating whether data matches
verify_data_integrity <- function(data, expected_hash) {
  current_hash <- digest::digest(data, algo = "sha256")
  match <- identical(current_hash, expected_hash)

  log_audit_event("DATA_VERIFY",
    sprintf("Data integrity check: %s", ifelse(match, "PASS", "FAIL")),
    list(expected = expected_hash, actual = current_hash))

  if (!match) warning("Data integrity check FAILED")
  match
}

Got: hash_data() returns a SHA-256 hash string and logs a DATA_HASH event. verify_data_integrity() compares current data against a stored hash and logs a DATA_VERIFY event with PASS or FAIL status.

If fail: If digest::digest() is not found, install the digest package. If hashes don't match for identical data, check that column order and data types are consistent between hashing and verification.

Step 3: Track Data Transformations

#' Wrap a data transformation with audit logging
#'
#' @param data Input data frame
#' @param transform_fn Function to apply
#' @param description Description of the transformation
#' @return Transformed data frame
audited_transform <- function(data, transform_fn, description) {
  input_hash <- digest::digest(data, algo = "sha256")
  input_dim <- dim(data)

  result <- transform_fn(data)

  output_hash <- digest::digest(result, algo = "sha256")
  output_dim <- dim(result)

  log_audit_event("DATA_TRANSFORM", description, list(
    input_hash = input_hash,
    input_rows = input_dim[1],
    input_cols = input_dim[2],
    output_hash = output_hash,
    output_rows = output_dim[1],
    output_cols = output_dim[2]
  ))

  result
}

Got: audited_transform() wraps any transformation function, logging input dimensions and hash, output dimensions and hash, and the transformation description as a DATA_TRANSFORM event.

If fail: If the transform function errors, the audit event is not logged. Wrap the transform in tryCatch() to log both successes and failures. Ensure the transform function accepts and returns a data frame.

Step 4: Log Session Environment

#' Log complete session information for reproducibility
log_session_info <- function() {
  si <- sessionInfo()

  log_audit_event("SESSION_INFO", "Complete session environment recorded", list(
    r_version = si$R.version$version.string,
    platform = si$platform,
    locale = Sys.getlocale(),
    base_packages = si$basePkgs,
    attached_packages = sapply(si$otherPkgs, function(p) paste(p$Package, p$Version)),
    renv_lockfile_hash = if (file.exists("renv.lock")) {
      digest::digest(file = "renv.lock", algo = "sha256")
    } else NA
  ))
}

Got: A SESSION_INFO event logged with R version, platform, locale, attached packages with versions, and the renv lockfile hash (if applicable).

If fail: If sessionInfo() returns incomplete package information, ensure all packages are loaded via library() before calling log_session_info(). The renv lockfile hash will be NA if the project does not use renv.

Step 5: Implement in Analysis Scripts

# 01_analysis.R
library(jsonlite)
library(digest)

# Start audit trail
log_file <- init_audit_log(analyst = "Philipp Thoss")

# Import data with audit
raw_data <- read.csv("data/raw/study_data.csv")
raw_hash <- hash_data(raw_data, "raw study data")

# Transform with audit
clean_data <- audited_transform(raw_data, function(d) {
  d |>
    dplyr::filter(!is.na(primary_endpoint)) |>
    dplyr::mutate(bmi = weight / (height/100)^2)
}, "Remove missing endpoints, calculate BMI")

# Run analysis
log_audit_event("ANALYSIS_START", "Primary efficacy analysis")
model <- lm(primary_endpoint ~ treatment + age + sex, data = clean_data)
log_audit_event("ANALYSIS_COMPLETE", "Primary efficacy analysis", list(
  model_class = class(model),
  formula = deparse(formula(model)),
  n_observations = nobs(model)
))

# Log session
log_session_info()

Got: Analysis scripts initialize the audit log at the start, log each data import, transformation, and analysis step, and record session info at the end. The JSONL log file captures the complete provenance chain.

If fail: If init_audit_log() is missing, ensure R/audit_log.R is sourced or the package is loaded. If events are missing from the log, verify that log_audit_event() is called after every significant operation.

Step 6: Git-Based Change Control

Complement the application-level audit trail with git:

# Use signed commits for non-repudiation
git config commit.gpgsign true

# Descriptive commit messages referencing change control
git commit -m "CHG-042: Add BMI calculation to data processing

Per change request CHG-042, approved by [Name] on [Date].
Validation impact assessment: Low risk - additional derived variable."

Got: Git commits are signed (GPG) and use descriptive messages referencing change control IDs. The combination of application-level JSONL audit trail and git history provides a complete change control record.

If fail: If GPG signing fails, configure the signing key with git config --global user.signingkey KEY_ID. If the key is not set up, follow gpg --gen-key to create one.

Validation

  • Audit log captures all required events (start, data access, transforms, analysis, export)
  • Timestamps use ISO 8601 format with timezone
  • Data hashes enable integrity verification
  • Session information is recorded
  • Logs are append-only (no deletion or modification)
  • Analyst identity is captured for each session
  • Log format is machine-readable (JSONL)

Pitfalls

  • Logging too much: Focus on regulated events. Don't log every variable assignment.
  • Mutable logs: Audit logs must be append-only. Use JSONL (one JSON object per line).
  • Missing timestamps: Every event needs a timestamp with timezone.
  • No session context: Each log entry should reference the session for correlation.
  • Forgetting to initialize: Scripts must call init_audit_log() before any analysis.

Related Skills

  • setup-gxp-r-project - project structure for validated environments
  • write-validation-documentation - validation protocols and reports
  • validate-statistical-output - output verification methodology
  • configure-git-repository - version control as part of change control

GitHub репозиторий

pjt222/agent-almanac
Путь: i18n/caveman-lite/skills/implement-audit-trail
0
agentsagentskillsai-assisted-developmentclaude-codeskillsteams

Похожие навыки

content-collections

Мета

Этот навык предоставляет проверенную в продакшене настройку для Content Collections — TypeScript-ориентированного инструмента, который преобразует файлы Markdown/MDX в типобезопасные коллекции данных с валидацией Zod. Используйте его при создании блогов, сайтов документации или контентных приложений на Vite + React для обеспечения типобезопасности и автоматической проверки содержимого. Он охватывает всё: от настройки плагина Vite и компиляции MDX до оптимизации развертывания и валидации схем.

Просмотреть навык

polymarket

Мета

Этот навык позволяет разработчикам создавать приложения на платформе прогнозных рынков Polymarket, включая интеграцию с API для торговли и получения рыночных данных. Он также обеспечивает потоковую передачу данных в реальном времени через WebSocket для отслеживания текущих сделок и рыночной активности. Используйте его для реализации торговых стратегий или создания инструментов, обрабатывающих обновления рынка в реальном времени.

Просмотреть навык

creating-opencode-plugins

Мета

Этот навык помогает разработчикам создавать плагины OpenCode, которые подключаются к более чем 25 типам событий, таким как команды, файлы и операции LSP. Он предоставляет структуру плагина, спецификации API событий и шаблоны реализации для модулей на JavaScript/TypeScript. Используйте его, когда вам нужно перехватывать, отслеживать или расширять жизненный цикл ассистента OpenCode AI с помощью пользовательской событийно-ориентированной логики.

Просмотреть навык

sglang

Мета

SGLang — это высокопроизводительный фреймворк для обслуживания больших языковых моделей (LLM), специализирующийся на быстрой структурированной генерации JSON, regex и рабочих процессов агентов с использованием кэширования префиксов RadixAttention. Он обеспечивает значительно более высокую скорость вывода, особенно для задач с повторяющимися префиксами, что делает его идеальным для сложных структурированных результатов и многократных диалогов. Выбирайте SGLang вместо альтернатив, таких как vLLM, когда вам требуется ограниченное декодирование или вы создаете приложения с интенсивным совместным использованием префиксов.

Просмотреть навык